caractères bizarres

Antoine DG adg at crans.org
Mar 13 Nov 20:42:28 UTC 2007


"claude MÜLLER" <klaude.muller at gmail.com> a tapoté :

> Bonjour,
> je télécharge sur le site inlibroveritas.net des fichiers pdf.
> je les converti en txt à l'aide de la commande pdftotext ou en html
> (pdftohtml).
> le résultat est que les caractéres accentués sont devenus bizarres.
> exemple à devient A majuscule tilde, é devient A majuscule copyright, etc
> ...
> une idée ?
> merci d'avance

J'ai envie de dire que ton fichier  html est encodé en utf-8, et que tu
essaies de le lire comme s'il était encodé en ISO-8859-15

Mal à la tête ?
 http://fr.wikipedia.org/wiki/Encodage_de_caract%C3%A8res

Essaie de  voir si grâce aux  options de pdftohtml tu  peux écrire ton
fichier html en ISO-8859-15 (avec '-enc', par exemple)


Sinon au pire des cas: 

      iconv -f UTF-8 -t ISO-8859-15 inputfile > outputfile



-- 
Antoine DG
PS: Caractère s'orthographie avec un accent grave
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: non disponible
Type: application/pgp-signature
Taille: 188 octets
Desc: non disponible
URL: <https://lists.ubuntu.com/archives/ubuntu-fr/attachments/20071113/29e64ab5/attachment.pgp>


Plus d'informations sur la liste de diffusion ubuntu-fr