caractères bizarres
Antoine DG
adg at crans.org
Mar 13 Nov 20:42:28 UTC 2007
"claude MÜLLER" <klaude.muller at gmail.com> a tapoté :
> Bonjour,
> je télécharge sur le site inlibroveritas.net des fichiers pdf.
> je les converti en txt à l'aide de la commande pdftotext ou en html
> (pdftohtml).
> le résultat est que les caractéres accentués sont devenus bizarres.
> exemple à devient A majuscule tilde, é devient A majuscule copyright, etc
> ...
> une idée ?
> merci d'avance
J'ai envie de dire que ton fichier html est encodé en utf-8, et que tu
essaies de le lire comme s'il était encodé en ISO-8859-15
Mal à la tête ?
http://fr.wikipedia.org/wiki/Encodage_de_caract%C3%A8res
Essaie de voir si grâce aux options de pdftohtml tu peux écrire ton
fichier html en ISO-8859-15 (avec '-enc', par exemple)
Sinon au pire des cas:
iconv -f UTF-8 -t ISO-8859-15 inputfile > outputfile
--
Antoine DG
PS: Caractère s'orthographie avec un accent grave
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: non disponible
Type: application/pgp-signature
Taille: 188 octets
Desc: non disponible
URL: <https://lists.ubuntu.com/archives/ubuntu-fr/attachments/20071113/29e64ab5/attachment.pgp>
Plus d'informations sur la liste de diffusion ubuntu-fr