caractéres bizarres

Avell Diroll avelldiroll at yahoo.fr
Mer 14 Nov 09:17:14 GMT 2007


claude MÜLLER wrote:
> Bonjour,
> je télécharge sur le site inlibroveritas.net <http://inlibroveritas.net>
> des fichiers pdf.
> je les converti en txt à l'aide de la commande pdftotext ou en html
> (pdftohtml).
> le résultat est que les caractéres accentués sont devenus bizarres.
> exemple à devient A majuscule tilde, é devient A majuscule copyright,
> etc ...
> une idée ?
> merci d'avance
> 

Bonjour,

Bienvenue dans le monde merveilleux du codage des caractères.
Pour plus d'info, voici un point de départ:
http://fr.wikipedia.org/wiki/Codage_de_caract%C3%A8res

Pour aborder la question de manière pratique les caractères accentués ne
sont pas devenus "bizarres", c'est le logiciel de visualisation utilisé
qui n'interprète pas les données de la même manière que le logiciel qui
les a enregistrées.

J'ai fait quelques tests rapides à partir du fichier suivant:
http://www.ilv-edition.com/pdf_ebook_gratuit/code_source.pdf
(il y avait un lien sur la 1ere page de inlibroveritas)
... il serait d'ailleurs bon de vérifier si la licence creative-commons
autorise par défaut la conversion de format ... en effet celle-ci
interdit toute modification.

1ere manip:
pdftotext code_source.pdf a.txt
gedit a.txt
---> j'obtiens un fichier encodé en utf-8 (encodage par défaut sous
ubuntu) qui est correctement reconnu par gedit qui affiche tous les
caractères accentués

2eme manip:
pdftohtml code_source.pdf a.html
---> j'ouvre le fichier a.html sous firefox, ce fichier est également
encodé en utf-8. Dans ce cas, firefox n'a pas repéré l'encodage (il ne
doit pas être correctement signalé dans le fichier html) et les accents
aigus appraissent comme des A©, il suffit alors de forcer l'affichage en
utf-8 pour pouvoir voir correctement le fichier (désolé, je n'ai pas de
firefox en français sous la main: il faut aller dans View->Character
Encoding->Unicode (utf-8) )

3eme manip:
pdftohtml -c code_source.pdf a.html
---> cette commande crée un fichier html plus "complexe" (cf man) dont
l'encodage est correctement interprété par firefox

voila mes 2 centimes

Bonne soirée

Julien
-- 
Getting the job done is no excuse for not following the rules.

Corollary:
        Following the rules will not get the job done.





Plus d'informations sur la liste de diffusion ubuntu-fr