Connaitre l'encodage d'un fichier

Michel D'HOOGE list.dhooge at gmail.com
Sam 10 Nov 20:03:18 UTC 2007


On Saturday 10 November 2007 14:14:46 Lionel Porcheron wrote:
> La commande "file" te permet d'avoir ce genre de renseignements : file
> ton_fichier.

Surprenant, je n'aurais pas cru ça vraiment possible. Car sinon, on n'aurait 
pas ce problème de caractères mal gérés... Mais c'est vrai que 
statistiquement, si on voit apparaître certains types de séquences, c'est 
qu'on est en UTF-8 et avec d'autres en ISO-8859-15. 

En fait seule une analyse du contenu permet vraiment de savoir - c'est ce que 
fait notre cerveau quand il voit plein de carrés à la place des accents. Il 
se dit qu'il doit y avoir un pb, que la personne n'a pas vraiment voulu 
écrire ceci ;-)

Ça serait une extension intéressante : pouvoir indiquer au système quels sont 
les formats les plus susceptibles d'être utilisés selon sa langue. Par 
exemple, moi qui ne lit que de l'anglais et du français (plus parfois 
d'autres langues européennes quand je n'ai vraiment rien trouvé d'autre avec 
google), je peux me limiter à UTF-8 et iso-8859-15. Et je ne veux surtout pas 
entendre parler des formats windows-1252 et cp-850 : si le fichier est codé 
dans un de ces formats, c'est que son contenu est de peu de valeur :-P
-- 
Michel
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: non disponible
Type: application/pgp-signature
Taille: 481 octets
Desc: non disponible
URL: <https://lists.ubuntu.com/archives/ubuntu-fr/attachments/20071110/980af9c6/attachment.pgp>


Plus d'informations sur la liste de diffusion ubuntu-fr