UTF8 i aquestes coses, pensant en backups

Lluís Batlle viriketo at gmail.com
Mon Oct 22 08:56:16 BST 2007


Sobre les codificacions i el sistema de fitxers...

quan munteu els sistemes de fitxers, hi ha un paràmetre que diu en
quina codificació hi ha els noms de fitxers.
Els sistemes fat (fitxers 8.3) només accepten les anomenades "Pàgines
de Codis" [1] (opció cp=xxxx). Les pàgines de codis són "les
codificacions de microsoft". Per exemple, a l'Europa occidental es sol
fer servir molt la cp1252 (Code Page 1252), que mapeja perfectament a
ISO-8859-1 (o Latin1), i a més defineix alguns dels caràcters
no-definits de la ISO-8859-1.

Els sistemes de fitxers vfat (allò dels noms llargs sobre un sistema
fat) i NTFS sí que accepten UTF-8 als noms [2] (opció utf8 al muntar).

Ara bé, aquestes són les codificacions dels sistemes de fitxers.
Entremig hi ha la codificació del sistema. Per exemple, si les teves
'vfat' funcionessin amb sistema UTF-8, però el teu sistema GNU/Linux
funciona amb ISO-8859-1, tots els noms de fitxers de les vfat es
converteixen a Latin1. El mode usuari només té accés als caràcters
Latin1. Aquest pot ser el teu cas. Perquè en copiar coses d'un disc a
un altre:
[kernel: utf-8 -> latin1] -> [user: copia els fitxers] -> [kernel:
latin1 -> utf-8]

Depenent amb quin programa hagis copiat els fitxers, potser t'ha
afegit una conversió pel mig. Pots tenir el sistema configurat amb
Latin1 (amb LC_MESSAGES o LC_CTYPE), però la teva aplicació de X
windows fa servir UTF-8 per mostrar-te els noms. Llavors l'aplicació
que fa la còpia, si pel mig fa alguna transcodificació, és possible
que et donés problemes.

El 'cp' de tota la vida no manipula els noms de fitxers, ni l'rsync tampoc.

[1] mount(8) - Mount options for fat
[2] mount(8) - Mount options for vfat, Mount options for ntfs

Espero haver-ho explicat bé. Si m'he equivocat, ja ho direu. :)

Atentament,
Lluís.

El 22/10/07, Orestes Mas <orestes at tsc.upc.edu> ha escrit:
> A Divendres 19 Octubre 2007, Eduard Bonet va escriure:
> > Hola a tothom.
> >
> > Ara que hi ha una nova actualització pendent i abans he de fer un backup
> > complet, m'agradaria polir un tema que m'ha donat problemes en anteriors
> > backups que he fet.
> > En copiar tots els fitxers de la partició fat a un disc dur extern i
> > d'aquest, de nou, a la partició fat, els noms de fitxers amb accents, enyes
> > i alguna altra cosa, s'han tornat ilegibles. Crec que això ha de tenir
> > alguna cosa a veure amb les codificacions o quelcom semblant -uft8 i
> > paraules per l'estil. Algú podria i) recomanar-me què he de fer perquè això
> > no em torni a passar; ii) remetre'm a alguna web on m'aclareixin això de
> > les codificacions ?
>
> Ara mateix no estic en condicions de respondre amb precisió a aquesta
> pregunta. Jo penso que el procés de backup hauria de ser transparent a la
> codificació de caràcters del sistema de fitxers.
>
> Però vaja, per evitar-te problemes d'aquest tipus et suggereixo 2 estratègies
> diferents:
>
> 1) Fer una imatge de la partició sencera amb "partimage". En acabat, restaures
> la partició i ja està.
>
> 2) Empaquetar tots els fitxers en un TAR comprimit i desar aquest fitxer en el
> disc de backup (de fet, el TAR és una eina pensada originàriament per fer
> backups).
>
> Com que en aquests 2 casos els teus fitxers es guardaran en format binari, no
> importa quin sigui el sistema de fitxers on ho guardis, ni quina codificació
> tingui. Les dades binàries no es veuran afectades i en restaurar les tindràs
> exactament igual.
>
> Ara bé, si guardes el fitxer en una FAT32 hauràs de vigilar que la mida del
> teu fitxer no superi els 2GB (o partir-lo en trossos).
>
> Orestes.
>
> >
> > Gràcies per endavant.
> >
> >
> > PD: ja sé que existeixen paquets per fer backups, de fet ara vull provar el
> > rsync, però suposo que això de les codificacions ho he de tenir en compte
> > de totes les maneres
>
>
>
> --
> Ubuntu-l10n-ca mailing list
> Ubuntu-l10n-ca at lists.ubuntu.com
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-l10n-ca
>



More information about the Ubuntu-l10n-ca mailing list