[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Re : Codage caractères et zippage :-)



Salut,

Le lundi 25 février 2013 à 20:10, nicolas.patrois@gmail.com a écrit :
> > Apparemment l'encodage des caractères dans ZIP est problématique, en
> > effet :
> > http://www.linuxfromscratch.org/blfs/view/6.3/general/
> > unzip.html#unzip-locale-issues
> 
> Ah, ceci explique pourquoi mc fait portnawak avec des fichiers avec des 
> caractères accentués, au contraire de fileroller.

J'ai passé une bonne partie de ma journée d'hier à creuser le sujet et c'est
assez douloureux.

Les spécifications du format ZIP ont été mises-à-jour pour permettre d'indiquer
(par un flag) lorsque les noms sont exprimés en unicode. Malheureusement, le
support ZIP dans Windows ne gère pas unicode.

Lorsqu'on traite un ZIP (avec le module Perl Archive::Zip dans mon cas), il faut
donc faire de la divination pour déterminer le jeu de caractères. Windows est
censé¹ s'exprimer en Windows-1252, mais dans les archives ZIP, il utilise du
CP850 (jeu de caractères du DOS, on ne change pas une équipe qui gagne !). Là où
ça devient vraiment problématique c'est que ces deux jeux de caractères se
ressemblent étrangement et, toujours dans mon cas, Encode::Detect::Detector se
trompe (à sa décharge, il doit considérer CP850 comme obsolète et n'imagine pas
vraiment avoir affaire à lui).

¹ Par chez nous du moins.

Seb


Reply to: