Re: bash et UTF-8

To: debian-user-french@lists.debian.org
Subject: Re: bash et UTF-8
From: Laurent Giroud <lg_dev@libertysurf.fr>
Date: Tue, 3 Aug 2004 01:18:58 +0200
Message-id: <[🔎] 20040803011858.7e8d3bff.lg_dev@libertysurf.fr>
In-reply-to: <[🔎] 20040802214703.AAB26148C2@mail.sources.org>
References: <[🔎] 20040802163559.219aa970.lg_dev@libertysurf.fr> <[🔎] 20040802214703.AAB26148C2@mail.sources.org>

> > Les codes ISO 8859-X sont des codes locaux, qui ne permettent pas de gérer les
> > textes internationaux.
> 
> Oui, enfin, rares sont les gens qui écrivent des textes mêlant le grec, 
> l'arabe et le chinois.

Rares ?
La quasi totalité des sud-coréen (99% d'entre eux ont l'ADSL) mélangent anglais et Hangul dans leurs messages.
Les japonais mélangent anglais et kana/kanji. Un nombre croissant d'ingénieurs et techniciens chinois le font aussi, je ne parle pas non plus des indiens (qui sont moins nombreux à être sur l'internet).

Et enfin, tous les occidentaux qui sont de plus en plus nombreux amenés à interagir avec des chinois ou des japonais (et j'oublie les pays arabes qui pour la plupart sont aussi francophones).

Ca fait déjà plusieurs millions de personnes qui doivent jongler avec deux encodages différents au minimum, il ne me semble pas qu'on puisse parler de rareté.

Même si ils n'utilisent pas les quatre langages que tu as mentionné en même temps, ils ont nécessairement besoin d'utiliser unicode pour échanger des données entre eux, sinon ils doivent changer de page de code à la main avant de passer d'un langage à l'autre, ce qui est totalement contreproductif.

> La grande majorité des lecteurs de cette liste 
> n'écrivent qu'en français et en anglais. Unicode est certes une meilleure 
> technologie mais c'est contre-productif que d'essayer de cuplabiliser les gens 
> en leur faisant croire qu'ISO-8859 ne marche pas.

Plusieurs choses :
1 - je n'ai pas fait croire à qui que ce soit qu'ISO-8859-15 ne marche pas. Si ce que j'ai dit le laisse penser, indique moi précisément où, je me corrigerais car ce serait effectivement dommage que ce soit compris ainsi.
2 - je ne vois pas en quoi j'ai cherché à culpabiliser qui que ce soit, j'ai évoqué l'emploi d'un encodage qui simplifie *tous* les problèmes de conversion entre langages et j'en ai fait la pub, mais je ne renie pas l'intérêt de l'ISO-8859-15 pour les européens par rapport à l'ASCII. Là encore, si ce que j'ai dit le laisse penser dit moi en quoi et je me corrigerais.
3 - le fait que la grande majorité des lecteurs de la liste n'utilisent que l'anglais et le français est il suffisant pour les priver de l'information qu'unicode est un meilleur standard ? Je ne le pense pas, et ce d'autant plus que je répondais à la suggestion faite par Meizig au posteur originel, en expliquant que sa proposition (bien que tout à fait censée) ne convenait pas au problème rencontré.

> > Il vaut mieux passer à l'encodage Unicode UTF-8 qui permet de coder tous les
> > symboles internationaux de 8 à 32 bits
> 
> Je suis d'accord pour faire de la publicité pour Unicode mais, alors, il faut 
> savoir de quoi on parle. Cette phrase "de 8 à 32 bits" ne veut absolument rien 
> dire.

Pourquoi une telle aggressivité ?
Remplace donc "de" par "sur" et tu comprendras qu'il s'agit juste d'une erreur due à une rédaction trop rapide.
Pour avoir étudié Unicode en long et en large, ainsi que toutes les discussions des listes developer debian relatives à son intégration progressive dans Debian, je pense que je peux m'estimer relativement bien informé à ce sujet.

D'ailleurs pour être tatillon, c'est sur 31 bits max qu'un caractère unicode UTF-8 peut être encodé.
Toutes mes excuses pour cette erreur.

> > Actuellement, c'est encore imparfaitement géré par Linux et un paquet de
> > programmes libres, 
> 
> C'est en effet le moins que l'on puisse dire.

Cool que nous soyons d'accord sur ce point :)
 
> > A ce sujet, ayons une pensée pour nos amis asiatiques qui se battent avec ces 
> > problèmes tous les jours
> 
> Tiens, justement, ni les chinois, ni les japonais n'utilisent Unicode (et particulièrement UTF-8)... Je viens de regarder dix sites Web d'universités chinoises (du continent) et une seule est en UTF-8, les neuf autres en GB2312. Et le Web est pourtant un des domaines où Unicode marche le mieux.

L'utilisation d'Unicode pour l'encodage des pages web n'est pas nécessaire car l'html peut contenir des méta données. Cf http://www.asahi.jp -> <meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS"> : le navigateur s'en sert pour faire une conversion dans les encodages qu'il gère en interne (mozilla convertit tout en unicode en interne avant affichage).

En revanche pour les fichiers texte qui ne contiennent pas de méta données sur l'encodage utilisé, les japonais et chinois utilisent de plus en plus de l'unicode afin de ne pas avoir à changer à la main l'encodage utilisé en fonction de l'origine du fichier.

Ce qui est important c'est que nos programmes qui manipulent du texte utilisent unicode pour l'encoder avant de le sauver afin que n'importe qui puisse récupérer le fichier et l'afficher chez lui sans avoir à faire la moindre manipulation.
C'est déjà possible sous windows et Redhat s'y est mis sérieusement il y a quelques temps déjà. Debian est hélas un peu à la traine, mais visiblement ils sont conscients du problème (cf les mailing lists developer), heureusement :).

Et je parlais des chinois et japonais sous linux, ce sont eux qui doivent se battre pour lire nos fichiers textes et configurer leurs logiciels pour pouvoir saisir leurs propres caractères :)
Problème que n'ont pas les américains puisque linux et les logiciels "bêtes et méchants" gèrent nativement l'ascii.

Cordialement,
Laurent

Reply to:

Follow-Ups:
- Re: bash et UTF-8
  - From: Charles Plessy <charles-debian-nospam@plessy.org>
- Re: bash et UTF-8
  - From: Michelle Konzack <linux4michelle@freenet.de>

References:
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Stephane Bortzmeyer <stephane@sources.org>

Prev by Date: Re: cvompilation modules carte bewan pci st
Next by Date: Problème avec esd
Previous by thread: Re: bash et UTF-8
Next by thread: Re: bash et UTF-8
Index(es):
- Date
- Thread