Re: bash et UTF-8

To: debian-user-french@lists.debian.org
Subject: Re: bash et UTF-8
From: Laurent Giroud <lg_dev@libertysurf.fr>
Date: Tue, 3 Aug 2004 11:01:22 +0200
Message-id: <[🔎] 20040803110122.3cb68c76.lg_dev@libertysurf.fr>
In-reply-to: <[🔎] 20040803083729.GE3403@bretagne.rail.eu.org>
References: <[🔎] 20040802163559.219aa970.lg_dev@libertysurf.fr> <[🔎] 20040802214703.AAB26148C2@mail.sources.org> <[🔎] 20040803011858.7e8d3bff.lg_dev@libertysurf.fr> <[🔎] 20040802235115.GB1715@shadow.dunkklar.org> <[🔎] 20040803015052.GA3403@bretagne.rail.eu.org> <[🔎] 20040803101859.0faaa579.lg_dev@libertysurf.fr> <[🔎] 20040803083729.GE3403@bretagne.rail.eu.org>

> > On pourrait alors dire que l'ISO8859-15 casse les logiciels qui ne
> > gèrent que l'ASCII 7 bits américain :)
> 
> Non, car si on n'utilise que des caractères ascii en travaillant en
> iso-8859-15 ça passe.

L'ascii est un sous ensemble (codé sur 7 bits) de l'iso-8859-15 donc un logiciel qui gère des caractères 8 bits va "gérer" le 8859 sans s'en rendre compte. En revanche, un logiciel qui gère du 7 bits (un logiciel de mail mal configuré par exemple) ne gèrera pas correctement les textes en 8859-15.
 
> Si on n'uytilise que des caractères iso-8859-15 en UTF-8 ça foire...

Ca c'est bizarre.
L'UTF-8 est calqué quasiment identiquement sur l'iso-8859-15 pour les 8 premiers bits.
(cf  http://orwell.ru/test/ISO/_?15 )

Je penche plutôt pour une locale mal réglée dans ce cas.

> > La faiblesse est plutôt du côté des logiciels qui ne gèrent pas
> > correctement l'unicode, en effet, si on utilise la libc GNU standard
> > et qu'on utilise gettext pour la localisation, il suffit d'utiliser
> > wprintf au lieu de printf, de ne plus utiliser les "char" (en C)
> > mais les "wchar" et de veiller à ne pas tester les chaînes de
> > caractères "en dur" mais d'utiliser systématiquement des chaînes
> > localisées.
> 
> arrfff... il "suffit"...

Ce n'est pas l'utilisation d'un "il suffit" qui permet de dire que c'est irréaliste, c'est l'ampleur de la tâche que ça représente.

Faire un chercher/remplacer char/wchar_t, printf/wprintf, strcpy/wstrcpy, etc. constitue déjà l'essentiel du travail de conversion et se fait de façon tout à fait automatique.
Ensuite, si le texte est déjà localisé avec gettext (ou similaire), il n'y a plus rien à faire. Si il ne l'est pas, de toute manière ce logiciel est inutilisable dans toute autre langue que l'anglais et il est probablement déjà obsolète ou de diffusion locale uniquement et n'a pas besoin d'être converti si l'utilisateur ne manipule que de l'ascii ou de l'iso8859-15 puisque ils sont quasiment identiques bit à bit avec les caractères utf-8 codés sur un octet.

C'est réellement quelque chose de simple à mener.
Cf ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO-6.html#ss6.1

> EN attendant zsh ne supporte pas et debbaibn a bidouillé un slnag
> supplémentaire en utf-8...

Ca signifie avant tout que personne ne l'a fait, pas que c'est difficile ;)

Vu la faible conscience de l'intérêt de l'unicode, il est normal que tous les auteurs de logiciels libres n'aient pas encore franchi le pas. Je ne leur jette pas la pierre : si l'info ne leur est pas parvenue, ils ne vont pas le deviner tous seuls tant qu'ils n'ont pas besoin de manipuler d'autres langues.

> Si c'était si simple tu crois pas que pluytôt qu'avoir 2 slang dans
> debian il y en aurait un seul qui fait tout ?

Bonne remarque.
Le fait que ce soit simple au niveau d'un programme ne signifie pas que ça le soit au niveau d'une distribution.

On ne peut pas forcer l'usage d'unicode quand des programmes répandus (window managers, terminaux x, shells) ne le gèrent pas encore. Donc on doit donc avoir des versions distinctes dans la distribution pour :
- ceux qui ont besoin de passer en unicode parce qu'ils communiquent en plusieurs langages et qui sont prèts à se passer de ses logiciels pour d'autres moins connus ou réputés mais qui gèrent l'unicode
et pour
- ceux qui n'ont pas un besoin impératif de l'unicode et sont attachés à leurs logiciels "classiques".

En attendant que les logiciels les plus répandus fonctionnent parfaitement en unicode, on doit effectivement avoir deux systèmes en parallèle.

Laurent

Reply to:

Follow-Ups:
- Re: bash et UTF-8
  - From: Charles Plessy <charles-debian-nospam@plessy.org>
- Re: bash et UTF-8
  - From: Erwan David <erwan@rail.eu.org>

References:
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Stephane Bortzmeyer <stephane@sources.org>
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Charles Plessy <charles-debian-nospam@plessy.org>
- Re: bash et UTF-8
  - From: Erwan David <erwan@rail.eu.org>
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Erwan David <erwan@rail.eu.org>

Prev by Date: Re: Ils contestent quand-même 1 peu :(!
Next by Date: Re: ./configure => ça merde !
Previous by thread: Re: bash et UTF-8
Next by thread: Re: bash et UTF-8
Index(es):
- Date
- Thread