Re: bash et UTF-8

To: debian-user-french@lists.debian.org
Subject: Re: bash et UTF-8
From: Erwan David <erwan@rail.eu.org>
Date: Tue, 3 Aug 2004 11:33:57 +0200
Message-id: <[🔎] 20040803093357.GG3403@bretagne.rail.eu.org>
Mail-followup-to: debian-user-french@lists.debian.org
In-reply-to: <[🔎] 20040803110122.3cb68c76.lg_dev@libertysurf.fr>
References: <[🔎] 20040802163559.219aa970.lg_dev@libertysurf.fr> <[🔎] 20040802214703.AAB26148C2@mail.sources.org> <[🔎] 20040803011858.7e8d3bff.lg_dev@libertysurf.fr> <[🔎] 20040802235115.GB1715@shadow.dunkklar.org> <[🔎] 20040803015052.GA3403@bretagne.rail.eu.org> <[🔎] 20040803101859.0faaa579.lg_dev@libertysurf.fr> <[🔎] 20040803083729.GE3403@bretagne.rail.eu.org> <[🔎] 20040803110122.3cb68c76.lg_dev@libertysurf.fr>

Le Tue  3/08/2004, Laurent Giroud disait
> > > On pourrait alors dire que l'ISO8859-15 casse les logiciels qui ne
> > > gèrent que l'ASCII 7 bits américain :)
> > 
> > Non, car si on n'utilise que des caractères ascii en travaillant en
> > iso-8859-15 ça passe.
> 
> L'ascii est un sous ensemble (codé sur 7 bits) de l'iso-8859-15 donc
> un logiciel qui gère des caractères 8 bits va "gérer" le 8859 sans
> s'en rendre compte. En revanche, un logiciel qui gère du 7 bits (un
> logiciel de mail mal configuré par exemple) ne gèrera pas
> correctement les textes en 8859-15.
>  
> > Si on n'uytilise que des caractères iso-8859-15 en UTF-8 ça foire...
> 
> Ca c'est bizarre.  L'UTF-8 est calqué quasiment identiquement sur
> l'iso-8859-15 pour les 8 premiers bits.  (cf
> http://orwell.ru/test/ISO/_?15 )

UCS, pas UTF-8 qui va prendre 2 octets pour coder le caractère 0xE9 ('é')

> Je penche plutôt pour une locale mal réglée dans ce cas.
>
> > > La faiblesse est plutôt du côté des logiciels qui ne gèrent pas
> > > correctement l'unicode, en effet, si on utilise la libc GNU
> > > standard et qu'on utilise gettext pour la localisation, il
> > > suffit d'utiliser wprintf au lieu de printf, de ne plus utiliser
> > > les "char" (en C) mais les "wchar" et de veiller à ne pas tester
> > > les chaînes de caractères "en dur" mais d'utiliser
> > > systématiquement des chaînes localisées.
> >
> > arrfff... il "suffit"...
>
> Ce n'est pas l'utilisation d'un "il suffit" qui permet de dire que
> c'est irréaliste, c'est l'ampleur de la tâche que ça représente.
> 
> Faire un chercher/remplacer char/wchar_t, printf/wprintf,
> strcpy/wstrcpy, etc. constitue déjà l'essentiel du travail de
> conversion et se fait de façon tout à fait automatique.  Ensuite, si
> le texte est déjà localisé avec gettext (ou similaire), il n'y a
> plus rien à faire. Si il ne l'est pas, de toute manière ce logiciel
> est inutilisable dans toute autre langue que l'anglais et il est
> probablement déjà obsolète ou de diffusion locale uniquement et n'a
> pas besoin d'être converti si l'utilisateur ne manipule que de
> l'ascii ou de l'iso8859-15 puisque ils sont quasiment identiques bit
> à bit avec les caractères utf-8 codés sur un octet.

Sauf que char en C sers à bien d'autre choses que représenter des
caractères, ton remplacement systématique va juste foutre en l'air
le soft...

> C'est réellement quelque chose de simple à mener.  Cf
> ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO-6.html#ss6.1
>
> > EN attendant zsh ne supporte pas et debbaibn a bidouillé un slnag
> > supplémentaire en utf-8...
>
> Ca signifie avant tout que personne ne l'a fait, pas que c'est
> difficile ;)

C'etspas ce que disentles développeurs de zsh...

> Vu la faible conscience de l'intérêt de l'unicode, il est normal que
> tous les auteurs de logiciels libres n'aient pas encore franchi le
> pas. Je ne leur jette pas la pierre : si l'info ne leur est pas
> parvenue, ils ne vont pas le deviner tous seuls tant qu'ils n'ont
> pas besoin de manipuler d'autres langues.

  Ça implique parfois de revoir complètement certaines parties
du logiciels, qui par exemple font l'hypothèse que les caractères sont
de taille fixe...

-- 
Erwan

Reply to:

Follow-Ups:
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Vincent Lefevre <vincent@vinc17.org>

References:
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Stephane Bortzmeyer <stephane@sources.org>
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Charles Plessy <charles-debian-nospam@plessy.org>
- Re: bash et UTF-8
  - From: Erwan David <erwan@rail.eu.org>
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>
- Re: bash et UTF-8
  - From: Erwan David <erwan@rail.eu.org>
- Re: bash et UTF-8
  - From: Laurent Giroud <lg_dev@libertysurf.fr>

Prev by Date: Re: cle bluetooth
Next by Date: Re: Conversion maildir vers mbox
Previous by thread: Re: bash et UTF-8
Next by thread: Re: bash et UTF-8
Index(es):
- Date
- Thread