Re: bash et UTF-8

To: Laurent Giroud <lg_dev@libertysurf.fr>
Cc: debian-user-french@lists.debian.org
Subject: Re: bash et UTF-8
From: Stephane Bortzmeyer <stephane@sources.org>
Date: Wed, 04 Aug 2004 22:24:47 +0200
Message-id: <[🔎] 20040804202447.C50A71488F@mail.sources.org>
In-reply-to: <20040803010653.0fcfbfea.lg_dev@libertysurf.fr> (Laurent Giroud <lg_dev@libertysurf.fr>'s message of Tue, 03 Aug 2004 01:06:53 +0200)

On Tuesday 3 August 2004, at 1 h 6, the keyboard of Laurent Giroud 
<lg_dev@libertysurf.fr> wrote:

> > Oui, enfin, rares sont les gens qui écrivent des textes mêlant le grec, 
> > l'arabe et le chinois.
...
> La quasi totalité des sud-coréen (99% d'entre eux ont l'ADSL) mélangent anglais 
> et Hangul dans leurs messages.

Ce n'est pas par hasard que j'ai dit "grec, arabe et chinois". Et pas "hangul 
et anglais". La plupart des "vieux" jeux de caractères, pré-Unicode, incluent 
US-ASCII et permettent donc d'écrire des textes mixtes (anglais et X). Donc, 
hangul et anglais est sans doute possible sans Unicode (mais pas hangul et 
grec).

> (et j'oublie les arabes qui pour la plupart sont aussi francophones).

Euh, en Algérie, sans doute, mais pas en Jordanie ou aux Émirats...

> 2 - je ne vois pas en quoi j'ai cherché à  culpabiliser qui que ce soit, j'ai 
> évoqué l'emploi d'un encodage qui simplifie *tous* les problèmes de conversion 

Il faut distinguer le potentiel d'Unicode (énorme) et la réalité (qui évolue 
chaque année, heureusement). Aujourd'hui, passer à Unicode ne simplifie pas la 
vie, si on utilise juste les langues ouest-européennes (celles qui sont bien 
représentées dans Latin-1).

Les utilisateurs de RedHat l'ont découvert à leurs dépens quant RedHat est 
passé à UTF-8 par défaut sans prévenir et sans tenter de récupérer les 
fichiers existants.

> > savoir de quoi on parle. Cette phrase "de 8 à 32 bits" ne veut absolument rien 
> > dire.
...
> D'ailleurs pour être tatillon, c'est sur 31 bits max qu'un caractère unicode 
> UTF-8 peut être encodé.

Ouh, là, là, c'est plutôt pire comme ça :-)

D'abord, un "caractère Unicode UTF-8" ne veut rien dire. Un caractère Unicode 
est un caractère Unicode, quel que soit son encodage (UTF-8, UTF-16, UTF-32, 
whatever).

Ensuite, la phrase exacte serait cette fois "C'est sur 48 bits maximum qu'un 
caractère Unicode peut être encodé en UTF-8". Je cite le RFC 2044 "UTF-8, a 
transformation format of Unicode and ISO 10646" : "In UTF-8, characters are 
encoded using sequences of 1 to 6 octets.".

Reply to:

Follow-Ups:
- Re: bash et UTF-8
  - From: Vincent Lefevre <vincent@vinc17.org>

Prev by Date: Re: Trans.: Re: mua mail en console
Next by Date: Debian et Gentto
Previous by thread: Re: bash et UTF-8
Next by thread: Re: bash et UTF-8
Index(es):
- Date
- Thread