[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: autre souhait [était: Debian goes international ?]



Patrice Karatchentzeff wrote:

Le Tue, 29 Jan 2002 14:22:43 +0100
Jean-Christophe.Dubacq@lri.fr écrivait :

On Tue, Jan 29, 2002 at 01:29:53PM +0100,

=?us-ascii:iso-8859-1:iso-8859-15:utf-8?Q?J=E9r=F4me_Marant?= wrote:>
C'est quoi ce nouveau codage débile pas reconnu par mutt ?


utf8. C'est la forme simplifié de l'unicode. Me fais ch... aussi avec
vm...

Je m'en veux par avance de paraître par trop didactique, mais UTF-8 n'est ni un codage débile, ni la forme simplifiée de l'unicode.

UTF-8 est un format d'encodage. Point. Vous donnez une suite de nombres à UTF-8 et il vous rend une suite d'octets qui représente cette suite de nombres, laquelle suite d'octet est plus courte que si vous aviez codé chaque nombre sur un nombre suffisant d'octets pour représenter le plus grand nombre de votre suite. C'est pas de la compression, juste de l'encodage. Certains nombres sont codés sur un seul octet, d'autres sur deux, voire même trois ou quatre. Moralité, y'a déjà de quoi coder pas mal de nombres en UTF-8.

Et ça tombe bien, parceque quand vous avez une table de caractères qui compte plus de 255 caractères différents, vous ne pouvez plus vous contenter de la simplification "1 caractère donne 1 octet". Dans le cas de chaînes de caractères utilisant Unicode par exemple (2^32), UTF-8 est le bienvenu.

Si les gens pouvaient rester en iso8859-1(5)....

Je ne suis pas sûr que cette table de caractères intéresse beaucoup les coréens par exemple... mais comme c'est des occidentaux qui ont fait unicode, les caractères d'ISO-8859-1 portent le même numéro en unicode, ce qui simplifie souvent les choses pour nous.

Une dernière remarque : dès lors qu'on veut pouvoir afficher plusieurs langues en même temps, se contenter d'une "petite" table de caractères qui convient pour sa seule langue (comme iso-8859-1/5) est impossible.

--
Nicolas



Reply to: