[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: UTF-8, oui encore :)



On Saturday 18 October 2003, at 11 h 42, the keyboard of Mathias 
=?ISO-8859-1?Q?Andr=E9?= <mathias.andre@free.fr> wrote:

> Content-Transfer-Encoding: quoted-printable

Aïe, exmh ne va pas aimer.

> J'ai des noms de fichiers qui d=E9connent. Des "=E9" qui s'affichent "=C3=
> =A9",

Oui, c'est bien de l'UTF-8.

> D'apr=E8s ce que j'ai compris UTF-8 permet d'encoder des langues comme le
> chinois... 

Unicode (et son encodage UTF-8) encodent des *écritures* (des caractères), pas 
des langues (exemple, le turc s'écrivait avec l'alphabet arabe, il s'écrit 
désormais avec l'alphabet latin).

> J'ai pal mal "RTFMer", mais je n'ai rien trouv=E9 de tr=E8s probant donc
> voici mes quelques questions :=20

Il y a un excellent exposé sur Unicode à JRES 2003 <URL:http://www.jres.org/>. 
Le texte (pas les transparents, un vrai article) sera en ligne sous licence 
libre (GFDL) aussitôt après JRES.

> - quel est la diff=E9rence entre UTF-8 et unicode?

Unicode est un jeu de caractères (une liste, une table, un jeu, quoi). Il 
contient actuellement dans les 91 000 caractères.

UTF-8 est un des encodages d'Unicode (une représentation en mémoire). C'est 
sans doute le plus répandu dans le monde Unix/Internet.

> - j'ai lu dans les archives de la liste que de passer en UTF-8 ne
> perm=E9tait pas pour autant de lire tous les types de charact=E8res, dans c=
> e
> cas, que choisir?

Si vous n'écrivez qu'en français, il n'y a en effet pas de raison majeure de 
passer à Unicode tout de suite. D'autant plus que le système des profils 
("locales") sur Unix pour gérer les jeux de caractères est fondamentalement 
invalide. Il ne permet en effet pas le travail en common d'utilisateurs ayant 
des profils différents. Si trois personnes travaillent sur cette machine, un 
coréen utilisant un profil UTF-8, un polonais utilisant un profil Latin-2 et 
un français utilisant un profil Latin-1, ils ne pourront s'échanger, ni 
fichiers textes (avec XML, ça marcherait), ni noms de fichiers.

La seule solution réaliste est donc de décider une fois pour toutes que *tous* 
les fichiers sur une machine donnée soient en XXX (avec XXX = UTF-8, Latin-1, 
KOI-8, etc). Et tant pis pour les profils.

> - j'ai aussi lu que le seul terminal qui g=E8re l'unicode est uxterm,

xterm tout court se débrouille bien, avec un petit sous-ensemble d'Unicode (il 
ne gère pas les écritures de droite à gauche, comme l'arabe, par exemple).

Il y a une très bonne liste Linux-UTF-8 pour toutes ces questions (assez pointe, la liste). Sinon, trois documents à consulter (du plus générique au plus debianesqe) :

Unicode HOWTO http://www.linux.org/docs/ldp/howto/Unicode-HOWTO.html
UTF-8 and Unicode FAQ for Unix/Linux http://www.cl.cam.ac.uk/~mgk25/unicode.html

Step by step introduction to switching your debian installation to utf-8 encoding http://melkor.dnp.fmph.uniba.sk/~garabik/debian-utf8/



Reply to: