Re: UTF-8, oui encore :)
On Saturday 18 October 2003, at 11 h 42, the keyboard of Mathias
=?ISO-8859-1?Q?Andr=E9?= <mathias.andre@free.fr> wrote:
> Content-Transfer-Encoding: quoted-printable
Aïe, exmh ne va pas aimer.
> J'ai des noms de fichiers qui d=E9connent. Des "=E9" qui s'affichent "=C3=
> =A9",
Oui, c'est bien de l'UTF-8.
> D'apr=E8s ce que j'ai compris UTF-8 permet d'encoder des langues comme le
> chinois...
Unicode (et son encodage UTF-8) encodent des *écritures* (des caractères), pas
des langues (exemple, le turc s'écrivait avec l'alphabet arabe, il s'écrit
désormais avec l'alphabet latin).
> J'ai pal mal "RTFMer", mais je n'ai rien trouv=E9 de tr=E8s probant donc
> voici mes quelques questions :=20
Il y a un excellent exposé sur Unicode à JRES 2003 <URL:http://www.jres.org/>.
Le texte (pas les transparents, un vrai article) sera en ligne sous licence
libre (GFDL) aussitôt après JRES.
> - quel est la diff=E9rence entre UTF-8 et unicode?
Unicode est un jeu de caractères (une liste, une table, un jeu, quoi). Il
contient actuellement dans les 91 000 caractères.
UTF-8 est un des encodages d'Unicode (une représentation en mémoire). C'est
sans doute le plus répandu dans le monde Unix/Internet.
> - j'ai lu dans les archives de la liste que de passer en UTF-8 ne
> perm=E9tait pas pour autant de lire tous les types de charact=E8res, dans c=
> e
> cas, que choisir?
Si vous n'écrivez qu'en français, il n'y a en effet pas de raison majeure de
passer à Unicode tout de suite. D'autant plus que le système des profils
("locales") sur Unix pour gérer les jeux de caractères est fondamentalement
invalide. Il ne permet en effet pas le travail en common d'utilisateurs ayant
des profils différents. Si trois personnes travaillent sur cette machine, un
coréen utilisant un profil UTF-8, un polonais utilisant un profil Latin-2 et
un français utilisant un profil Latin-1, ils ne pourront s'échanger, ni
fichiers textes (avec XML, ça marcherait), ni noms de fichiers.
La seule solution réaliste est donc de décider une fois pour toutes que *tous*
les fichiers sur une machine donnée soient en XXX (avec XXX = UTF-8, Latin-1,
KOI-8, etc). Et tant pis pour les profils.
> - j'ai aussi lu que le seul terminal qui g=E8re l'unicode est uxterm,
xterm tout court se débrouille bien, avec un petit sous-ensemble d'Unicode (il
ne gère pas les écritures de droite à gauche, comme l'arabe, par exemple).
Il y a une très bonne liste Linux-UTF-8 pour toutes ces questions (assez pointe, la liste). Sinon, trois documents à consulter (du plus générique au plus debianesqe) :
Unicode HOWTO http://www.linux.org/docs/ldp/howto/Unicode-HOWTO.html
UTF-8 and Unicode FAQ for Unix/Linux http://www.cl.cam.ac.uk/~mgk25/unicode.html
Step by step introduction to switching your debian installation to utf-8 encoding http://melkor.dnp.fmph.uniba.sk/~garabik/debian-utf8/
Reply to: