[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: bash et UTF-8



> [Laurent Giroud]
> > Ca c'est bizarre.
> > L'UTF-8 est calqué quasiment identiquement sur
> > l'iso-8859-15 pour les 8 premiers bits.
> 
> Tu confonds la table des caractères et le codage utilisé.

Pas tout à fait, j'ai cru me souvenir que l'ISO-8859-15 était un sous ensemble de l'UTF-8, alors que c'est l'ASCII qui en est un.
Mais bon, je me suis gourré c'est clair :)

> > Ce n'est pas l'utilisation d'un "il suffit" qui permet
> > de dire que c'est irréaliste, c'est l'ampleur de la
> > tâche que ça représente.
> 
> C'est bien beau de se documenter, encore faut-il passer à
> la pratique ;)
> 
> Si tout ce qui t'intéresse est de fournir un bon support
> pour l'UTF-8, la solution la plus simple est de conserver
> des char et de changer les routines de calcul de
> longueur de chaînes, recherche d'expressions, etc. C'est
> ce que fait la majorité des programmeurs, avec
> éventuellement conversion du codage si l'utilisateur
> n'est pas en UTF-8.

Effectivement, c'est mieux qu'utiliser les wchar car ceux-ci sont de taille fixe et donc moins souples et surtout imposent un encodage unicode alors que conserver des char permet de gérer n'importe quel type d'encodage supporté par la locale (via la libc).
La quantité de travail est équivalente en revanche.

> Ce que tu décris avec wchar est autre chose, mais les
> ayatollahs de l'UTF-8 sont contre car ça permet aux
> codages existants (8-bit ou multibyte) de continuer à
> être supportés, alors qu'il faudrait les éradiquer.

L'éradication me parait un objectif assez utopiste et implique de toute manière qu'on dispose toujours de convertisseurs local->unicode en cas de rencontre d'un fichier non encodé dans un des divers formats unicode. Donc entre le système des locales et ça mon coeur balance... :)
 
> Les 2 approches requièrent beaucoup plus de travail que
> tu ne sembles l'imaginer.

C'est très possible, en effet comme tu l'indiques, je ne suis pas passé de la documentation à la pratique pour l'instant ;)

Mais néanmoins, la libc et gettext gèrent déjà automatiquement l'encodage en fonction de la locale, si la lib de recherche d'expressions le gère également, c'est autant de travail en moins (j'ose espérer que tout le monde ne réécrit pas ses propres routines de gestion de chaînes dans son coin).
L'essentiel du travail me semble assez simple si la gestion des caractères textuels a été écrite de façon relativement neutre.

Je vais coder sous peu des trucs en liaison avec tout ça, donc si je me trompe je ne manquerais pas de te donner raison ;)

Hop,
Laurent

PS : ceci dit, on dérive un peu non ? c'est plus trop debian comme discussion ;)



Reply to: