Re: Apostrophes et... UTF8? [Was: [HS] réponses | Re: failtoban]
Vincent Lefevre a écrit, samedi 9 juin 2007, à 13:23 :
> On 2007-06-08 23:17:51 +0200, Jacques L'helgoualc'h wrote:
> > Tout ça ne me semble pas très clair : tu parles de fonctions différentes
> > d'un même caractère (apostrophe et guillemet fermant anglais), mais on
> > semble pourtant insister dans la littérature unicode pour considérer que
> > c'est la même lettre M dans toutes les langues de latin1,
>
> Oui, ça ne pose pas de problème.
... comme c'est un caractère ascii, il ne pose pas de problèmes aux
anglo-saxons --- mais, si je ne m'abuse, le « LL » a une place à part
en espagnol, le « æ » latin1 est une ligature en français, mais une
lettre danoise (après le Z dans l'ordre alphabétique)...
> En revanche la lettre latine P et la lettre cyrillic ?? qui ont le
> même glyphe doivent être considérées comme différentes.
Ça vient aussi du fait que Unicode a importé en bloc des jeux de
caractères préexistants. C'est moins gênant pour des langues distinctes,
mais un gag sous Emacs, sans unification, était de ne pas trouver le
« é » latin1 dans un buffer latin9 --- c'est plus courant que de
chercher « CCCP » dans un texte français...
D'un autre côté, D. E. Knuth n'a défini que les majuscules grecques qui
lui manquaient --- il est vrai que lui devait être économe.
> > ou qu'il est inutile voire nuisible de créer des lettres bretonnes
> > ou autres comme « ch » et « c'h », car on a déjà ce qu'il faut pour
> > les écrire :
>
> Je ne connais pas le breton, et je ne sais donc pas si cela a un sens
> de créer de nouvelles lettres ou pas.
C'est surtout qu'il y a des centaines, voire des milliers de langues
utilisant des variantes de l'alphabet romain, et que Unicode, après
avoir validé un certain nombre de di- et trigrammes, a arrêté les frais.
Certains typographes bretons préconisant d'incliner le « skrab » à
gauche, avoir une lettre {c'h} ou {c`h} à part entière faciliterait une
normalisation, mais on n'est plus vendredi.
> > si le principe d'unicode est de normaliser le codage des caractères
> > en tant que glyphes (ou leurs classes d'équivalence), les ambiguïtés
> > d'un langage sont des « bugs » de ce dernier, et pas d'unicode.
>
> Le principe d'Unicode est de normaliser le codage des caractères en
> tant que caractères (fonction + glyphe, sans tenir compte des styles,
> sauf s'ils modifient la fonction, cf les caractères mathématiques
> U+1D400 à U+1D6A3 basés sur l'alphabet latin).
Si tu rajoutes la sémantique à la graphie, ça devient une tâche
herculéenne, et ça avortera aussi à un moment ou un autre --- et tu
crois vraiment que les utilisateurs matheux vont accepter de distinguer
le caractère marquant la dérivation $f'$ de celui de l'inversion $A'$,
ou tant qu'à faire les différents types de « + » ?
--
Jacques L'helgoualc'h
Reply to: