[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: #debian-devel-fr@irc.debian.org et UTF-8



On Wed, Mar 10, 2004 at 04:57:47PM +0900, Mike Hommey wrote:
[...]
> >Quand bien même c'est possible d'avoir l'information sur l'encodage, ça
> >ne suffit pas toujours. Je suis encore tombé sur un exemple à la con :
> >les signets à paramètres de galeon (ou autre). Quand tu vas sur
> >google.fr et que tu cherches un mot avec des accents, il se démerde avec
> >l'encodage en envoyant le formulaire, car la page de départ contient un
> >encodage (iso8859-1 ici). Mais quand tu veux faire une recherche en
> >utilisant directement un signet, tu n'as pas l'information sur
> >l'encodage dans lequel le site à l'autre bout veut ses informations. Et,
> >corrigez-moi si je me trompe, autant HTTP précise un encodage pour ce
> >que le serveur envoie, autant le client ne peut pas préciser en quoi son
> >URL est encodée, et doit donc présupposer qu'elle est en utf-8. Et ma
> >recherche sur Rémi se transforme en Rémi.
> 
> Oui, c'est le truc le plus con à propos d'HTTP : la plupart des échanges 
> entre serveur et client n'ont aucune indication de codage. Autrement 
> dit, c'est le foutoir. On ne peut pas savoir si les champs d'un 
> formulaire ont été remplis en UTF-8, en ISO-bidule ou en ISO-machin...

Dans le cas des formulaires, ça dépend de la méthode (GET vs. POST) et
est expliqué dans les specs de l'HTML, par exemple
      http://www.w3.org/TR/html401/interact/forms.html#h-17.13

  Note. The "get" method restricts form data set values to ASCII
  characters. Only the "post" method (with enctype="multipart/form-data")
  is specified to cover the entire [ISO10646] character set.

C'est pourquoi sur Google le codage est passé en argument des requêtes.

Bien sûr, « on » va rétorquer qu'il suffit d'utiliser XForms à la place,
qui répond au problème en imposant un codage en UTF-8 ;)
 http://www.w3.org/TR/2003/REC-xforms-20031014/slice11.html#serialize-urlencode

Denis



Reply to: