Re: #debian-devel-fr@irc.debian.org et UTF-8

To: debian-devel-french@lists.debian.org
Subject: Re: #debian-devel-fr@irc.debian.org et UTF-8
From: barbier@linuxfr.org (Denis Barbier)
Date: Wed, 10 Mar 2004 09:41:26 +0100
Message-id: <[🔎] 20040310084126.GA15820@zobe.linuxfr.org>
In-reply-to: <[🔎] 404ECA7B.6050605@glandium.org>
References: <[🔎] 87vflknzw0.fsf@mirexpress.internal.placard.fr.eu.org> <[🔎] 87vflknxhk.fsf@frigate.technologeek.org> <[🔎] 20040305094734.GA31208@lambda> <[🔎] 87k71zobd8.fsf@frigate.technologeek.org> <[🔎] 1078585988.13590.5.camel@arrakis.localnet> <[🔎] 20040306162937.GB689@zobe.linuxfr.org> <[🔎] 87y8qdwvne.dlv@vanicat.homelinux.org> <[🔎] 20040306225613.GA16588@zobe.linuxfr.org> <[🔎] 1078615170.11888.24.camel@arrakis.localnet> <[🔎] 404ECA7B.6050605@glandium.org>

On Wed, Mar 10, 2004 at 04:57:47PM +0900, Mike Hommey wrote:
[...]
> >Quand bien même c'est possible d'avoir l'information sur l'encodage, ça
> >ne suffit pas toujours. Je suis encore tombé sur un exemple à la con :
> >les signets à paramètres de galeon (ou autre). Quand tu vas sur
> >google.fr et que tu cherches un mot avec des accents, il se démerde avec
> >l'encodage en envoyant le formulaire, car la page de départ contient un
> >encodage (iso8859-1 ici). Mais quand tu veux faire une recherche en
> >utilisant directement un signet, tu n'as pas l'information sur
> >l'encodage dans lequel le site à l'autre bout veut ses informations. Et,
> >corrigez-moi si je me trompe, autant HTTP précise un encodage pour ce
> >que le serveur envoie, autant le client ne peut pas préciser en quoi son
> >URL est encodée, et doit donc présupposer qu'elle est en utf-8. Et ma
> >recherche sur Rémi se transforme en RÃ©mi.
> 
> Oui, c'est le truc le plus con à propos d'HTTP : la plupart des échanges 
> entre serveur et client n'ont aucune indication de codage. Autrement 
> dit, c'est le foutoir. On ne peut pas savoir si les champs d'un 
> formulaire ont été remplis en UTF-8, en ISO-bidule ou en ISO-machin...

Dans le cas des formulaires, ça dépend de la méthode (GET vs. POST) et
est expliqué dans les specs de l'HTML, par exemple
      http://www.w3.org/TR/html401/interact/forms.html#h-17.13

  Note. The "get" method restricts form data set values to ASCII
  characters. Only the "post" method (with enctype="multipart/form-data")
  is specified to cover the entire [ISO10646] character set.

C'est pourquoi sur Google le codage est passé en argument des requêtes.

Bien sûr, « on » va rétorquer qu'il suffit d'utiliser XForms à la place,
qui répond au problème en imposant un codage en UTF-8 ;)
 http://www.w3.org/TR/2003/REC-xforms-20031014/slice11.html#serialize-urlencode

Denis

Reply to:

Follow-Ups:
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Mike Hommey <mh@glandium.org>

References:
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Roland Mas <lolando@debian.org>
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Julien BLACHE <jblache@debian.org>
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Sven Luther <sven.luther@wanadoo.fr>
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Julien BLACHE <jblache@debian.org>
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Josselin Mouette <joss@debian.org>
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: barbier@linuxfr.org (Denis Barbier)
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Remi Vanicat <vanicat@debian.org>
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: barbier@linuxfr.org (Denis Barbier)
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Josselin Mouette <joss@debian.org>
- Re: #debian-devel-fr@irc.debian.org et UTF-8
  - From: Mike Hommey <mh@glandium.org>

Prev by Date: Re: #debian-devel-fr@irc.debian.org et UTF-8
Next by Date: Re: #debian-devel-fr@irc.debian.org et UTF-8
Previous by thread: Re: #debian-devel-fr@irc.debian.org et UTF-8
Next by thread: Re: #debian-devel-fr@irc.debian.org et UTF-8
Index(es):
- Date
- Thread