[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Filtrer les messages SMS (Etait: Re: desinscription)



* Yves Rutschle <y.rutschle@indigovision.com> [2003-06-12 23:43] :
> On Thu, Jun 12, 2003 at 08:03:01PM +0200, Frédéric Bothamy wrote:
> > > Il faudrait créer une liste debian-user-french-sms :-)
> > 
> > Ou une règle procmail pour ne plus polluer les BAL. Un peu radical, mais
> > bon ...
> 
> Tu as ça? Ça m'interesserait assez, vu que de toute façon je
> les lis pas, et l'écrire moi-même ne me parait pas simple
> (il doit falloir des heuristiques).

Euh, non, c'était une question à laquelle j'avais malencontreusement
oublié le point d'interrogation finale.

Quoique qu'en y repensant, ce devrait être faisable si l'on connaît à
l'avance la langue du message (le français normalement, pour les
messages de debian-user-french), que l'on arrive à déterminer le nombre
de mots incorrects du message (avec ispell ou aspell, ce devrait être
faisable) et que l'on établisse un ratio erreurs/nombre de mots total
minimum (un dictionnaire personnel pour les noms propres comme Debian,
sid, etc. serait alors bien utile).

Ce n'est pas trivial, mais pas si difficile que cela à faire.

Par exemple, sur le petit paragraphe de 7 lignes ci-dessus, les valeurs
sont :

$ ispell -l mon_paragraphe
debian-user-french
ispell
aspell
Debian
sid
$ wc -w mon_paragraphe
71
$

Soit, 5/71~=7%. Par contre, cette méthode a d'autres inconvénients :
- si la personne cite en intégralité un message bien écrit, elle aura
automatiquement un bonus (ou il faudrait commencer par enlever les
lignes de citation),
- les messages très courts peuvent parfois avoir un ratio défavorable et
être pourtant corrects (à l'extrême, une réponse avec seulement un nom
de paquet Debian, par exemple).

J'en oublie certainement d'autres. Mais, bon, c'est une première
approche.

Fred

-- 
LA FAQ d-u-f ? http://savannah.nongnu.org/download/debfr-faq/html/



Reply to: