[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Lutter contre le Spam ?



On Sun, May 25, 2003 at 04:06:43PM +0200, Francois@mescam.org wrote:
> Le Sun, May 25, 2003 à 01:03:38PM +0200, Sven Luther a écrit
> > A propos, quel est le meilleur moyen de tester si un mail est un mail
> > html ou pas ?
> 
> Dans les règles procmail mettre le test :
> 
>    * ^Content-Type:.*text/html
> > 
> > En effet, je crois que spamoracle a appris a reconnaitre tout les mails
> > html comme spam, meme ceux qui contiennent aussi du texte, supprimer les
> 
> Il ne me semble pas que spamoracle affecte un poids particulier au html mais le
> fait qu'en général les spam sont en html peut faire croire cela.

Oui, c'est cela le probleme, et comme j'ajoute tous les spams non
detecte a la base de connaissance, il y a un surpoid pour tout les mots
cle du html.

> > mails html avant de les passer a spamoracle permettrait d'avori une base
> > de connaissance plus propre, il me semble.
> 
> Au contraire le html ainsi que certaines balises html particulières sont de
> bons détecteurs du spam alors je ne vois pas pourquoi vouloir les enlever.

A, mon idee c'etait de filtrer par defaut tous les mails html dans une
boite a spam, et de faire ensuite jouer le test spamoracle sur le
contenu reel des message et non sur les mots cle html.

Le probleme c'est que le mail parfaitement valide de diesels :

  Bonjour,

  Je cherche a configurer mon X11 et je voudrais savoir s'il exsite des
  outils graphics pour cela. Je me rappele qu'avant il y avait xf86setup.

  Merci

A ete detecte comme spam avec ma base de connaissance actuelle :

X-Spam: yes; 1.00; http-equiv:99 body:99 bgcolor:99 ffffff:99
configurer:01 voudrais:01 rappele:01 qu'avant:01 xf86setup:01 div:98 x11:01 arial:98
style:98 face:98 content:98

Et comme tu le vois, tous les mots qui font pencher le poid du cote spam
sont les mots cle html, et cela vient du fait que le mail en question a
une section texte et une section html. Si les sections html sont
supprime d'un tel mail, alors non seulement j'evite ce probleme, mais
egalement je gagne de la place dans mon archive de mail.

Ce genre de problemes apparait surtout pour les mails court, ou il n'y a
pas assez de mots cle non-spam pour contrebalancer la presence de html.

Cela dis, c'est aussi ma faute, car j'ajoute systematiquement les spams
non detecte a la base de connaissance, mais pas les bons mails.

BTW, je pense aussi qu'une base de connaissance par mailing liste
devrait obtenir de meilleurs resultats qu'une base globale comme
j'utilise maintenant, mais cela m'oblige a faire des sous-regles
procmail.

En tout cas, merci pour ta reponse.

Amicalement,

Sven Luther



Reply to: