[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Bayes für bizzare E-Mail-Adressen ?



Am 2004-09-12 22:51:04, schrieb Björn Schmidt:
> Michelle Konzack wrote:
> >Weil bei den 5000 Wörtern die ich in Tri-Gramme zerlegt habe, nur 
> >417 rausgekommen sind... die anderen waren alle doppelt.
> 
> Ach so ..., sind das wirklich nur so wenig? Das wäre gut, denn es würde die
> Wahrscheinlichkeit erhöhen unerwünschte Trigramme zu erkennen. Sind die
> 5000 Wörter aus dem Umgangssprachlichen oder sind es Namen? Letzteres
> wäre etwas sinnvoller...

Hatte durch zufall eine Datei mit normalen Wörtern des deutschen 
Sprachgebrauchs. Also keine Namensliste. (Sowas hätte ich noch gerne)

> >X-Email-Tri-Gramm-Score: 4 of 7 found, 57%
> 
> Ich würde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 
> 50%
> Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei 
> Deiner
> anteiligen Scoreberechnung).

Aber wieviele SPAMer verwenden weniger als 7 Zeichen mit Müll ?
Habe keine einzige gefunden. die waren alle länger. 

Naja, wie man dann beim filtern das macht, kann je jedem selber 
überlassen werden. Mann könnte den Header auch folgend abändern

X-Email-Tri-Gramm-Score: MAX=7, FOUND=4, RATE=57

Das läßt sich dann auch leicht parsen oder so.

Jetzt müßte ich nur noch eine vernünftige Wörter- und Namensliste
herbekommen. Am besten auf deutsch, englisch und französisch, was 
warscheinlich 99% der Tri-Gramme abdecken sollte

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917                  ICQ #328449886
                   50, rue de Soultz         MSM LinuxMichi
0033/3/88452356    67100 Strasbourg/France   IRC #Debian (irc.icq.com)

Attachment: signature.pgp
Description: Digital signature


Reply to: