[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Bayes für bizzare E-Mail-Adressen ?



Am 2004-09-12 14:36:49, schrieb Björn Schmidt:
> Jan Kesten wrote:
> >Abgesehen davon ist so eine Analyse immer an eine gewisse
> >Mindestmenge an Text gebunden und die paar Zeichen des Localpart
> >sind ja nun leider relativ wenig.
> 
> Was ist denn mit Trigrammen? Man könnte doch ein Programm schreiben
> dass localparts mit Trigrammen die "einfach nicht sein können", wie
> z.B. xyc oder pkp bewertet. Ein localpart mit 6 Zeichen könnte da schon
> vier Spam-Punkte bekommen. Für Wortenden und kurze Worte kann man ja
> auch auf Bigramme ausweichen. Michelles Adresse jvyqfuwzyz hätte da sicher
> 6-7 Spampunkte bekommen.

Ähm, bei "jvyqfuwzyz" gibt es ja nur 8 Möglichkeiten...
Habe hier eine Worltiste gefunden, die ganzen würter in 
Tri-Gramme aufgesplittet "sort" und "uniq" angewandt und 
habe bei dem vorstehenden localpart 8 Miese bekommen.

jvy, vyq, yqf, qfu, fuw, uwz, wzy und zyz habe ich kein 
einziges mal in 5.000 deutschen Wöertern gefunden.

Achtung:    Es sind NUR 417 Tri-Gramme.

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917                  ICQ #328449886
                   50, rue de Soultz         MSM LinuxMichi
0033/3/88452356    67100 Strasbourg/France   IRC #Debian (irc.icq.com)

Attachment: signature.pgp
Description: Digital signature


Reply to: