Am 2004-09-12 14:36:49, schrieb Björn Schmidt: > Jan Kesten wrote: > >Abgesehen davon ist so eine Analyse immer an eine gewisse > >Mindestmenge an Text gebunden und die paar Zeichen des Localpart > >sind ja nun leider relativ wenig. > > Was ist denn mit Trigrammen? Man könnte doch ein Programm schreiben > dass localparts mit Trigrammen die "einfach nicht sein können", wie > z.B. xyc oder pkp bewertet. Ein localpart mit 6 Zeichen könnte da schon > vier Spam-Punkte bekommen. Für Wortenden und kurze Worte kann man ja > auch auf Bigramme ausweichen. Michelles Adresse jvyqfuwzyz hätte da sicher > 6-7 Spampunkte bekommen. Ähm, bei "jvyqfuwzyz" gibt es ja nur 8 Möglichkeiten... Habe hier eine Worltiste gefunden, die ganzen würter in Tri-Gramme aufgesplittet "sort" und "uniq" angewandt und habe bei dem vorstehenden localpart 8 Miese bekommen. jvy, vyq, yqf, qfu, fuw, uwz, wzy und zyz habe ich kein einziges mal in 5.000 deutschen Wöertern gefunden. Achtung: Es sind NUR 417 Tri-Gramme. Greetings Michelle -- Linux-User #280138 with the Linux Counter, http://counter.li.org/ Michelle Konzack Apt. 917 ICQ #328449886 50, rue de Soultz MSM LinuxMichi 0033/3/88452356 67100 Strasbourg/France IRC #Debian (irc.icq.com)
Attachment:
signature.pgp
Description: Digital signature