[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Bayes für bizzare E-Mail-Adressen ?



Am 2004-09-12 15:40:19, schrieb Björn Schmidt:

> >5.000 Wörter hören sich viel an, aber si könne aus den 417 Tri-Grammen 
> >zusammengesetz werden :-)
> >
> >Sprich, wenn man so nen Tri-Gramm-Checker sich bastelt und ein 
> >Deutsches Wörterbuch mit 100.000 Stichwörtern nimmt, werden das 
> >dann effektiv vieleicht 4000-5000 Tri-Gramme werden. 
> >
> >Also eine Anzahl, die sich verwalten läßt... :-)
> 
> Ich verstehs immer noch nicht. Warum 417?

Weil bei den 5000 Wörtern die ich in Tri-Gramme zerlegt habe, nur 
417 rausgekommen sind... die anderen waren alle doppelt.

Einen localpart in trigramme zerlegen sind Sekundenbruchteile...
Dann brauchste nur die Tri-Gramme in der Datenbank suchen. 
Allerdings sollte das nicht nach gefundenen Tri-Grammen gescort 
werden sondern nach Prozent.

Der mail-Header würde dann ungefähr so aussehen:

X-Email-Tri-Gramm-Score: 4 of 7 found, 57%


Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917                  ICQ #328449886
                   50, rue de Soultz         MSM LinuxMichi
0033/3/88452356    67100 Strasbourg/France   IRC #Debian (irc.icq.com)

Attachment: signature.pgp
Description: Digital signature


Reply to: