Am 2004-09-12 22:51:04, schrieb Björn Schmidt: > Michelle Konzack wrote: > >Weil bei den 5000 Wörtern die ich in Tri-Gramme zerlegt habe, nur > >417 rausgekommen sind... die anderen waren alle doppelt. > > Ach so ..., sind das wirklich nur so wenig? Das wäre gut, denn es würde die > Wahrscheinlichkeit erhöhen unerwünschte Trigramme zu erkennen. Sind die > 5000 Wörter aus dem Umgangssprachlichen oder sind es Namen? Letzteres > wäre etwas sinnvoller... Hatte durch zufall eine Datei mit normalen Wörtern des deutschen Sprachgebrauchs. Also keine Namensliste. (Sowas hätte ich noch gerne) > >X-Email-Tri-Gramm-Score: 4 of 7 found, 57% > > Ich würde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit > 50% > Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei > Deiner > anteiligen Scoreberechnung). Aber wieviele SPAMer verwenden weniger als 7 Zeichen mit Müll ? Habe keine einzige gefunden. die waren alle länger. Naja, wie man dann beim filtern das macht, kann je jedem selber überlassen werden. Mann könnte den Header auch folgend abändern X-Email-Tri-Gramm-Score: MAX=7, FOUND=4, RATE=57 Das läßt sich dann auch leicht parsen oder so. Jetzt müßte ich nur noch eine vernünftige Wörter- und Namensliste herbekommen. Am besten auf deutsch, englisch und französisch, was warscheinlich 99% der Tri-Gramme abdecken sollte Greetings Michelle -- Linux-User #280138 with the Linux Counter, http://counter.li.org/ Michelle Konzack Apt. 917 ICQ #328449886 50, rue de Soultz MSM LinuxMichi 0033/3/88452356 67100 Strasbourg/France IRC #Debian (irc.icq.com)
Attachment:
signature.pgp
Description: Digital signature