[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Bayes für bizzare E-Mail-Adressen ?



Michelle Konzack wrote:
Weil bei den 5000 Wörtern die ich in Tri-Gramme zerlegt habe, nur 417 rausgekommen sind... die anderen waren alle doppelt.

Ach so ..., sind das wirklich nur so wenig? Das wäre gut, denn es würde die
Wahrscheinlichkeit erhöhen unerwünschte Trigramme zu erkennen. Sind die
5000 Wörter aus dem Umgangssprachlichen oder sind es Namen? Letzteres
wäre etwas sinnvoller...

Einen localpart in trigramme zerlegen sind Sekundenbruchteile...
Dann brauchste nur die Tri-Gramme in der Datenbank suchen. Allerdings sollte das nicht nach gefundenen Tri-Grammen gescort werden sondern nach Prozent.

Der mail-Header würde dann ungefähr so aussehen:

X-Email-Tri-Gramm-Score: 4 of 7 found, 57%

Ich würde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 50%
Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei Deiner
anteiligen Scoreberechnung).


--
Mit freundlichen Gruessen
Bjoern Schmidt



Reply to: