[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Bayes für bizzare E-Mail-Adressen ?



-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Michelle Konzack wrote:

| Aber wieviele SPAMer verwenden weniger als 7 Zeichen mit Müll ?
| Habe keine einzige gefunden. die waren alle länger.

Sind doch bei mir einige, 3-5 Zeichen wild gewürfelt und gemixt.

| Jetzt müßte ich nur noch eine vernünftige Wörter- und Namensliste
|  herbekommen. Am besten auf deutsch, englisch und französisch,
| was warscheinlich 99% der Tri-Gramme abdecken sollte

Das Problem hier wird sein, dass sobald man anfängt danach zu
filtern auch die Spammer anfangen werden, ihre Mailadressen aus
gültigen Trigrammen zusammenzusetzen. Das sollte für die weniger
Arbeit werden als es für uns sein wird danach zu analysieren.

| Ja ich... kann keine Schlange progrmmieren... ...nur C, ASM und
| PHP + ein bischen Tcl/Tk.

Naja, auch in C sollte das ja kein Problem darstellen.

Mein (bisheriges) kleines QAD-Skript macht folgendes: Mit einem
Programm werden kann man komplette mbox-Dateien lesen und alle From:
Adressen in eine Blacklist oder eine Whitelist eintragen, die in
einer PostgreSQL Datenbank zu Hause sind. Dabei werden die
Realname-Einträge beibehalten, jedoch caseinsensitive.

bwlist white /foo/bar/mbox

Mit zwei weiteren Tools können die dann abgefragt werden, ob die
Mail in der entsprechenden Liste steht (exitcode 1) oder nicht
(exitcode 0).

./wlist.py "Jan Kesten <debian-lists@the-hidden-realm.de>"

Habe mal ein paar Timings laufen lassen und mich doch gegen einen
Deamon entschieden: ein Deamon-Fütterer (ebenfalls in Python)
braucht laut time zum starten 80ms. Die beiden Tools wlist/blist
brauchen insgesammt 120ms (auf einem K7-500) um die Datenbankmodule
zu Laden, den Query abzusetzen und dann sich zu beenden. Damit kann
ich leben.

Denkbar wäre noch, dass man z.B. den Test auf den Realname wegnimmt
und nur auf die reine Mailadresse schaut.

Cheers,
Jan

- --
GPG-KeyID: 82201FC4
Available at my public keyserver www.gpg-keyserver.de
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (MingW32)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org

iD8DBQFBRYMzvvmCkIIgH8QRAjoMAJ48LN/hZKF+47a640C5rNUJ9nmh6wCcD3ce
fQ5gH1QuXvm5nhVOsf0u0ys=
=uN5Z
-----END PGP SIGNATURE-----



Reply to: