[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Spammails von Spamarchive.org



Am 2004-06-01 02:19:04, schrieb Daniel Leidert:
>Am Di, den 01.06.2004 schrieb Michelle Konzack um 1:23:
>> Am 2004-05-31 23:05:39, schrieb Daniel Leidert:
>> 
>> >ACK. Der Bayes-Filter von SA fängt ja sowieso erst bei 200 angelernten
>> >Ham- und der gleiche Menge Spam-Mails an zu arbeiten.
>> 
>> Interessant, den ich habe spamassassin 2.63 erst lezten Monat 
>> installiert, sprich ich verwende ihn seit 3 Wochen und er hat 
>> mehr als 3000 SPAM gefiltert. Davon sind 7 kein Spam gewesen 
>> die ich mit 'sa-learn --ham' verfüttert habe.
>
>Dann arbeitet der Bayes-Filter noch nicht. Ein
># spamassassin --lint -D

  ____ (stdin) _________________________________________________________
 /
|  debug: Score set 0 chosen.
|  debug: running in taint mode? yes
|  debug: Running in taint mode, removing unsafe env vars, and resetting PATH
|  debug: PATH included '/home/michelle/bin', keeping.
|  debug: PATH included '/bin', keeping.
|  debug: PATH included '/sbin', keeping.
|  debug: PATH included '/usr/bin', keeping.
|  debug: PATH included '/usr/sbin', keeping.
|  debug: PATH included '/usr/X11R6/bin', keeping.
|  debug: Final PATH set to: /home/michelle/bin:/bin:/sbin:/usr/bin:/usr/sbin:/usr/X11R6/bin
|  debug: ignore: using a test message to lint rules
|  debug: using "/usr/share/spamassassin" for default rules dir
|  debug: using "/etc/spamassassin" for site rules dir
|  debug: using "/home/michelle/.spamassassin" for user state dir
|  debug: using "/home/michelle/.spamassassin/user_prefs" for user prefs file
|  debug: using "/home/michelle/.spamassassin" for user state dir
|  debug: bayes: 21493 tie-ing to DB file R/O /home/michelle/.spamassassin/bayes_toks
|  debug: bayes: 21493 tie-ing to DB file R/O /home/michelle/.spamassassin/bayes_seen
|  debug: bayes: found bayes db version 2
|  debug: Score set 3 chosen.
|  debug: Initialising learner
|  debug: is Net::DNS::Resolver available? no
|  debug: is DNS available? 0
|  debug: running header regexp tests; score so far=0
|  debug: running body-text per-line regexp tests; score so far=2.077
|  debug: bayes corpus size: nspam = 4755, nham = 20034
|  debug: uri tests: Done uriRE
|  debug: tokenize: header tokens for *F = "U*ignore D*compiling.spamassassin.taint.org D*spamassassin.taint.org D*taint.org D*org"
|  debug: tokenize: header tokens for *m = " 1086083565 lint_rules "
|  debug: bayes token 'somewhat' => 0.000356055592322965
|  debug: bayes token 'H*F:D*org' => 0.0960428947134029
|  debug: bayes: score = 0.00259285488725947
|  debug: using "/home/michelle/.spamassassin" for user state dir
|  debug: bayes: 28493 untie-ing
|  debug: bayes: 28493 untie-ing db_toks
|  debug: bayes: 28493 untie-ing db_seen
|  debug: Razor2 is not available
|  debug: running raw-body-text per-line regexp tests; score so far=2.077
|  debug: running uri tests; score so far=2.077
|  debug: uri tests: Done uriRE
|  debug: running full-text regexp tests; score so far=2.077
|  debug: Razor2 is not available
|  debug: DCCifd is not available: no r/w dccifd socket found.
|  debug: Current PATH is: /home/michelle/bin:/bin:/sbin:/usr/bin:/usr/sbin:/usr/X11R6/bin
|  debug: DCC is not available: no executable dccproc found.
|  debug: Pyzor is not available: pyzor not found
|  debug: all '*From' addrs: ignore@compiling.spamassassin.taint.org
|  debug: all '*To' addrs: 
|  debug: running meta tests; score so far=2.077
|  debug: is spam? score=-2.823 required=4 tests=BAYES_00,DATE_MISSING,NO_REAL_NAME
 \____________________________________________

>sollte Klarheit schaffen. Wenn in der Spam- oder Ham-Datenbank weniger
>als 200 Einträge sind, gibt er eine entsprechende Meldung aus, dass der
>Bayes-Filter nicht genutzt wird.

Ach ja ?

>> Seit einer Woche habe ich keinen FP gehabt...
>
>Nur interessahlber. Wofür steht FP?

False-Positives

>> Allerdings sind noch rund 70 SPAMS durchgerutscht die ich sofort 
>> an 'sa-learn --spam' verfütterte...
>
>Hatte ich auch eine Weile probiert. Das Problem war, dass die Trennung
>zwischen Ham und Spam nicht sehr deutlich war. Am Ende habe ich bei 3.5
>Spam-Punkten gefiltert. Bei Bogofilter ist die Trennung bei mir deutlich
>besser. SA dient nur dazu, dahinter alles abzuräumen.

Ich habe SA auf 4.0 gesetzt

>> Also der SPAM hat sich innerhalb von drei ochen drastisch reduziert...
>
>Möglicherweise arbeiten die Datenbanken für Spam und Ham unabhängig
>voneinander. Aber mein Wissensstand ist: SA benötigt für beides 200

In der man/docu stehen 2000

>Mails, dann beginnt der Bayes-Filter zu arbeiten. Das merkt man dann
>auch, wenn man sich etwas mehr Header-Output geben lässt.
>
>> >Bogofilter vor SA hat bei mir zu einer deutlichen Verbesserung des
>> >Ergebnisses beigetragen.
>> 
>> ???  Durchgerutschte Mails kannste direkt an 'sa-learn --spam' 
>> verfüttern. Das recht vollständig aus.
>
>Ich weiß. Für mich funktioniert aber die andere Lösung besser. Und wie
>schon angemerkt wurde, ist Bogofilter deutlich angenehmer für die
>Systemresourcen.

Da ich adsl 512 zu hause habe, checke ich die 176 Mailaccounte 
alle 10 Minuten... Da brauche ich mich um Systemüberlastung nicht 
beklagen. Vor allem mußte ich vor zwei Wochen wegen meiner Samsung 
Festplatten eine neues MB+CPU+RAM kaufen. Duron 1600 mit 128 MB.
Der langweilt sich bei den 3800 Mails pro Tag (ist nur ein FileServer)

Ich kompiliere sogar über Netzwerk...

>MfG Daniel

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917                  ICQ #328449886
                   50, rue de Soultz         MSM LinuxMichi
0033/3/88452356    67100 Strasbourg/France   IRC #Debian (irc.icq.com)

Attachment: signature.pgp
Description: Digital signature


Reply to: