[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Spamassassin läuft ein bißchen



On 2004.02.14 09:03, Thorsten Haude wrote:
Moin,

* Andreas Schmidt wrote (2004-02-14 08:07):
>On 2004.02.14 00:35, Thorsten Haude wrote:
>>Hm. Da steht einiges dazu, was Bayesfilter sind. Für mein Problem
>>sehe
>>ich nur einen möglichen Hinweis: Daß ich zu wenig Ham gefüttert
habe.
>>
>man sa-learn sagt:
>" Build a significant sample of both ham and spam.
>          I suggest several thousand of each, placed in SPAM and HAM

>directories or mailboxes."
>Ich meine, auch mal irgendwo gelesen zu haben, dass das optimale
>Verhaeltnis etwa 1:1 sein sollte...

Tja, das ist jetzt leider bei mir anders, ich habe heute nacht zwei
Stunden Ham eingelesen. Kannst Du nicht noch erinnern, wo Du es
gelesen hast (damit ich weiß, ob ich es wieder unlernen sollte)?

Hmmm, war heute frueh noch nicht so wach, sonst haette ich gesehen, dass ich das auch unter man sa-learn gefunden habe, Abschnitt "Effective Learning":

Another thing to be aware of, is that typically you should aim to train with at least 1000 messages of spam, and 1000 ham messages, if possible. More is better, but anything over about 5000 messages does not improve accuracy significantly in our tests.

Be careful that you train from the same source -- for example, if you train on old spam, but new ham mail, then the classifier will think that a mail with an old date stamp is likely to be spam.

It's also worth noting that training with a very small quantity of ham, will produce atrocious results. You should aim to train with at least the same amount (or more if possible!) of ham data than spam.

>sa-learn --rebuild kann man ja vielleicht per cronjob nachts machen
>lassen. Alternativ boete sich auch eine Kaffeepause an...

Am Rebuild wird es nicht gelegen haben, der Prozeß hat nichts bewegt.
Keine Ahnung, vermutlich habe ich ein falsches Verzeichnis gewählt
oder eine ähnliche Kleinigkeit.

Wie ich schon sagte, ist normal. Hatte auch --showdots an und es tat sich erstmal gar nichts. Dann die eine msg mit --no-rebuild eingelesen, ging ruckzuck. Darauf time sa-learn --showdots --rebuild, da tat sich ueberhaupt nichts. Nach ca 5 min war er fertig und auch die Progressanzeige hatte einige Zeilen gefuellt (hab das nicht live verfolgt).

Was mich noch interesieren wuerde: in den letzten Wochen ist es scheinbar Mode geworden, den eigentlichen Spam in riesige Listen willkuerlich gewaehlter Woerter einzubetten (heute kam gerade der erste Spam, wo auch am Ende des Subject-Headers so ein Anhang war). Habe mal den Ausdruck "Bayes poison" dafuer gelesen. Die Bayes-Filter bestimmen ja Spamwahrscheinlichkeit, indem das Auftreten bestimmter Woerter nach dem Kontext bewertet wird; eine lange Liste sinnfreier Woerter koennte also den Filter schon stoeren. Jetzt ist aber die Frage, ob es sich vielleicht doch lohnen koennte, den Filter mit solchen Mails zu trainieren. Immerhin ist ja der eigentliche Spam doch immer aehnlich genug, so dass man da schon kontinuierliche Patterns haette. Oder wie sieht es aus, wenn man erstmal manuell diese Mails entgiftet und sie dann dem Filter vorwirft? Habe in letzter Zeit schoen gesammelt und per Procmail das meiste filtern koennen, aber laestig ist es eben doch...

Schoenen Gruss,

Andreas



Reply to: