[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Spammails von Spamarchive.org



On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote:
> Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > > 
> > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > > Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > > www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse
> > > *.gz Archive gesaugt (insgesamt ~950 MB) 
> > 
> > Hallo,
> > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für
> > diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle
> > mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails
> > völlig aus.
> 
> IMHO ist auch das für den Bayes-Filter unnötiger Overkill, wenn
> zusätzlich Bogofilter läuft. Razor, Pyzor und DCC helfen, altbekannten
> Spam auszusortieren. Werden dann noch passende Config-Variablen für SA
> und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
> Erfahrung hervorragend.

Läuft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen. Denn es soll 
ja erkannt werden, welche Mails für dich persönlich ham/spam sind. Z.B. 
könnte für einen selbst der monatliche Newsletter eines Freemail 
Dienstes interessant sein, für jemand anderen ist die gleiche Mail 
jedoch spam.

Auch sollte sich die Anzahl der ham und spam mails nicht zu stark 
unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB 
ham mails, kann es gut sein, dass die spam Erkennung zu scharf 
verläuft und so ham mails als spam klassifiziert werden.


-- 



Reply to: