Re: Spammails von Spamarchive.org
On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote:
> Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > >
> > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > > Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > > www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse
> > > *.gz Archive gesaugt (insgesamt ~950 MB)
> >
> > Hallo,
> > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für
> > diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle
> > mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails
> > völlig aus.
>
> IMHO ist auch das für den Bayes-Filter unnötiger Overkill, wenn
> zusätzlich Bogofilter läuft. Razor, Pyzor und DCC helfen, altbekannten
> Spam auszusortieren. Werden dann noch passende Config-Variablen für SA
> und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
> Erfahrung hervorragend.
Läuft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen. Denn es soll
ja erkannt werden, welche Mails für dich persönlich ham/spam sind. Z.B.
könnte für einen selbst der monatliche Newsletter eines Freemail
Dienstes interessant sein, für jemand anderen ist die gleiche Mail
jedoch spam.
Auch sollte sich die Anzahl der ham und spam mails nicht zu stark
unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB
ham mails, kann es gut sein, dass die spam Erkennung zu scharf
verläuft und so ham mails als spam klassifiziert werden.
--
Reply to: