Re: [OT] Wieviel Spam und HAM ist gut für SA?
Torsten Geile schrieb:
Hallo,
ich möchte meinem SA gerne ein paar Spammails und natürlich auch
Hammails beibringen. Mein mbox Spamordner ist ungefähr 110MB groß. Den
würde ich gerne durch SA jagen, befürchte aber, dass dies den Mailserver
dratsisch in die Knie zwingt, wenn er eine solch große Datenbank bei
jedem Mailcheck durchsuchen muss. Dazu wird ja noch empfohlen, eine
gleiche Menge an Ham zu trainieren. Was ist denn best practice, um SA
richtig zu trainieren?
btw:
Mindestens sind jeweils 200 (verwertbare) Mails erforderlich (Sieht man
im Debug-Log wenn es nicht erreicht ist).
Am besten ist es imho SA mit *allen* Mails zu trainieren (wobei sich
Experten streiten ob es sinnvoll ist dies mit Mailinglisten Mails zu tun
die "Spamsamples" enthalten können, wie z.B. bei der SA-users ...).
Das trainieren mittels sa-learn ist sehr CPU-intensiv und empfiehlt sich
bei einem ausgelasteten Server evtl. in den weniger produktiven Zeiten
(nachts etc.) durchzuführen. Desweiteren bringt es wohl nicht allzu viel
jahrealten Spam zu lernen, da sich Spam ständig wandelt, also wäre es
imho ok, die Spammails der letzten 3- max. 6 Monate zu lernen.
Bei hammails kann man imho auch ältere Mails an sa-learn verfüttern ...
btw:
Lerne hier alle Hammails (~60K) und "relearne" auch regelmässig die
Spammails die zwar "aussortiert" werden (nach /var/lib/amavis/... aber
oft z.B. nur BAYES_50 haben) dies scheint die Bayes-Erkennung positiv zu
beeinflussen ...
Gruß, Torsten
hth
MH
Reply to: