Re: [OT] Argument list too long beim kopieren vieler Dateien [OT]
Peter Wiersig schrieb:
On Thu, Aug 03, 2006 at 05:53:04PM +0200, Christian Frommeyer wrote:
Am Donnerstag 03 August 2006 17:48 schrieb Peter Wiersig:
Du weisst das man Bayes-Filter nicht mit alten Daten fuettern
soll?
Die Mails sind fast ausschliesslich Mails diesen Jahres (diverse
Mailinglisten) ...
Echt nicht? Dann liegen die 60.000 Spam-Mails hier ja völlig
umsonst rum...
Wie alt sind denn die, und wie ist dein Verhältnis Spammails zu Hammails
ca?.
(Bei mir ca. < 300 Spam zu ~60000 ham) (Fast ausschliesslich Listenmails
mit <1% priv. Mails) ...
Bei mir wird das meiste momentan mittels Postfix restrictions
rausgefiltert, das scheint immer noch das effektivste zu sein (s.u. bei
Interesse).
http://spamassassin.apache.org/full/3.0.x/dist/doc/sa-learn.html#effective_training
Zum einen wandelt sich auch Spam relativ haeufig, zum anderen
werden die Jahreszahlen dann zu hoch bewertet.
Ich trainiere meine Filter lieber nur mit aktuellen Daten. Am
effektivsten lernt z.B. POPFile nur wenn dieser Fehler macht. In
den Filter von SA habe ich noch nicht allzutief hineingeschaut,
wuerde aber auf Grund meines Kenntnisstands von Bayes-Filtern die
auto-learn Funktion nicht aktivieren.
Wieso nicht? mit manueller Korrektur bei "Falschentscheidungen"?
Ein Nachteil ist die "AWL-Score" (autowhiteliste) die bei mir bei Spams
an die Mailinglisten immer wieder dazwischenfunkt.
Der Bayes-Test liegt bei mir sehr oft goldrichtig (vor allem bei
BAYES_99), false-positives hatte ich hierdurch bis jetzt noch nicht.
Andererseits rutschen einige neuere Spammails durch bei denen nur
BAYES_40 anschlägt.
Der Grossteil meines Spams wird an anderen Merkmalen als dem Body
klassifiziert und ich erlebe in den letzten Wochen einem Zug der
Spammer die versuchen speziell Bayes Filter zu umgehen. Schon
aufgefallen, das viele Worte in Betreffzeilen einen
Linux/OSS-Software Bezug erhalten?
Solchen Spam habe ich bis jetzt nicht bemerkt ...
Peter
Grüsse
MH
btw: ich setzte SA aus unstable ein (auf dem Server), die Abhängigkeiten
sind hier ja nicht zu wild ...
benutzt ihr eigentlich sa-update?
Hat jemand eine "Rulesammlung regex f. Postfix" um "backscatter" der
verbreiteten "Virusrückmeldungen" rauszufiltern (auch auf japanisch ;-) ).
pflogsumm /var/log/mail.log
message bounce detail (by relay)
--------------------------------
127.0.0.1[127.0.0.1] (total: 1)
1 5.7.1 Message content rejected, UBE, id=00942-07 (in reply ...
message reject detail
---------------------
RCPT
Helo command rejected: Dont use my IP Address go away (total: 2)
1 81.185.155.186
1 210.105.42.233
Helo command rejected: need fully-qualified hostname (total: 4)
1 62.65.183.35
1 fastres.net
1 124.106.233.21
1 219.135.156.98
Recipient address rejected: User unknown in local recipient table (total: 1) 1 43822892.4020408@subdomain.dyndns.org
Sender address rejected: Domain not found (total: 1)
1 unospecialduties@mail2senegall.com
Sender address rejected: undeliverable address (total: 2)
1 gassmae@actran.com
1 rige@kempler.com
message reject warning detail: none
message hold detail: none
message discard detail: none
smtp delivery failures: none
Warnings
--------
smtpd (total: 5)
2 smtpd_peer_init: 81.215.200.161: address not listed for hostnam...
1 smtpd_peer_init: 124.106.233.21: address not listed for hostnam...
1 smtpd_peer_init: 68.93.150.140: address not listed for hostname...
1 Unable to look up MX host for mail2senegall.com: Host not found
Reply to: