Re: procmail--Sucheinvertieren

To: debian-user-german@lists.debian.org
Subject: Re: procmail--Sucheinvertieren
From: Andreas Schmidt <andy@space.wh1.tu-dresden.de>
Date: Sat, 29 May 2004 16:28:39 +0200
Message-id: <[🔎] 20040529142839.GC11490@rocket>
In-reply-to: <[🔎] 200405271256.i4RCuASq028714@tux.proesdorf.de> (from d.proesdorf@gmx.de on Thu, May 27, 2004 at 14:56:10 +0200)
References: <[🔎] 20040527080933.GC15306@rocket> <[🔎] 200405271256.i4RCuASq028714@tux.proesdorf.de>

(Hab das zwar gestern mittag schonmal geschickt, scheint aber nicht
durchgekommen zu sein. Also once again...)

On 2004.05.27 14:56, Dirk Prösdorf wrote:

Andreas Schmidt <andy@space.wh1.tu-dresden.de> wrote:
> ich will procmail nach ganzen Woertern filtern lassen, die _nicht_
> vorhanden
> sind. Fuer einzelne Zeichen ist das klar, das geht ohne weiteresmit
>        [^verbotene_zeichen]
> Aber wie sieht das fuer ganze Woerter aus, die Teil eines
Suchstrings
> sind?
Mal abgesehen davon, dass ich Tools wie SpamAssassin für dieSpamsuche
als wesentlich evektiver halte als unbedingt eine Procmailregel,

Im allgemeinen stimme ich Dir da schon zu, mein Spamschutz istentsprechend

komplex:

Ich hole Mail von einem externen Account und sortiere schon mal dieSachenaus, die vom dort laufenden Filter markiert worden sind. Dann laeuftbei mir

bogofilter, was dort durchkommt, geht durch spamassassin (und wird

gegebenenfalls bogofilter auch beigebracht). Erst danach setzen dieeigenen

procmail-rules ein.
Der Grund, warum ich nicht alles gleich per sa-learn an spamassassin

weiterreiche, ist, dass die Spams, die durchkommen, oft rechthinterhaeltiggestaltet worden sind. Die Sache mit der riesigen Liste unsinnigerWoerter vorund/oder hinter dem Werbetext, gerne auch im Attachement oder in ge-fake-tenHTML-Tags ist ja schon ein alter Hut. Trotzdem bilde ich mir ein, dassBayes-

Filter dadurch verwirrt werden koennten.

Noch schlimmer sind die Spams, die eine Liste von irrelevantenSprichwoertern,Witze oder andere "echte" Texte enthalten. Hier sind die Woerter ineinemrealen Kontext, wie sie eben auch in jeder regulaeren Mail stehenkoennten.Wenn es sich bei diesen Texten nicht gerade um Nigeria-Stories,Aktienangebote etc. handelt, mag ich solche

Mails eigentlich eher nicht an spamassassin verfuettern.

In diesen Faellen, denke ich, kommt man IMHO mit ein paar (OK, sind inden

letzten Monaten schon ein paar mehr geworden :-) procmail-rules besser.

Grundannahme ist, dass alles moegliche Fake sein kann -- bis auf dieURL,schliesslich wollen die Leute ja etwas verkaufen. Und mit ein bisschenAufwandkann man doch auf regular expressions kommen, die allgemein genug sind,umsowohl Spamaufkommen als auch Kolateralschaeden weitestg(debian|foo|bar)ehendzu reduzieren. Na gut, gibt zwar auch false positives, aber da der vondenprocmail-rules entdeckte Spam ja nicht sofort nach /dev/null kommt,ist der

Schaden auch nicht so gross...

kannst
Du mit ! auf das Nichtzutreffen einer Regel testen (siehe unten).

> daher etwas wie
>        :0B
>        *  $http://([^/]*\.)*${TLD}(NOT debian)*\.${TLD}
>        $SPAM

|        :0B
|        *  !(debian|foo|bar)
|        *  $http://([^/]*\.)*${TLD}(\.[^/]+)*\.${TLD}
|        $SPAM

Das hatte ich auch schon gemacht. Hatte gestern sogar dafuer eineBegruendungauf der Zunge, warum ich diese Variante nciht fuer optimal halte, binmir aber

nicht sicher, ob die wirklich so plausibel ist.

Das Problem ist ja, dass gelegentlich auch Spam an die Liste geschicktwird.Die Sachen haben dann also genau wie alle anderen Mails den "Stempel"der

Liste, mit dem Link zur FAQ.
Fehler koennen jetzt dadurch auftreten, dass procmail eben nicht wie
	cat mail | egrep -v "(debian|foo|bar)"  | egrep "$SPAMRULE"

zeilenweise arbeitet, sondern alle Regeln auf die gesamte Mailangewandtwerden. Die erste Regel wuerde also den Link zur FAQ finden und deshalb"No

match" ergeben; der Spam kaeme daher durch.

Es waere daher sinnvoller, wenn man mit nur einer einzigen Regelauskommen

koennte. Notfalls waere also wohl wirklich so etwas wie
$http://([^/]*\.)*${TLD}\.([^d][^e][^b][^i][^a][^n]).*\.${TLD}
guenstiger -- wobei das doch recht unelegant aussieht.

Schoenen Gruss,

Andreas

Reply to:

Follow-Ups:
- Re: procmail--Sucheinvertieren
  - From: Michelle Konzack <linux4michelle@freenet.de>

References:
- procmail--Sucheinvertieren
  - From: Andreas Schmidt <andy@space.wh1.tu-dresden.de>
- Re: procmail--Sucheinvertieren
  - From: Dirk Prösdorf <d.proesdorf@gmx.de>

Prev by Date: Re: Unterschied zwischen XFS und EXT3
Next by Date: Das Problem mit SID
Previous by thread: Re: procmail--Sucheinvertieren
Next by thread: Re: procmail--Sucheinvertieren
Index(es):
- Date
- Thread