Re: grep und RegEx

To: debian-user-german@lists.debian.org
Subject: Re: grep und RegEx
From: Helmut Wollmersdorfer <helmut.wollmersdorfer@gmx.at>
Date: Mon, 23 May 2005 00:59:04 +0200
Message-id: <[🔎] d6r2p3$nrr$1@sea.gmane.org>
In-reply-to: <[🔎] 20050520180328.GX9660@freenet.de>
References: <[🔎] 20050517233527.GK6162@freenet.de> <[🔎] 200505180837.38850.linux@houdek.de> <[🔎] 20050518102831.GF21878@freenet.de> <[🔎] 200505181331.22259.linux@houdek.de> <[🔎] 20050518143749.GW21878@freenet.de> <[🔎] d6hkdk$gjo$1@sea.gmane.org> <[🔎] 20050519101235.GE9660@freenet.de> <[🔎] d6i7n6$keb$1@sea.gmane.org> <[🔎] 20050520081338.CFAC12DF10@murphy.debian.org> <[🔎] 20050520180328.GX9660@freenet.de>

Michelle Konzack wrote:

Am 2005-05-20 10:10:38, schrieb erkan yanar:

On Thu, May 19, 2005 at 04:27:39PM +0200, Helmut Wollmersdorfer wrote:

Ich bau derzeit an einem Filter mittels regex in Perl, der tausendePatterns auf Files mit Millionen Zeilen anwenden soll. Mein ersterAnsatz mit den Testfiles (~2500 Patterns, ~3000 Zeilen) hat 4 min auf

Also bei meinen knapp über 600 benötige ich rund eine halbe Sekunde
mit procmail und BASH Script auf einem Sempron 2200 mit 256 MByte.

Für wieviele Zeilen? Perl würde in einer halben Sekunde etwa 20 - 50tausend Match-Trials der einfachen Sorte "if ( $line =~ m/$regex/ )"abarbeiten können, wobei $line durchschnittlich 200 Characters lang ist,und $regex ein (relativ kurzer, 5 - 50 Character) String ist.

einem Athlon XP2500 gebraucht, nach Tuning 58 sec. Durch einenausgefeilten Algorithmus bin ich jetzt auf 0.2 sec.

Kannst Du mal einen Verweis senden, wo man die Evolution deines Filters
nachvollziehen kann?

Ob Du es glaubst oder glaubst, mich würde das auch interessieren :-)

Wenn die Regex zum grossen Teil aus fixen Strings (z.B. Worte wie"Viagra", "buy", "free") bestehen, und die zu untersuchenden Daten einergewissen Syntax folgen (z.B. "wort1 wort2, wort3: wort4"), dannspeichert man die fixen Strings indiziert ab, und schaut mit $wort ganzeinfach nach, ob es existiert. Das ist sehr schnell. Wenn es nicht inden fixen Strings existiert, dann durchläuft man die restlichen "echtenRegex" (z.B. /f.{0,1}r.{0,1}(e.{0,1}){2}/i in einer Schleife.


Helmut Wollmersdorfer

Reply to:

References:
- grep und RegEx
  - From: Michelle Konzack <linux4michelle@freenet.de>
- Re: grep und RegEx
  - From: Matthias Houdek <linux@houdek.de>
- Re: grep und RegEx
  - From: Michelle Konzack <linux4michelle@freenet.de>
- Re: grep und RegEx
  - From: Matthias Houdek <linux@houdek.de>
- Re: grep und RegEx
  - From: Michelle Konzack <linux4michelle@freenet.de>
- Re: grep und RegEx
  - From: Helmut Wollmersdorfer <helmut.wollmersdorfer@gmx.at>
- Re: grep und RegEx
  - From: Michelle Konzack <linux4michelle@freenet.de>
- Re: grep und RegEx
  - From: Helmut Wollmersdorfer <helmut.wollmersdorfer@gmx.at>
- Re: grep und RegEx
  - From: erkan yanar <eyanar@stud.uni-frankfurt.de>
- Re: grep und RegEx
  - From: Michelle Konzack <linux4michelle@freenet.de>

Prev by Date: Re: Boot-Splash a la Kanotix? ...auch in testing einbaubar?
Next by Date: Re: Festplatten Temperaturmessung
Previous by thread: Re: grep und RegEx
Next by thread: Re: grep und RegEx
Index(es):
- Date
- Thread