Re: URLs aus übe r 200.000 Dateien extrahieren

To: debian-user-german@lists.debian.org
Subject: Re: URLs aus übe r 200.000 Dateien extrahieren
From: "Tilo Schwarz" <tilo@tilo-schwarz.de>
Date: Wed, 11 May 2005 00:37:55 +0200
Message-id: <[🔎] opsqkzthoma8ed4e@localhost.localdomain>
In-reply-to: <[🔎] 20050510144412.GL26074@freenet.de>
References: <[🔎] 20050510133445.GE26074@freenet.de> <[🔎] 4280C328.3090203@the-hidden-realm.de> <[🔎] 20050510144412.GL26074@freenet.de>

On Tue, 10 May 2005 16:44:12 +0200, Michelle Konzack<linux4michelle@freenet.de> wrote:

Am 2005-05-10 16:20:24, schrieb Jan Kesten:

Hallo,

auch wenn ich gleich wieder was an den Kopf geworfen bekomme: Python!


Nur habe ich keine Zeit jetzt auch noch Python oder gar Perl zu lernen.


Na dann woll'n wir mal ;-)

Ich hab kurz was zusammengebastelt, das folgendes generiert:

% python ~/tmp/mboxhttp.py 2005-04.mbs | head
http://www.debian.org/devel/wnpp/
http://www.daimlerchrysler.com/ir/smart_g
http://www.xmr3.com/rm/268038-23765141-2-4415-DE1-6D25/tilo@tilo-schwarz.de/HCSA7E9click
http://people.debian.org/~joey/3.0r5/
http://www.debian.org/releases/woody/releasenotes
http://www.debian.org/intro/organization
http://marc.theaimsgroup.com/
http://lists.debian.org/debian-legal/2003/debian-legal-200310/msg00136.html
http://lists.debian.org/debian-legal/2003/debian-legal-200310/msg00136.html
http://people.debian.org/~joey/3.0r5/

Ich hab das mal mit
% find -name "*.mbs" -exec python ~/tmp/mboxhttp.py {} \;

über meine ca. 10000 Mails laufen lassen. Da tut's, was nicht heißt, dases da keine Fehler mehr gäbe. (Die Tücke sind kaputte (multipart-) Mailsetc.).


% head -5 ~/tmp/mboxhttp.py

# MBox (oder Maildir, auskommentiert) reinsaugen und enthaltene http-urlsausspucken.

# - behandelt multipart-Message (ueberspringt kaputte Teile)
# - dekodiert quoted-printable/base64
# - behandelt (rudimentaer) als text/plain deklarierte
#   Dummbatz-M$-HTML-Mails

Programm ist angehängt, hoffe es hilft, Fragen gerne.


Viele Grüße,

    Tilo

Attachment: mboxhttp.py
Description: Binary data

Reply to:

Follow-Ups:
- Re: URLs aus über 200.000 Dateien extrahieren
  - From: David Haller <lists@dhaller.de>

References:
- URLs aus über 200.000 Dateien extrahieren
  - From: Michelle Konzack <linux4michelle@freenet.de>
- Re: URLs aus über 200.000 Dateien extrahieren
  - From: Jan Kesten <debian-lists@the-hidden-realm.de>
- Re: URLs aus über 200.000 Dateien extrahieren
  - From: Michelle Konzack <linux4michelle@freenet.de>

Prev by Date: Re: SSH welche Sicherheit
Next by Date: XML Schema editor
Previous by thread: Re: URLs aus über 200.000 Dateien extrahieren
Next by thread: Re: URLs aus über 200.000 Dateien extrahieren
Index(es):
- Date
- Thread