[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: URLs aus übe r 200.000 Dateien extrahieren



On Tue, 10 May 2005 16:44:12 +0200, Michelle Konzack <linux4michelle@freenet.de> wrote:

Am 2005-05-10 16:20:24, schrieb Jan Kesten:

Hallo,

auch wenn ich gleich wieder was an den Kopf geworfen bekomme: Python!

Nur habe ich keine Zeit jetzt auch noch Python oder gar Perl zu lernen.

Na dann woll'n wir mal ;-)

Ich hab kurz was zusammengebastelt, das folgendes generiert:

% python ~/tmp/mboxhttp.py 2005-04.mbs | head
http://www.debian.org/devel/wnpp/
http://www.daimlerchrysler.com/ir/smart_g
http://www.xmr3.com/rm/268038-23765141-2-4415-DE1-6D25/tilo@tilo-schwarz.de/HCSA7E9click
http://people.debian.org/~joey/3.0r5/
http://www.debian.org/releases/woody/releasenotes
http://www.debian.org/intro/organization
http://marc.theaimsgroup.com/
http://lists.debian.org/debian-legal/2003/debian-legal-200310/msg00136.html
http://lists.debian.org/debian-legal/2003/debian-legal-200310/msg00136.html
http://people.debian.org/~joey/3.0r5/

Ich hab das mal mit
% find -name "*.mbs" -exec python ~/tmp/mboxhttp.py {} \;
über meine ca. 10000 Mails laufen lassen. Da tut's, was nicht heißt, das es da keine Fehler mehr gäbe. (Die Tücke sind kaputte (multipart-) Mails etc.).

% head -5 ~/tmp/mboxhttp.py
# MBox (oder Maildir, auskommentiert) reinsaugen und enthaltene http-urls ausspucken.
# - behandelt multipart-Message (ueberspringt kaputte Teile)
# - dekodiert quoted-printable/base64
# - behandelt (rudimentaer) als text/plain deklarierte
#   Dummbatz-M$-HTML-Mails

Programm ist angehängt, hoffe es hilft, Fragen gerne.


Viele Grüße,

    Tilo

Attachment: mboxhttp.py
Description: Binary data


Reply to: