[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: URLs aus über 200.000 Dateien extrahieren



Michelle Konzack wrote:

> kennt jemand ein Tool, mit dem ich aus über 1.800.000 Mail-
> Dateien URL's automatisch extrahieren kann ?  Diese sollen
> dann in eine einzige Datei geschrieben, sortiert und unified
> werden.  Ein Problem ist, das unzälige Mails "base64" oder
> "quoted-printable"

Hallo,

auch wenn ich gleich wieder was an den Kopf geworfen bekomme: Python!
Dort gibt es die schönen Klassen mailbox und email (und ja, mailbox kann
auch Maildir lesen - um gleich einer Frage vorzubeugen). Und die eMail
Objekte können dann alles was man 'richtig' darstellen kann auch
decodieren - und die URLs rauspicken ist dann ein Fall für regex :-)

Viel Spass,
Jan

Attachment: signature.asc
Description: OpenPGP digital signature


Reply to: