[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Wo gibt es die mbox Archive zur debian mailing liste?



-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Michelle Konzack wrote:

| prinzipiel geht das nur, wenn jeder von euch die Mailbox in
| Maildir verwandelt und dann zu jeder Message die "Message-ID: "
| grept.

Nur was hab ich dadurch gewonnen? Soweit ich weiss, haben
Verzeichnisse und Dateien in einem Maildir leider nicht die
Message-ID im Namen (man korrigiere mich wenn dem doch so sein
sollte). Dann muss ich Tausende von einzelnen Dateien 'greppen' und
besonders schnell wird das dann auch nicht werden..

Mein Ansatz war ja folgender:

a) ich erstelle aus der mbox eine Liste mit allen Message-IDs die in
der mbox vorhanden sind (das mache ich mit einen Python Skript und
dessen email-Klasse um gleich noch ein paar weitere Dinge zu prüfen,
ein simples grep ist da wesentlich schneller)

b) die Liste enthält dann pro Zeile genau eine Message-ID und wird
mittels bzip2 gepackt (~1-1.5 MByte bei meiner Monster-Mailbox mit
dem gesamten DUG Archiv)

c) ein zweites Skript dient dann zum Abgleich dieser Liste mit einer
vorhandenen mbox, dazu liest es die Liste mit den Message-IDs
(direkt als bz2) ein und geht dann durch die mbox und sucht alle
Mails heraus, die nicht in der Liste standen und packt diese
entweder in in bz2 Archiv oder auf die Standard-Ausgabe.

d) das Mailarchiv mit dem 'diff' kann ich dann per Skript wieder zu
meinem Archiv hinzufüttern und dann eine neue ID-Liste erstellen lassen.

Anmerkung gleich dazu: Das Verwenden der email-Klasse führt dazu,
dass das Parsen einer sehr großen mbox relativ lange dauert - nur
war ich für das Vergleichs-Tool einfach zu faul, mir einen eigenen
Parser zu schreiben - hole ich aber nach, wenn es zu langsam werden
sollte.

Anmerkung 2: Ich kann dem Skript auch noch Support für Maildir mit
einbauen, das sollte relativ problemlos gehen, dann kann es dirket
ein Maildir einlesen und gegen die ID-Liste vergleichen.

An Torsten: Du hast ein Archiv als mbox? Würdest Du dich dann
vielleicht (bei Lust und Laune) als Testopfer hergeben? Das Skript
ist in Python geschrieben und braucht ausser dem Interpreter nichts
an weiteren Modulen, Paketen etc.

Cheers,
Jan

- --
GPG-KeyID: 82201FC4
Available at my public keyserver www.gpg-keyserver.de
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (MingW32)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org

iD8DBQFBXS5gvvmCkIIgH8QRAqwxAKCQLYJaBU+KHNRtWR9niFTa3bmFlQCfYFE/
uxhq3JRTKV8jVJ6ob6VyC04=
=FEsw
-----END PGP SIGNATURE-----



Reply to: