[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: ML-Header -> Archiv-Link



Hallo, Jörg!

> Werden die Postings im Nachhinein noch aufbereitet (Spam entfernen, 
> zerbrochene Threads zusammenkleben)?


Da antworte ich mit einem entschiedenem vielleicht :-)

Zum einen hab ich die Mails schon etwas vorgefiltert und einiges was
ganz offensichtlich Spam war rausgeworfen, aber aus verständlichen
Gründen zum anderen bei weitem nicht alle Mails durchgesehen.

Als ich damals auf die Idee mit den Paketen kam, war ein Grund der, eben
genau solche Updates anbieten zu können, sprich fehlende Mails mit
aufzunehmen und eventuellen Spam zu löschen (gab viele Diskussionen im
Vorfeld).

Es gibt auch einige Mails, die ganz andere Probleme haben, wie z.B.
vollkommen kaputte Date-Header, wie sortiert man diese richtig ein?

Als ein Lösungsansatz haben alle meine Mails einen zusätzlichen Header,
der sie mit einer eindeutigen ID versieht (Message-IDs sind bei kaputten
Threads da nicht soo hilfreich).

In der ersten Fassung der Archive sind es 'nur' 'bessere' mboxen -
sprich was Threads angeht ist das erstmal (mir) egal. Aber es wird dann
auch seperate Pakete/Skripte geben, die auf diesen aufbauen und dann
solche Dinge wie Volltextsuche oder Webfrontends bieten sollen. Da wird
das Thema Thread wieder sehr interessant und eine Möglichkeit ist das
nachträgliche Editieren der entsprechenden Header (und das markieren
dieser Mail als verändert, damit man zwischen Original und Fälschung
unterscheiden kann - denn IMHO einzig wirklich richtig ist das
Reparieren des Inreply-To-Headers).

Auch in Planung und halbfertig sind da noch ein Sync-Tool, welches die
Datenbestände abgleichen und so zur Vollständigkeit beitragen soll und
ein Tool, welches die Bestände in Maildir wandelt (oder das
Bereitstellen der Pakete im Maildir-Format, was ich persönlich aber für
ungeschickt halte). Und ein 'Bugtracking' zum Melden von Spammails und
zerbrochenen Threads.

Es gibt also viel zu tun :-) Aber was tut man als Datensammler nicht alles?

Cheers,
Jan




Attachment: signature.asc
Description: OpenPGP digital signature


Reply to: