Hallo, Jörg! > Werden die Postings im Nachhinein noch aufbereitet (Spam entfernen, > zerbrochene Threads zusammenkleben)? Da antworte ich mit einem entschiedenem vielleicht :-) Zum einen hab ich die Mails schon etwas vorgefiltert und einiges was ganz offensichtlich Spam war rausgeworfen, aber aus verständlichen Gründen zum anderen bei weitem nicht alle Mails durchgesehen. Als ich damals auf die Idee mit den Paketen kam, war ein Grund der, eben genau solche Updates anbieten zu können, sprich fehlende Mails mit aufzunehmen und eventuellen Spam zu löschen (gab viele Diskussionen im Vorfeld). Es gibt auch einige Mails, die ganz andere Probleme haben, wie z.B. vollkommen kaputte Date-Header, wie sortiert man diese richtig ein? Als ein Lösungsansatz haben alle meine Mails einen zusätzlichen Header, der sie mit einer eindeutigen ID versieht (Message-IDs sind bei kaputten Threads da nicht soo hilfreich). In der ersten Fassung der Archive sind es 'nur' 'bessere' mboxen - sprich was Threads angeht ist das erstmal (mir) egal. Aber es wird dann auch seperate Pakete/Skripte geben, die auf diesen aufbauen und dann solche Dinge wie Volltextsuche oder Webfrontends bieten sollen. Da wird das Thema Thread wieder sehr interessant und eine Möglichkeit ist das nachträgliche Editieren der entsprechenden Header (und das markieren dieser Mail als verändert, damit man zwischen Original und Fälschung unterscheiden kann - denn IMHO einzig wirklich richtig ist das Reparieren des Inreply-To-Headers). Auch in Planung und halbfertig sind da noch ein Sync-Tool, welches die Datenbestände abgleichen und so zur Vollständigkeit beitragen soll und ein Tool, welches die Bestände in Maildir wandelt (oder das Bereitstellen der Pakete im Maildir-Format, was ich persönlich aber für ungeschickt halte). Und ein 'Bugtracking' zum Melden von Spammails und zerbrochenen Threads. Es gibt also viel zu tun :-) Aber was tut man als Datensammler nicht alles? Cheers, Jan
Attachment:
signature.asc
Description: OpenPGP digital signature