[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

mbox und file



Title: mbox und file

Hallo!

 

Ich bin gerade darauf gestoßen, dass file merkwürdige Ergebnisse liefert, wenn man Mailboxen (Format mbox -- ich habe hier keine anderen) damit prüft. Für eine bestimmte Mailbox wurde mir "HTML document, ISO-8859 text" angezeigt. Wie kommt "file" darauf, dass es sich dabei um ein HTML-Dokument handeln könnte? Es gibt dort tatsächlich (aber nicht ausschließlich) HTML-Mails, aber die erste Zeile der Datei beginnt mit "From …".

 

Als Referenz habe ich jetzt die  mbox für diese Liste genommen:

 

******

$ file ~/Mail/Lists/Debian/Debian\ User

/home/pc/Mail/Lists/Debian/Debian User: Non-ISO extended-ASCII text, with very long lines

$ grep -i "^Content-Type:" ~/Mail/Lists/Debian/Debian\ User | grep -i html | sort -u

Content-Type: text/html

Content-Type: text/html;

Content-Type: text/html; charset="iso-8859-1"

Content-Type: text/html; charset=ISO-8859-1

Content-Type: text/html; charset=iso-8859-15

Content-Type: text/html; charset=iso-8859-2

Content-Type: text/html; charset="utf-8"

Content-Type: text/html; charset=utf-8

Content-Type: text/html; charset="UTF-8"

Content-Type: text/html; charset=UTF-8

Content-Type: text/html; charset="UTF-8"; name="bookmarks.html"

Content-Type: text/html; charset=windows-1252

******

 

Hier die Gegenprobe mit der merkwürdigen Datei:

 

******

$ file ~/Mail/merkwuerdig

~/Mail/merkwuerdig: HTML document, ISO-8859 text

$ grep -i "^Content-Type:" ~/Mail/merkwuerdig | grep -i html | sort -u

Content-Type: text/html;

Content-Type: text/html; charset=iso-8859-1

Content-type: text/html; charset=utf-8

Content-Type: text/html; charset="utf-8"

Content-type: text/html; charset=Windows-1252

******

 

In beiden mboxes gibt es also Mails mit dem Content-Type text/html -- aber file zeigt nur bei der einen "HTML document" an. Dort ist die letzte Mail "a multipart message in MIME format", und der letzte Teil ist tatsächlich HTML:

 

******

<snip>

------=_NextPart_000_00C1_01D3AD9B.35DC4300

Content-Type: text/html;

        charset="UTF-8"

 

<snip>

 

</body></html>

------=_NextPart_000_00C1_01D3AD9B.35DC4300--

******

 

Im anderen Fall hat die letzte Mail den Content-Type text/plain; charset="iso-8859-1". Kann es sein, dass file wirklich nach dem Format der letzten Mail geht, um den Dateityp einer mbox zu bestimmen? Das wäre doch ziemlich willkürlich, da sich der Dateityp mit jeder neu eingegangenen Mail ändern könnte. Ist das Absicht?

 

Schönen Gruß

 

Andreas

Attachment: pgpB6Uf_ctY2w.pgp
Description: PGP signature


Reply to: