[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: täglicher ht://dig-Lauf scheitert an 2 PDF-Dateien



Christian Schmidt schrieb:

Keine Angst: Das ist nur ein Konfigurationsfehler. Auf unserem
Webserver an der Uni konnten wir diesen beheben, indem wir xpdf
installierten und htdig anwiesen, PDF-Dateien damit zu parsen.

Hallo Christian,

also schlicht einen anderen Parser genommen?

Bei meinem privaten Archiv hatte ich auch schon mit den beiden Parsern experimentiert und festgestellt, daß der eine von beiden mehr (einen prozentual höheren Anteil) von PDF-Dokumenten erkennt, während der andere den Text auf "zusammenhängendere" Art und Weise herauszieht.

PDF scheint doch sehr komplex und vielfältig zu sein. Das merkt man ja schon, wenn man mit einem alten AcrobatReader an ein neues Dokument geht: was einem da an Color Spaces und anderen Sachen als Fehler um die Ohren gehauen wird!


Erst mal vielen Dank!
Eberhard



Reply to: