Christian Schmidt schrieb:
Keine Angst: Das ist nur ein Konfigurationsfehler. Auf unserem Webserver an der Uni konnten wir diesen beheben, indem wir xpdf installierten und htdig anwiesen, PDF-Dateien damit zu parsen.
Hallo Christian, also schlicht einen anderen Parser genommen?Bei meinem privaten Archiv hatte ich auch schon mit den beiden Parsern experimentiert und festgestellt, daß der eine von beiden mehr (einen prozentual höheren Anteil) von PDF-Dokumenten erkennt, während der andere den Text auf "zusammenhängendere" Art und Weise herauszieht.
PDF scheint doch sehr komplex und vielfältig zu sein. Das merkt man ja schon, wenn man mit einem alten AcrobatReader an ein neues Dokument geht: was einem da an Color Spaces und anderen Sachen als Fehler um die Ohren gehauen wird!
Erst mal vielen Dank! Eberhard