[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: täglicher ht://dig-Lauf scheitert an 2 PDF-Dateien



Joerg Rossdeutscher schrieb:

http://localhost/doc/doc-html-w3/xhtml-modularization-20010410/xhtml-modularization.pdf

http://localhost/doc/doc-html-w3/xhtml11-20010531/xhtml11.pdf


Als ich vor einiger Zeit htdig mit einigen Zusatztools installiert habe,
las ich flüchtig nebenbei, daß htdig (oder eines der zusätzlichen
Tools?) aus Performancegründen nur die die ersten soundsoviel MB eines
Dokumentes indizieren. Das mag bei HTML prima klappen, bei "halben"
PDFen geht es natürlich in die Hose, weil alle PDF-Interpreter dann
gegen die Wand fahren.

Servus,

der erste ist < 500 kB und der zweite hat gar nur 55 kB; muß also ein anderes Problem sein.

Wegen des von Dir beschriebenen Effekts habe ich übrigens in meinem Privatarchiv die die Dokumentgrößte auf über 2 MB hochgesetzt. PDF scheint tatsächlich nur interpretierbar, wenn es bis zum Ende eingelesen wird. Das hat leider zur Folge, daß jeder Mist, der gar keinen Text enthält, und nicht über eine Dateiendung abgefangen werden kann (ich habe viele Mac- und Amiga-Dateien, die Dateiendungen zwecks Identifikation nicht nötig hatten), ebenfalls bis zum bitteren Ende eingelesen und durchsucht werden muß.


Viele Grüße,
Eberhard



Reply to: