htDig indiziert keine Word- und keine PDF-Dateien
Hallo Liste,
ich hoffe, unter Euch ist jemand, die/der sich mit htDig auskennt?
Auf meinem früheren Debian-sarge Fileserver hatte ich htDig verwendet und es
funktionierte wunderbar.
Das wollte ich jetzt auch auf meinem neuen etch-System realisieren. Es
funktioniert auch einigermassen (außer Problemen mit den deutschen
Umlauten) - aber es werden nur html- und txt-Dateien indiziert.
Dabei habe ich meiner Meinung nach alle Konfigurationen auch für die
Bearbeitung von Word- und PDF-Dateien korrekt eingestellt.
In der /etc/htdig/htdig.conf sind die externen Parser eingetragen:
----------------------------------------------------------------
external_parsers: application/msword /usr/local/bin/parse_doc.pl \
application/postscript /usr/local/bin/parse_doc.pl \
application/pdf /usr/local/bin/parse_doc.pl
----------------------------------------------------------------
In /usr/local/bin/parse_doc.pl sind die Umwandlungsprogramme eingetragen:
----------------------------------------------------------------
# set this to your MS Word to text converter
# get it from: http://www.fe.msk.ru/~vitus/catdoc/
#
$CATDOC = "/usr/bin/catdoc";
#
# set this to your WordPerfect to text converter, or /bin/true if none
available
# this nabs WP documents with .doc suffix, so catdoc doesn't see them
#
$CATWP = "/bin/true";
#
# set this to your RTF to text converter, or /bin/true if none available
# this nabs RTF documents with .doc suffix, so catdoc doesn't see them
#
$CATRTF = "/bin/true";
#
# set this to your PostScript to text converter
# get it from the ghostscript 3.33 (or later) package
#
$CATPS = "/usr/bin/ps2ascii";
#
# set this to your PDF to text converter, and pdfinfo tool
# get it from the xpdf 0.90 package at http://www.foolabs.com/xpdf/
#
$CATPDF = "/usr/bin/pdftotext";
$PDFINFO = "/usr/bin/pdfinfo";
------------------------------------------------------------------
Anstelle von parse_doc.pl habe ich zuvor das gleiche auch mit doc2html.pl und
pdf2html.pl versucht. Ebenfalls ohne Ergebnis.
Dann habe ich ein Verzeichnis mit einem Word-Dokument und einem PDF versehen
und die htdig.conf so eingerichtet, daß ausschliesslich dieses Verzeichnis
indiziert wird. Aber ein rundig vvvvv ergibt u.a. diese Meldung:
-----------------------------------------------------------------
...
Deleted, no excerpt: ID: 8 URL:
http://kether.heimo/~ponnath/texte/test/bilderberg.pdf
...
Deleted, no excerpt: ID: 7 URL:
http://kether.heimo/~ponnath/texte/test/Lorem_ipsum_dolor.doc
...
----------------------------------------------------------------
Aus irgend einem Grund werden also die beiden Testdateien nicht indiziert.
Offen gestanden fällt mir jetzt nichts mehr ein. Und eine google-Suche zum
Thema hat ebenfalls - trotz vieler Fundstellen - keine Lösung gebracht. Die
htdig-Liste scheint seit 2005 eingeschlafen zu sein.
Hat von Euch jemand eine Idee, was ich da eventuell verkehrt gemacht haben
könnte?
Gruß von Heimo
--
heimo ponnath design
Heimo Ponnath
Rotenhäuserstr. 51, 21109 Hamburg
Tel.: 040 753 47 95, Fax: 040 752 68 03
Web: www.heimo.de
Reply to: