[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

htDig indiziert keine Word- und keine PDF-Dateien



Hallo Liste,

ich hoffe, unter Euch ist jemand, die/der sich mit htDig auskennt?

Auf meinem früheren Debian-sarge Fileserver hatte ich htDig verwendet und es 
funktionierte wunderbar.

Das wollte ich jetzt auch auf meinem neuen etch-System realisieren. Es 
funktioniert auch einigermassen (außer Problemen mit den deutschen 
Umlauten) - aber es werden nur html- und txt-Dateien indiziert.

Dabei habe ich meiner Meinung nach alle Konfigurationen auch für die 
Bearbeitung von Word- und PDF-Dateien korrekt eingestellt.

In der /etc/htdig/htdig.conf sind die externen Parser eingetragen:
----------------------------------------------------------------
external_parsers:       application/msword /usr/local/bin/parse_doc.pl \
                        application/postscript /usr/local/bin/parse_doc.pl \
                        application/pdf /usr/local/bin/parse_doc.pl
----------------------------------------------------------------

In /usr/local/bin/parse_doc.pl sind die Umwandlungsprogramme eingetragen:
----------------------------------------------------------------
# set this to your MS Word to text converter
# get it from: http://www.fe.msk.ru/~vitus/catdoc/
#
$CATDOC = "/usr/bin/catdoc";
#
# set this to your WordPerfect to text converter, or /bin/true if none 
available
# this nabs WP documents with .doc suffix, so catdoc doesn't see them
#
$CATWP = "/bin/true";
#
# set this to your RTF to text converter, or /bin/true if none available
# this nabs RTF documents with .doc suffix, so catdoc doesn't see them
#
$CATRTF = "/bin/true";
#
# set this to your PostScript to text converter
# get it from the ghostscript 3.33 (or later) package
#
$CATPS = "/usr/bin/ps2ascii";
#
# set this to your PDF to text converter, and pdfinfo tool
# get it from the xpdf 0.90 package at http://www.foolabs.com/xpdf/
#
$CATPDF = "/usr/bin/pdftotext";
$PDFINFO = "/usr/bin/pdfinfo";
------------------------------------------------------------------

Anstelle von parse_doc.pl habe ich zuvor das gleiche auch mit doc2html.pl und 
pdf2html.pl versucht. Ebenfalls ohne Ergebnis.

Dann habe ich ein Verzeichnis mit einem Word-Dokument und einem PDF versehen 
und die htdig.conf so eingerichtet, daß ausschliesslich dieses Verzeichnis 
indiziert wird. Aber ein rundig vvvvv ergibt u.a. diese Meldung:
-----------------------------------------------------------------
...
Deleted, no excerpt: ID: 8 URL:  
http://kether.heimo/~ponnath/texte/test/bilderberg.pdf
...
Deleted, no excerpt: ID: 7 URL:  
http://kether.heimo/~ponnath/texte/test/Lorem_ipsum_dolor.doc
...
----------------------------------------------------------------

Aus irgend einem Grund werden also die beiden Testdateien nicht indiziert.

Offen gestanden fällt mir jetzt nichts mehr ein. Und eine google-Suche zum 
Thema hat ebenfalls - trotz vieler Fundstellen - keine Lösung gebracht. Die 
htdig-Liste scheint seit 2005 eingeschlafen zu sein.

Hat von Euch jemand eine Idee, was ich da eventuell verkehrt gemacht haben 
könnte?

Gruß von Heimo
-- 
heimo ponnath design
Heimo Ponnath
Rotenhäuserstr. 51, 21109 Hamburg
Tel.: 040 753 47 95, Fax: 040 752 68 03
Web: www.heimo.de


Reply to: