[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: htDig indiziert keine Word- und keine PDF-Dateien



Am Freitag, den 11.01.2008, 15:25 +0100 schrieb Heimo Ponnath:
> Hallo Liste,
> 
> ich hoffe, unter Euch ist jemand, die/der sich mit htDig auskennt?
> 
> Auf meinem früheren Debian-sarge Fileserver hatte ich htDig verwendet und es 
> funktionierte wunderbar.
> 
> Das wollte ich jetzt auch auf meinem neuen etch-System realisieren. Es 
> funktioniert auch einigermassen (außer Problemen mit den deutschen 
> Umlauten) - aber es werden nur html- und txt-Dateien indiziert.
> 
> Dabei habe ich meiner Meinung nach alle Konfigurationen auch für die 
> Bearbeitung von Word- und PDF-Dateien korrekt eingestellt.
> 
> In der /etc/htdig/htdig.conf sind die externen Parser eingetragen:
> ----------------------------------------------------------------
> external_parsers:       application/msword /usr/local/bin/parse_doc.pl \
>                         application/postscript /usr/local/bin/parse_doc.pl \
>                         application/pdf /usr/local/bin/parse_doc.pl
> ----------------------------------------------------------------
> 
> In /usr/local/bin/parse_doc.pl sind die Umwandlungsprogramme eingetragen:
> ----------------------------------------------------------------
> # set this to your MS Word to text converter
> # get it from: http://www.fe.msk.ru/~vitus/catdoc/
> #
> $CATDOC = "/usr/bin/catdoc";
> #
> # set this to your WordPerfect to text converter, or /bin/true if none 
> available
> # this nabs WP documents with .doc suffix, so catdoc doesn't see them
> #
> $CATWP = "/bin/true";
> #
> # set this to your RTF to text converter, or /bin/true if none available
> # this nabs RTF documents with .doc suffix, so catdoc doesn't see them
> #
> $CATRTF = "/bin/true";
> #
> # set this to your PostScript to text converter
> # get it from the ghostscript 3.33 (or later) package
> #
> $CATPS = "/usr/bin/ps2ascii";
> #
> # set this to your PDF to text converter, and pdfinfo tool
> # get it from the xpdf 0.90 package at http://www.foolabs.com/xpdf/
> #
> $CATPDF = "/usr/bin/pdftotext";
> $PDFINFO = "/usr/bin/pdfinfo";
> ------------------------------------------------------------------
> 
> Anstelle von parse_doc.pl habe ich zuvor das gleiche auch mit doc2html.pl und 
> pdf2html.pl versucht. Ebenfalls ohne Ergebnis.
> 
> Dann habe ich ein Verzeichnis mit einem Word-Dokument und einem PDF versehen 
> und die htdig.conf so eingerichtet, daß ausschliesslich dieses Verzeichnis 
> indiziert wird. Aber ein rundig vvvvv ergibt u.a. diese Meldung:
> -----------------------------------------------------------------
> ...
> Deleted, no excerpt: ID: 8 URL:  
> http://kether.heimo/~ponnath/texte/test/bilderberg.pdf
> ...
> Deleted, no excerpt: ID: 7 URL:  
> http://kether.heimo/~ponnath/texte/test/Lorem_ipsum_dolor.doc
> ...
> ----------------------------------------------------------------
> 
> Aus irgend einem Grund werden also die beiden Testdateien nicht indiziert.
> 
> Offen gestanden fällt mir jetzt nichts mehr ein. Und eine google-Suche zum 
> Thema hat ebenfalls - trotz vieler Fundstellen - keine Lösung gebracht. Die 
> htdig-Liste scheint seit 2005 eingeschlafen zu sein.

Hilft dir vielleicht:
http://osdir.com/ml/web.htdig.general/2003-04/msg00041.html

------------
my problem occurs when i try to execute RUNDIG. RUNDIG appears to scan
through 
all the files correctly but when it attempts to index the document into the 
database it skips the DOC/XLS/PPT file with a 
Header line: Content-Type: application/msword
 not HTML
message.
------------

In der Antowrt-Mail ist zu lesen:
It looks as though the external_parsers: statement in your configuration
file is not correct.  Check it over very carefully.  Be sure that you have
no spaces after the '\' at the ends of lines.

Und dann ist der Thread zu Ende.

> 
> Hat von Euch jemand eine Idee, was ich da eventuell verkehrt gemacht haben 
> könnte?

Nicht richtig gesucht?

1. Hit bei Google: htdig index doc

> 
> Gruß von Heimo

Thomas


Reply to: