[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: pdftotext



On Sunday 16 May 2004 23:58, Alfred Ostermeier wrote:
[...]
> Klaus Becker wrote:
> >>>ich möchte ein pdf-Datei in Text umwandeln. Mit "pdftotext" (3.0) aus
> >>> dem Paket "xpdf-utils" kommen aber nur Hyroglyphen raus.
> >>>Kennt sich da jemand aus ?
> >>
> >>Nicht wirklich. Aber pdftops und anschliessendes ps2ascii bringen bei
> >>mir die besten Ergebnisse. Allerdings sind die Umlaute mit der alten
> >>Tex-Schreibweise kodiert (mit " davor). pstotext macht es auch nicht
> >>viel besser.
[...]
> > pdftops hat mir die pdf-Datei in eine ordentliche ps-Datei verwandelt.
> > Dann habe ich die ps-Datei mit ps2ascii behandelt, da kommt nur Schrott
> > raus. Welche Option(-en) gibst du da an?
[...]
> Ist es vielleicht möglich, dass Deine pdf-Datei den Text als Bild
> enthält? Ich hatte auch mal ein Buch, bei dem pdftotext nur Hyroglyphen
> ausspuckte. Ich merkte dann, dass in dem Buch nur die Überschriften als
> Text hinterlegt waren, nicht aber der eigentliche Text. Probier mal, in
> der PDF-Datei nach Wörtern zu suchen. Gegebenfalls dann durch eine
> Texterkennung laufen lassen.
[...]
Versuch das PDF Dokument einmal in KOffice zu öffnen.
Damit sollte am schnellsten zu sehen sein ob es sich um Text oder nur um 
Bilder handelt.

Tschüss,
Thomas



Reply to: