[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: pdf: Text mit mehreren Kolonnen extrahieren



Klaus Becker <colonius@free.fr> wrote:

> mit pdftotext oder Dolphin lassen sich pdf-Dateien mit mehreren
> Kolonnen nicht brauchbar extrahieren, da sich die Kolonnen vermischen.

pdftotext kennt die Option -layout:

   -layout
      Maintain (as best as possible) the original physical layout of
      the text.  The default is to ´undo' physical layout (columns,
      hyphenation, etc.) and output the text in reading order.

HTH, Martin


Reply to: