[Gelöst] Re: pdf: Text mit mehreren Kolonnen extrahieren

To: debian-user-german@lists.debian.org
Subject: [Gelöst] Re: pdf: Text mit mehreren Kolonnen extrahieren
From: Klaus Becker <colonius@free.fr>
Date: Tue, 25 Jun 2013 12:38:52 +0000
Message-id: <[🔎] 201306251238.52885.colonius@free.fr>
In-reply-to: <[🔎] 201306242053.40222.ChristianLupus@gmx.de>
References: <[🔎] 201306241513.11273.colonius@free.fr> <[🔎] 201306242053.40222.ChristianLupus@gmx.de>

Le lundi 24 juin 2013 18:53:33, Christian a écrit :
> Hallo,
> 
> geht es allgemein darum, Tabellen einzulesen oder um eine spezielle (Art von) 
> PDF? Im letzten Fall wäre es evtl. hilfreich, eine Test-PDF zu haben.
> 
> Manchmal kann man den Output von solchen Kopien (oder auch pdftotext wie 
> Martin geschrieben hat) mittels sed/awk/... aufarbeiten, so dass was 
> sinnvolles raus kommt.
> 
> Christian
> 
> vom Monday 24 June 2013 17:13:11:
> > Hallo Leute,
> > 
> > mit pdftotext oder Dolphin lassen sich pdf-Dateien mit mehreren Kolonnen
> > nicht brauchbar extrahieren, da sich die Kolonnen vermischen.
> > 
> > Gibt es eine Lösung dafür?
> > 
> > Gruss
> > 
> > Klaus


Ich habe folgendes gefunden:


pdftotext -raw
pdftotext -layaout

dolphin & xpdf können blockweise Text selektieren

http://stackoverflow.com/questions/10036236/splitting-text-files-based-column-wise
pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT (ergibt leere Datei)
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT

http://www.mobileread.com/forums/showthread.php?t=152643
pdftohtml -c -s -i -xml INPUT_FILE.pdf (mit konqueror öffnen), dann
sed -e s/"<[^>]*>"//g INPUT_FILE.xml > OUTPUT_FILE.txt 


Ich will nur Text von Spalten selektieren & und in Textaloud (text to speach Software) kleben. Ich hatte es in Okular (nicht Dolphin, da hatte ich mich geirrt) mit "Text selektieren" probiert, das geht nicht. Aber es geht mit "selektieren" oder "Tablle selektieren". In Xpdf geht's auch. Mehr wollte ich gar nicht.

Gruss

Klaus

Reply to:

References:
- pdf: Text mit mehreren Kolonnen extrahieren
  - From: Klaus Becker <colonius@free.fr>
- Re: pdf: Text mit mehreren Kolonnen extrahieren
  - From: Christian <ChristianLupus@gmx.de>

Prev by Date: Re: locale: Nur Fehlermeldungen auf Englisch?
Next by Date: Re: libc6 und wheezy und flightgear.
Previous by thread: Re: pdf: Text mit mehreren Kolonnen extrahieren
Next by thread: iaxmodem + hylafax: fax alle ca. 50 sekunden offline
Index(es):
- Date
- Thread