[Gelöst] Re: pdf: Text mit mehreren Kolonnen extrahieren
Le lundi 24 juin 2013 18:53:33, Christian a écrit :
> Hallo,
>
> geht es allgemein darum, Tabellen einzulesen oder um eine spezielle (Art von)
> PDF? Im letzten Fall wäre es evtl. hilfreich, eine Test-PDF zu haben.
>
> Manchmal kann man den Output von solchen Kopien (oder auch pdftotext wie
> Martin geschrieben hat) mittels sed/awk/... aufarbeiten, so dass was
> sinnvolles raus kommt.
>
> Christian
>
> vom Monday 24 June 2013 17:13:11:
> > Hallo Leute,
> >
> > mit pdftotext oder Dolphin lassen sich pdf-Dateien mit mehreren Kolonnen
> > nicht brauchbar extrahieren, da sich die Kolonnen vermischen.
> >
> > Gibt es eine Lösung dafür?
> >
> > Gruss
> >
> > Klaus
Ich habe folgendes gefunden:
pdftotext -raw
pdftotext -layaout
dolphin & xpdf können blockweise Text selektieren
http://stackoverflow.com/questions/10036236/splitting-text-files-based-column-wise
pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT (ergibt leere Datei)
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT
http://www.mobileread.com/forums/showthread.php?t=152643
pdftohtml -c -s -i -xml INPUT_FILE.pdf (mit konqueror öffnen), dann
sed -e s/"<[^>]*>"//g INPUT_FILE.xml > OUTPUT_FILE.txt
Ich will nur Text von Spalten selektieren & und in Textaloud (text to speach Software) kleben. Ich hatte es in Okular (nicht Dolphin, da hatte ich mich geirrt) mit "Text selektieren" probiert, das geht nicht. Aber es geht mit "selektieren" oder "Tablle selektieren". In Xpdf geht's auch. Mehr wollte ich gar nicht.
Gruss
Klaus
Reply to: