[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[Gelöst] Re: pdf: Text mit mehreren Kolonnen extrahieren



Le lundi 24 juin 2013 18:53:33, Christian a écrit :
> Hallo,
> 
> geht es allgemein darum, Tabellen einzulesen oder um eine spezielle (Art von) 
> PDF? Im letzten Fall wäre es evtl. hilfreich, eine Test-PDF zu haben.
> 
> Manchmal kann man den Output von solchen Kopien (oder auch pdftotext wie 
> Martin geschrieben hat) mittels sed/awk/... aufarbeiten, so dass was 
> sinnvolles raus kommt.
> 
> Christian
> 
> vom Monday 24 June 2013 17:13:11:
> > Hallo Leute,
> > 
> > mit pdftotext oder Dolphin lassen sich pdf-Dateien mit mehreren Kolonnen
> > nicht brauchbar extrahieren, da sich die Kolonnen vermischen.
> > 
> > Gibt es eine Lösung dafür?
> > 
> > Gruss
> > 
> > Klaus


Ich habe folgendes gefunden:


pdftotext -raw
pdftotext -layaout

dolphin & xpdf können blockweise Text selektieren

http://stackoverflow.com/questions/10036236/splitting-text-files-based-column-wise
pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT (ergibt leere Datei)
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT

http://www.mobileread.com/forums/showthread.php?t=152643
pdftohtml -c -s -i -xml INPUT_FILE.pdf (mit konqueror öffnen), dann
sed -e s/"<[^>]*>"//g INPUT_FILE.xml > OUTPUT_FILE.txt 


Ich will nur Text von Spalten selektieren & und in Textaloud (text to speach Software) kleben. Ich hatte es in Okular (nicht Dolphin, da hatte ich mich geirrt) mit "Text selektieren" probiert, das geht nicht. Aber es geht mit "selektieren" oder "Tablle selektieren". In Xpdf geht's auch. Mehr wollte ich gar nicht.

Gruss

Klaus


Reply to: