Re: pdftotext
On 15/05/2015 18:59, Piviul wrote:
Il pdf non è un'immagine e lo si vede bene se lo si apre in libreoffice
(draw).
LibreOffice Draw è un programma per modificare immagini, non file di testo.
Di default LibreOffice Draw non è in grado di gestire file .pdf. Hai di
sicuro installato un'estensione che ti permette di modificare i file .pdf.
Apri LibreOffice -> Menù Strumenti -> Gestione estensioni
e qui vedi le estensioni che hai installato.
Il mio problema è che pdftotext funziona piuttosto bene su quasi
tutti i pdf.
che non funzioni bene è più che scontato, io posso crearmi X colonne,
far "aderire" il testo alle immagini inserite e magari inserire tali
immagini tra colonne, possono essere presenti riquadri, ... inoltre il
testo può essere salvato nel PDF come immagine... e quindi è impossibile
creare qualcosa che mi riesca ad estrarre sempre il testo nel modo
corretto da un PDF.
In particolare questi pdf li genero io nel senso che ho creato una
stampante virtuale con driver ghostscript
$ man ghostscript
[...]
The gs command invokes Ghostscript, an interpreter of Adobe Systems'
PostScript(tm) and Portable Document Format (PDF) languages.
[...]
Attenzione che PDF != PS
PDF è un formato documentale non modificabile
PS è un linguaggio per il controllo delle stampanti
Però ci sono delle limitazioni.
Apri LibreOffice Word
Scrivi del testo
Salva come file a.pdf
$ pdftops a.pdf b.ps
$ ps2pdf b.ps c.pdf
$ file a.pdf b.ps c.pdf
a.pdf: PDF document, version 1.4
b.ps: PostScript document text conforming DSC level 3.0, Level 2
c.pdf: PDF document, version 1.4
se però apri c.pdf vedrai che il testo che contiene è in realtà
un'immagine... non puoi selezionarlo
infatti prova a fare
$ pdftotext c.pdf
Il problema che alcuni software da un po' di tempo a questa
parte producono dei ps che poi non sono in grado di convertire in testo
eppure vengono convertiti in pdf correttamente...
ma non ci hai detto come fai a convertire un ps in pdf o un ps in testo
Il file che hai allegato è un PDF document, version 1.4
però è un'immagine, non contiene testo.
Come ti hanno detto se vuoi estrarre il testo devi usare un OCR.
Altrimenti non devi far salvare i file come ps e poi convertirlo in pdf,
ma farlo salvare direttamente come pdf.
Ciao
Davide
--
Dizionari: http://linguistico.sourceforge.net/wiki
Petizione per uso di software interoperabile nell'UE:
http://openparliament.eu/
Non autorizzo la memorizzazione del mio indirizzo su outlook
Reply to: