[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: pdftotext



On 15/05/2015 18:59, Piviul wrote:

Il pdf non è un'immagine e lo si vede bene se lo si apre in libreoffice
(draw).

LibreOffice Draw è un programma per modificare immagini, non file di testo.

Di default LibreOffice Draw non è in grado di gestire file .pdf. Hai di sicuro installato un'estensione che ti permette di modificare i file .pdf.

Apri LibreOffice -> Menù Strumenti -> Gestione estensioni

e qui vedi le estensioni che hai installato.


Il mio problema è che pdftotext funziona piuttosto bene su quasi
tutti i pdf.

che non funzioni bene è più che scontato, io posso crearmi X colonne, far "aderire" il testo alle immagini inserite e magari inserire tali immagini tra colonne, possono essere presenti riquadri, ... inoltre il testo può essere salvato nel PDF come immagine... e quindi è impossibile creare qualcosa che mi riesca ad estrarre sempre il testo nel modo corretto da un PDF.

In particolare questi pdf li genero io nel senso che ho creato una
stampante virtuale con driver ghostscript

$ man ghostscript
[...]
The gs command invokes Ghostscript, an interpreter of Adobe Systems' PostScript(tm) and Portable Document Format (PDF) languages.
[...]

Attenzione che PDF != PS

PDF è un formato documentale non modificabile
PS è un linguaggio per il controllo delle stampanti

Però ci sono delle limitazioni.

Apri LibreOffice Word
Scrivi del testo
Salva come file a.pdf
$ pdftops a.pdf b.ps
$ ps2pdf b.ps c.pdf
$ file a.pdf b.ps c.pdf
a.pdf: PDF document, version 1.4
b.ps:  PostScript document text conforming DSC level 3.0, Level 2
c.pdf: PDF document, version 1.4

se però apri c.pdf vedrai che il testo che contiene è in realtà un'immagine... non puoi selezionarlo

infatti prova a fare
$ pdftotext c.pdf

Il problema che alcuni software da un po' di tempo a questa
parte producono dei ps che poi non sono in grado di convertire in testo
eppure vengono convertiti in pdf correttamente...

ma non ci hai detto come fai a convertire un ps in pdf o un ps in testo

Il file che hai allegato è un PDF document, version 1.4

però è un'immagine, non contiene testo.

Come ti hanno detto se vuoi estrarre il testo devi usare un OCR.

Altrimenti non devi far salvare i file come ps e poi convertirlo in pdf, ma farlo salvare direttamente come pdf.

Ciao
Davide

--
Dizionari: http://linguistico.sourceforge.net/wiki
Petizione per uso di software interoperabile nell'UE:
http://openparliament.eu/
Non autorizzo la memorizzazione del mio indirizzo su outlook


Reply to: