[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: pdftotext



Ciao,

Il Sab, 16 Maggio 2015 9:33 am, Piviul ha scritto:
> Ma non � questo il mio problema; mi piacerebbe sapere, se qualcuno ne �
> a conoscenza, perch� il pdf[�], pur non essendo un'immagine, non sia
> possibile estrapolarne il testo con i tool disponibili a riga di comando

Ho provato a scaricare il PDF che hai indicato e... hai ragione, non ha
un'immagine "bitmap" inclusa, però non contiene neppure del testo;
diciamo che è un "disegno"?
Quel file non contiene istruzioni del tipo "Il carattere '0' si disegna
nel tal modo, la pagina contiene uno '0' qui e uno là...", bensì del
tipo "Dal tal punto disegna una linea, poi un'altra...".

pdfimages estrae le bitmap contenute in un PDF, in questo caso non ce ne
sono.
pdftotext estrae il testo contenuto come sequenze di caratteri e non ce n'è.
Con l'estensione di LibreOffice che citavi, oppure con InkScape è
certamente possibile modificare quel PDF, perché entrambi lo caricano
come immagine vettoriale. Noterai però che entrambi, pur avendo la
capacità di scrivere testo, non ti permettono di selezionare una lettera
e cambiarla.

Il PDF che ci hai mostrato contiene solo immagini vettoriali delle pagine.
Per estrarne il testo, bisognerebbe trasformarle in bitmap e passare ad un
OCR, oppure avere un OCR vettoriale (ma non ne conosco).

Meglio sarebbe, ovviamente, intervenire sul processo di generazione del
PDF in modo da ottenere un formato più accessibile.

Ciao,
m

-- 
http://bodrato.it/


Reply to: