[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: geroglifici in pdftotext





Il 12/02/2018 08:57, Piviul ha scritto:
Il 09/02/2018 20:43, Davide Prina ha scritto:
On 09/02/2018 14:45, Piviul wrote:
pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad incollarlo in un file di testo si vedono solo geroglifici.

potrebbe essere che sono stati usati caratteri unicode che sono simili a quelli alfabetici (alcuni ad occhio sono quasi identici).

Prova a ricercare una parola, nel PDF, che si incolla con geroglifici e vedi se la trova. Se non la trova probabilmente è questa la spiegazione.
Se cerco un parola di quelle che se copiate vengono incollate con strani simboli incomprensibili, vedo che alcune volte vengono trovate ma non sempre, direi che vengono trovate solo se nel pdf il paragrafo che contiene la parola cercata occupa una sola riga... ma forse non è nemmeno così... non capisco. Comunque talvolta viene trovata e talvolta no. Direi comuinque che potresti avere ragione.

Poi puoi provare ad incollare in un documento che supporta l'unicode e ha quel font usato nel PDF (es: Libreoffice Writer)
questo non è facile da attuare: come faccio a sapere quale font è stato usato?
Io la butto lì: hai provato ad aprire il PDF con un LibreOffice recente? Dovrebbe poter editare il tutto facendolo diventare un documento "Libreoffice Draw"


Reply to: