Re: pdftotext
Il 15/05/2015 17:47, Gian Uberto Lauri ha scritto:
Piviul writes:
> Gian Uberto Lauri ha scrito il 15/05/2015 alle 17:25:
> > Piviul writes:
> > > Ciao a tutti, qualcuno mi sa dire perché non riesco a convertire alcuni
> > > pdf in testo usando la pdftotext?
> >
> > Prova ad identificare il sottotipo di pdf...
> questa frase è troppo criptica per me... scusa ma non so cosa siano i
> sottotipi di pdf :-\
PDF ha vari sottoformati, ora non me li ricordo, ma di sicuro il
programma Jhove (in java) era in grado di identificarli.
$ jhove Scaricati/pippo.pdf
Jhove (Rel. 1.6, 2011-01-04)
Date: 2015-05-15 18:51:52 CEST
RepresentationInformation: Scaricati/pippo.pdf
ReportingModule: PDF-hul, Rel. 1.8 (2009-05-22)
LastModified: 2015-05-15 18:47:32 CEST
Size: 1365773
Format: PDF
Version: 1.4
Status: Well-Formed and valid
SignatureMatches:
PDF-hul
MIMEtype: application/pdf
Profile: ISO PDF/A-1, Level B
PDFMetadata:
Objects: 18
FreeObjects: 1
IncrementalUpdates: 0
DocumentCatalog:
PageLayout: SinglePage
PageMode: UseNone
Info:
Creator: GPL Ghostscript 906 (ps2write)
Producer: GPL Ghostscript 9.06
CreationDate: Fri May 15 16:53:30 CEST 2015
ModDate: Fri May 15 16:53:30 CEST 2015
ID: 0xf450db5abdd9e29fa90053b624943f39,
0xf450db5abdd9e29fa90053b624943f39
Filters:
FilterPipeline: FlateDecode
XMP: <?adobe-xap-filters esc="CRLF"?>
<x:xmpmeta xmlns:x='adobe:ns:meta/' x:xmptk='XMP toolkit 2.9.1-13,
framework 1.6'>
<rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#'
xmlns:iX='http://ns.adobe.com/iX/1.0/'>
<rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd'
xmlns:pdf='http://ns.adobe.com/pdf/1.3/' pdf:Producer='GPL Ghostscript
9.06'/>
<rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd'
xmlns:xmp='http://ns.adobe.com/xap/1.0/'><xmp:ModifyDate>2015-05-15T16:53:30+02:00</xmp:ModifyDate>
<xmp:CreateDate>2015-05-15T16:53:30+02:00</xmp:CreateDate>
<xmp:CreatorTool>GPL Ghostscript 906
(ps2write)</xmp:CreatorTool></rdf:Description>
<rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd'
xmlns:xapMM='http://ns.adobe.com/xap/1.0/mm/'
xapMM:DocumentID='uuid:b31246d8-332e-11f0-0000-310aba1d02bd'/>
<rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd'
xmlns:dc='http://purl.org/dc/elements/1.1/'
dc:format='application/pdf'><dc:title><rdf:Alt><rdf:li
xml:lang='x-default'>Untitled</rdf:li></rdf:Alt></dc:title></rdf:Description>
</rdf:RDF>
</x:xmpmeta>
Pages:
Page:
Sequence: 1
Page:
Sequence: 2
Page:
Sequence: 3
Il pdf non è un'immagine e lo si vede bene se lo si apre in libreoffice
(draw). Il mio problema è che pdftotext funziona piuttosto bene su quasi
tutti i pdf.
In particolare questi pdf li genero io nel senso che ho creato una
stampante virtuale con driver ghostscript per utenti windows che
stampano sulla stampante ed io vado a leggerne il contenuto e classifico
il file. Il problema che alcuni software da un po' di tempo a questa
parte producono dei ps che poi non sono in grado di convertire in testo
eppure vengono convertiti in pdf correttamente... e mi sarebbe piaciuto
capirne il motivo per vedere se è possibile aggirare il problema.
Ciao e grazie
Piviul
Reply to: