[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: pdftotext



Il 15/05/2015 17:47, Gian Uberto Lauri ha scritto:
Piviul writes:
  > Gian Uberto Lauri ha scrito il 15/05/2015 alle 17:25:
  > > Piviul writes:
  > >   > Ciao a tutti, qualcuno mi sa dire perché non riesco a convertire alcuni
  > >   > pdf in testo usando la pdftotext?
  > >
  > > Prova ad identificare il sottotipo di pdf...

  > questa frase è troppo criptica per me... scusa ma non so cosa siano i
  > sottotipi di pdf :-\

PDF ha vari sottoformati, ora non me li ricordo, ma di sicuro il
programma Jhove (in java) era in grado di identificarli.
$ jhove Scaricati/pippo.pdf
Jhove (Rel. 1.6, 2011-01-04)
 Date: 2015-05-15 18:51:52 CEST
 RepresentationInformation: Scaricati/pippo.pdf
  ReportingModule: PDF-hul, Rel. 1.8 (2009-05-22)
  LastModified: 2015-05-15 18:47:32 CEST
  Size: 1365773
  Format: PDF
  Version: 1.4
  Status: Well-Formed and valid
  SignatureMatches:
   PDF-hul
  MIMEtype: application/pdf
  Profile: ISO PDF/A-1, Level B
  PDFMetadata:
   Objects: 18
   FreeObjects: 1
   IncrementalUpdates: 0
   DocumentCatalog:
    PageLayout: SinglePage
    PageMode: UseNone
   Info:
    Creator: GPL Ghostscript 906 (ps2write)
    Producer: GPL Ghostscript 9.06
    CreationDate: Fri May 15 16:53:30 CEST 2015
    ModDate: Fri May 15 16:53:30 CEST 2015
ID: 0xf450db5abdd9e29fa90053b624943f39, 0xf450db5abdd9e29fa90053b624943f39
   Filters:
    FilterPipeline: FlateDecode
   XMP: <?adobe-xap-filters esc="CRLF"?>
<x:xmpmeta xmlns:x='adobe:ns:meta/' x:xmptk='XMP toolkit 2.9.1-13, framework 1.6'> <rdf:RDF xmlns:rdf='http://www.w3.org/1999/02/22-rdf-syntax-ns#' xmlns:iX='http://ns.adobe.com/iX/1.0/'> <rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd' xmlns:pdf='http://ns.adobe.com/pdf/1.3/' pdf:Producer='GPL Ghostscript 9.06'/> <rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd' xmlns:xmp='http://ns.adobe.com/xap/1.0/'><xmp:ModifyDate>2015-05-15T16:53:30+02:00</xmp:ModifyDate>
<xmp:CreateDate>2015-05-15T16:53:30+02:00</xmp:CreateDate>
<xmp:CreatorTool>GPL Ghostscript 906 (ps2write)</xmp:CreatorTool></rdf:Description> <rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd' xmlns:xapMM='http://ns.adobe.com/xap/1.0/mm/' xapMM:DocumentID='uuid:b31246d8-332e-11f0-0000-310aba1d02bd'/> <rdf:Description rdf:about='uuid:b31246d8-332e-11f0-0000-310aba1d02bd' xmlns:dc='http://purl.org/dc/elements/1.1/' dc:format='application/pdf'><dc:title><rdf:Alt><rdf:li xml:lang='x-default'>Untitled</rdf:li></rdf:Alt></dc:title></rdf:Description>
</rdf:RDF>
</x:xmpmeta>
   Pages:
    Page:
     Sequence: 1
    Page:
     Sequence: 2
    Page:
     Sequence: 3

Il pdf non è un'immagine e lo si vede bene se lo si apre in libreoffice (draw). Il mio problema è che pdftotext funziona piuttosto bene su quasi tutti i pdf. In particolare questi pdf li genero io nel senso che ho creato una stampante virtuale con driver ghostscript per utenti windows che stampano sulla stampante ed io vado a leggerne il contenuto e classifico il file. Il problema che alcuni software da un po' di tempo a questa parte producono dei ps che poi non sono in grado di convertire in testo eppure vengono convertiti in pdf correttamente... e mi sarebbe piaciuto capirne il motivo per vedere se è possibile aggirare il problema.

Ciao e grazie

Piviul


Reply to: