[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: geroglifici in pdftotext



Il February 13, 2018 7:42:42 AM UTC, Marco Bodrato <bodrato@mail.dm.unipi.it> ha scritto:
>Ciao,
>
>Il Lun, 12 Febbraio 2018 8:06 pm, Davide Prina ha scritto:
>> On 12/02/2018 14:59, Piviul wrote:
>
>> Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe
>avere
>> un programma che traduce tutti i glifi che hanno lo stesso valore
>> "visuale" (esempio tutti i glifi che visualmente vengono letti come
>> carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del
>> genere.
>
>No, la cosa è più complicata di così. L'idea di questo sistema di
>"sicurezza" consiste nel ridisegnare i caratteri, non nello scambiare
>quelli normalmente presenti in unicode visivamente simili. In un file
>PDF
>si può includere un intero insieme di caratteri (un "font")... o anche
>più
>di uno, disegnati ad hoc.
>
Funziona proprio così, invece, io in passato ho "tradotto" un intero romanzo in questo modo... (Nota a margine, il PDF era stato generato da un documento Word)...

È un lavoraccio, poi devi lavorare sulla formattazione e cose varie... Deve valere la pena, altrimenti è un lavoro inutile.

La cosa importante è che devi fare una analisi del testo preventiva, ed individuare tutti i caratteri usati, nel mio caso erano usati anche i caratteri corretti, in quanto lavorare su un font ridisegnato (praticamente avevano ridisegnato i singoli font, scambiando tra loro i singoli grafici) nel tuo caso, potrebbe essere più semplice, se hanno usato uno shift verso in altro "settore" del gruppo unicode.
-- 
Byez
Gollum1
Tesssoro, dov'è il mio tesssoro...

Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità e gli errori (maledetto correttore automatico).


Reply to: