[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: geroglifici in pdftotext



Ciao,

Il Lun, 12 Febbraio 2018 8:06 pm, Davide Prina ha scritto:
> On 12/02/2018 14:59, Piviul wrote:

>> credo non ci sia nulla da fare[¹], sembra sia stata appositamente
>> manomessa la toUnicode map...

> Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe avere
> un programma che traduce tutti i glifi che hanno lo stesso valore
> "visuale" (esempio tutti i glifi che visualmente vengono letti come
> carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del
> genere.

No, la cosa è più complicata di così. L'idea di questo sistema di
"sicurezza" consiste nel ridisegnare i caratteri, non nello scambiare
quelli normalmente presenti in unicode visivamente simili. In un file PDF
si può includere un intero insieme di caratteri (un "font")... o anche più
di uno, disegnati ad hoc.

Se io genero un "font" nel quale il carattere "1" è un semicerchio,
diciamo più o meno così "C", il carattere "2" una riga verticale, il
carattere "3" una "A" e il carattere "4" un cerchio... scrivendo con quel
font "1234", sul documento, visivamente, apparirà "CIAO". Ma come tetsto
il PDF conterrà "1234".

Certo è un truccaccio indegno, per una sintesi vocale il documento sarà
illeggibile, quindi vine persa del tutto la (già poca) accessibilità del
PDF. Inoltre, dal punto di vista strettamente della sicurezza, così puoi
proteggere giusto un testo che non vale niente. Se vale qualcosa, uno
investirà quel tanto di tempo che serve per "decifrare" questa risibile
"cifratura".

Ĝis,
m

-- 
http://bodrato.it/papers/


Reply to: