[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: geroglifici in pdftotext



On 12/02/2018 14:59, Piviul wrote:

credo non ci sia nulla da fare[¹], sembra sia stata appositamente manomessa la toUnicode map...

[¹] https://acrobatusers.com/forum/security/usage-fonts-non-unicode-glyph-mapping-pdf-documents-copy-protection/

Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe avere un programma che traduce tutti i glifi che hanno lo stesso valore "visuale" (esempio tutti i glifi che visualmente vengono letti come carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del genere.

Altra cosa interessante: mai fare clic su un link sul web/posta/..., anche se quello che vedi è esattamente il link a cui vuoi arrivare o meglio ti sembra che lo sia.

In unicode sono presenti molti glifi diversi che i tuoi occhi interpretano come lo stesso carattere. Questo vuol dire che usando glifi diversi è possibile creare tante stringhe l'una diversa dall'altra perché composta da caratteri diversi, ma che tu leggi sempre allo stesso modo. Quindi puoi creare un collegamento ipertestuale che a te sembra quello a cui vuoi accedere, ma che in realtà alcuni/tutti i caratteri non sono quelli che ti aspetti e quindi il link punta ad un'altra pagina...

Ciao
Davide

--
Dizionari: http://linguistico.sourceforge.net/wiki
I didn't use Microsoft machines when I was in my operational phase, because I couldn't trust them. Not because I knew that there was a particular back door or anything like that, but because I couldn't be sure.
Edward Snowden


Reply to: