[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[OT] calcolare l'entropia di una stringa



Il titolo e' un po' criptico, ma non so come meglio indicarlo con poche
parole.

In sostanza:
ho un file contenente una serie di stringhe una per riga, ecco un
esempio:

aaaaaaaa
12345678
Qwertyui
Asdfghjk
11111122
Aaaassdd
asasasas
Eccetera

Ora, mi servirebbe un "qualcosa" che mi calcoli il grado di entropia
delle stringhe:
per esempio, "aaaaaaaa" e "11111122" "aaaassdd", "asasasas" sono quelle
che vorrei scartare,
perche' contengono troppi pochi caratteri diversi.
Invece le altre (12345678,Qwertyui,Asdfghjk) sono quelle "buone" che
vorrei preservare.
Ovviamente, vorrei essere io a calcolare i vari parametri (quante
ripetizioni accetabili,
quanti caratteri diversi uno dall'altro, etc)
Esiste gia' un qualche comando che fa questo lavoro?
Lo potrei implementare in uno scriptino bash.

Grazie.



Reply to: