[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OT] ??? Hands on Guide to the Debian GNU Operating System di Davor Ocelic



vg wrote:

Il giorno 24 giugno 2009 20.03, alex ha scritto:

Complimenti al traduttore e complimenti a te. Non è che puoi render
pubblico lo script? A me sarebbe certamente utile!


anche a noi poveri traduttori, sempre che funzioni anche con i sorgenti xml
e sgml... : )

In realtà, guardando meglio, oltre al semplice script c'è almeno anche un pezzo di codice in C/C++ usato dallo script ... sono andato in panico perché non trovavo più i sorgenti!!! :-(

avevo intenzione di pubblicare questo programmino già nel 2003-2004 quando avevo realizzato la prima versione, ma non era abbastanza veloce (sapevo che si poteva migliorare di molto, anche perché per realizzarlo velocemente avevo usato pezzi di programmi creati da me negli anni 1990 per imparare il C/C++), poi mancanza di tempo e l'arrivo di hunspell...

L'ultima versione del programma in C/C++, che non è altro che una modifica di un esempio presente in hunspell e che precedentemente era presente in myspell, l'ho compilata l'ultima volta nel 2007 staticamente. Quindi devo vedere se ora si compila con gli strumenti attuali e con le ultime versioni di hunspell, inoltre devo vedere anche come farla compilare (se non ricordo male la facevo compilare insieme a tutte le compilazioni di hunspell, ma non penso sia corretta come soluzione finale).

Avevo a suo tempo fatto questo piccolo programma C/C++ perché hunspell non trattava come volevo io alcune cose (ad essere sincero non mi ricordo esattamente, ma doveva riguardare alcuni caratteri che io volevo considerare come esterni (== separatori) o interni alle parole).

Tutto questo per dire:

1) esiste già una funzionalità di hunspell che permette di estrarre un elenco di parole errate, ma c'era qualcosa che non funzionava come volevo io

$ man 1 hunspell

2) la mia intenzione è quella di rilasciare questo tools sotto licenza AGPL, appena trovo un po' di tempo per risolvere i possibili problemi di compilazione e ad inserire la licenza

Per dare un'idea di cosa fa l'utility da me creata stampo qui di seguito l'esecuzione senza parametri:

---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---
$ estrai_errati_distinti

estrai_errati_distinti [-[a][b][c][d][e][n][p][s][I][U]] nomefile.txt

Estrae tutti gli errori distinti da nomefile.txt
e li salva in nomefile.txt.errati.txt


Vengono utilizzati i dizionari:
- dizionario italiano
- dizionario dei cognomi italiani


* a = cambia gli accenti finali áíóúÁÍÓÚ -> àìòùÀÌÒÙ prima del controllo
* b = cambia gli accenti non finali in vocali senza accento
* c = cambia gli accenti âêîôûÂÊÎÔÛ finali o non finali in vocali senza accento
* d = cambia jJ in iI se la parola è errata
* e = cambia gli accenti finali èéÈÉ in éèÉÈ se la parola è errata
* n = ignora le stringhe contenenti numeri e caratteri alfanumerici
* p = ignora le stringhe contenenti solo numeri
* s = cerca di unire parole spezzate su due linee con il simbolo -
* I = ignora le stringhe inizianti con lettera maiuscola (accentate solo finali)
* U = ignora le stringhe tutte in maiuscolo (accentate solo finali)
---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---8<---

Come si può vedere bene lo scopo principale è quello di permettere l'individuazione di parole non presenti nel dizionario permettendo l'eliminazione di "false" stringhe mancanti

Inoltre il mio programmino probabilmente funziona solo sotto GNU/Linux perché faccio molto uso di bash e programmi GNU/Linux. Si devono aver installati inoltre il dizionario italiano e il dizionario dei cognomi italiani.

Di sicuro sia hunspell che il mio programmino funzionano con file di testo, per i file XML ritorna come errore tutti i tag che non riconosce. Una soluzione potrebbe essere quella di crearsi un dizionario (== elenco) con i tag XML possibili (probabilmente esiste già) e fargli usare anche quello. Poi non conosco l'XML/SGML e quindi non so se ci sono altri problemi. Un'altra soluzione di sicuro funzionante al 100% è di far convertire il file XML/SGML in puro testo .txt e fare il controllo su quello.

Ciao
Davide

--
Dizionari: http://linguistico.sourceforge.net/wiki
Petizione per uso di software interoperabile nell'UE:
http://openparliament.eu/
Non autorizzo la memorizzazione del mio indirizzo su outlook



Reply to: