[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: script per ricerca errori/parole mancanti (ERA: [OT] ??? Hands on Guide to the Debian GNU Operating System di Davor Ocelic)



Alessandro Pellizzari wrote:
Il giorno mer, 24/06/2009 alle 22.38 +0200, Davide Prina ha scritto:

Il problema e` che i tag xml possibili sono infiniti. ;)
La caratteristica dell'XML e` proprio che ogni utente puo` crearsi i
suoi tag come preferisce.

giusto.

Però se si eliminano tutte le stringhe incluse tra '<' e '>' si ottiene sempre soltanto il testo da controllare? Se è così basterebbe una regola con sed per ottenere soltanto le stringhe da passare al correttore ortografico.

Un'altra soluzione di sicuro funzionante al 100% è di far convertire il file XML/SGML in puro testo .txt e fare il controllo su quello.

Anche questo non e` semplicissimo (in generale) perche` i tag XML
possono avere degli attributi per cui non e` possibile trovare un modo
univoco di rappresentarli in modo testo (pensa all'attributo alt delle
immagini in HTML, che non e` altro che una derivazione di XML).

giusto.

Quindi vuol dire che quando viene generata la versione .txt si possono perdere dei pezzi che sono presenti negli altri formati. Non ci avevo mai pensato.

Bisognerebbe adattare un parser XML al tuo codice, in modo che estragga
le parti di testo (nodi di testo, attributi di testo e CDATA) e li dia
in pasto al tuo software.

Niente di impossibile, ma ancora piu` semplice se riesci a trasformare
il tuo programma in un oggetto o in una funzione richiamabile.

l'ho appena messo su sourceforge
http://linguistico.sf.net/wiki/doku.php?id=script:estrai_errati_distinti

il programma .cxx in teoria potrebbe essere di molto migliorato, ci sono delle parti che, se non erro, non sono in realtà usate (probabilmente le avevo abbozzate per ottenere ulteriori risultati). Inoltre, soprattutto il file .cxx, non è affatto scritto bene. L'avrò scritto in pochi minuti per ottenere qualcosa di funzionante: avevo l'esempio presente in hunspell che controllava una lista di parole, una per riga, e ho fatto una modifica per trasformare un file di testo in tale formato. Comunque, come già detto, per la sola ricerca di parole errate si può usare direttamente hunspell, io non lo avevo usato, anche se all'inizio volevo farlo (infatti è commentato nello script .sh), perché in alcuni casi non faceva quello che volevo io (non mi ricordo più esattamente per quali motivi).

Tenete presente che è qualcosa che ho creato per uso interno e per la ricerca di parole mancanti o per trovare regole che non funzionano correttamente o completamente.

Ho anche emesso una nuova versione del dizionario dei cognomi italiani:
http://linguistico.sf.net/wiki/doku.php?id=dizionario_cognomi_italiani

con l'estensione per OOo 3:
http://linguistico.sf.net/wiki/doku.php?id=estensione:estensione_cognomi_it

però ho notato che l'aggiornamento automatico non funziona su OOo preso dai reporitory Debian (avevo una copia Sun di OOo 3.0 in un chroot e li funziona)

Ciao
Davide

--
Dizionari: http://linguistico.sourceforge.net/wiki
Petizione contro il formato ms-ooxml:
http://www.noooxml.org/petition
Non autorizzo la memorizzazione del mio indirizzo su outlook


Reply to: