[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Estrazione di dati da email



Il mar, 2002-04-09 alle 10:19, linux.anc@email.it ha scritto:
> Ciao
> 
> > Il lun, 2002-04-08 alle 23:59, Ferdinando ha scritto:
> > > * lunedì 08 aprile 2002, alle 19:08, Federico Di Gregorio scrive:
> > > 
> > > > nel caso nessuno ti abbia ancora risposto, usa awk. se non sai cos'e'
> > > > awk, "info gawk". se ancora non funziona, riscrivi che ti mando un
> > > > esempio.
> > > 
> > > Scusami Federico, ma è una curiosità e visto che sei bravo con gli
> > > scripts ..........
> > > 
> > > L'archivio della ML Debian è in html, funziona benissimo, però sarebbe
> > > pure bello se si potesse scaricare, magari ogni mese in formato mbox.
> > > Io ho guardato le "e-mail" create in quella maniera però sono troppo
> > > difformi l'una dall'altra, esiste mica uno script - già fatto/si può
> > > creare - o, come penso io la "riconversione" è quasi impossibile, a
> > > meno di non considerare buona una perdita consistente di dati ?
> > 
> > la cosa migliore sarebbe una XSLT che processi l'HTML e produca il TXT
> > (quell'html non e` poi cosi' malvagio, dopo tutto). pero` non sono a
> > conoscenza di nessuno script che lo faccia. 
> Non e' possibile. XSLT richiede un imput ben formato (XML), HTML non lo
> e', pensa ad esempio al tag <br>, che in HTML e' regolare, mentre in XML
> non lo e'...

XSLT si applica ad un albero DOM e se leggi attentamente il testo della
specifica del W3C scopri che DOM vale anche per HTML. la libxml2 e'
perfettamente in grado di fare i parsing di un file HTML (purche' non
contenga errori, come un tag <td> non chiuso), poi puoi processarlo con
la libxslt1. vedi anche i comandi xsltproc e xmlshell.

buono studio,
federico

-- 
Federico Di Gregorio
Debian GNU/Linux Developer & Italian Press Contact        fog@debian.org
INIT.D Developer                                           fog@initd.org
              La felicità è una tazza di cioccolata calda. Sempre. -- Io

Attachment: signature.asc
Description: PGP signature


Reply to: