Il mar, 2002-04-09 alle 10:19, linux.anc@email.it ha scritto: > Ciao > > > Il lun, 2002-04-08 alle 23:59, Ferdinando ha scritto: > > > * lunedì 08 aprile 2002, alle 19:08, Federico Di Gregorio scrive: > > > > > > > nel caso nessuno ti abbia ancora risposto, usa awk. se non sai cos'e' > > > > awk, "info gawk". se ancora non funziona, riscrivi che ti mando un > > > > esempio. > > > > > > Scusami Federico, ma è una curiosità e visto che sei bravo con gli > > > scripts .......... > > > > > > L'archivio della ML Debian è in html, funziona benissimo, però sarebbe > > > pure bello se si potesse scaricare, magari ogni mese in formato mbox. > > > Io ho guardato le "e-mail" create in quella maniera però sono troppo > > > difformi l'una dall'altra, esiste mica uno script - già fatto/si può > > > creare - o, come penso io la "riconversione" è quasi impossibile, a > > > meno di non considerare buona una perdita consistente di dati ? > > > > la cosa migliore sarebbe una XSLT che processi l'HTML e produca il TXT > > (quell'html non e` poi cosi' malvagio, dopo tutto). pero` non sono a > > conoscenza di nessuno script che lo faccia. > Non e' possibile. XSLT richiede un imput ben formato (XML), HTML non lo > e', pensa ad esempio al tag <br>, che in HTML e' regolare, mentre in XML > non lo e'... XSLT si applica ad un albero DOM e se leggi attentamente il testo della specifica del W3C scopri che DOM vale anche per HTML. la libxml2 e' perfettamente in grado di fare i parsing di un file HTML (purche' non contenga errori, come un tag <td> non chiuso), poi puoi processarlo con la libxslt1. vedi anche i comandi xsltproc e xmlshell. buono studio, federico -- Federico Di Gregorio Debian GNU/Linux Developer & Italian Press Contact fog@debian.org INIT.D Developer fog@initd.org La felicità è una tazza di cioccolata calda. Sempre. -- Io
Attachment:
signature.asc
Description: PGP signature