[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Estrazione di dati da email



Ciao
[snip[
> > > > meno di non considerare buona una perdita consistente di dati ?
> > >
> > > la cosa migliore sarebbe una XSLT che processi l'HTML e produca il TXT
> > > (quell'html non e` poi cosi' malvagio, dopo tutto). pero` non sono a
> > > conoscenza di nessuno script che lo faccia.
> > Non e' possibile. XSLT richiede un imput ben formato (XML), HTML non lo
> > e', pensa ad esempio al tag <br>, che in HTML e' regolare, mentre in XML
> > non lo e'...
>
> XSLT si applica ad un albero DOM e se leggi attentamente il testo della
> specifica del W3C scopri che DOM vale anche per HTML. la libxml2 e'
> perfettamente in grado di fare i parsing di un file HTML (purche' non
> contenga errori, come un tag <td> non chiuso), poi puoi processarlo con
> la libxslt1. vedi anche i comandi xsltproc e xmlshell.
Esattamente, ma html _contiene_ tag non chiusi (a meno che chi lo scrive
si preoccupi di controllare accuratamente il tutto), ma lo standard HTML
accetta tag del genere <BR> che, invece un DOM per formattato non puo'
accettare (aperto e non chiuso).
Ovviamente non parlo dello pseudo-html di M$.
Io non so se qualche buonanima ha implemetato una liberia che preveda
queste eccezioni (nel senso XML), comunque se provi a gestire tramite
xslt un html 9 volte su 10 hai casini.

Ciao
Linux-anc
(linux-anc@libero.it linux.anc@email.it)
registered as user #170611 with the Linux Counter



--
Prendi GRATIS l'email universale che... risparmia: http://www.email.it/f

Sponsor:
Puglia Pocket: le ultime notizie, gratis, sul tuo sito; devi solo prenderlo 

Clicca qui: http://adv.email.it/cgi-bin/foclick.cgi?mid=314&d=9-4  


--
To UNSUBSCRIBE, email to debian-italian-request@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org



Reply to: