[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: grabbare dati da pagine gialle



Il venerdì 15 maggio 2009 08:49:08 Fernando ff77 ha scritto:
> Il 14 maggio 2009 21.24, Davide Prina <davide.prina@gmail.com> ha scritto:
> > io ho fatto script per scaricare pagine con cognomi (per crearmi il
> > dizionario dei cognomi al link qui sotto), principalmente da petizioni
> > (ho scaricato per esempio quella per i costi di ricarica dei cellulari).
>
> Stavo appunto studiando wget - awk e sed ma ho chiesto perchè magari
> qualcuno ha già affrontato il problema di paginegialle.
>
> Comunque grazie.
>
> Ciao, ff77

Per altre pagine, ho usato uno script che fa uso di lynx in modalità dump, 
quindi praticamente mi salvo la pagina in formato testo, e poi con filtri più 
o meno mirati lo si pulisce da quello che non serve... per esempio di solito 
la parte importante parte dopo un ben preciso tag sempre presente, basta 
trovare il tag di inizio e quello di fine, contare a quale riga si trovano e 
con tail e head si tagliano testa e coda, lasciando la sola parte che 
interessa.... e poi ci si lavora sopra.

Byez
-- 
Gollum 1
Tessssssoro, dov'é il mio tesssssssoro...


Reply to: