[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: grabbare dati da pagine gialle



Fernando ff77 wrote:

qualcuno ha mai realizzato uno script per scaricare in formato
tabellare (es. .csv) tutti i risultati di una ricerca su pagine gialle
?

io ho fatto script per scaricare pagine con cognomi (per crearmi il dizionario dei cognomi al link qui sotto), principalmente da petizioni (ho scaricato per esempio quella per i costi di ricarica dei cellulari).

Per scaricare le pagine uso normalmente wget, se bisogna però usare POST uso curl.

Poi analizzi un po' la pagina, metti filtri per eliminare tutte le righe che non ti servono (es: grep) e per le righe restanti butti tutto quello che non ti serve (es: sed) e poi formatti quello che rimane in modo da ottenere un file nel formato voluto (es: sed).

Naturalmente questo lo puoi fare se le pagine hanno tutte lo stesso formato o caratteristiche.

Ciao
Davide

--
Dizionari: http://linguistico.sourceforge.net/wiki
Petizione contro il formato ms-ooxml:
http://www.noooxml.org/petition
Non autorizzo la memorizzazione del mio indirizzo su outlook


Reply to: