[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Parsing contenuto siti web con strumenti bash??



In questo periodo mi interessa monitorare alcuni siti e capire quando escono nuovi articoli su certi argomenti. Diciamo che solitamente posso utilizzare delle parole chiave e che gli articoli sono in home. Visto che i siti sono decine non posso visitarli tutti ogni giorno, quindi vorrei costruire uno strumento che visiti per me il sito web e mi dica se ci sono novita'.

Faccio cosi':

Creo un file con tutte le url
Creo un file con tutte le keywords

Con wget scarico le url.

faccio un cat <pagina> | grep -i <keywords>

Se il risultato e' positivo scrivo un file di logs. Che con txt2tags diventa un file HTML, da leggere a video.

Non e' preciso, soprattutto perche' se combino le keywords

cat <pagina> | grep -i <keywords1> | grep -i <keywords2>

spesso non ottengo risultati... qualche idea??



--

 ,           ,
 /             \
((__-^^-,-^^-__))      http://www.frequenze.it
 `-_---' `---_-'
  `--|o` 'o|--'              Debian Sarge kernel 2.4.22
     \  `  /                    Notebook Asus A2520 CPU 2.4Ghz RAM 512MB
      ): :(
      :o_o:
"-"


Reply to: