Parsing contenuto siti web con strumenti bash??
In questo periodo mi interessa monitorare alcuni siti e capire quando
escono nuovi articoli su certi argomenti. Diciamo che solitamente posso
utilizzare delle parole chiave e che gli articoli sono in home. Visto che
i siti sono decine non posso visitarli tutti ogni giorno, quindi vorrei
costruire uno strumento che visiti per me il sito web e mi dica se ci sono
novita'.
Faccio cosi':
Creo un file con tutte le url
Creo un file con tutte le keywords
Con wget scarico le url.
faccio un cat <pagina> | grep -i <keywords>
Se il risultato e' positivo scrivo un file di logs. Che con txt2tags
diventa un file HTML, da leggere a video.
Non e' preciso, soprattutto perche' se combino le keywords
cat <pagina> | grep -i <keywords1> | grep -i <keywords2>
spesso non ottengo risultati... qualche idea??
--
, ,
/ \
((__-^^-,-^^-__)) http://www.frequenze.it
`-_---' `---_-'
`--|o` 'o|--' Debian Sarge kernel 2.4.22
\ ` / Notebook Asus A2520 CPU 2.4Ghz RAM 512MB
): :(
:o_o:
"-"
Reply to: