[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Com processar una pàgina web [ajuda]



On Friday 13 June 2003 17:59, Antoni Bella Perez wrote:
> A Divendres 13 Juny 2003 17:15, Xavier Noria va escriure:
> > On Friday 13 June 2003 16:11, Antoni Bella Perez wrote:
> > >   Necessitaria una indicació a sobre de com estreure un paràgraf
> > > d'una pàgina web, el format de la mateixa és força estàtic però
> > > la quantitat de línies a estreure sol variar sovint i m'asembla
> > > que el meu mètode es pot simplificar però no sé com.
> >
> > Podries dir que identifica el principi i final del text? Podries
> > enviar una pagina sencera d'exemple tambe?
> >
> > -- fxn
>
>   La questió és que distribueixen fotos estel·lars amb un comentari
> del dia i desitjaria estreure el comentari (ja ho he fet però al meu
> mode de veure ha quedat tot un garbuix):
>
>   Les pàgines són aquestes dos (de moment sols processo la
> d'astrored): Anglès: <http://antwrp.gsfc.nasa.gov/apod/>
> 	Castellà: <http://www.astrored.org/astrofotos/apod/>

Aixo es podria fer amb un one-liner (alerta amb el word wrap):

    Angles:
    $ wget -q -O- 'http://antwrp.gsfc.nasa.gov/apod/' | perl -n0777e 
'm,(<b>\s*Explanation:\s*</b>.*?)<p>\s*<center>$,ms; print $1'

    Castella:
    $ wget -q -O- 'http://www.astrored.org/astrofotos/apod/' | perl 
-n0777e 'm,<div.*?>(.*?)</div>,ms; print $1'

El tema esta en mirar-se el codi font i usar expressions regulars en 
comptes de cut and friends.

-- fxn



Reply to: