[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Com processar una pàgina web [ajuda]



A Divendres 13 Juny 2003 17:15, Xavier Noria va escriure:
> On Friday 13 June 2003 16:11, Antoni Bella Perez wrote:
> >   Necessitaria una indicació a sobre de com estreure un paràgraf
> > d'una pàgina web, el format de la mateixa és força estàtic però la
> > quantitat de línies a estreure sol variar sovint i m'asembla que el
> > meu mètode es pot simplificar però no sé com.
>
> Podries dir que identifica el principi i final del text? Podries enviar
> una pagina sencera d'exemple tambe?
>
> -- fxn

  La questió és que distribueixen fotos estel·lars amb un comentari del dia i 
desitjaria estreure el comentari (ja ho he fet però al meu mode de veure ha 
quedat tot un garbuix):

  Les pàgines són aquestes dos (de moment sols processo la d'astrored):
	Anglès: <http://antwrp.gsfc.nasa.gov/apod/>
	Castellà: <http://www.astrored.org/astrofotos/apod/>

  El pedaç de l'script que ho ha és aquest:

################
# Aconseguint i processant la pàgina del comentari des d'astrored
    COM_TMP="$F_DIR/.tmp/index.html"
    GET http://www.astrored.org/astrofotos/apod/ > $COM_TMP

# Variable repetitiva
# -> 'tilulo1' és la primera clau del paràgraf
    TMP_VAR=`grep -n 'titulo1' $COM_TMP | head -1`

# Títol de la foto
	F_TITLE=$(echo $TMP_VAR | awk -F'<' '{print $6}' | cut -f 2 -d'>' | \
		sed -e "s/\:/_/i" -e "s/ \.\.\. //i" \
		    -e "s/ /_/i"  -e "s/ /_/i" \
		    -e "s/ /_/i"  -e "s/ /_/i")
# Final del paràgraf
# -> 'Traducida por' és la segona clau del paràgraf
	F_OUT=$(grep -n 'Traducida por'	$COM_TMP | cut -f 1 -d':')
# Desestimo el que hi ha al darrera
	head -$F_OUT $COM_TMP > $COM_TMP.1

# Processo per a desetimar el que hi ha al davant
	IN=$(echo $TMP_VAR | cut -f 1 -d':')
	let F_IN=`wc -l $COM_TMP.1 | awk '{print $1}'`-$IN
# Deso el resultat a l'arxiu amb el dia i títol de la traducció del comentari
	tail -$F_IN $COM_TMP.1 > $F_DIR/arxiu/$ANY/$MES/`date +%d`_$F_TITLE.mess
################

  Després d'un parell d'hores ja té més bona pinta però vejam que hi veus. 
Gràcies

  Toni
PD
Estaria bé enviar-ho a la llista
-- 

  Sort

######## Antoni Bella Perez ####################                             |
# http://www.terra.es/personal7/bella5/home.htm
## <bella5@teleline.es> ## i
col·laborador del projecte Debian en català: debian.org/index.ca.htm
Maquinari: - Pentium II 300MHz 128MB memòria 599.65 bogomips
Sistema:   - Debian GNU/Linux-2.4.20  -  XFree86 4.2.1-8+opt

-



Reply to: