Re: Com processar una pàgina web [ajuda]
A Divendres 13 Juny 2003 17:15, Xavier Noria va escriure:
> On Friday 13 June 2003 16:11, Antoni Bella Perez wrote:
> > Necessitaria una indicació a sobre de com estreure un paràgraf
> > d'una pàgina web, el format de la mateixa és força estàtic però la
> > quantitat de línies a estreure sol variar sovint i m'asembla que el
> > meu mètode es pot simplificar però no sé com.
>
> Podries dir que identifica el principi i final del text? Podries enviar
> una pagina sencera d'exemple tambe?
>
> -- fxn
La questió és que distribueixen fotos estel·lars amb un comentari del dia i
desitjaria estreure el comentari (ja ho he fet però al meu mode de veure ha
quedat tot un garbuix):
Les pàgines són aquestes dos (de moment sols processo la d'astrored):
Anglès: <http://antwrp.gsfc.nasa.gov/apod/>
Castellà: <http://www.astrored.org/astrofotos/apod/>
El pedaç de l'script que ho ha és aquest:
################
# Aconseguint i processant la pàgina del comentari des d'astrored
COM_TMP="$F_DIR/.tmp/index.html"
GET http://www.astrored.org/astrofotos/apod/ > $COM_TMP
# Variable repetitiva
# -> 'tilulo1' és la primera clau del paràgraf
TMP_VAR=`grep -n 'titulo1' $COM_TMP | head -1`
# Títol de la foto
F_TITLE=$(echo $TMP_VAR | awk -F'<' '{print $6}' | cut -f 2 -d'>' | \
sed -e "s/\:/_/i" -e "s/ \.\.\. //i" \
-e "s/ /_/i" -e "s/ /_/i" \
-e "s/ /_/i" -e "s/ /_/i")
# Final del paràgraf
# -> 'Traducida por' és la segona clau del paràgraf
F_OUT=$(grep -n 'Traducida por' $COM_TMP | cut -f 1 -d':')
# Desestimo el que hi ha al darrera
head -$F_OUT $COM_TMP > $COM_TMP.1
# Processo per a desetimar el que hi ha al davant
IN=$(echo $TMP_VAR | cut -f 1 -d':')
let F_IN=`wc -l $COM_TMP.1 | awk '{print $1}'`-$IN
# Deso el resultat a l'arxiu amb el dia i títol de la traducció del comentari
tail -$F_IN $COM_TMP.1 > $F_DIR/arxiu/$ANY/$MES/`date +%d`_$F_TITLE.mess
################
Després d'un parell d'hores ja té més bona pinta però vejam que hi veus.
Gràcies
Toni
PD
Estaria bé enviar-ho a la llista
--
Sort
######## Antoni Bella Perez #################### |
# http://www.terra.es/personal7/bella5/home.htm
## <bella5@teleline.es> ## i
col·laborador del projecte Debian en català: debian.org/index.ca.htm
Maquinari: - Pentium II 300MHz 128MB memòria 599.65 bogomips
Sistema: - Debian GNU/Linux-2.4.20 - XFree86 4.2.1-8+opt
-
Reply to: