Re: [HS] parser du html en shell

To: debian-user-french@lists.debian.org
Cc: debian-user-french@lists.debian.org
Subject: Re: [HS] parser du html en shell
From: Yannick Fouquet <Yannick.Fouquet@imag.fr>
Date: Thu, 16 Jul 2009 09:55:13 +0200
Message-id: <[🔎] 4A5EDCE0.9090906@imag.fr>
In-reply-to: <[🔎] 4A5EBA40.9010709@moinet.org>
References: <[🔎] 4a5a1f22$0$16767$426a34cc@news.free.fr> <[🔎] 4A5EBA40.9010709@moinet.org>

Bonjour,
Jerome Moinet a écrit :

fabrice régnier a écrit :

je cherche à parser la balise <A variables_de_la balise >blabla</A> et à
récupérer le contenu blabla.

echo "<A variables_de_la balise >blabla</A>" | sed s/"<[^>]*>"/""/g

Si il y a des espaces ou des tabulations devant :

echo "    	<A variables_de_la balise >blabla</A>" | sed s/"<[^>]*>"/""/g
| sed s/"^[ 	]*"/""/

AMHA, cette solution marche très bien pour du nettoyage de code (i.e.enlever toutes les balises).Le problème ici c'est qu'on peut avoir autre chose que la balise A surla ligne, par exemple b :echo " truc <A variables_de_la balise >blabla</A>" | seds/"<[^>]*>"/""/g| sed s/"^[ ]*"/""/

truc   blabla

or fabrice régnier semble ne vouloir que blabla.
La solution perl marche bien :

% cat blabla.html | \
perl -W -e 'while (<>){print "$2\n" if (/<a(.*?)>(.*)<\/a/oi);};'


on doit pouvoir faire la même chose à base de sed et de remplacements,

mais si l'on tient compte qu'il peut y avoir d'autres balises, d'autresA avant ou après et plusieurs balises <A, ça ne me parait pas évident.

echo " machin truc Ah ah ah ! <A variables_de_la balise>blabla</A> <A variables2>bidule</A> chouette" | sed -rs/"^.*<A[^>]*>([^<]*)<\/A>.*$"/"\1"/g

bidule

Ne donne que le contenu de la dernière balise A.

On doit pouvoir faire mieux en combinant avec grep par exemple :

echo " machin truc Ah ah ah ! <A variables_de_la balise>blabla</A> <A variables2>bidule</A> chouette" | grep -o -E"<A[^>]*>([^<]*)<\/A>" |sed -r s/"^.*<A[^>]*>([^<]*)<\/A>.*$"/"\1"/

blabla
bidule


@+
Yannick.

Reply to:

References:
- [HS] parser du html en shell
 - From: fabrice régnier <regnier.fab@free.fr>
- Re: [HS] parser du html en shell
 - From: Jerome Moinet <jerome@moinet.org>

Prev by Date: Re: debian à ubuntu
Next by Date: Re: debian à ubuntu
Previous by thread: Re: [HS] parser du html en shell
Next by thread: [RESOLU] parser du html en shell
Index(es):
- Date
- Thread