[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [HS] HTML, javascript, expression régulière ?




Le 25.10.2017 10:53, ptilou a écrit :

Bonjour,

Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une question à laquelle je peux essayer de répondre :-)

Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
rationnelles.
Dans ton _expression_, tu as oublié de protéger le point et le trait d'union.
Par ailleurs, on peut faire plus simple en utilsant \w.

Essaie :
[\w\.\-]+@[\w\.\-]{2,}\.[a-z]{2,4}

Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.

Marche pas !

$  find . -type f -print | xargs  egrep -o '[\w\.\-]+@[\w\.\-]{2,}\.[a-z]{2,4}'
xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
grep: ./www._____.com/pics/contents/webzine/communique: No such file or directory
grep: paris: No such file or directory
grep: design: No such file or directory
grep: week.pdf: No such file or directory
grep: ./www._____.com/pics/contents/webzine/vs: No such file or directory
grep: a: No such file or directory
grep: glass: No such file or directory
grep: house.jpg: No such file or directory
grep: ./www._____.com/pics/webzine/29: No such file or directory
grep: citations: No such file or directory
grep: pour: No such file or directory

Je n'ai même plus les adresses du webmestre !
J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
Il faut ce mettre à python, Lxml et BeautifulSoup ?

Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
Je suis le seul à faire du scraping ?

Ptilou

Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie ça en ligne de commande :

egrep -R '[[:alnum:].\-]+@[[:alnum:]]+\.[[:alpha:]]{2,}'

Christian

Reply to: