[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [HS] HTML, javascript, expression régulière ?



Le 02.11.2017 07:59, ptilou a écrit :

Bonjour,

Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit :
Le 25.10.2017 10:53, ptilou a écrit :


Bonjour,
 
 Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit :
Enfin une question à laquelle je peux essayer de répondre :-)
 
 Je suis nul en informatique, mais j'ai une relative maîtrise des expressions
 rationnelles.
 Dans ton _expression_, tu as oublié de protéger le point et le trait d'union.
 Par ailleurs, on peut faire plus simple en utilsant \w.
 
 Essaie :
 [\w\.\-]+@[\w\.\-]{2,}\.[a-z]{2,4}
 
 Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas dans
 sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé.
 

 Marche pas !
 
 $  find . -type f -print | xargs  egrep -o '[\w\.\-]+@[\w\.\-]{2,}\.[a-z]{2,4}'
 xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0
 grep: ./www._____.com/pics/contents/webzine/communique: No such file or directory
 grep: paris: No such file or directory
 grep: design: No such file or directory
 grep: week.pdf: No such file or directory
 grep: ./www._____.com/pics/contents/webzine/vs: No such file or directory
 grep: a: No such file or directory
 grep: glass: No such file or directory
 grep: house.jpg: No such file or directory
 grep: ./www._____.com/pics/webzine/29: No such file or directory
 grep: citations: No such file or directory
 grep: pour: No such file or directory
 
 Je n'ai même plus les adresses du webmestre !
 J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée comme un oisillion mais en code source, je ne suis pas capable de réfléchire ....
 Il faut ce mettre à python, Lxml et BeautifulSoup ?
 
 Je cherche un truc plus simple, sous windows quand je lance une recherche il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si j'ai télécharger les adresses ?
 Je suis le seul à faire du scraping ?
 
 Ptilou
 


Les raccourcis pour les caractères alphanumériques varient selon le contexte dans lequel les regexp sont utilisées, essaie ça en ligne de commande :

egrep -R '[[:alnum:].\-]+@[[:alnum:]]+\.[[:alpha:]]{2,}'

çà ne marche pas ! j'ai essayé man c la : http://manpagesfr.free.fr/man/man1/Index.1.html

j'ai besoin d'aide pour mettre tous çà en corollaire ...
Y a des rhume de binaire en ce moment c'est une épidémie !

Ptilou
 

Curieux... J'ai essayé ça sous bash et ça donne bien le résultat attendu : egrep -R '[[:alnum:].\-]+@[[:alnum:]]+\.[[:alpha:]]{2,}'

egrep -R '[[:alnum:]._\-]+@([[:alnum:]]+\.)+[[:alpha:]]{2,}' est un peu plus complète et repère les emails du type toto@qqpart.co.uk (avec un domaine composé de 2 parties ou plus)

Tu lances bien la commande dans un terminal pour faire tes tests ?
 
Christian

Reply to: