Re: URLs aus über 200.000 Dateien extr ahieren

To: "debian-user-german@lists.debian.org" <debian-user-german@lists.debian.org>
Subject: Re: URLs aus über 200.000 Dateien extr ahieren
From: Bernd Schwendele <ml@schwebekoma.de>
Date: Tue, 10 May 2005 17:36:07 +0200
Message-id: <[🔎] 4280D4E7.5020706@schwebekoma.de>
Reply-to: debian-user-german@lists.debian.org
In-reply-to: <[🔎] 20050510141831.GG26074@freenet.de>
References: <[🔎] 20050510133445.GE26074@freenet.de> <[🔎] 4280BA7D.2020507@highspeed-firewall.de> <[🔎] 20050510141831.GG26074@freenet.de>

Michelle Konzack schrieb:

Am 2005-05-10 15:43:25, schrieb Uwe A. P. Wuerdinger:

Hm das sollte sich mit n paar zeilen perl oder python erledigen lassen


Also in Perl habe ich das gefunden:

 __( manpage 'HTML::LinkExtor' )_______________________________________
/
| HTML::LinkExtorUser Contributed Perl DocumentatHTML::LinkExtor(3)

|| NAME

|        HTML::LinkExtor - Extract links from an HTML document

|| SYNOPSIS

|         require HTML::LinkExtor;
|         $p = HTML::LinkExtor->new(&cb, "http://www.perl.org/";);
|         sub cb {
|             my($tag, %links) = @_;
|             print "$tag @{[%links]}n";
|         }
|         $p->parse_file("index.html");

||| DESCRIPTION

|        HTML::LinkExtor is an HTML parser that extracts links from
|        an HTML document.  The HTML::LinkExtor is a subclass of
|        HTML::Parser. This means that the document should be given
|        to the parser by calling the $p->parse() or
|        $p->parse_file() methods.

<snip>

| 2001-03-26                 perl v5.6.0         HTML::LinkExtor(3)
\______________________________________________________________________

nur verstehe ich garnichts davon...

Nun ich glaube das kommt ja nicht unbedingt in Frage, denn:

--> extracts links from an HTML document

Du hast aber kein HTML Dokument, wo die Links mit <a href> beginnen...

Ich weis ja, das man diverse Funktionen mit "perl ..." direkt
in BASH Scripte aufrufen kann, nur weis ich nicht wie...

perl --help

-e program one line of program (several -e's allowed, omitprogramfile)


Zum Beispiel :-)

Programmierst Du in Perl ?

Ein wenig :-) Damit möchte ich sagen, dass ich *etwas* PERL kann, abernicht der Crack bin.

Also wie gesagt, jedesmal wenn eine Datei an das Script übergeben
wird, muß es die URL's extrahieren und dann an eine Datei anhängen.

Wie machst Du das in Deinem Bash-Skript? Via grep -i "http://"; -f * ?

Sortieren, Unifizieren und Aussondern kömmt später.

Gruß
 Bernd

Reply to:

Follow-Ups:
- Re: URLs aus über 200.000 Dateien extr ahieren
  - From: Michelle Konzack <linux4michelle@freenet.de>

References:
- URLs aus über 200.000 Dateien extrahieren
  - From: Michelle Konzack <linux4michelle@freenet.de>
- Re: URLs aus über 200.000 Dateien extrahieren
  - From: "Uwe A. P. Wuerdinger" <wuerdinger@highspeed-firewall.de>
- Re: URLs aus über 200.000 Dateien extr ahieren
  - From: Michelle Konzack <linux4michelle@freenet.de>

Prev by Date: LICQ sound
Next by Date: Re: Download der Sarge iso images schon sinnvoll?
Previous by thread: Re: URLs aus über 200.000 Dateien extr ahieren
Next by thread: Re: URLs aus über 200.000 Dateien extr ahieren
Index(es):
- Date
- Thread