[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: URLs aus über 200.000 Dateien extr ahieren



Michelle Konzack schrieb:

Am 2005-05-10 15:43:25, schrieb Uwe A. P. Wuerdinger:

Hm das sollte sich mit n paar zeilen perl oder python erledigen lassen

Also in Perl habe ich das gefunden:

 __( manpage 'HTML::LinkExtor' )_______________________________________
/
| HTML::LinkExtorUser Contributed Perl DocumentatHTML::LinkExtor(3)
| | NAME
|        HTML::LinkExtor - Extract links from an HTML document
| | SYNOPSIS
|         require HTML::LinkExtor;
|         $p = HTML::LinkExtor->new(&cb, "http://www.perl.org/";);
|         sub cb {
|             my($tag, %links) = @_;
|             print "$tag @{[%links]}n";
|         }
|         $p->parse_file("index.html");
| | | DESCRIPTION
|        HTML::LinkExtor is an HTML parser that extracts links from
|        an HTML document.  The HTML::LinkExtor is a subclass of
|        HTML::Parser. This means that the document should be given
|        to the parser by calling the $p->parse() or
|        $p->parse_file() methods.

<snip>

| 2001-03-26                 perl v5.6.0         HTML::LinkExtor(3)
\______________________________________________________________________

nur verstehe ich garnichts davon...
Nun ich glaube das kommt ja nicht unbedingt in Frage, denn:

--> extracts links from an HTML document

Du hast aber kein HTML Dokument, wo die Links mit <a href> beginnen...


Ich weis ja, das man diverse Funktionen mit "perl ..." direkt
in BASH Scripte aufrufen kann, nur weis ich nicht wie...
perl --help
-e program one line of program (several -e's allowed, omit programfile)

Zum Beispiel :-)

Programmierst Du in Perl ?
Ein wenig :-) Damit möchte ich sagen, dass ich *etwas* PERL kann, aber nicht der Crack bin.

Also wie gesagt, jedesmal wenn eine Datei an das Script übergeben
wird, muß es die URL's extrahieren und dann an eine Datei anhängen.
Wie machst Du das in Deinem Bash-Skript? Via grep -i "http://"; -f * ?

Sortieren, Unifizieren und Aussondern kömmt später.
Gruß
 Bernd



Reply to: