[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Perl & HTML



Hallo Gabriel,

* Gabriel Müsebeck - PM schrieb [07-04-03 22:05]:
> 
> anscheinend hatte ich meine Antwort nur als PM geschickt. Bitte um
> Entschuldigung dafür. Diese hier geht an die Liste und als PM raus
> und die nächsten nur an die Liste, ok?

Jupp.

> > Aber die URL gebe ich doch an! Wenn ich die aber aufrufe und sie
> > nicht auf dem Webser existiert, werde ich weitergeleitet. Die URL
> > von der Weiterleitung muss ich irgendwie prüfen.
> 
> Hm, habe wohl die ursprüngliche Frage falsch verstanden. Also wird die
> ID von _deinem_ Rechner generiert, dann wird die Url damit komplettiert
> und vom Server abgerufen?

Ja, genau das!

> Wie holst du die Seite ab? Mit wget, lynx, LWP::Simple, LWP::UserAgent
> oder ...

Im Moment mit LWP::UserAgent

> Am besten du postest mal den entsprechenden Scriptfetzen oder schickst
> mir das Script komplett.

#!/usr/bin/perl

require HTTP::Request;
require HTTP::Response;
require LWP::UserAgent;

$i = 1;
my $ua = LWP::UserAgent->new;

while ($i < 10000000) {
  $url = "http://***/functions.phtml\?IdentNr=$i";;
  $request = HTTP::Request->new(GET => $url);
  $response = $ua->request($request);
  if ($response->is_success) {
    if ($response->content =~ /Untertitel/) {
      open (FILE,">/tmp/download/$i.html");
      print FILE $response->content;
      close (FILE);
      print $i . "\n";
    }
  }
  $i++;
}

Falls die Seite nicht existiert, die ich abrufen möchte, wird die
URL http://***/functions.shtml geladen. Und wenn das der Fall
ist, will ich die gar nicht haben.

Ich muss also vor dem Laden der Seite wissen, von welcher URL ich
nun wirklich hole.

Any hints?

Gruss Udo

-- 
Aus Murphy's Gesetzen:
Das Backup, das du gerade gemacht hast, wirst du nie brauchen.

Attachment: pgpzB509mZfj2.pgp
Description: PGP signature


Reply to: