[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: URIs auf htmlseite in php extrahieren



N'Abend,

Am 2005-08-25 16:27:31, schrieb Torsten Flammiger:

> gib uns (mir) bitte ein Beispiel

Die URL ist zum beispiel:

        http://www.nl.debian.org/consultants/

so, nun fetche ich diese Seite, und ich habe dann

        http://www.nl.debian.org/consultants/index.html

nun spider ich die Seite nach requisiten und finde

        ../pics/debian_logo.png

Früher, zu zeiten von Netscape 2 oder 3 habe ich die Netscape_DDE
verwendet und der aufruf war so in etwa

        command_dde("$BASEURL", "$REQUISITURL")

wobei
        BASEURL     = http://www.nl.debian.org/consultants/index.html
und
        REQUISITURL = ../pics/debian_logo.png

Zurückgeliefert hbe ich dann

        http://www.nl.debian.org/pics/debian_logo.png

bekommen.  So ne Lib habe es in VisualBasic, Borland C++ und
auch ne C Bibliothek für DOS-Programmierung. 

Ich habe das irgendwo in Debian bei den Devel-Paketen gesehen, nur
finde ich es nicht mehr und ich denke das es mit Perl oder Python
war.  Hatte es mal von der Bash aus benutzt.

Naja, wie gesagt, ich benötige zu der BASE-URL alle REQUISITEN-URLs.

Mit einfachem spidern ist da nicht geholfen.

Ich hatte versucht das ganze mit

    wget --force-html --base "$BASEURL" --input-file="$BASEURL" \
         --force-directories --referer="$BASEURL" \
         --user-agent="$UA" --page-requisites --prefix="$TMPDIR"

herunterzuladen, aber das hat zuviel traffic verursacht, da jedesmal
die "Seiten Requisiten" erneut heruntergeladen werden.

Nach dem 1:1 herunterladen, will ich die Dateien (Seiten Requisiten)
mit hilfe von md5sum umbenennen und in meine Datenbank-Tabelle
eintragen, also ungefähr so

$md5sum    $STORAGE_PATH    $DATE    $ORIGIN_URL

wenn das erledigt ist, mache ich ein rewrite der HTML-Seite, so das
ich nur noch volle URLs habe die dann auf die md5-Dateien zeigen.
danach wird die HTML Seite ebenfals mit einem md5-hash abgespeichert
und in die Datenbanktabelle eingetragen.

> Torsten

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/
Michelle Konzack   Apt. 917                  ICQ #328449886
                   50, rue de Soultz         MSM LinuxMichi
0033/3/88452356    67100 Strasbourg/France   IRC #Debian (irc.icq.com)

Attachment: signature.pgp
Description: Digital signature


Reply to: