N'Abend, Am 2005-08-25 16:27:31, schrieb Torsten Flammiger: > gib uns (mir) bitte ein Beispiel Die URL ist zum beispiel: http://www.nl.debian.org/consultants/ so, nun fetche ich diese Seite, und ich habe dann http://www.nl.debian.org/consultants/index.html nun spider ich die Seite nach requisiten und finde ../pics/debian_logo.png Früher, zu zeiten von Netscape 2 oder 3 habe ich die Netscape_DDE verwendet und der aufruf war so in etwa command_dde("$BASEURL", "$REQUISITURL") wobei BASEURL = http://www.nl.debian.org/consultants/index.html und REQUISITURL = ../pics/debian_logo.png Zurückgeliefert hbe ich dann http://www.nl.debian.org/pics/debian_logo.png bekommen. So ne Lib habe es in VisualBasic, Borland C++ und auch ne C Bibliothek für DOS-Programmierung. Ich habe das irgendwo in Debian bei den Devel-Paketen gesehen, nur finde ich es nicht mehr und ich denke das es mit Perl oder Python war. Hatte es mal von der Bash aus benutzt. Naja, wie gesagt, ich benötige zu der BASE-URL alle REQUISITEN-URLs. Mit einfachem spidern ist da nicht geholfen. Ich hatte versucht das ganze mit wget --force-html --base "$BASEURL" --input-file="$BASEURL" \ --force-directories --referer="$BASEURL" \ --user-agent="$UA" --page-requisites --prefix="$TMPDIR" herunterzuladen, aber das hat zuviel traffic verursacht, da jedesmal die "Seiten Requisiten" erneut heruntergeladen werden. Nach dem 1:1 herunterladen, will ich die Dateien (Seiten Requisiten) mit hilfe von md5sum umbenennen und in meine Datenbank-Tabelle eintragen, also ungefähr so $md5sum $STORAGE_PATH $DATE $ORIGIN_URL wenn das erledigt ist, mache ich ein rewrite der HTML-Seite, so das ich nur noch volle URLs habe die dann auf die md5-Dateien zeigen. danach wird die HTML Seite ebenfals mit einem md5-hash abgespeichert und in die Datenbanktabelle eingetragen. > Torsten Greetings Michelle -- Linux-User #280138 with the Linux Counter, http://counter.li.org/ Michelle Konzack Apt. 917 ICQ #328449886 50, rue de Soultz MSM LinuxMichi 0033/3/88452356 67100 Strasbourg/France IRC #Debian (irc.icq.com)
Attachment:
signature.pgp
Description: Digital signature