[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Adressen aus einer html-Seite rausfiltern



Am 2005-06-12 20:00:54, schrieb Klaus Becker:

> Hallo Michelle und alle, die mir geantwortet haben.
> 
> Ich bin kein Informatiker (leider) und kann auch nicht programmieren. Ich hab' 
> im letzten Semester einen Einführungskurs in Linux abgehalten und gerade 55 
> Klausuren korrigiert. Da bleibt nicht viel Zeit für man-Seiten.
>  Ich habe trotzdem einen Artikel zu grep, sed usw gelesen, aber verstanden 
> hab' ich nur 1/2, da raucht mir Kopf, studiert oder nicht.

:-D

> 
> Auf der Eingangsseite unter "Start", "Stop" findet man alle arabischen Länder. 
> Das 1. ist z. B. Saudi-Arabien. Unter "http://www.altarab.com/saudi/"; findet 
> man dann eine Liste der Sänger, und wenn man auf einen Sänger klickt, kommt 
> man auf eine neue Seite mit zig Liedern des Sängers. Ist das so 
> verständlich ? Mein Freund sagte mir, auf der Seite sei fast die ganze 
> arabische Musik.
> 
> Wie kann man das alles runterladen? Mit pavuk oder "wget -m" kriegt man nur 
> eine Seite. Falls jemand eine Idee hat...

Habe mir die Seite jetzt nicht angesehen, aber warscheinlich wird
ein Java-Script dahinterstecken, was 'wget' nicht parsen kann...

Also würde ich einfach

wget -m -nH -np http://www.altarab.com/saudi/
wget -m -nH -np http://www.altarab.com/iraqi/
wget -m -nH -np http://www.altarab.com/...

Machen und die Unterverzeichnisse einzeln holen.

Ich habe übrigends per script "Warda" runtergeladen, was rund 122 MByte
und das der gesamte Server so um die 900 MByte ra/ram Dateien sind.

20 MByte swf habe ich auch...

Warste schon mal bei den "Bildern" ?

Da findest Du einen Link auf ne Hard-Core Seite mit überblick über
hunderte, tausende (???) Porno Servern...

Schön versteckt hinter einem Punkt ".".

> tschüs
> Klaus

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/
Michelle Konzack   Apt. 917                  ICQ #328449886
                   50, rue de Soultz         MSM LinuxMichi
0033/3/88452356    67100 Strasbourg/France   IRC #Debian (irc.icq.com)

Attachment: signature.pgp
Description: Digital signature


Reply to: