Re: Хитрый вопрос про wget:

To: debian-russian@lists.debian.org
Subject: Re: Хитрый вопрос про wget:
From: Constantine <shuvalov@datakon.info>
Date: Sun, 26 Oct 2008 05:03:00 +0300
Message-id: <[🔎] 4903CFD4.4000406@datakon.info>
Reply-to: shuvalov@datakon.info
In-reply-to: <[🔎] 20081026024755.1fcf185f.wasyapup@ya.ru>
References: <[🔎] ge04rl$6do$1@ger.gmane.org> <[🔎] 20081025233219.GA30340@gas.starlink.ru> <[🔎] ge0anp$lle$1@ger.gmane.org> <[🔎] 20081026024755.1fcf185f.wasyapup@ya.ru>

Maxim Filimonov пишет:

On Sat, 25 Oct 2008 19:42:48 -0400
Nicholas <spam@networkgate.us> wrote:

Evgeniy M. Solodookhin wrote:

надо скачать сайт, который остался в кеше archive.org:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/
внутри документов все ссылки неверные, типа:
"http://www.ancient.ru.way_back_stub/topics/data/index.htm";
но дукументы можно увидеть изменяя ссылки вот так:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htm

скачать as is и прогнать через sed?

Ну так вам и предлагают скачать документ, прогнать его sed'ом, тем самым превратив нерабочие ссылки в рабочие, и отдать получившийся документ вгету, который уже получит рабочие ссылки.

Таким образом скачается лишь одна страница. И ссылок на ней может бытьмало. И таких страниц - куча. Каждую скачивать вручную и седом правитьссылки? Зачем тогда wget??

Я как-то качал оттуда. НО, насколько увидел, внутри ссылки меняются налокальные, типаhttp://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htmгде /20050822225400/ - дата создания копии. Можно просто скачать. Я вhttrack`е задавал шаблон типаhttp://web.archive.org/web/20050822225400/http://www.ancient.ru/* -что-то скачивалось... но не все, что хотелось - archive.org отдаетмедленно, чуть ли не одним потоком (как понимаю, там не любят роботов),и ссылка все время скидывалась к видуhttp://web.archive.org/web/20050822225400/ - плюс, не все старницы сайтаоказались скопированы сервисом.

Как вариант - дать адрес первой страницы wget`у, скачать, передать навход sed`a, обработать - после обработанное снова передать на входwget`а с соотв. опциями. Т.е. чтобы wget не сразу шел по ссылкам, апредварительно обрабатывалось в sed`e. После чего запускался отдельныйэкземпляр wget`a с указанием скачать конкретную ссылку или группуссылок. Скрипт.


--
С наилучшими,
Константин

Reply to:

Follow-Ups:
- Re: Хитрый вопрос про wget:
  - From: Maxim Filimonov <wasyapup@ya.ru>
- Re: Хитрый вопрос про wget:
  - From: Nicholas <spam@networkgate.us>

References:
- Хитрый вопрос про wget:
  - From: Nicholas <spam@networkgate.us>
- Re: Хитрый вопрос про wget:
  - From: "Evgeniy M. Solodookhin" <dev@gas.starlink.ru>
- Re: Хитрый вопрос про wget:
  - From: Nicholas <spam@networkgate.us>
- Re: Хитрый вопрос про wget:
  - From: Maxim Filimonov <wasyapup@ya.ru>

Prev by Date: Re: Хитрый вопрос про wget:
Next by Date: Re: Хитрый вопрос про wget:
Previous by thread: Re: Хитрый вопрос про wget:
Next by thread: Re: Хитрый вопрос про wget:
Index(es):
- Date
- Thread