[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Хитрый вопрос про wget:



Maxim Filimonov пишет:

On Sat, 25 Oct 2008 19:42:48 -0400
Nicholas <spam@networkgate.us> wrote:

Evgeniy M. Solodookhin wrote:
надо скачать сайт, который остался в кеше archive.org:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/
внутри документов все ссылки неверные, типа:
"http://www.ancient.ru.way_back_stub/topics/data/index.htm";
но дукументы можно увидеть изменяя ссылки вот так:
http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htm
скачать as is и прогнать через sed?
Ну так вам и предлагают скачать документ, прогнать его sed'ом, тем самым превратив нерабочие ссылки в рабочие, и отдать получившийся документ вгету, который уже получит рабочие ссылки.

Таким образом скачается лишь одна страница. И ссылок на ней может быть мало. И таких страниц - куча. Каждую скачивать вручную и седом править ссылки? Зачем тогда wget??

Я как-то качал оттуда. НО, насколько увидел, внутри ссылки меняются на локальные, типа http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htm где /20050822225400/ - дата создания копии. Можно просто скачать. Я в httrack`е задавал шаблон типа http://web.archive.org/web/20050822225400/http://www.ancient.ru/* - что-то скачивалось... но не все, что хотелось - archive.org отдает медленно, чуть ли не одним потоком (как понимаю, там не любят роботов), и ссылка все время скидывалась к виду http://web.archive.org/web/20050822225400/ - плюс, не все старницы сайта оказались скопированы сервисом.

Как вариант - дать адрес первой страницы wget`у, скачать, передать на вход sed`a, обработать - после обработанное снова передать на вход wget`а с соотв. опциями. Т.е. чтобы wget не сразу шел по ссылкам, а предварительно обрабатывалось в sed`e. После чего запускался отдельный экземпляр wget`a с указанием скачать конкретную ссылку или группу ссылок. Скрипт.

--
С наилучшими,
Константин


Reply to: