Maxim Filimonov пишет:
On Sat, 25 Oct 2008 19:42:48 -0400 Nicholas <spam@networkgate.us> wrote:Evgeniy M. Solodookhin wrote:надо скачать сайт, который остался в кеше archive.org: http://web.archive.org/web/20050822225400/http://www.ancient.ru/ внутри документов все ссылки неверные, типа: "http://www.ancient.ru.way_back_stub/topics/data/index.htm" но дукументы можно увидеть изменяя ссылки вот так: http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htmскачать as is и прогнать через sed?Ну так вам и предлагают скачать документ, прогнать его sed'ом, тем самым превратив нерабочие ссылки в рабочие, и отдать получившийся документ вгету, который уже получит рабочие ссылки.
Таким образом скачается лишь одна страница. И ссылок на ней может быть мало. И таких страниц - куча. Каждую скачивать вручную и седом править ссылки? Зачем тогда wget??
Я как-то качал оттуда. НО, насколько увидел, внутри ссылки меняются на локальные, типа http://web.archive.org/web/20050822225400/http://www.ancient.ru/topics/data/index.htm где /20050822225400/ - дата создания копии. Можно просто скачать. Я в httrack`е задавал шаблон типа http://web.archive.org/web/20050822225400/http://www.ancient.ru/* - что-то скачивалось... но не все, что хотелось - archive.org отдает медленно, чуть ли не одним потоком (как понимаю, там не любят роботов), и ссылка все время скидывалась к виду http://web.archive.org/web/20050822225400/ - плюс, не все старницы сайта оказались скопированы сервисом.
Как вариант - дать адрес первой страницы wget`у, скачать, передать на вход sed`a, обработать - после обработанное снова передать на вход wget`а с соотв. опциями. Т.е. чтобы wget не сразу шел по ссылкам, а предварительно обрабатывалось в sed`e. После чего запускался отдельный экземпляр wget`a с указанием скачать конкретную ссылку или группу ссылок. Скрипт.
-- С наилучшими, Константин