Re: Обобщенная карта сайта
Tue, 10 Jul 2007 19:58:33 +0400, "Artem Chuprina" <ran@ran.pp.ru>:
> > Существует ли инструмент для получения ВСЕХ ссылок на сайте с их
> > классификацией по страницам, директориям и типам (внутренние, внешние, http,
> > ftp, rss, ...)?
>
> Ключевое слово - spider, а остальное делается каким-нибудь перлом
> (классификация, которая интересует тебя, скорее всего, отличается от
> той, которая интересует других).
Ещё два ключевые слова: crawler и robot :)
http://en.wikipedia.org/wiki/Spidering#Open-source_crawlers
По-быстрому можно попробовать собрать ссылки, например, так:
$ wget -m --no-verbose -np -o log -D news.yandex.ru http://news.yandex.ru/
$ cat log | grep URL: | sed 's/.*URL://' | awk '{print $1;}'
http://news.yandex.ru/
http://news.yandex.ru/robots.txt
http://news.yandex.ru/favicon.ico
http://news.yandex.ru/opensearch.xml
http://news.yandex.ru/index.rss
http://news.yandex.ru/setup/
http://news.yandex.ru/faq.html
....
Не проверял, собёрутся ли так все ссылки, но все внутренние данного
сайта/раздела сайта, наверное, точно соберутся.
Reply to: