[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Обобщенная карта сайта



Tue, 10 Jul 2007 19:58:33 +0400, "Artem Chuprina" <ran@ran.pp.ru>:

> > Существует ли инструмент для получения ВСЕХ ссылок на сайте с их
> > классификацией по страницам, директориям и типам (внутренние, внешние, http,
> > ftp, rss, ...)?
> 
> Ключевое слово - spider, а остальное делается каким-нибудь перлом
> (классификация, которая интересует тебя, скорее всего, отличается от
> той, которая интересует других).

Ещё два ключевые слова: crawler и robot :)

http://en.wikipedia.org/wiki/Spidering#Open-source_crawlers



По-быстрому можно попробовать собрать ссылки, например, так:

$ wget -m --no-verbose -np -o log -D news.yandex.ru http://news.yandex.ru/
$ cat log | grep URL: | sed 's/.*URL://' | awk '{print $1;}'
http://news.yandex.ru/
http://news.yandex.ru/robots.txt
http://news.yandex.ru/favicon.ico
http://news.yandex.ru/opensearch.xml
http://news.yandex.ru/index.rss
http://news.yandex.ru/setup/
http://news.yandex.ru/faq.html
....

Не проверял, собёрутся ли так все ссылки, но все внутренние данного
сайта/раздела сайта, наверное, точно соберутся.




Reply to: