[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: robots detector [sorry for offtopic]



On Fri, 2 Nov 2001, Victor Wagner wrote:

>> В своей массе люди пользующиеся wget -r знают зачем им это надо... Как

VW>К сожалению, они не знают, какие проблемы они при этом создают серверу,
VW>на который они лазят, и другим его пользователям.

	Как активный пользователь wget-а :-), возражу на это, что
если контент, который имеет смысл скачивать подобным образом,
раздается в виде cgi-шек, то, IMHO,в большинстве случаев это
означает либо, что у сайта что-то не в порядке с построением, либо у
авторов сайта, как бы это помягче выразиться, коммерческие
сооображения возобладали над функциональными (имеет место попытка
обойти ст. 18 ЗоАП или что-то в этом же роде).  Для статического
контента, AFAIK, разница будет небольшая.

В этой связи мне представляется вполне логичным и естественным, что
фирмы, не пожелавшие придерживаться добросовестных отношений к
..э-э-э...интернет-сообществу, не будет также получать бонусов от
добросовестного отношения других к себе. Просто технически. Хочешь
вести дела на "чиста деловой" основе - будь готов платить за это
полную, "чиста деловую" цену. Вон, как у www.microsoft.com vs
ftp.cdrom.com - при примерно одинаковом полезном трафике у первых
навороченная многоуровневая система, а у вторых - обычный писюк (по
крайне мере было так года полтора-два назад, когда я услыщал эту
байку.).

Конечно, придумать способов не пущать роботов можно кучу -
сделать минимальный промежуток времени между двумя запросами с
одного IP, отслеживать обход дерева, анализировать запрос на
количество мусора в нем (мало - значит робот) итд.

	Но, во первых, это только _слегка_ затруднит работу
скриптов|качалок, в конечном счете победа все равно будет за ними. А
во вторых - ударит не столько по качалкам, сколько по обычным
посетителям, которые подпадут под этот паттерн.


VW>К тому же этих рекурсивных качалок сейчас развелось немерянное
VW>количество и далеко не все они имеют такой "высокий входной
VW>барьер" как wget.

	Ниче. Волк - санитар леса.



Reply to: