[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: robots detector [sorry for offtopic]



On Sat, Nov 03, 2001 at 03:04:20AM +0800, Fedor Zuev wrote:

> 	Как активный пользователь wget-а :-), возражу на это, что
> если контент, который имеет смысл скачивать подобным образом,
> раздается в виде cgi-шек, то, IMHO,в большинстве случаев это
> означает либо, что у сайта что-то не в порядке с построением, либо у
> авторов сайта, как бы это помягче выразиться, коммерческие
> сооображения возобладали над функциональными (имеет место попытка
> обойти ст. 18 ЗоАП или что-то в этом же роде).  Для статического
> контента, AFAIK, разница будет небольшая.

Хм.. Понимаешь, анархисты, которые кричат "качали, качаем и будем
качать и нас#$ть нам на загрузку сайта, канала и проблемы других 
посетителей" были есть и будут. Вот с ними (типа тебя :) ) и надо боротся.

Кстати, что там гласит ст #18? :) По мэйлу, плз. Это явно не относится
к дебиану, как, впрочем, и весь этот тред :)

> В этой связи мне представляется вполне логичным и естественным, что
> фирмы, не пожелавшие придерживаться добросовестных отношений к
> ..э-э-э...интернет-сообществу, не будет также получать бонусов от
> добросовестного отношения других к себе.

Термин "добросовестное отношение" определи-ка... ИМХО - это поддержка
данных на сайте в актуальном виде и быстрый ответ этого самого сайта
на запросы пользователей. Если 1% пользователей создают мне проблемы
тем, что загружают канал и сервак роботизированным скачиванием - я
их просто отключу. И как раз это и будет "добросовестное отношение" к 
остальным 99% пользователей. А попутно еще и небольшая гарантия того,
что я не увижу на митинке на сидюке все данные с моего сайта. Или
что все емэйлы сайта попадут в базу к какому-нибудь спаммеру.

> Просто технически. Хочешь
> вести дела на "чиста деловой" основе - будь готов платить за это
> полную, "чиста деловую" цену. Вон, как у www.microsoft.com vs
> ftp.cdrom.com - при примерно одинаковом полезном трафике у первых
> навороченная многоуровневая система, а у вторых - обычный писюк

Хм.. Во-первых не надо сравнивать сайты суппорта и некоммерческий
ftp. Это несколько разные вещи. Во-вторых - упадет ftp.cdrom.com или
будет с него плохо качатся - скажут "ну и ладно". А упадет microsoft -
поднимется ТАКАЯ буча...

> Конечно, придумать способов не пущать роботов можно кучу -
> сделать минимальный промежуток времени между двумя запросами с
> одного IP, отслеживать обход дерева, анализировать запрос на
> количество мусора в нем (мало - значит робот) итд.

Угу... Вот именно что-то подобное и хочется.

> 	Но, во первых, это только _слегка_ затруднит работу
> скриптов|качалок, в конечном счете победа все равно будет за ними.

Несомненно. Некоторые качалки можно отследить только руками, а некоторые -
вообще нельзя. Но если нельзя, значит они качают столько же, и так же,
сколько и среднестатистический юзер. А ежели так - ну и пусть себе качают.

> А
> во вторых - ударит не столько по качалкам, сколько по обычным
> посетителям, которые подпадут под этот паттерн.

Да, может быть и так... Правда не думаю, что обычный посетитель 
сможет попасть сразу под несколько роботовских паттернов.

> 	Ниче. Волк - санитар леса.

Ребеночка вместе с водой не выплесни, санитар...


Подводя итог такой, неожиданно оказавшейся интересной, теме :)
Как я понял - такого софта либо не существует, либо народ о нем
просто не знает. Хотя я подумал - если такой софт будет общедоступен
и общеизвестен - никто не помешает "супостатам", поняв его алгоритм
работы, сделать "противоядие" :) Так что придется самому поднапрячься 
и написать :) Различные умные идеи принимаются с благодарностью :)

-- 
Nick Potemkin



Reply to: