Re: тестирование спамоукреплспамоукр...
Dmitri V. Ivanov -> debian-russian@lists.debian.org @ Fri, 12 Nov 2004 22:44:44 +0300:
DVI> Вот тут-то наши позиции и расходятся. Вы предполагаете, что страшнее
DVI> доставить спам, которого много, а я считаю, что доставить я должен все.
DVI> Но спам отсортировать в другую папку.
Это тождественно бессмысленно. Ибо если спама слишком много, то ложные
срабатывания будет физически невозможно обнаружить. Я, собственно, спам
весь и доставляю. Я просто не принимаю почту с практически заведомых
спамогенераторов. В результате я получаю количество доставленного
спама, которое на предмет ложных срабатываний физически проверить
можно. А ты просто зря тратишь место на диске и прочие ресурсы.
>> DVI> Вот именно поэтому imho каждый пользователь должен иметь свой
>> DVI> ящик Junk и свою базу статистического фильтра. На базе
>> DVI> bogofilter + maildrop + courier-imap это оказалось очень
>> DVI> просто:
>>
>> Все это очень красивая песня, если у тебя немеряное количество
>> процессорных ресурсов и нефиг делать юзерам. Если кто не догадался,
>> сотня-другая спамерских писем в день, если не резать динамические адреса
>> сразу и напрочь - это не на весь домен, это на _одного_ юзера.
DVI> То есть папочка Junk в моем проекте растет на 200 писем в день у каждого
DVI> пользователя. Это, безусловно, затрудняет "выковыривание" ошибочно
DVI> классифицированного как spam ham-а.
Не надо тешить себя иллюзиями. Делает невозможным. Я пробовал. Я,
собственно, только тогда и включил отстрел динамических адресов, когда
стало понятно, что отлавливать в этой куче не по делу засунутые туда
письма нереально.
>> DVI> По идее мне очень хотелось бы обсудить эту схему с
>> DVI> народом. Оно пока что не запущено на пользователей, а работает
>> DVI> на меня одного в тестовом режиме.
>>
>> У меня аналогично, но используется spamassassin, и дополнительных
>> папочек две - та, куда складывается то, что он счел спамом, и та, куда
>> перекладывается то, что счел спамом юзер. А sa-learn проходится
>> периодически по всем папочкам, кроме той, что счел спамом SA (эти уже,
>> если могли, попали в байесовскую базу) - тем самым поддерживая в
>> актуальном состоянии не только базу спама, но и базу хама.
DVI> При таком подходе как отличается непрочитанная почта (ее еще
DVI> пользователь не классифицировал - как ham может быть зарегистрирован
DVI> spam)? Или считается, что "когда-то потом" он его переобучит?
Угу. Только не когда-то потом, а сразу как увидит, что это спам. SA
записывает message-id, и если ему скормили то же письмо, но как спам, он
просто перепометит его записи соответствующим образом.
DVI> У меня-то желательным действием со стороны пользователя является
DVI> перенос прочитанных сообщений в архив, доступа к которому у
DVI> сервера уже нет (соответственно и для обучения ham-у поэтому
DVI> отдельная папка), и делает это MUA "автоматом".
Ну, в моем случае использования IMAP-сервера по назначению
перекладывание письма в недоступное серверу место полагается действием
странным. Пользователь, желающий странного, обслуживается на сей
предмет отдельно по отдельной просьбе.
>> Соответственно, письмо, ошибочно сочтенное спамом, можно положить просто
>> туда, куда ему положено попасть, и оно автомагически будет переучтено
>> как хам.
>>
>> DVI> А такты экономить по-моему не стоит. "Машина должна работать,
>> DVI> а человек думать"(с).
>>
>> Это если их лишних до хрена.
DVI> Размер "до хрена" бы еще уточнить (помните анекдот на эту тему? :)
До недавнего времени вот той почтовкой стоял P200. Если канала по
какой-то причине не было полдня, он потом отлежавшуюся на втором MX
почту обрабатывал сильно не вдруг - по ресурсам приходилось прижимать
его до состояния "не более 2 писем одновременно". Сейчас там PII-300.
128 мегабайт памяти. Там же apache с CGI, courier-imapd с SSL, UUCP
поверх SSL и postgresql. В ближайшее время собираюсь прикрутить туда же
clamav - вирусы все-таки проскакивают через SA, - и туннель со сжатием.
В принципе, если заставлять его заниматься контент-фильтрацией всего,
что ему пытаются подсунуть, то он, пожалуй, справится, но в восторг от
этого отчетливо не придет. На пиках явно будет обижаться. А мне не
надо, чтобы он обижался.
--
Artem Chuprina <ran@ran.pp.ru>
FIDO: 2:5020/122.256
Reply to: