Re: фильтрация почты (не спам) - bayes???
On Sat, Jan 21, 2006 at 09:54:48PM +0300, Иван Лох wrote:
> >При текстовой базе в сотни килобайт и
> >далее -- хорошее
>
> вот этот тест несколько разочаровывает:
> http://sam.holden.id.au/writings/spam2/
Выберете любой другой баес. Или последуйте дельному совету Артема
Чуприны.
>> Спаморезалки _больше_ чем просто байес. Во-первых, потому, что текста,
>> который и анализирует dbacl там, по большому счету, сейчас и нет.
>> Картинки, служебные поля и т.д. dbacl просто выбрасывает.
Перечитайте это еще раз и вдумайтесь над понятием токенизации.
Потом откройте 10 писем со спамом (особенно HTML) и найдите
там лексические токены c которыми работет dbacl.
> не совсем понятны разные результаты у
> систем, работающих по одному алгоритму.
Я счастлив за Вас и авторов этого теста тоже.
Авторы дебиановского пакета включили статьи Брейера в пакет
dbacl. Вы их _начинали читать?_ Или Вы принципиально не читаете
даже ответы на вопросы которые задаете?
Вам же написали в первом письме dbacl _с большим трудом_
_C большим трудом_ и означет чтение этих статей.
Если Вы не хотите их читать, то берите предложенный Вам popfile.
--
Иван Лох
Reply to: