При тестировании обнаружила следующую особенность: спам с рекламой фильтруется хорошо, а спам с содержанием "для взраслых" просачивается более 30% (причем чем дальше, тем больше).
Такая картина у кого-нибудь еще наблюдается?
(Контролирую классификацию спама я одна.)
Комментарии к этой версии (25.08.2008 14:33) [~mariya_mezenceva] 4eeaad59
А вы его с нуля обучаете или используете базу из дистрибутива? Возможно, он просто так натренирован. У меня в почте, например, делового спама на порядок или даже два больше, чем XXX.
Да, тот XXX-спам, что ко мне просачивается, очень изменчив, там сложно за что-то зацепиться.
Возможно, всё дело именно в специфике такого спама. Там лексикон более разнообразный, нет постоянных якорей в виде телефонных номеров или долгоживущих ссылок. Поэтому по ним статистика будет копиться дольше.
В этих письмах всегда присутствует текст вроде
"551АГ
882ТИ
421ХТ
730ИЗ
592ГХ
827ФА" причем каждый раз — разный может в этом дело? как можно отловить этот спам?
Да, тот XXX-спам, что ко мне просачивается, очень изменчив, там сложно за что-то зацепиться.
"551АГ
882ТИ
421ХТ
730ИЗ
592ГХ
827ФА" причем каждый раз — разный может в этом дело? как можно отловить этот спам?