Регистрация...

Eserv Forum / E2 / Eserv 2 support / Проблема байесовских спам-фильтров

imported // (v1)
Продукты и услуги Скачать Документация Купить Поддержка Форумы Партнёрам Статьи О компании
В последнее время спаммеры научились обходить байесовские спам-фильтры.
Очень просто: посылается майл, где вся спам-информация заключена в картинке, а в тексте письма — несколько случайных слов/фраз, призванных затруднить байесовскую фильтрацию.
Более того, картинки не на однотонном фоне, а с некоторыми пестрящими завитками, чтобы затруднить распознавание.
Кто знает, какие меры принимаются против такого спама?
 
Комментарии к этой версии (16.04.2007 12:16) [~Борис Бердичевский] e3a47d60
АвторДатаТекстtags
Dandy16.04.2007 14:14
Увы, Вы не открыли америку, данный трюк применяется уже n-ное количество лет
Тот же байесов фильтр оценивающий битовые последовательности внутри картинки, анализаторы картинок — аля фильтры распознования текста и т.д и т.п.
imported
Борис Бердичевский16.04.2007 18:59
Т.е. — всё это за пределами возможностей Popfile, соурце код которого мы имеем...
imported
Борис Бердичевский16.04.2007 23:07
Dandy пишет:
Тот же байесов фильтр оценивающий битовые последовательности внутри картинки,

А вот это неплохая идея и довольно просто реализуемая.
Разбить картинку на "слова" определённой длины — всё равно картинка поступает в виде последовательностей типа
R0lGODdhMgJ2AIcAAAAAAIAAAACAAICAAAAAgIAAgACAgMDAwMDcwKbK8EAgAGAgAIAgAKAg AMAgAOAgAABAACBAAEBAAGBAAIBAAKBAAMBAAOBAAABgACBgAEBgAGBgAIBgAKBgAMBgAOBg

— и анализировать байесовским методом! icon bash
imported
rvm17.04.2007 08:51
Гораздо эффективней будет, если вначале картинку преобразовать в слова методами грубой силы (фильтры, частотные разложения, двумерным FFT, и т.п. методы image processing).
imported
Борис Бердичевский17.04.2007 10:32
rvm пишет: Гораздо эффективней будет, если вначале картинку преобразовать в слова методами грубой силы (фильтры, частотные разложения, двумерным FFT, и т.п. методы image processing).

Если вы предоставите соурцы таких алгоритмов (или ссылки на них), буду очень благодарен. И желательно с подробными описаниями, ибо я во всём этом чайник.
А сделать эффективный спам-фильтр мне всё же очень хочется (у меня есть майл-сервер дома, действующий уже давно).
imported
ac19.04.2007 01:38
Борис Бердичевский пишет: Т.е. — всё это за пределами возможностей Popfile, соурце код которого мы имеем...

PopFile определенно что-то выковыривает и из картинок. Возможно, случайно (исходники его на этот предмет не изучал, но в его "раскрасках" неоднократно замечал различные извлечения из аттачей, причем правильно раскрашенные, т.е. имеются в базе и учитываются).
imported
Борис Бердичевский21.04.2007 20:47
ас, пока что я имею факт (я эксплуатирую Popfile), что фильтр картинки пропускает.
Я пропущу это дело в Debug и посмотрю, что они там извлекают.
imported
Борис Бердичевский23.04.2007 02:46
Похоже, Байесовский фильтр успешно отсекает и картинки!
Это у меня перекодировка Base64 глючная!
imported
Борис Бердичевский24.04.2007 02:49
Я поторопился с выводами.
После тщательного анализа работы программы байеса выяснилось:
  • перекодировка с base64 (правда, после некоторых поправок) работает нормально. Проблема возникла потому, что "непечатные" символы отображаются в Perl-е и в С++ по-разному.
  • проблема в том, что парсинг майла принимает binary код картинки за html код. Производится анализ, и все "непечатные" символы отбрасываются. В результате выделенные "слова" неадекватно отображают содержимое картинки.
Надо бы сделать так: при встрече картинки — там есть код GIF89 вначале! — перевести буфер в 16-ный текст!
Т.е. вместо
‘ ÿÿÿ ÿÿÿÿ!ù 
соответствующие 16-е коды
00FFFFFF21F904
и т.п.
imported
Борис Бердичевский03.05.2007 11:02
Удивительное дело.
Я подправил датабазу, изменил 1 критерий записи в неё, — и все эти спам-картинки стали нормально фильтроваться!
Век живи — век учись!
Поправка заключалась в следующем.
Есть у меня такой параметр, как минимальное количество повторений слова в сообщении, после которого это слово пополняет датабазу.
Я увеличил его с 2 до 4. И вернул старую базу, ессно.
imported
Работает на Eserv/5.05567 (10.02.2020)