Очень просто: посылается майл, где вся спам-информация заключена в картинке, а в тексте письма — несколько случайных слов/фраз, призванных затруднить байесовскую фильтрацию.
Более того, картинки не на однотонном фоне, а с некоторыми пестрящими завитками, чтобы затруднить распознавание.
Кто знает, какие меры принимаются против такого спама?

Тот же байесов фильтр оценивающий битовые последовательности внутри картинки, анализаторы картинок — аля фильтры распознования текста и т.д и т.п.
А вот это неплохая идея и довольно просто реализуемая.
Разбить картинку на "слова" определённой длины — всё равно картинка поступает в виде последовательностей типа
— и анализировать байесовским методом!
Если вы предоставите соурцы таких алгоритмов (или ссылки на них), буду очень благодарен. И желательно с подробными описаниями, ибо я во всём этом чайник.
А сделать эффективный спам-фильтр мне всё же очень хочется (у меня есть майл-сервер дома, действующий уже давно).
PopFile определенно что-то выковыривает и из картинок. Возможно, случайно
Я пропущу это дело в Debug и посмотрю, что они там извлекают.
Это у меня перекодировка Base64 глючная!
После тщательного анализа работы программы байеса выяснилось:
- перекодировка с base64 (правда, после некоторых поправок) работает нормально. Проблема возникла потому, что "непечатные" символы отображаются в Perl-е и в С++ по-разному.
- проблема в том, что парсинг майла принимает binary код картинки за html код. Производится анализ, и все "непечатные" символы отбрасываются. В результате выделенные "слова" неадекватно отображают содержимое картинки.
Надо бы сделать так: при встрече картинки — там есть код GIF89 вначале! — перевести буфер в 16-ный текст!Т.е. вместо
Я подправил датабазу, изменил 1 критерий записи в неё, — и все эти спам-картинки стали нормально фильтроваться!
Век живи — век учись!
Поправка заключалась в следующем.
Есть у меня такой параметр, как минимальное количество повторений слова в сообщении, после которого это слово пополняет датабазу.
Я увеличил его с 2 до 4. И вернул старую базу, ессно.