Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Алгоритм определения СПАМа, Давайте разработаем :) 
:(
    Опции темы
dr.ZmeY
Дата 31.12.2003, 00:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Политолог
****


Профиль
Группа: Участник Клуба
Сообщений: 3892
Регистрация: 26.3.2002
Где: ..::STALINGRAD::. .

Репутация: нет
Всего: 60



ИМХО - это ерунда, мелкософты хотят заниматься саморекламой... эту ерунду обойдут быстро...


--------------------
PM MAIL WWW ICQ Skype   Вверх
dm9
Дата 5.1.2004, 15:15 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Дмитрий Копытин
****


Профиль
Группа: Vingrad developer
Сообщений: 3876
Регистрация: 22.7.2002
Где: Москва

Репутация: нет
Всего: 137



Вот наткнулся... Сам, честно говоря, не читал.
Может, найдёте что полезное. Плюс много ссылок в конце статьи.
http://bio.fizteh.ru/student/diff_articles/no_spam.esp
PM MAIL ICQ   Вверх
Jey_k
Дата 9.1.2004, 18:22 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


WEB-командир
****


Профиль
Группа: Комодератор
Сообщений: 4149
Регистрация: 16.11.2003
Где: Москва

Репутация: нет
Всего: 61



Уважаемые коллеги,тема моего диплома вскользь касается обсуждаемой проблемы а именно поиск того чьи критерии нельзе жестко задать машине поэтому для таких вещей создаются либо нейросети либо нечеткие системы сканирования, другими словами нужно определять мнимые разграничения спама от неспама.
В дипломе есть параграф о поисковой системе с семантическим подходом т.е. поиск по смыслу а не по совпадениям символов.
Я это реализовывал с помощью контрольного суммирования искомых фраз,по выведенной формуле рассчитывал доверительный интервал,т.е. диапазон значений контрольной суммы попадание в который означает смысловое соответствие, потом сканировал текст участками и проводил проверку попадания значений в этот диапазон. Работает прекрасно, эту систему ставят где-то в министерстве обороны как поисковик. Может и со спамом так получится? :-) cool.gif

Это сообщение отредактировал(а) Jey_k - 9.1.2004, 18:23


--------------------
PM MAIL WWW   Вверх
PAC-MAN
Дата 11.1.2004, 01:06 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 15
Регистрация: 12.12.2003

Репутация: нет
Всего: нет



Что за бред?! мелкомягкие делают ФИГНЮ!
PM MAIL   Вверх
PAC-MAN
Дата 11.1.2004, 01:18 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 15
Регистрация: 12.12.2003

Репутация: нет
Всего: нет



ну дык, спам не поиск слова могут меняться, к тому же токен это буквы и их сочетания, что и есть слова. А расчитывание суммы слов в тексте и сверка их попадания и есть статический анализ. С другой стороны неализовать семантический словарь еще никому не удалось (и не удастся в ближайшем будущем) поэтому полноценный ИИ например создать так и не удалось никому. Построение неийронной сети не считаю нужным так как ее надо учить smile.gif а спам меняется периодически.
PM MAIL   Вверх
Jey_k
Дата 11.1.2004, 13:11 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


WEB-командир
****


Профиль
Группа: Комодератор
Сообщений: 4149
Регистрация: 16.11.2003
Где: Москва

Репутация: нет
Всего: 61



Цитата(PAC @ 11.1.2004, 01:18)
ну дык, спам не поиск слова могут меняться, к тому же токен это буквы и их сочетания, что и есть слова. А расчитывание суммы слов в тексте и сверка их попадания и есть статический анализ. С другой стороны неализовать семантический словарь еще никому не удалось (и не удастся в ближайшем будущем) поэтому полноценный ИИ например создать так и не удалось никому. Построение неийронной сети не считаю нужным так как ее надо учить smile.gif а спам меняется периодически.

Можно брать в качестве эталонов не слова а лексические обороты которые в спаме довольно похожи а без словаря никак не обойтись машина должна на чем-то учиться

Это сообщение отредактировал(а) Jey_k - 11.1.2004, 13:11


--------------------
PM MAIL WWW   Вверх
PAC-MAN
Дата 11.1.2004, 18:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 15
Регистрация: 12.12.2003

Репутация: нет
Всего: нет



не это все лишняя надстройка - ИМХО. Мы говорим об одном и том же, словарь то ведь не семантически. Просто разные детали. И еще кстати к сведению:

"По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и
пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом."

я так понял что такой текст анализатор фраз пропустит потомучто у него таких просто нет, а если письмо только из этого и состоит то надо присвоить ему статус непонятного, тогда и фразовый и статический анализатор сработают одинаково, если же он делает выборку в плохом письме по часто встречаемся словам а потом анализирует на основании этого письма и выдает результат то он не отличается от статического анализатора, оба подхода требуют получения письма для анализа, короче тоже самое тока сложнее ИМХО. НО, он может дать выше точность потомучто ловит обороты т.е. изначально количество комбинаций меньше (хорошо это или плохо?), хотя ... стат анализ ведь считает количество слов и ему пофиг что в заголовке стоит изначально хорошая фраза "Привет как дела" и он устойчивее, например: слово "виагра", при комбинациях мы получим "купите виагру", "предлагаем виагру", "виагра скидки", "* виагра", "1. виагра", "дешевая виагра" .... пока он не дойдет до того что нужно ловить слово, а при статическом мы получим что при любом написании фразы или порядка слово будет учтено. к тому же стат может быть полезен потому что будет также анализировать дополнительно еще и заголовок письма, а там фразы особо не построишь.
Если брать за основу фразы - несколько комбинаций групп символов между знаками ограничителями типа " " то какую мы получим скорость работы анализатора для большого письма/большого количества писем и какую точность он нам даст?

Плиз, приведи доводы.
PM MAIL   Вверх
PAC-MAN
Дата 11.1.2004, 18:34 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 15
Регистрация: 12.12.2003

Репутация: нет
Всего: нет



кстати если например данный юзверь должен получить письмо со словом виагра то стат анализ может его ухлопать smile.gif (если письмо из одного слова), це довод. А если мы введем еще и анализ заголовка то мож и пропустит smile.gif
PM MAIL   Вверх
Phantomouse
Дата 13.1.2004, 15:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 16
Регистрация: 15.7.2003

Репутация: нет
Всего: нет



Проблему эту нужно решать на уровне почтового сервера. нужно блокировать отправку скажем пятого письма с одного адреса за минуту, так как это стопроцеентный спам. И т.д.
PM MAIL ICQ YIM   Вверх
maxim1000
Дата 13.1.2004, 17:53 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Участник
Сообщений: 3334
Регистрация: 11.1.2003
Где: Киев

Репутация: нет
Всего: 110



Цитата
Проблему эту нужно решать на уровне почтового сервера. нужно блокировать отправку скажем пятого письма с одного адреса за минуту, так как это стопроцеентный спам. И т.д.

не факт
вот, например, есть группа в институте, староста посылает всем какое-то сообщение
20% студентов это сообщение не получат...


--------------------
qqq
PM WWW   Вверх
podval
Дата 22.1.2004, 10:34 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Где я? Кто я?
****


Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 1
Всего: 62



На сайте www.spamtest.ru опубликован аналитический отчет "Спам: итоги 2003 года".
Некоторые выдержки:

Цитата
Угасание метода "черных списков" становится все более очевидным. Фильтрация по IP-адресам становится неэффективной из-за использования динамических множеств захваченных пользовательских машин, одновременно приводя ко многочисленным ложным срабатываниям и нередко вызывая нарушения связности отдельных сегментов сети Интернет.


Цитата
Производители фильтров достаточно быстро реагируют на изменения тактики и стратегии спамеров, обучая программы распознавать все новые уловки. За 2003 год те или иные фильтры спама были установлены на большинстве публичных почтовых сервисов "большого" Интернета и Рунета в частности.

Спамеры ищут адекватный ответ и начинают использовать методы "замусоривания" текста для обмана фильтров, основанных на анализе содержимого писем. Наиболее часто используются подстановка латинских символов вместо кириллицы, замена текста изображениями, динамическое (в пределах одной партии писем) изменение содержимого писем.


И самое интересное:

Цитата
В результате борьбы щита и меча на первый план выходят лингвистические методы фильтрации спама, для которых не важно, с какого адреса пришло послание. Антиспамерское ПО разбирает содержимое письма в поисках сигнатур, характерных для "мусорных писем".

PM WWW ICQ   Вверх
PAC-MAN
Дата 23.1.2004, 20:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 15
Регистрация: 12.12.2003

Репутация: нет
Всего: нет



т.е. не анализирует послание а например сморит чередование и порядок символов типа латинские - русские?
PM MAIL   Вверх
podval
Дата 23.1.2004, 21:54 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Где я? Кто я?
****


Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 1
Всего: 62



Цитата(PAC @ 23.1.2004, 20:29)
т.е. не анализирует послание а например сморит чередование и порядок символов типа латинские - русские?

Я так думаю, это один из этапов лингвистического анализа.
PM WWW ICQ   Вверх
shedon
Дата 24.1.2004, 02:03 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Экс. модератор
Сообщений: 1209
Регистрация: 17.1.2003
Где: Нижнiй Новгородъ

Репутация: нет
Всего: 11



По-моему все эти методы лингвистического анализа, не дадут нормального решения данной проблеммы, спамеры будут предумывать всё более изощрённые способы маскировки, главное должно быть сделанно со стороны провайдеров и ужесточения наказания за спам(вплоть до лишения свободы), во всех странах, особенно юго-восточной азии, т.е. провайдеры должны следить, чтобы через их каналы спам не проходил, а если прходит, то к этому провайдеру должны быть предъявленны обвинения, с лишением лицензии, наложением штрафов, а если они действовали со спамерами в зговоре, то и лишение свободы.


--------------------
Programming is like sex: One mistake and you have to support it your lifetime
PM MAIL WWW ICQ   Вверх
Wowa
Дата 24.1.2004, 04:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
Group Icon


Профиль
Группа: Админ
Сообщений: 15017
Регистрация: 14.9.2000
Где: Винград

Репутация: 1
Всего: 290



Провайдер не может все предотвратить, поэтому наказывать надо не его, а спамера, в то время, как провайдер должен помочь поймать спамера.
PM WWW   Вверх
Страницы: (10) Все « Первая ... 6 7 [8] 9 10 
Ответ в темуСоздание новой темы Создание опроса
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Методы борьбы со спамом | Следующая тема »


 




[ Время генерации скрипта: 0.1508 ]   [ Использовано запросов: 22 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.