|
|
|
dr.ZmeY |
|
|||
Политолог Профиль Группа: Участник Клуба Сообщений: 3892 Регистрация: 26.3.2002 Где: ..::STALINGRAD::. . Репутация: нет Всего: 60 |
ИМХО - это ерунда, мелкософты хотят заниматься саморекламой... эту ерунду обойдут быстро...
|
|||
|
||||
dm9 |
|
|||
Дмитрий Копытин Профиль Группа: Vingrad developer Сообщений: 3876 Регистрация: 22.7.2002 Где: Москва Репутация: нет Всего: 137 |
Вот наткнулся... Сам, честно говоря, не читал.
Может, найдёте что полезное. Плюс много ссылок в конце статьи. http://bio.fizteh.ru/student/diff_articles/no_spam.esp |
|||
|
||||
Jey_k |
|
|||
WEB-командир Профиль Группа: Комодератор Сообщений: 4149 Регистрация: 16.11.2003 Где: Москва Репутация: нет Всего: 61 |
Уважаемые коллеги,тема моего диплома вскользь касается обсуждаемой проблемы а именно поиск того чьи критерии нельзе жестко задать машине поэтому для таких вещей создаются либо нейросети либо нечеткие системы сканирования, другими словами нужно определять мнимые разграничения спама от неспама.
В дипломе есть параграф о поисковой системе с семантическим подходом т.е. поиск по смыслу а не по совпадениям символов. Я это реализовывал с помощью контрольного суммирования искомых фраз,по выведенной формуле рассчитывал доверительный интервал,т.е. диапазон значений контрольной суммы попадание в который означает смысловое соответствие, потом сканировал текст участками и проводил проверку попадания значений в этот диапазон. Работает прекрасно, эту систему ставят где-то в министерстве обороны как поисковик. Может и со спамом так получится? :-) Это сообщение отредактировал(а) Jey_k - 9.1.2004, 18:23 |
|||
|
||||
PAC-MAN |
|
|||
Новичок Профиль Группа: Участник Сообщений: 15 Регистрация: 12.12.2003 Репутация: нет Всего: нет |
Что за бред?! мелкомягкие делают ФИГНЮ!
|
|||
|
||||
PAC-MAN |
|
|||
Новичок Профиль Группа: Участник Сообщений: 15 Регистрация: 12.12.2003 Репутация: нет Всего: нет |
ну дык, спам не поиск слова могут меняться, к тому же токен это буквы и их сочетания, что и есть слова. А расчитывание суммы слов в тексте и сверка их попадания и есть статический анализ. С другой стороны неализовать семантический словарь еще никому не удалось (и не удастся в ближайшем будущем) поэтому полноценный ИИ например создать так и не удалось никому. Построение неийронной сети не считаю нужным так как ее надо учить а спам меняется периодически.
|
|||
|
||||
Jey_k |
|
|||
WEB-командир Профиль Группа: Комодератор Сообщений: 4149 Регистрация: 16.11.2003 Где: Москва Репутация: нет Всего: 61 |
Можно брать в качестве эталонов не слова а лексические обороты которые в спаме довольно похожи а без словаря никак не обойтись машина должна на чем-то учиться Это сообщение отредактировал(а) Jey_k - 11.1.2004, 13:11 |
|||
|
||||
PAC-MAN |
|
|||
Новичок Профиль Группа: Участник Сообщений: 15 Регистрация: 12.12.2003 Репутация: нет Всего: нет |
не это все лишняя надстройка - ИМХО. Мы говорим об одном и том же, словарь то ведь не семантически. Просто разные детали. И еще кстати к сведению:
"По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом." я так понял что такой текст анализатор фраз пропустит потомучто у него таких просто нет, а если письмо только из этого и состоит то надо присвоить ему статус непонятного, тогда и фразовый и статический анализатор сработают одинаково, если же он делает выборку в плохом письме по часто встречаемся словам а потом анализирует на основании этого письма и выдает результат то он не отличается от статического анализатора, оба подхода требуют получения письма для анализа, короче тоже самое тока сложнее ИМХО. НО, он может дать выше точность потомучто ловит обороты т.е. изначально количество комбинаций меньше (хорошо это или плохо?), хотя ... стат анализ ведь считает количество слов и ему пофиг что в заголовке стоит изначально хорошая фраза "Привет как дела" и он устойчивее, например: слово "виагра", при комбинациях мы получим "купите виагру", "предлагаем виагру", "виагра скидки", "* виагра", "1. виагра", "дешевая виагра" .... пока он не дойдет до того что нужно ловить слово, а при статическом мы получим что при любом написании фразы или порядка слово будет учтено. к тому же стат может быть полезен потому что будет также анализировать дополнительно еще и заголовок письма, а там фразы особо не построишь. Если брать за основу фразы - несколько комбинаций групп символов между знаками ограничителями типа " " то какую мы получим скорость работы анализатора для большого письма/большого количества писем и какую точность он нам даст? Плиз, приведи доводы. |
|||
|
||||
PAC-MAN |
|
|||
Новичок Профиль Группа: Участник Сообщений: 15 Регистрация: 12.12.2003 Репутация: нет Всего: нет |
кстати если например данный юзверь должен получить письмо со словом виагра то стат анализ может его ухлопать (если письмо из одного слова), це довод. А если мы введем еще и анализ заголовка то мож и пропустит
|
|||
|
||||
Phantomouse |
|
|||
Новичок Профиль Группа: Участник Сообщений: 16 Регистрация: 15.7.2003 Репутация: нет Всего: нет |
Проблему эту нужно решать на уровне почтового сервера. нужно блокировать отправку скажем пятого письма с одного адреса за минуту, так как это стопроцеентный спам. И т.д.
|
|||
|
||||
maxim1000 |
|
|||
Эксперт Профиль Группа: Участник Сообщений: 3334 Регистрация: 11.1.2003 Где: Киев Репутация: нет Всего: 110 |
не факт вот, например, есть группа в институте, староста посылает всем какое-то сообщение 20% студентов это сообщение не получат... -------------------- qqq |
|||
|
||||
podval |
|
||||||
Где я? Кто я? Профиль Группа: Экс. модератор Сообщений: 3094 Регистрация: 25.3.2002 Где: СПб Репутация: 1 Всего: 62 |
На сайте www.spamtest.ru опубликован аналитический отчет "Спам: итоги 2003 года".
Некоторые выдержки:
И самое интересное:
|
||||||
|
|||||||
PAC-MAN |
|
|||
Новичок Профиль Группа: Участник Сообщений: 15 Регистрация: 12.12.2003 Репутация: нет Всего: нет |
т.е. не анализирует послание а например сморит чередование и порядок символов типа латинские - русские?
|
|||
|
||||
podval |
|
|||
Где я? Кто я? Профиль Группа: Экс. модератор Сообщений: 3094 Регистрация: 25.3.2002 Где: СПб Репутация: 1 Всего: 62 |
Я так думаю, это один из этапов лингвистического анализа. |
|||
|
||||
shedon |
|
|||
Эксперт Профиль Группа: Экс. модератор Сообщений: 1209 Регистрация: 17.1.2003 Где: Нижнiй Новгородъ Репутация: нет Всего: 11 |
По-моему все эти методы лингвистического анализа, не дадут нормального решения данной проблеммы, спамеры будут предумывать всё более изощрённые способы маскировки, главное должно быть сделанно со стороны провайдеров и ужесточения наказания за спам(вплоть до лишения свободы), во всех странах, особенно юго-восточной азии, т.е. провайдеры должны следить, чтобы через их каналы спам не проходил, а если прходит, то к этому провайдеру должны быть предъявленны обвинения, с лишением лицензии, наложением штрафов, а если они действовали со спамерами в зговоре, то и лишение свободы.
-------------------- Programming is like sex: One mistake and you have to support it your lifetime |
|||
|
||||
Wowa |
|
|||
Эксперт Профиль Группа: Админ Сообщений: 15017 Регистрация: 14.9.2000 Где: Винград Репутация: 1 Всего: 290 |
Провайдер не может все предотвратить, поэтому наказывать надо не его, а спамера, в то время, как провайдер должен помочь поймать спамера.
|
|||
|
||||
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Методы борьбы со спамом | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |