Модераторы: LSD, AntonSaburov

Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Фильтр мата на Java 
:(
    Опции темы
LSD
Дата 23.1.2005, 13:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Цитата(Domestic @ 23.1.2005, 13:22)
Ну так запишем слова типа "гре" и "подстрахуй" в отдельный словарь и их трогать не будем.

Тогда начнет прокатывать "гре ".

Цитата(Domestic @ 23.1.2005, 13:22)
да и кому будет охота материться когда для этого нужно будет выдумывать малопонятные символы?

Еще как охота будет, это же такой азартный спорт smile

Цитата(Domestic @ 23.1.2005, 13:22)
все возможные истолкования в любом случае не уловишь

Конечно, но надо дать возможность администратору самому добавлять новые извороты пользователей в фильтр.

Я считаю что важнее разработать нормальную, хорошо расширяемую систему анализа и фильтрации текста, а не пытаться предусмотреть сейчас все варианты. И не надо зацикливаться на русском и английском, есть и другие языки, это тоже надо учесть.


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
Domestic Cat
Дата 23.1.2005, 14:01 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Экс. модератор
Сообщений: 5452
Регистрация: 3.5.2004
Где: Dallas, US

Репутация: 50
Всего: 172



Цитата(LSD @ 23.1.2005, 04:44)
Тогда начнет прокатывать "гре ".


Ну тут уже надо учить программу понимать смысл предложения, а иначе не получится. Ведь можно тогда ругаться : греБЛЯ!!!


Цитата(LSD @ 23.1.2005, 04:44)
Еще как охота будет, это же такой азартный спорт smile


Ну это уже будет ерунда, особенно если убрать основное.


Цитата(LSD @ 23.1.2005, 04:44)
Конечно, но надо дать возможность администратору самому добавлять новые извороты пользователей в фильтр.


В аттачменте словари задаются в отдельных текстовых файлах - добавляй что хочешь.


Цитата(LSD @ 23.1.2005, 04:44)
И не надо зацикливаться на русском и английском, есть и другие языки, это тоже надо учесть.


Тут проблем нет, за секунду можно добавить. Единственное что требуется - словари.


Цитата(LSD @ 23.1.2005, 04:44)
Я считаю что важнее разработать нормальную, хорошо расширяемую систему анализа и фильтрации текста, а не пытаться предусмотреть сейчас все варианты.


А предложенный вариант - это не система фильтрации текста?
1. Переводим все в нижний регистр.
2. Выбрасываем "безопасные" символы типа . , и пробелы, из которых мат не составишь
3. Повторяющиеся буквы убираем (точнее, они сохраняются как children в предшествующей Pair, чтоб убрать слова типа CcccRRRAAAPP)
4 В зависимости от языка трансформируем часто применяемые обозначения/транслит в буквы
5. Заменяем слова из словаря на ****
Без словарей тут не обойтись.
Кроме того, все возможные варианты все равно не отловим. С каждой новой проверкой добавляются тормоза, потому нужно остановиться на отлавливании основного.


--------------------

PM   Вверх
sergejzr
Дата 23.1.2005, 14:08 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 6
Всего: 360



Тормоза - финя.
Проверок можно разных сделать и несколько раз по тексту пробежаться.
Почему бы непрогить несколько вариантов параллельно?

LSD, Где твой алгоритм?


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
LSD
Дата 23.1.2005, 14:32 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Вот мои приблизительные наметки по поводу данного фильтра.
Критика приветствуется smile

Присоединённый файл ( Кол-во скачиваний: 10 )
Присоединённый файл  Filter.jar


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
Domestic Cat
Дата 23.1.2005, 17:52 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Экс. модератор
Сообщений: 5452
Регистрация: 3.5.2004
Где: Dallas, US

Репутация: 50
Всего: 172



Как я понял суть в том чтобы была возможность подключать произвольные фильтры/токенайзеры.

1. Зачем нужны токенайзеры, я не понял.
2. Подключать фильтр - идея хорошая, если бы речь шла о фильтрации различных типов слов; например одинт фильтр - для мата, другой - для слов с сексуальной окраской, и т п. Опыт показывает что в основном нужен антиматовый фильтр. Потому фильтры-плагины идея конечно гут, но зачем она тут не представляю.
Действие фильтров не обязательно складывается. Это если б один фильтр отдсекал слова "дурак" и "козел", а второй слово - "гад", то да. Но чтобы отловить мат нужно сначала как-то преобразовать исходный текст. Суть состоит в наиболлее оптимальном выборе алгоритма. Если же алгоритм разный то после действия одного фильтра действие другого практически равно 0.

------------
Единственный кто стянул мой код - ну как, есть замечания?


--------------------

PM   Вверх
sergejzr
Дата 23.1.2005, 17:59 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 6
Всего: 360



Цитата(Domestic @ 23.1.2005, 16:52)
Единственный кто стянул мой код - ну как, есть замечания?

Ага, не компилируется smile
Но это мои проблемы. Сейчас некогда решать...

Цитата(Domestic @ 23.1.2005, 16:52)
Если же алгоритм разный то после действия одного фильтра действие другого практически равно 0.

Это будет видно. тем более, что я предлагаю использовать не последовательно, а параллельно.
На вуходе массивы - keys как я описывал. Просто не один, а несколько.
Потом решаем (чего нить придумаем), какие интервалы фильтровать.
PS:
Дело в том что наши концепты (мой, твой и LSD) практически друг другу не мешают, но дополняют smile


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Domestic Cat
Дата 23.1.2005, 18:03 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Экс. модератор
Сообщений: 5452
Регистрация: 3.5.2004
Где: Dallas, US

Репутация: 50
Всего: 172



Цитата(sergej @ 23.1.2005, 08:59)
Ага, не компилируется smile


Т.к. нужна 1.5. Переделать в 1.4?




--------------------

PM   Вверх
LSD
Дата 23.1.2005, 18:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Цитата(Domestic @ 23.1.2005, 18:03)
Т.к. нужна 1.5. Переделать в 1.4?

Если нет веских причин использовать 1.5, то конечно лучше переделать. Ниже 1.4 имхо не стоит делать, т.к. там регекспов нет.

Цитата(sergej @ 23.1.2005, 17:59)
Дело в том что наши концепты (мой, твой и LSD) практически друг другу не мешают, но дополняют

Пока попробуем довести до ума каждый свой вариант (у меня даже не все классы пока есть) а там решим.

Цитата(Domestic @ 23.1.2005, 17:52)
1. Зачем нужны токенайзеры, я не понял.

В принципе на данный момент достаточно одного Tokeniser-а, просто правила разбики на токены могут быть разными, вот я и ввел его на всякий случай, в принципе его можно выкинуть.

Цитата(Domestic @ 23.1.2005, 17:52)
2. Подключать фильтр - идея хорошая, если бы речь шла о фильтрации различных типов слов; например одинт фильтр - для мата, другой - для слов с сексуальной окраской, и т п. Опыт показывает что в основном нужен антиматовый фильтр. Потому фильтры-плагины идея конечно гут, но зачем она тут не представляю.

Мне хотелеось реализовать более универсальную идею фильтрации, вот я и сделал это через плагины.


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
sergejzr
Дата 23.1.2005, 19:02 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 6
Всего: 360



Цитата(Domestic @ 23.1.2005, 17:03)
Т.к. нужна 1.5. Переделать в 1.4?

Да, будет лучше.

Цитата(LSD @ 23.1.2005, 17:44)
Пока попробуем довести до ума каждый свой вариант (у меня даже не все классы пока есть) а там решим.


smile

ИМХО лучше умно в кучу собрать.


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
LSD
Дата 23.1.2005, 20:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Leprechaun Software Developer
****


Профиль
Группа: Модератор
Сообщений: 15718
Регистрация: 24.3.2004
Где: Dublin

Репутация: 210
Всего: 538



Цитата(sergej @ 23.1.2005, 19:02)
ИМХО лучше умно в кучу собрать.

Есть идеи как? Я пока не вижу как, хотя код Domestic Cat пока не смотрел.


--------------------
Disclaimer: this post contains explicit depictions of personal opinion. So, if it sounds sarcastic, don't take it seriously. If it sounds dangerous, do not try this at home or at all. And if it offends you, just don't read it.
PM MAIL WWW   Вверх
sergejzr
Дата 23.1.2005, 21:06 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 6
Всего: 360



Это должен рулевой решать. Там надо всё сравнивать искать пути. Короче работа smile


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Domestic Cat
Дата 24.1.2005, 02:31 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Экс. модератор
Сообщений: 5452
Регистрация: 3.5.2004
Где: Dallas, US

Репутация: 50
Всего: 172



sergej.z, а там у тебя в подписи не мат ? smile

Пока ишшо идея - нуна предосмотреть вариант козел.



--------------------

PM   Вверх
sergejzr
Дата 24.1.2005, 02:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 6
Всего: 360





Цитата(Domestic @ 24.1.2005, 01:31)
нуна предосмотреть вариант

А что с ним?
Такое препроцессор должен убивать. (В смысле тэги хавать)


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Domestic Cat
Дата 24.1.2005, 02:49 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
****


Профиль
Группа: Экс. модератор
Сообщений: 5452
Регистрация: 3.5.2004
Где: Dallas, US

Репутация: 50
Всего: 172



Дык если препроцессор не написать, кто есть их будет?


--------------------

PM   Вверх
sergejzr
Дата 24.1.2005, 03:11 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Un salsero
Group Icon


Профиль
Группа: Админ
Сообщений: 13285
Регистрация: 10.2.2004
Где: Германия г .Ганновер

Репутация: 6
Всего: 360



Вот смотри, как на этой страничке текст отображается, так после препроцессора и должно быть.
Текст в таком виде всё равно в каком то месте можно вычитать.


--------------------
PM WWW IM ICQ Skype GTalk Jabber AOL YIM MSN   Вверх
Страницы: (6) Все « Первая ... 2 3 [4] 5 6 
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Java"
LSD   AntonSaburov
powerOn   tux
javastic
  • Прежде, чем задать вопрос, прочтите это!
  • Книги по Java собираются здесь.
  • Документация и ресурсы по Java находятся здесь.
  • Используйте теги [code=java][/code] для подсветки кода. Используйтe чекбокс "транслит", если у Вас нет русских шрифтов.
  • Помечайте свой вопрос как решённый, если на него получен ответ. Ссылка "Пометить как решённый" находится над первым постом.
  • Действия модераторов можно обсудить здесь.
  • FAQ раздела лежит здесь.

Если Вам помогли, и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, LSD, AntonSaburov, powerOn, tux, javastic.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Java: Общие вопросы | Следующая тема »


 




[ Время генерации скрипта: 0.1317 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.