Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Морфологический анализатор, алгоритм определения разумности фразы 
:(
    Опции темы
Lois
Дата 19.5.2013, 20:35 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 136
Регистрация: 19.5.2013

Репутация: нет
Всего: нет



Я хочу, чтобы программист мне написал программу по следующему принципу.
Берутся из базы любые случайные слова и составляются предложения, когда предложение будет иметь смысл, оно выводится. 
Я знаю, что программа Alice свободно это определяет, но подключение к ней довольно дорогое удовольствие и это для английского языка.
Мне также предложили воспользоваться методом n-gram
http://ru.wikipedia.org/wiki/N-%D0%B3%D1%8...%B0%D0%BC%D0%BC
, но пока я не уверен, что это интересно.
Какие бы вы могли предложить ещё методы решения проблемы?
Речь идёт об определении смысла и бессмысленности фраз.

Это сообщение отредактировал(а) Lois - 19.5.2013, 20:36
PM MAIL   Вверх
_Y_
Дата 19.5.2013, 23:08 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1651
Регистрация: 27.11.2006

Репутация: 8
Всего: 34



Lois, мне кажется, что написание подобной программы будет удовольтвием гораздо более дорогим, чем подключение к уже готовой. Проблема здесь в определении критерия осмысленности. Как программа узнает осмысленная фраза или нет? По сути, программа должна делать то же, что человеческий мозг, когда оценивает осмысленность фразы. А это, мягко говоря, отнюдь не просто.

В принципе, можно поискать обходные пути. Например, я когда-то предлагал здесь такую жульническую идею. Программа берет фразу и ищет ее в Гугле (или в каком другом поисковике). Если количество найденных ссылок превысило некий заданный порог, фраза считается осмысленной. Естественно, такой подход будет давать определенное количество ложноотрицательных результатов. Но зато программу такую написать несложно-недорого.


--------------------
Я вот в этом поучаствовал: http://sbor-nik.appspot.com/kick.jsp?id=sbor5737960678883328 (на правах саморекламы:)
PM MAIL WWW   Вверх
Lois
Дата 20.5.2013, 01:41 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 136
Регистрация: 19.5.2013

Репутация: нет
Всего: нет



Цитата(_Y_ @  19.5.2013,  23:08 Найти цитируемый пост)
Программа берет фразу и ищет ее в Гугле (или в каком другом поисковике). Если количество найденных ссылок превысило некий заданный порог, фраза считается осмысленной.


Да, это очень здравая идея, надо подумать. В принципе это очень подобно методу н-грам, о котором я говорил, но здесь больше смысла. Тогда вопрос- какова будет скорость при использовании гугла?
Ведь каждую случайную бессмысленную фразу придётся проверять... . Вы можете себе представить какое количество бессмысленных фраз по отношению к осмысленным?


Это сообщение отредактировал(а) Lois - 20.5.2013, 07:01
PM MAIL   Вверх
Maksys
Дата 20.5.2013, 09:11 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Future Splasher
***


Профиль
Группа: Завсегдатай
Сообщений: 1289
Регистрация: 15.6.2005
Где: Екатеринбург

Репутация: нет
Всего: 17



Помоему любая фраза является осмысленной при наличии существильного + глагола + прилогателного?

Вот к примеру: "Мефисто пришпандорил Чебурашку об чебурашкнутую шваньку"

Если же я прав, то достаточно создать симантическую связь между словами на основе морфологического разбора слов.
Ссылки на тему:
1. http://www.aot.ru/download.php
2. Блин вторую потерял, там Дистанционное обучение по разбору фраз, правда для буржуев.


--------------------
 С уважением, BiMaWa™©.
user posted image
user posted image
PM MAIL ICQ Skype GTalk   Вверх
mrgloom
Дата 20.5.2013, 12:15 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



вы сначала бы сами определили что считается осмысленной фразой.
PM MAIL   Вверх
Maksys
Дата 20.5.2013, 12:27 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Future Splasher
***


Профиль
Группа: Завсегдатай
Сообщений: 1289
Регистрация: 15.6.2005
Где: Екатеринбург

Репутация: нет
Всего: 17



Ну Вам видней.


--------------------
 С уважением, BiMaWa™©.
user posted image
user posted image
PM MAIL ICQ Skype GTalk   Вверх
mrgloom
Дата 20.5.2013, 14:06 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



так я не вам, а топикстартеру.
PM MAIL   Вверх
Lois
Дата 20.5.2013, 15:19 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 136
Регистрация: 19.5.2013

Репутация: нет
Всего: нет



Цитата(mrgloom @  20.5.2013,  12:15 Найти цитируемый пост)
вы сначала бы сами определили что считается осмысленной фразой. 


а что надо всё определять ? Мне кажется это то же самое, что давать определение красивая картина или нет.

PM MAIL   Вверх
Pavia
Дата 20.5.2013, 15:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 418
Регистрация: 6.12.2008

Репутация: 11
Всего: 12



Цитата(Lois @  20.5.2013,  15:19 Найти цитируемый пост)
а что надо всё определять ? Мне кажется это то же самое, что давать определение красивая картина или нет.

Надо иначе это не научно.  Если что есть метрика для определения качественная картинка.  Для красоты не в курсе.
Классический подход обучения с учителем. 

Делается это легко. Ловишь 30-100 студентов и даешь им задание сделать оценку для 100 картинок. Работа на 15 минут. (С вероятностью 97% что в Стэнфорде такую работу проделали и имеют такую базу) Далее уже программно пробуешь описать результат при помощи эмпирике и смотришь насколько это близко.
Гугл такой же подход использует для оценки качества своего поиска. 

Можно и без учителя. Берёшь книги и тексты. Откидываешь недостоверные. Разбиваешь на предложения в предложениях выделяешь существительное(объект) и сказуемое(действие) и прилагательное(качество, свойство объекта). 
Далее смысл можешь проверить по базе данных. Если в базе есть такая конструкция то во фразе есть смысл. 

Конечно это первое приближение. 
PM MAIL   Вверх
mrgloom
Дата 20.5.2013, 16:00 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



ну тогда разговор ни о чем, либо задача должна быть data driven, т.е. обучаемая на примерах.

можно взять за положительные примеры книги/тексты и поделить их каким либо образом на фразы (опять же не знаю что считается фразой в общем случае любой последовательный набор слов?)
как отрицательный пример рэндомную перестановку положительного примера.
PM MAIL   Вверх
Lois
Дата 20.5.2013, 16:19 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 136
Регистрация: 19.5.2013

Репутация: нет
Всего: нет



Цитата(Pavia @  20.5.2013,  15:55 Найти цитируемый пост)
Можно и без учителя. Берёшь книги и тексты. Откидываешь недостоверные. Разбиваешь на предложения в предложениях выделяешь существительное(объект) и сказуемое(действие) и прилагательное(качество, свойство объекта). 
Далее смысл можешь проверить по базе данных. Если в базе есть такая конструкция то во фразе есть смысл.


А как программа Alice определяет смысл фраз вы в курсе?
Кстати, интересный пример осмысленности фраз.

https://www.youtube.com/watch?v=uXxu6M0SRIc


PM MAIL   Вверх
_Y_
Дата 20.5.2013, 22:37 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1651
Регистрация: 27.11.2006

Репутация: 8
Всего: 34



Цитата(Lois @  20.5.2013,  01:41 Найти цитируемый пост)
Тогда вопрос- какова будет скорость при использовании гугла?

Скорость будет определяться скоростью общения Вашего компьютера с Гуглом. Думаю, если если программа рассчитана на человеческий и не на на очень уж многопользовательский режим работы, то весьма скромного домашнего интеренета хватит. А вот если Вы хотите фразы генерировать компьютерно или поставить эту программу на сервер с рассчетом на большое количество пользователей, то тогда нужно что-то особенное.



--------------------
Я вот в этом поучаствовал: http://sbor-nik.appspot.com/kick.jsp?id=sbor5737960678883328 (на правах саморекламы:)
PM MAIL WWW   Вверх
Lois
Дата 20.5.2013, 23:43 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 136
Регистрация: 19.5.2013

Репутация: нет
Всего: нет



Цитата(_Y_ @  20.5.2013,  22:37 Найти цитируемый пост)
Скорость будет определяться скоростью общения Вашего компьютера с Гуглом. Думаю, если если программа рассчитана на человеческий и не на на очень уж многопользовательский режим работы, то весьма скромного домашнего интеренета хватит.


ясно. В общем надо ставить опыты. А возможно сделать прогу во флеше, поставить на сервер, и чтобы она с сервера вводила запросы в поисковик?

PM MAIL   Вверх
mrgloom
Дата 21.5.2013, 10:24 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 829
Регистрация: 8.6.2011

Репутация: нет
Всего: нет



тут и время и трафик.

+запросы должны быть вида "запрос" , т.е. полное вхождение, а чем длиннее фраза тем меньше вероятность что вы её получите целиком, т.е. наверно тогда надо предложение бить на короткие фразы с перекрытием(но это тоже костыль).

что за программа Alice, дайте ссылку?

имхо надо смотреть в сторону ботов генераторов таких "осмысленных" фраз.

Это сообщение отредактировал(а) mrgloom - 21.5.2013, 10:24
PM MAIL   Вверх
Lois
Дата 21.5.2013, 13:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 136
Регистрация: 19.5.2013

Репутация: нет
Всего: нет



Цитата(mrgloom @  21.5.2013,  10:24 Найти цитируемый пост)
что за программа Alice, дайте ссылку?


блин, я и не думал, что про Элис кто-то из близких к компу не слышал
http://www.pandorabots.com/pandora/talk?bo...5d922d97e345aa1
Можете с ней поговорить на английском.

PM MAIL   Вверх
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.1475 ]   [ Использовано запросов: 20 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.