Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Как определить схожесть текстов? 
:(
    Опции темы
kulibinka
Дата 10.12.2006, 17:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 191
Регистрация: 20.11.2006

Репутация: 2
Всего: 4



Цитата

Нет, всё же скриптом не получится


Категорично сказано smile

Общие словари синонимов ("стандартные") именно скриптами и делаются, только потом вылизываются.

Цитата

Я давал пример слова "ягуар". Это может быть машина, а может быть животное. Зависит от типа текста и ещё кучи вещей. 

Нет никакой кучи вещей. Есть только текст который мы алгоритму подсовываем. И если мы хотим получить такой словарь, где ягуар должен определяться как зверь, то если попробовать напустить скрипт на тематические статьи о животных а не о всем подряд, то практически гарантированно получим только "животно-ягуарные" синонимы слова ягуар, потому как ничего другого в принципе там вылезти не может.
Хотя обычно именно такие словари и надо... Тут проблемма в том где получить тематическую информацию, и побольше. 

А если есть большой обьем информации по теме то все можно сделать скриптом, который выдаст достаточно качественную информацию. По крайней мере тест toefl на то чтобы выбрать среди набора слов максимально близкое по смыслу с заданым словом в предложении он проходит с результатом выше средне-человеческого. А это я считаю очень сильным результатом.

Детали реализации можно посмотреть тут http://acl.ldc.upenn.edu/C/C02/C02-1007.pdf
Причем заметьте - это довольно старые результаты. А люди на месте не стоят - они все думают и думают...
PM MAIL   Вверх
_Y_
Дата 10.12.2006, 20:49 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1651
Регистрация: 27.11.2006

Репутация: 8
Всего: 34



ИМХО, имеется попытка изобрести велосипед. Но велосипед особенный, который еще никому до ума довести не удалось. Сколь знаю (сидел на паре семинаров на эту тему, но сам не специалист), сравнение текстов пока что делается не на уровне разработок, а на уровне научных исследований. Если не ошибаюсь, желающим недо копать по ключевым словам Text digging и Neural networks. Скорее всего такая область как Semantics тоже сюда относится.

Практически я бы посоветовал сдалать что-то работающее интерактивно (может и не хорошо, но лучше чем программа неработающая). Сделал бы так:

С начала:
  • Создать пустой список ключевых слов с синонимами. Он будет пополняться по ходу дела.
  • Задать какое-то критическое количество ключевых слов n для поиска. Величина n 
    подбирается методом тыка и, возможно, разнится в зависимости от того, что за тексты лежат в базе.
При вводе новой записи в базу:
1 Искать в БД идентичныую запись. Если найдена goto 9
2 Искать в новой записи слова из списка ключей. Находит, скажем x слов.
3 Если находится x >= n  ключевых слов, goto 6
4 Показать диалог что мол только x слов найдено и просьба задать дополнительные ключевые слова или синонимы слов имеющихся в списке.
5 Если слова заданы - загнать их в список, если нет - это уже на усмотрение программиста (или пользователя) - либо искать по имеющимся, либо goto 8
6 Искать в БД записи с теми же ключевыми словами. Если x > n ищутся все сочетания из n
7 Каждая найденная запись показывается в диалоге вместе со старой. Спрашивается: искать дальще или остановить ввод новой записи как дублирующей имеющуюся (это будет goto 9). Возможен и третий вариант - объединить записи и отредактировать результат (но это уже по вкусу)
8 Запись загоняется в БД
9 Дело сделано - бежим за пивом

Это сообщение отредактировал(а) _Y_ - 11.12.2006, 13:52


--------------------
Я вот в этом поучаствовал: http://sbor-nik.appspot.com/kick.jsp?id=sbor5737960678883328 (на правах саморекламы:)
PM MAIL WWW   Вверх
SID_M
Дата 11.12.2006, 14:36 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 195
Регистрация: 11.2.2005
Где: Россия, г. Москва

Репутация: нет
Всего: нет



Цитата(kulibinka @  9.12.2006,  12:50 Найти цитируемый пост)
Не подскажете где можно получить словари синонимов русского языка?


Можно выдрать тезаурус MS Word. Где-то в нете даже встречал статью по этой теме.
--------------------
Если тебе не дано летать, то хотя бы ползай с гордо поднятой головой.
PM MAIL ICQ Skype GTalk   Вверх
SoWa
Дата 11.12.2006, 14:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Харекришна
****


Профиль
Группа: Комодератор
Сообщений: 2422
Регистрация: 18.10.2004

Репутация: 6
Всего: 74



www.slovarik.ru
Много словарей.
_Y_, не велосипедист. Предлагалось всеми без исключения. Просьба читать тему с начала.
В конце концов, решение найдено. Хватит обсуждать решенный вопрос. Все нюансы были описаны, а если чего то нет, то есть в инете.

Это сообщение отредактировал(а) SoWa - 11.12.2006, 14:57


--------------------
Всем добра smile
PM MAIL ICQ   Вверх
kulibinka
Дата 11.12.2006, 16:04 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 191
Регистрация: 20.11.2006

Репутация: 2
Всего: 4



Цитата

www.slovarik.ru
Много словарей.


Я не успел - к сожалению не открывается, а кеш гугля говорит "Site has been suspended"
PM MAIL   Вверх
kulibinka
Дата 11.12.2006, 16:27 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 191
Регистрация: 20.11.2006

Репутация: 2
Всего: 4



Цитата

Можно выдрать тезаурус MS Word. Где-то в нете даже встречал статью по этой теме


А хотя бы приблизительно ориентиры статьи не помните? А то погуглил пол часа да так и не нашел...
PM MAIL   Вверх
SID_M
Дата 12.12.2006, 10:28 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Бывалый
*


Профиль
Группа: Участник
Сообщений: 195
Регистрация: 11.2.2005
Где: Россия, г. Москва

Репутация: нет
Всего: нет



Цитата(kulibinka @  11.12.2006,  16:27 Найти цитируемый пост)
А хотя бы приблизительно ориентиры статьи не помните?


Посмотри здесь: http://www.rvb.ru/soft/catalogue/catalogue.html
Там, возможно, не совсем то, что ты ищешь, но много интересного на эту тему.
--------------------
Если тебе не дано летать, то хотя бы ползай с гордо поднятой головой.
PM MAIL ICQ Skype GTalk   Вверх
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.0770 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.