Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Мозги, Распознавание темы документа 
:(
    Опции темы
AVA
  Дата 30.6.2004, 11:14 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 31
Регистрация: 4.6.2004
Где: г. Калуга

Репутация: нет
Всего: нет



Народ! А есть у кого нибудь реализация алгоритма распознавания темы/содержания документа.
Может у кого есть соображения на тему как это реализовать, но что бы было эффективно и крышу не снесло в процессе реализации.

Мне представляется довольно простой вариант - это типа так:
Отбираем слова по его весу, который предположим берем из БД + частоте встречаемости + место проявления (заголовок, заключение, тело и т.п.)
Для конкретной темы слова могут иметь разный вес.
Далее складываем полученные веса в пользу полученых тем и в %% соотношении получаем картину отношений.

Вроде должно работать, но есть главный недостаток - что делать с документами неизвестных тем, как бы их идентифицировать.

P.S. может кто знает где уже какую dll готовую можно найти или исходники (желательно на Delphi? notify.gif
PM MAIL ICQ   Вверх
Alex101
Дата 30.6.2004, 15:05 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник Клуба
Сообщений: 891
Регистрация: 8.4.2002
Где: Москва

Репутация: 1
Всего: 10



У меня (и одного знакомого) уже появилась мысль подобное сделать...
Пока лишь договорились, что будем делать. Нужная штука в наше время.
Думаю, готовый компонент на Дельфи не найдешь, а ежели такой и будет, то за очень приличные деньги.
Если есть желание, то можно подумать о совместных усилиях.


--------------------
С уважением, А. Фролов.
PM MAIL ICQ   Вверх
Akina
Дата 30.6.2004, 15:20 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Советчик
****


Профиль
Группа: Модератор
Сообщений: 20581
Регистрация: 8.4.2004
Где: Зеленоград

Репутация: 20
Всего: 454



Посмотри статистическую фильтрацию - Байеса и пр. Его, например, используют для распознавания спама - но суть-то одна...


--------------------
 О(б)суждение моих действий - в соответствующей теме, пожалуйста. Или в РМ. И высшая инстанция - Администрация форума.

PM MAIL WWW ICQ Jabber   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.0548 ]   [ Использовано запросов: 20 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.