Форум программистов [Powered by Invision Power Board]

Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате

Форум программистов > Алгоритмы > Мозги

Автор: AVA 30.6.2004, 11:14

Народ! А есть у кого нибудь реализация алгоритма распознавания темы/содержания документа.
Может у кого есть соображения на тему как это реализовать, но что бы было эффективно и крышу не снесло в процессе реализации.

Мне представляется довольно простой вариант - это типа так:
Отбираем слова по его весу, который предположим берем из БД + частоте встречаемости + место проявления (заголовок, заключение, тело и т.п.)
Для конкретной темы слова могут иметь разный вес.
Далее складываем полученные веса в пользу полученых тем и в %% соотношении получаем картину отношений.

Вроде должно работать, но есть главный недостаток - что делать с документами неизвестных тем, как бы их идентифицировать.

P.S. может кто знает где уже какую dll готовую можно найти или исходники (желательно на Delphi?

Автор: Alex101 30.6.2004, 15:05

У меня (и одного знакомого) уже появилась мысль подобное сделать...
Пока лишь договорились, что будем делать. Нужная штука в наше время.
Думаю, готовый компонент на Дельфи не найдешь, а ежели такой и будет, то за очень приличные деньги.
Если есть желание, то можно подумать о совместных усилиях.

Автор: Akina 30.6.2004, 15:20

Посмотри статистическую фильтрацию - Байеса и пр. Его, например, используют для распознавания спама - но суть-то одна...