Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате |
Форум программистов > Алгоритмы > Мозги |
Автор: AVA 30.6.2004, 11:14 |
Народ! А есть у кого нибудь реализация алгоритма распознавания темы/содержания документа. Может у кого есть соображения на тему как это реализовать, но что бы было эффективно и крышу не снесло в процессе реализации. Мне представляется довольно простой вариант - это типа так: Отбираем слова по его весу, который предположим берем из БД + частоте встречаемости + место проявления (заголовок, заключение, тело и т.п.) Для конкретной темы слова могут иметь разный вес. Далее складываем полученные веса в пользу полученых тем и в %% соотношении получаем картину отношений. Вроде должно работать, но есть главный недостаток - что делать с документами неизвестных тем, как бы их идентифицировать. P.S. может кто знает где уже какую dll готовую можно найти или исходники (желательно на Delphi? ![]() |
Автор: Alex101 30.6.2004, 15:05 |
У меня (и одного знакомого) уже появилась мысль подобное сделать... Пока лишь договорились, что будем делать. Нужная штука в наше время. Думаю, готовый компонент на Дельфи не найдешь, а ежели такой и будет, то за очень приличные деньги. Если есть желание, то можно подумать о совместных усилиях. |
Автор: Akina 30.6.2004, 15:20 |
Посмотри статистическую фильтрацию - Байеса и пр. Его, например, используют для распознавания спама - но суть-то одна... |