Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате |
Форум программистов > Алгоритмы > Цифровая обработка текста... |
Автор: goblin 8.12.2003, 15:15 |
Народ подскажите где инфы надыбать по этой теме... Заранее благодарен... |
Автор: podval 8.12.2003, 20:59 |
На столь глобально поставленный вопрос за ответом даже к гадалке не ходи. Нельзя ли поконкретнее, что именно ищем? |
Автор: val 9.12.2003, 15:52 |
Мне кажется, что уважаемый goblin имеет ввиду распознавание текста... Так ли, goblin? |
Автор: MuToGeN 9.12.2003, 17:18 |
на коднете где-то видел пример, определяющий буквы А и Б из растра |
Автор: goblin 9.12.2003, 18:43 |
Насамом деле я имел ввиду анализ содержимого текста (определить там тему, идею и тд...) |
Автор: podval 10.12.2003, 21:38 |
На самом деле вполне реальна такая задача: определение тематики текста по ключевым словам. |
Автор: goblin 11.12.2003, 05:12 |
podval об этом я знаю и почти реализовал... но хотелосьбы большего... |
Автор: podval 11.12.2003, 10:19 |
А чего именно, хоть в каком направлении? |
Автор: val 11.12.2003, 10:39 | ||
Так поделись опытом, что и как ты уже сделал, а там попробуем сделать апгрейт? |
Автор: akul 11.12.2003, 13:45 |
http://www.aot.ru/ |
Автор: goblin 12.12.2003, 07:35 |
podval Хотелось бы сделать синтаксический анализ текста:
с подпунктами... val Что тебе интересно исходники или сам алгоритм? akul Бальшое спасибо... |
Автор: val 12.12.2003, 15:28 | ||
алгоритм... |
Автор: goblin 12.12.2003, 17:58 |
val Алгоритм прост... Из текста выбираются слова по законам Зипфа(которые встречаются не слишком часто и не слишком редко), сравниваются со словарями и словарь с большим количеством совпадений соответствует направлености текста... |
Автор: Jey_k 9.1.2004, 18:26 |
По поводу похожей проблемы я писал в Разщработка защиты от спама |
Автор: vertal 29.1.2004, 01:49 |
Есть такой алгоритм : сначала для ряда образцовых текстов на интересующие нас темы формируется матрица относительной частоты встречаемости каждого слова в данной тематике , где по строкам "располагаются" слова(основы) , а по столбцам - темы. Для исследуемого текста формируется вектор-строка частоты встречаемости в нем слов(основ )(возможно , с учетом их веса - то есть контекста - напр . , размера шрифта ), которые есть в словаре . Эта вектор -строка перемножается на матрицу , в результате мы имеем вектор-строку , где порядковый номер наибольшего элемента - порядковый номер наиболее вероятной темы исследуемого текста. Взято из 'Магии ПК' за 2002 г , номера не помню и не могу найти. |
Автор: goblin 30.1.2004, 12:17 |
vertal Можно чуть поподробнее? |