Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум программистов > Алгоритмы > Цифровая обработка текста...


Автор: goblin 8.12.2003, 15:15
Народ подскажите где инфы надыбать по этой теме...
Заранее благодарен...

Автор: podval 8.12.2003, 20:59
На столь глобально поставленный вопрос за ответом даже к гадалке не ходи.
Нельзя ли поконкретнее, что именно ищем?

Автор: val 9.12.2003, 15:52
Мне кажется, что уважаемый goblin имеет ввиду распознавание текста... Так ли, goblin?

Автор: MuToGeN 9.12.2003, 17:18
на коднете где-то видел пример, определяющий буквы А и Б из растра

Автор: goblin 9.12.2003, 18:43
Насамом деле я имел ввиду анализ содержимого текста (определить там тему, идею и тд...)

Автор: podval 10.12.2003, 21:38
На самом деле вполне реальна такая задача: определение тематики текста по ключевым словам.

Автор: goblin 11.12.2003, 05:12
podval
об этом я знаю и почти реализовал...
но хотелосьбы большего...

Автор: podval 11.12.2003, 10:19
А чего именно, хоть в каком направлении?

Автор: val 11.12.2003, 10:39
Цитата
об этом я знаю и почти реализовал...
но хотелосьбы большего...


Так поделись опытом, что и как ты уже сделал, а там попробуем сделать апгрейт?

Автор: akul 11.12.2003, 13:45
http://www.aot.ru/

Автор: goblin 12.12.2003, 07:35
podval
Хотелось бы сделать синтаксический анализ текста:

  • Определить тему текста.
  • Определить тип текста.
  • Определить стиль текста.

с подпунктами...

val
Что тебе интересно исходники или сам алгоритм?

akul
Бальшое спасибо...


Автор: val 12.12.2003, 15:28
Цитата
Что тебе интересно исходники или сам алгоритм?

алгоритм...

Автор: goblin 12.12.2003, 17:58
val
Алгоритм прост...
Из текста выбираются слова по законам Зипфа(которые встречаются не слишком часто и не слишком редко), сравниваются со словарями
и словарь с большим количеством совпадений соответствует направлености текста...

Автор: Jey_k 9.1.2004, 18:26
По поводу похожей проблемы я писал в Разщработка защиты от спама

Автор: vertal 29.1.2004, 01:49
Есть такой алгоритм : сначала для ряда образцовых текстов на интересующие нас темы формируется матрица относительной частоты встречаемости каждого слова в данной тематике , где по строкам "располагаются" слова(основы) , а по столбцам - темы. Для исследуемого текста формируется вектор-строка частоты встречаемости в нем слов(основ )(возможно , с учетом их веса - то есть контекста - напр . , размера шрифта ), которые есть в словаре . Эта вектор -строка перемножается на матрицу , в результате мы имеем вектор-строку , где порядковый номер наибольшего элемента - порядковый номер наиболее вероятной темы исследуемого текста. Взято из 'Магии ПК' за 2002 г , номера не помню и не могу найти.

Автор: goblin 30.1.2004, 12:17
vertal
Можно чуть поподробнее?

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)