Форум программистов [Powered by Invision Power Board]

Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате

Форум программистов > Алгоритмы > Цифровая обработка текста...

Автор: goblin 8.12.2003, 15:15

Народ подскажите где инфы надыбать по этой теме...
Заранее благодарен...

Автор: podval 8.12.2003, 20:59

На столь глобально поставленный вопрос за ответом даже к гадалке не ходи.
Нельзя ли поконкретнее, что именно ищем?

Автор: val 9.12.2003, 15:52

Мне кажется, что уважаемый goblin имеет ввиду распознавание текста... Так ли, goblin?

Автор: MuToGeN 9.12.2003, 17:18

на коднете где-то видел пример, определяющий буквы А и Б из растра

Автор: goblin 9.12.2003, 18:43

Насамом деле я имел ввиду анализ содержимого текста (определить там тему, идею и тд...)

Автор: podval 10.12.2003, 21:38

На самом деле вполне реальна такая задача: определение тематики текста по ключевым словам.

Автор: goblin 11.12.2003, 05:12

podval
об этом я знаю и почти реализовал...
но хотелосьбы большего...

Автор: podval 11.12.2003, 10:19

А чего именно, хоть в каком направлении?

Автор: val 11.12.2003, 10:39

Цитата

об этом я знаю и почти реализовал...
но хотелосьбы большего...

Так поделись опытом, что и как ты уже сделал, а там попробуем сделать апгрейт?

Автор: akul 11.12.2003, 13:45

http://www.aot.ru/

Автор: goblin 12.12.2003, 07:35

podval
Хотелось бы сделать синтаксический анализ текста:

Определить тему текста.
Определить тип текста.
Определить стиль текста.

с подпунктами...

val
Что тебе интересно исходники или сам алгоритм?

akul
Бальшое спасибо...

Автор: val 12.12.2003, 15:28

Цитата

Что тебе интересно исходники или сам алгоритм?

алгоритм...

Автор: goblin 12.12.2003, 17:58

val
Алгоритм прост...
Из текста выбираются слова по законам Зипфа(которые встречаются не слишком часто и не слишком редко), сравниваются со словарями
и словарь с большим количеством совпадений соответствует направлености текста...

Автор: Jey_k 9.1.2004, 18:26

По поводу похожей проблемы я писал в Разщработка защиты от спама

Автор: vertal 29.1.2004, 01:49

Есть такой алгоритм : сначала для ряда образцовых текстов на интересующие нас темы формируется матрица относительной частоты встречаемости каждого слова в данной тематике , где по строкам "располагаются" слова(основы) , а по столбцам - темы. Для исследуемого текста формируется вектор-строка частоты встречаемости в нем слов(основ )(возможно , с учетом их веса - то есть контекста - напр . , размера шрифта ), которые есть в словаре . Эта вектор -строка перемножается на матрицу , в результате мы имеем вектор-строку , где порядковый номер наибольшего элемента - порядковый номер наиболее вероятной темы исследуемого текста. Взято из 'Магии ПК' за 2002 г , номера не помню и не могу найти.

Автор: goblin 30.1.2004, 12:17

vertal
Можно чуть поподробнее?