Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Операция "текст" начинается, распознавание рукописного текста 
:(
    Опции темы
B2_Russia
Дата 16.9.2003, 09:13 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


В доску свой :)
**


Профиль
Группа: Участник
Сообщений: 344
Регистрация: 3.7.2003
Где: Тверь

Репутация: 1
Всего: 1



Во-первых, всем привет!!!
Как то я уже писал, что наваял программу по распознаванию рукописных символов.
Программа работала хорошо, но в ней было много недостатков. Главный из них - это то, что распознавался "чистый" образ, т.е. нарисованный при помощи мыши. Понятно, что такая картинка имеет мало диффектов.
Сейчас я перелопатил бо'льшую часть исходников (в части предобработки и самого распознавания картинки). Теперь все работает намного лучше (даже с отсканированными символами), а точность распознавания тоже возрасла.
НО!!!!!!!!!!!!!!!!
Как оказалось, заставить машину распознавать символы (поотдельности) куда проще, чем заставить "видеть" ее эти символы в тексте, т.е. определить какая часть слова является буквой.
Так вот, я решил довести все это до логического завершения.

ПРОСЬБА.

Если у кого есть идеи просьба написать их в этом топике. Заранее благодарствую.

ПРЕДЛОЖЕНИЕ.

Приглашаю несколько (2х-3х) человек, для доведения до ума этой программы.
Если проект удастся, то, я думаю, никому не стоит говорить о его перспективах.

PM WWW ICQ   Вверх
zckernel
Дата 16.9.2003, 10:02 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 19
Регистрация: 25.8.2003

Репутация: нет
Всего: нет



Определить расстояние между строками можно примерно так же как и в случае машинописного текста. Но разграничить символы в машинописном тексте куда проще чем чем в рукописном.(там хоть какие-нить интервалы присутствуют). Поэтому вижу единственным выходом из этой ситуации выработку правил выявления соединительных элементов между символами с последующей расстановкой указателей проблемных мест в тексте. После чего предварительно распознанное слово необходимо попытаться найти в словаре. В случае неудачи менять символы в проблемных местах и повторять поиск. Однако данный метод обладает рядом недостатков, главный - скорость.
PM MAIL   Вверх
B2_Russia
Дата 16.9.2003, 10:16 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


В доску свой :)
**


Профиль
Группа: Участник
Сообщений: 344
Регистрация: 3.7.2003
Где: Тверь

Репутация: 1
Всего: 1



Да, кстати, нужны идеи и по предварительной обработке отсканированного изображения в части определения угла выравнивания страницы (части текста) и определения какая область является картинкой, а какая текстом.

zckernel, насамом деле все и упирается в скорость распознавания. Можно придумать множество "накладных" алгоритмов. Вообще без словаря насамом деле не обойтись.
На счет проблеммных мест, можно заранее обучить программу распознавать не только 1 букву, но и их сочетание. Вот.
PM WWW ICQ   Вверх
RAN
Дата 16.9.2003, 11:23 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Экс. модератор
Сообщений: 709
Регистрация: 14.3.2003
Где: Щёлково Моск.обл.

Репутация: нет
Всего: 6



Согласен, нужно в словаре искать. Словарь надо хорошо проиндексировать. Скажем по первым двум буквам.
И ещё спрашивать пользователя, когда тупик (но это должно отключаться). Если есть такая возможность, надо словам сопоставить их "рейтинг". То есть слово1 более популярно слова2. При споре берём более вероятное слово1.

Не знаю, как ты распознаёшь буквы. Но слова можно распознавать слева на право следующим принципом. Определяем первую букву. По первым штрихам это может быть любая буква, организуем в памяти массив на 33 буквы (не char, конечно, а класс какой-то, содержащий позицию и ещё, что надо). Дальше распознавая первую букву, становиться ясно, что это не а, не б и т.д. Соответствующие объекты или удаляются из памяти, или помечаются как отпавший вариант, смотря что быстрее будет работать. Когда мы получаем, что это может быть "и". Объект, отражающий букву "и" утверждается и создаются следующие 33 объекта второй буквы. А в первой букве на них указатель храним. Но! По первой букве ещё не все варианты отпали. Там не утверждены и не отпали объекты "ш", "щ"... По ним продолжается работа. То есть цикл идёт по позиции в слове, а дальше вызываются методы прорабатываемых объектов-букв.э

В конце получаем дерево, по которому собираем получившиеся слова и анализируем их (проверяем по словарю и т.п.)

Надеюсь привнёс что-то. И это что-то поняли.

P.S. Ты знаешь, мне кажется работа только началась. Намаешься ты. Где-то сканер подведёт. Где-то человек в слове интервал большой сделает. Кто-то буквы пишет по разному в разных словах. А также грамматические ошибки. Но дело серьёзное и безусловно будет, чем гордиться.
PM MAIL ICQ   Вверх
dm9
Дата 16.9.2003, 13:46 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Дмитрий Копытин
****


Профиль
Группа: Vingrad developer
Сообщений: 3876
Регистрация: 22.7.2002
Где: Москва

Репутация: нет
Всего: 137



С радостью принял бы участие в проекте. Есть небольшой опыт: я писал программу распознавания символов. Правда, только печатных. Были даже попытки бороться с погрешностями сканирования. Ты не мог бы выложить хотя бы exe? Или пришли на ящик: [email protected]. Если не жалко исходников, тоже присылай smile.gif - попробую разобраться. Кстати, какой язык используешь?
PM MAIL ICQ   Вверх
B2_Russia
Дата 22.9.2003, 10:11 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


В доску свой :)
**


Профиль
Группа: Участник
Сообщений: 344
Регистрация: 3.7.2003
Где: Тверь

Репутация: 1
Всего: 1



RAN идея с деревом интересная. Да по поводу спорных решений я думаю - лучший вариант.
Люди если кто наткнется на методы выделения букв из текста, киньте ссылку плиз... Буду очень признателен.
dm9 послал тебе письмо, жду ответ.
PM WWW ICQ   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
0 Пользователей читают эту тему (0 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.0941 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.