Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Системы распознования и синтеза речи, Впечатления от фильма Железный человек 
:(
    Опции темы
JS0n
Дата 12.5.2008, 13:47 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 14
Регистрация: 6.8.2007
Где: Москва

Репутация: нет
Всего: нет



Добрый день. 

Вчера посмотрел фильм "Железный человек" и остался под сильным впечатлением от системы, которая помогала ему создавать костюм. А ведь это на самом деле удобно - общаться с компьютером/телефоном/кпк/плеером посредством голоса. Например, водители автомобилей покупают всякие хэндсфри, нашлепки на руль и т.д., а могли бы сказать своему телефону "Набери-ка мне Васька, перейди в режим громкой связи и сделай звук погромче" и не отвлекаться от дороги. Да много еще таких примеров...

Сегодня начал изучать средства для разработки подобных систем. Неплохая статья по этой теме есть здесь: Роботы, которые видят, слышат, говорят и двигаются... 

Может кто-то уже делал что-то подобное или работал с такими системами? Поделитесь опытом и соображениями по этому поводу. 
PM MAIL ICQ   Вверх
powerOn
Дата 12.5.2008, 16:09 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


software saboteur
****


Профиль
Группа: Участник
Сообщений: 4367
Регистрация: 7.10.2005

Репутация: нет
Всего: 159



Причём тут Java?


--------------------
user posted image нет времени думать - нужно писать КОД!

PM MAIL   Вверх
COVD
Дата 12.5.2008, 16:48 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Эксперт
***


Профиль
Группа: Завсегдатай
Сообщений: 1655
Регистрация: 26.7.2005

Репутация: нет
Всего: 43



Цитата

Причём тут Java?


в приведенной JSOn ссылке этот вопрос освещен в отдельном параграфе:

Цитата

Причем здесь Java?

Для того чтобы существовать и жить в этом мире, человеку необходимо, .....


Это сообщение отредактировал(а) COVD - 12.5.2008, 16:50
PM MAIL   Вверх
man_without_face
Дата 12.5.2008, 17:00 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 78
Регистрация: 1.4.2008

Репутация: нет
Всего: 1



Дык это например Нейронные Сети. Что тут такого? ничего сверхнового нет. Такие системы пишутся дипломниками. Только в простейшем виде конечно.
PM MAIL   Вверх
JS0n
Дата 12.5.2008, 17:43 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 14
Регистрация: 6.8.2007
Где: Москва

Репутация: нет
Всего: нет



Как раз таки искусственные нейронные сети используются только для усиления мощности распознавателей. А сами распознаватели  основаны на скрытой марковской модели (НММ). 

Цитата

Гибридные ИНС/НММ распознаватели речи повышают точность традиционных НММ за счет моделирования корреляций между одновременными параметрами речевого сигнала и между текущими и последующими параметрами.


Меня интересуют уже готовые системы и работающие системы распознавания речи. Например, я хочу выполнять какие-то операции голосом (например, запуск приложений). 
PM MAIL ICQ   Вверх
val_vp
Дата 12.5.2008, 17:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 37
Регистрация: 15.11.2006
Где: Днепродзержинск

Репутация: нет
Всего: нет



всем привет,
вот первое что выкинул google --- http://www.e-speaking.com/
PM MAIL WWW   Вверх
man_without_face
Дата 12.5.2008, 21:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 78
Регистрация: 1.4.2008

Репутация: нет
Всего: 1



"Змей Горыныч" вроде так зовётся клёвая на старые времена прога для этих целей.
PM MAIL   Вверх
cube
Дата 13.5.2008, 14:03 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 291
Регистрация: 11.4.2007

Репутация: нет
Всего: 3



че за бред, у тебя на телефоне голосового набора нет?

знаешь почему никто не пользуется голосовым набором?  потому что например телефон, коряво разбирает речь. У меня друг купил смартфон, 5  раз кричал в него "Сколько время?", только потом после 3-его "Повторите пожалуйста!" - услышал "восемнадцать часов, шесть минут", эт опри том что дело было дома, в нешумном помещении...

Еще хуже когда он начал вызывать какие-то спец функции, аппарат часто ошибался, запускал какие-то приложения...

Представляю если все это будет за рулем движущегося автомобиля... Все о чем ты гоовришь, оно и сечас есть, мой первый телефон нокия 8210 распознавал голос по интонации... и если честно был в сто тыщ раз точнее нового смартфона моего друга.
PM MAIL   Вверх
man_without_face
Дата 14.5.2008, 17:17 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 78
Регистрация: 1.4.2008

Репутация: нет
Всего: 1



cube, а вы не думали, что в мобильных телефонах отстойный софт?
PM MAIL   Вверх
VSergeyV
Дата 15.5.2008, 12:56 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 299
Регистрация: 9.5.2006
Где: Новосибирск

Репутация: нет
Всего: 3



Цитата(cube @  13.5.2008,  14:03 Найти цитируемый пост)
че за бред, у тебя на телефоне голосового набора нет?

Я как понял автор топика ведет речь о работе с речью на более высоком уровне чем голосовой набор в телефоне  (кстати сам не пользуюсь, но тестировал когда у меня только появилась такая функция телефона в 2001 и в последнем телефоне - все работало безошибочно) предполагает использование заранее записанных фраз, одна фраза одна команда или какая-то последовательность команд - в фильме же система и роботы полноценно владели человеческим языком - понимали целые фразы сказанные в свобоной форме:
Цитата(JS0n @  12.5.2008,  13:47 Найти цитируемый пост)
"Набери-ка мне Васька, перейди в режим громкой связи и сделай звук погромче"


Цитата(man_without_face @  14.5.2008,  17:17 Найти цитируемый пост)
а вы не думали, что в мобильных телефонах отстойный софт?

это как? и каковы критерии отстойности? smile 



PM MAIL ICQ   Вверх
man_without_face
Дата 15.5.2008, 14:04 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 78
Регистрация: 1.4.2008

Репутация: нет
Всего: 1



Цитата(VSergeyV @  15.5.2008,  18:56 Найти цитируемый пост)
это как? и каковы критерии отстойности?


Да я о том, что в большинстве моб.телефонов происходит тупое сровнение сказанных слов с набором уже существующих, т.е. без учёта различных критериев, таких как интонация, шум и т.д.
PM MAIL   Вверх
DRUID3
Дата 1.6.2008, 15:09 (ссылка) |    (голосов:2) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 463
Регистрация: 20.6.2005
Где: Kyyiv

Репутация: 1
Всего: 9



 Системы распознавания речи строятся на том, что распознают фонемы в человеческой речи (коих около 1000) Фурье или вейвлет(намного эффективнее) преобразованием и анализируя их очередность выделяют слова.

 В сотовиках стоят примитивные анализаторы спектра (Фурье) которые записывают звуковой всплеск, ставят ему  в соответствие команду, а потом все время сравнивают Фурье образ и если критерий похожести(коэффициент корреляции) превышает некий порог - значит это и была комманда. Система сверхприметивнейшая(дипломники тоже такие-же и пишут) и ничего общего с современным совтоянием распознавания речи(образов) это не имеет.

Цитата(JS0n @  12.5.2008,  17:43 Найти цитируемый пост)
Как раз таки искусственные нейронные сети используются только для усиления мощности распознавателей. А сами распознаватели  основаны на скрытой марковской модели (НММ). 

Мощность это работа выполняемая за единицу времени (школьный учебник физики) smile .

 Нейронные сети это пришедший к нам из бионики метод описания нелинейных динамических систем. Их сейчас лепят куда надо и куда не надо - особенно люди далекие от фундаментальных школ (радиотехнической, кибернетической) - зачастую совершенно без понимания, что основная сила НС в древовидном распараллеливании (которое эффективно можно использовать в ПЛИС например) и огромном труде на данный момент проделанном биониками(по-типу Хайкина) а отнюдь не в исчерпывающей математической достоверности.

 Марковские модели - стыдливое прикрытие теорией вероятностей грубой и не вполне адекватной модели - причем в любом случае их применения. Но у них есть огромный "+" - они работают. Вот как аналоговый радиоприемник (полосовой фильтр в котором - дальний родственник ММ) - кажется примитив - а музыка из него льется (и зачастую более качественно чем в плохо смоделированной цифровой системе).

 Кстати, насколько помню, в проекте Festival (синтез речи 4 Linux) есть инстументы и ее анализа.

 Но...

Все это имеет микроскопическое отношение к системе показаной в фильме. Понятное дело, что это фантастика. Но фантастика уровня Жюль Верновской подводной лодки - вполне осуществимая. Но в фильме система не просто распознавала слова ("повери вправо","перестань" и т.д.) - она оперировала понятиями - т.е. за одним словом скрывалось целое дерево возможных моделей поведения - и только вся голосовая команда отбирала из этого множества нужную. Нельзя взять нейронную сеть, отрезать кухонным ножем сколько нам надо и получить задуманное. Это как если бы пытаться насыпав в коробку радиодетали, перемешивая их получить телевизор. Сделать такую систему - можно только срастив систему распознавания речи с исполнительными устройствами и языком программирования оперирующим данными в виде объединения слов. Такие языки были (есть и будут есть, просто мало распространены сейчас) например Forth(4th) - нечто среднее между языком, интерпритатором и ОС... Правда он для стековой архитектуры и пришлось бы говорить в стиле учителя Йоды...


Вобщем система реальна но до показанного в кино - огромный кусок работы...


--------------------
Every time if you use Linux, you are joined to the communism...
практика - критерий истины ... отделенной от нас пропастью субъективного восприятия...
PM MAIL WWW Skype   Вверх
Asal
Дата 26.6.2008, 14:44 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 288
Регистрация: 26.12.2006
Где: Минск

Репутация: нет
Всего: 7



Цитата(DRUID3 @  1.6.2008,  15:09 Найти цитируемый пост)
Марковские модели - стыдливое прикрытие теорией вероятностей грубой и не вполне адекватной модели

DRUID3, а какие еще существуют модели? Более адекватные.


--------------------
PM MAIL ICQ   Вверх
ОлегДорожко
Дата 7.9.2008, 16:09 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 17
Регистрация: 8.7.2008

Репутация: нет
Всего: нет



Здравствуйте. 

Как сделать так, чтобы программа просто реагировала на звук голоса, при этом все равно что скажет пользователь?

Например,  пользователь сидит, программа перед ним листает страницы и вдруг пользователь говорит Стоп И программа останавливает листание 

Как написать такую программу? Можно ли сделать это на Java?
или на другом языке программирования?

Хочу вставить такой модуль в СуперБлокнот

Извините, если слишком оффтоп..
PM MAIL WWW ICQ   Вверх
man_without_face
Дата 8.9.2008, 17:57 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Шустрый
*


Профиль
Группа: Участник
Сообщений: 78
Регистрация: 1.4.2008

Репутация: нет
Всего: 1



Хе. Возвращайтесь обратно с СуперБлокнотом на forum.ishodniki.ru. =) 
PM MAIL   Вверх
ОлегДорожко
Дата 9.9.2008, 09:59 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 17
Регистрация: 8.7.2008

Репутация: нет
Всего: нет



man_without_face,  smile 
PM MAIL WWW ICQ   Вверх
Fiyanov
Дата 3.11.2008, 08:05 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Опытный
**


Профиль
Группа: Участник
Сообщений: 255
Регистрация: 19.4.2007
Где: Kazakhstan->Te mirtau

Репутация: нет
Всего: 2



cube, голосовой набор есть практически во всех нокиях начиная с 3310.  Качество его конечно не самое высокое, но помоему вполне приемлемое для такого не сильно хитрого устроиства как телефон.

Добавлено через 1 минуту и 45 секунд
А вообще конечно у подобных систем большое будущее тем более в автомобиле строении... Топовые модели уже говорят с водителем...
PM MAIL ICQ   Вверх
Страницы: (2) [Все] 1 2 
Ответ в темуСоздание новой темы Создание опроса
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Технологии: Разные | Следующая тема »


 




[ Время генерации скрипта: 0.1017 ]   [ Использовано запросов: 21 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.