Поиск:

Ответ в темуСоздание новой темы Создание опроса
> Распознавание речи, скрытые марковские модели и DTW 
:(
    Опции темы
kjohnny
  Дата 17.11.2005, 15:40 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 13.11.2005
Где: город у Японского моря (Vl)

Репутация: 1
Всего: 1



Добрый день! Столкнулся со следующей задачей: распознание голосовых сигналов, типа "Сохранить", ну или "Выход"...
Знаю, что в качестве критерия близости получаемой реализации некотого входного сигнала (коэффициенты разложения по какому-либо базису (Фурье, вейвлет-пакеты)), используются некоторые расстояния (метрики), т.е. в моем понимании это выглядит так: вычисляем "расстояние" по метрике между реализацией сигнала и всеми хранимыми эталонами сигналов, далее выбирает тот эталон, при котором получили наименьшее "расстояние". Вроде все верно, да?
Т.е. метрика считает "расстояние" между характеристиками-признаками входного сигнала (по сути, коэффициентами рахложения по базису) и характеристиками эталонов? по-моему, эт так.

smile Так, вот, очень сильно smile хотелось бы узнать об этих самых МЕТРИКАХ для сравнения голосовых сигналов! КАКИЕ они ЕСТЬ (так сказать, полный списочек smile !!!!!!!!!!!!!!!!!!!!!!!!!!!) ЧЕМ отличаются друг от друга!! Влияет ли выбор исходного базиса (Фурье, вейвлет-пакеты) на выбор метрики?! Какие лучше в мое случает распознания??!

Знаю только парочку названий метрик: расстояние Евклида, Махаланобиса, Минковского. А вот их устройство, принцип вычисления, отличия, ничего не знаю! smile

И еще, что позволяет нам сделать корреляция и ФУНКЦИЯ когерентности???

Я в этом деле полный новичок, случай вот такой --> smile (экспромтик такой!) Хотелось бы оч основательных ответов на доходчивом языке, заранее всем спасибо! smile

И еще, буду очень благодарен, если тот, у кого есть интересные поучительные статейки, лекции или еще чАго, вышлет на мыло студенту smile так сказать! smile
PM MAIL ICQ   Вверх
podval
Дата 17.11.2005, 18:43 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Где я? Кто я?
****


Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 18
Всего: 62



Цитата(kjohnny @ 17.11.2005, 15:40)
т.е. в моем понимании это выглядит так: вычисляем "расстояние" по метрике между реализацией сигнала и всеми хранимыми эталонами сигналов, далее выбирает тот эталон, при котором получили наименьшее "расстояние". Вроде все верно, да?
Т.е. метрика считает "расстояние" между характеристиками-признаками входного сигнала (по сути, коэффициентами рахложения по базису) и характеристиками эталонов? по-моему, эт так.


Оно выглядит так, когда распознаются статические образы. Речь - штука динамическая! Поэтому используется накопленная метрика.


Цитата(kjohnny @ 17.11.2005, 15:40)
Фурье, вейвлет-пакеты

Этот базис для распознавания речи не годится.


L. Rabiner and B.-H. Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993. - рекомендую начать с этого. А то будет вопросов еще больше smile
PM WWW ICQ   Вверх
kjohnny
Дата 18.11.2005, 04:30 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 13.11.2005
Где: город у Японского моря (Vl)

Репутация: 1
Всего: 1



Цитата
Речь - штука динамическая! Поэтому используется накопленная метрика.


Под накопленной метрикой подразумевается методы DTW, марковские модели??

Цитата
Fundamentals of Speech Recognition


Облазил множество источников, нашел тока интернет-магазины, стоимость книжки впечатляет, может не там ищу.

Цитата
Этот базис для распознавания речи не годится.


А какие годятся?

smile

PM MAIL ICQ   Вверх
podval
Дата 18.11.2005, 12:55 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Где я? Кто я?
****


Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 18
Всего: 62



Сверху в разделе прикреплена тема, в которой можно много чего найти.
PM WWW ICQ   Вверх
kjohnny
  Дата 22.11.2005, 18:29 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Новичок



Профиль
Группа: Участник
Сообщений: 10
Регистрация: 13.11.2005
Где: город у Японского моря (Vl)

Репутация: 1
Всего: 1



Cкрытые марковские модели и DTW - в чем отличие данных методов, в чем их концепция??
Где о них можно почитать подробно, желательно на естественном национальном?
PM MAIL ICQ   Вверх
podval
Дата 22.11.2005, 19:42 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Где я? Кто я?
****


Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 18
Всего: 62



На естественном английском языке находится при помощи Гугля.

DTW

HMM

На русском языке даже в бумажном варианте найти непросто, особенно по СММ.
По DTW на форуме уже много раз спрашивали, ищи здесь.
PM WWW ICQ   Вверх
podval
Дата 25.11.2005, 12:26 (ссылка) | (нет голосов) Загрузка ... Загрузка ... Быстрая цитата Цитата


Где я? Кто я?
****


Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 18
Всего: 62



Professor Joseph Picone. FUNDAMENTALS OF SPEECH RECOGNITION

тоже хороший учебник
PM WWW ICQ   Вверх
  
Ответ в темуСоздание новой темы Создание опроса
Правила форума "Алгоритмы"

maxim1000

Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.


Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000.

 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема | Алгоритмы | Следующая тема »


 




[ Время генерации скрипта: 0.1073 ]   [ Использовано запросов: 20 ]   [ GZIP включён ]


Реклама на сайте     Информационное спонсорство

 
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности     Powered by Invision Power Board(R) 1.3 © 2003  IPS, Inc.