![]() |
|
![]() ![]() ![]() |
|
deil |
|
|||
Новичок Профиль Группа: Участник Сообщений: 4 Регистрация: 4.10.2007 Репутация: нет Всего: нет |
Приветствую!
Передо мной стоит задача в создании системы идентификации личности по голосу на основании парольной фразы с использованием аппарата скрытых марковских моделей (СММ)(нейронные сети использоваться не должны). Чем больше бьюсь над этим вопросом ![]() Поэтому обращаюсь к вам за помощью. Так и не нашел пока ответов на следующие вопросы: 1. Каким образом удалять неинформативные части сигнала (паузы между словами, шипящие звуки)? 2. Какую информацию о сигнале (спектр, кепстр, коэффициенты линейного предсказания) следует использовать при реализации данной задачи? 3. Данные какого вида должны обрабатываться СММ для определения степени соответствия парольной фразе конкретному диктору? Заранее спасибо! |
|||
|
||||
ILyAHA |
|
|||
![]() Гламурный хакер ![]() Профиль Группа: Участник Сообщений: 193 Регистрация: 30.3.2007 Где: Ярославская обл. г.Рыбинск Репутация: нет Всего: 3 |
Без нейросетей я так думаю что это не сделать...
Так что можно считать что никак. Можно конешно записать хотябы один раз голос(т.е. типа хранение как в БД), а потом приблизительно сравнивать полученный с этим. --------------------
<sсriрt>alert('xss')</sсriрt> |
|||
|
||||
NikeDeForest |
|
|||
Шустрый ![]() Профиль Группа: Участник Сообщений: 136 Регистрация: 15.9.2007 Репутация: нет Всего: 2 |
Ой блин. Могу сказать только, что можно и копать надо в сторону преобразований Фурье. Что там конкретно уже не помню и как-то снова разбираться не очень хочется.
--------------------
Еще один вопрос ... |
|||
|
||||
podval |
|
|||
![]() Где я? Кто я? ![]() ![]() ![]() ![]() Профиль Группа: Экс. модератор Сообщений: 3094 Регистрация: 25.3.2002 Где: СПб Репутация: 18 Всего: 62 |
Без нейросетей еще как можно обойтись. Так же как и без СММ и преобразований Фурье.
Копать надо в сторону кепстра. А как он будет посчитан - через LPC или ПФ на Mel-частотной шкале - не имеет значения. Если конкретнее, то вектор признаков для такого распознавания - это усредненный по множеству реализаций (в данном случае на длине парольной фразы) вектор кепстральных коэффициентов. Нулевой кепстральный коэффициент не используется - это просто энергия. Далее встает вопрос - какая именно задача решается? 1. Собственно распознавание. Допустим, надо решить, какому из 2-х известных дикторов принадлежит голос. Для 2 дикторов достаточно применить элементарный дискриминантный анализ. Если больше - надо уходить в более сложные модели типа Support Vector Machines. 2. Верификация. Имеется голос, надо решить, действительно ли диктор является тем лицом, за которое себя выдает. Решаютсяс небольшими отличиями, но для обоих задач вектор признаков строится одинаково (усредненный LPCC или MFCC). Чему скармливать эти вектора - дело твое. Но зачем взяты для этого CММ, лично мне непонятно. СММ хорошо подходят для распознавания динамических образов (слитная речь - один из них). Когда же вектор усреднен на множестве реализаций, то задача становится статической. Можно брать SVM, нейросети и т.п. Мне кажется, на форуме уже была подобная тема, поищи. |
|||
|
||||
VictorTsaregorodtsev |
|
|||
Опытный ![]() ![]() Профиль Группа: Участник Сообщений: 274 Регистрация: 28.7.2006 Репутация: 3 Всего: 8 |
deil, можно поначалу попробовать погонять СММ и на исходном сигнале. СММ для одномерного сигнала - это проще.
Хорошая бумажная книжка - Моттль ВВ, Мучник ИБ Скрытые марковские модели в структурном анализе сигналов, М, Физматлит, 1999, 359с. Там задачи и самообучения, и обучения с учителем, и для одномерных сигналов, и для многомерных. Всем рекомендую по поводу СММ. |
|||
|
||||
SoWa |
|
|||
![]() Харекришна ![]() ![]() ![]() ![]() Профиль Группа: Комодератор Сообщений: 2422 Регистрация: 18.10.2004 Репутация: 6 Всего: 74 |
А проблемма удаления шума поднималась похоже ранее. Если я правильно помню, то там оценкой экстремумов велось отсеивание "шума" от полезной записи. Если интересует, могу найти, выложить
-------------------- Всем добра ![]() |
|||
|
||||
podval |
|
|||
![]() Где я? Кто я? ![]() ![]() ![]() ![]() Профиль Группа: Экс. модератор Сообщений: 3094 Регистрация: 25.3.2002 Где: СПб Репутация: 18 Всего: 62 |
А если в английском силён, то срочно качать:
A Tutorial on Hidden Markov Models and Selected Application on Speech Recognition. L.R. Rabiner |
|||
|
||||
nedumat |
|
|||
Новичок Профиль Группа: Участник Сообщений: 7 Регистрация: 7.10.2007 Репутация: нет Всего: нет |
ну для различия речь не речь есть VAD - скачай кодек speex (http://speex.com )там есть VAD.
Можно сделать прото подсчет энергии сигнала. E += Xi^2+ Xi^2 , мол, сказать, если энергия сигнала меньше определенного уровня - то это не речь. Марковскую модель строй на основе минимально различимого звука (фонетическая структура сигнала.) Работа - пипец одному слишком долго. |
|||
|
||||
![]() ![]() ![]() |
Правила форума "Алгоритмы" | |
|
Форум "Алгоритмы" предназначен для обсуждения вопросов, связанных только с алгоритмами и структурами данных, без привязки к конкретному языку программирования и/или программному продукту.
Если Вам понравилась атмосфера форума, заходите к нам чаще! С уважением, maxim1000. |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Алгоритмы | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |