![]() |
Модераторы: Poseidon |
![]() ![]() ![]() |
|
Realist |
|
|||
Новичок Профиль Группа: Участник Сообщений: 5 Регистрация: 23.3.2005 Репутация: нет Всего: нет |
Слушайте, народ, может у кого есть какие исходники по распознаванию человеческой речи (даже самые простейшие).
Сессия, блин на носу, а времени никакого. Вот на компонент наткнулся TVoicecontrol - нигде найти не могу, может у кого есть - кинте ссылку. Этот компонент для BCB. |
|||
|
||||
podval |
|
|||
![]() Где я? Кто я? ![]() ![]() ![]() ![]() Профиль Группа: Экс. модератор Сообщений: 3094 Регистрация: 25.3.2002 Где: СПб Репутация: 2 Всего: 62 |
||||
|
||||
Гость_Realist |
|
|||
Unregistered |
Люди, объясните мне по порядку что и когда нужно делать на "пальцах". Это очень важно -- не просто так спрашиваю. Куча материала, но визьде какие-то методы, алгоритмы. Это супер, но поди пойми когда и после чего их применять.
Например: 1) Записать через микрофон несколько слов (эталонов). Скажем два слова "да" и "нет" в формате WAV. 2) Дальше снова берём микрофон и говорим в него например слово "ДА". 3) Что делать с этими файлами ? Открыть эталон... и что дальше... (я хочу использовать динамическое искажение времени). Я вычитал, что для простого распознавания, где немного слов-эталонов он лучше всего подойдёт. ![]() |
|||
|
||||
Realist |
|
|||
Новичок Профиль Группа: Участник Сообщений: 5 Регистрация: 23.3.2005 Репутация: нет Всего: нет |
Задача -- говорит один человек, то есть дикторонезависимость не нужна.
|
|||
|
||||
podval |
|
|||
![]() Где я? Кто я? ![]() ![]() ![]() ![]() Профиль Группа: Экс. модератор Сообщений: 3094 Регистрация: 25.3.2002 Где: СПб Репутация: 2 Всего: 62 |
Для "неизвестного" слова:
1. Вычислить вектор признаков (считаем, что для эталонов они уже есть) 2. Сравнить с эталонными векторами. 3. Отождествить сказанное слово с тем эталоном, где степень "похожести" максимальна. Speech Recognition by Dynamic Time Warping |
|||
|
||||
Realist |
|
|||
Новичок Профиль Группа: Участник Сообщений: 5 Регистрация: 23.3.2005 Репутация: нет Всего: нет |
В общем понимании у меня есть три *.wav (эталоны) и файл, который я записал с микрофона.
Какой самый простой способ "понять" - к какому эталону он относиться ? То есть -- как в дипломнике Руслана А. Попова приведён пример - spech и SSpeehh - для того чтобы сравнивать SSpeehh c эталоном speech его нужно нормализовать(то есть выровнять по времени). Но сейчас меня волнует следующее: как сравнить два файла ? Они оба *.wav. Меня интересует сам процесс нахождения отличий (схождения) -- может библиотеки есть готовые или на исходник какой глянуть -- всё в картинках показано(формул дохрена (www.dcs.shef.ac.uk/~stu/com326 - нельзя просмотреть исходники)) -- как оно понастоящему ? Как получить эту "синусоиду", наложить её на другую и получить отличия ? ![]() Можно накатать программу на VB 6 - c gjvjom. speech api -- но понимает только английский и вообще VB - несерьёзно. Я хочу попробовать DTW - на builder или delphi. Подскажите чегонить по этому поводу. |
|||
|
||||
![]() ![]() ![]() |
Правила форума "Центр помощи" | |
|
ВНИМАНИЕ! Прежде чем создавать темы, или писать сообщения в данный раздел, ознакомьтесь, пожалуйста, с Правилами форума и конкретно этого раздела.
Более подробно с правилами данного раздела Вы можете ознакомится в этой теме. Если Вам помогли и атмосфера форума Вам понравилась, то заходите к нам чаще! С уважением, Poseidon, Rodman |
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) | |
0 Пользователей: | |
« Предыдущая тема | Центр помощи | Следующая тема » |
|
По вопросам размещения рекламы пишите на vladimir(sobaka)vingrad.ru
Отказ от ответственности Powered by Invision Power Board(R) 1.3 © 2003 IPS, Inc. |