VPF::[Delphi/BCB/VB] Исходники по распознавание речи и

Realist

Дата 23.3.2005, 12:48 (ссылка)

(нет голосов)

Загрузка ...

Новичок

Профиль
Группа: Участник
Сообщений: 5
Регистрация: 23.3.2005

Репутация: нет
Всего: нет

Слушайте, народ, может у кого есть какие исходники по распознаванию человеческой речи (даже самые простейшие).

Сессия, блин на носу, а времени никакого.

Вот на компонент наткнулся TVoicecontrol - нигде найти не могу, может у кого есть - кинте ссылку.
Этот компонент для BCB.

podval

Дата 23.3.2005, 13:44 (ссылка)

(нет голосов)

Загрузка ...

Где я? Кто я?

Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 2
Всего: 62

http://htk.eng.cam.ac.uk/develop/atk.shtml

Гость_Realist

Дата 24.3.2005, 15:12 (ссылка)

(голосов: 0)

Загрузка ...

Unregistered

Люди, объясните мне по порядку что и когда нужно делать на "пальцах". Это очень важно -- не просто так спрашиваю. Куча материала, но визьде какие-то методы, алгоритмы. Это супер, но поди пойми когда и после чего их применять.

Например:

1) Записать через микрофон несколько слов (эталонов). Скажем два слова "да" и "нет" в формате WAV.

2) Дальше снова берём микрофон и говорим в него например слово "ДА".

3) Что делать с этими файлами ? Открыть эталон... и что дальше... (я хочу использовать динамическое искажение времени). Я вычитал, что для простого распознавания, где немного слов-эталонов он лучше всего подойдёт. smile

Realist

Дата 24.3.2005, 18:25 (ссылка)

(нет голосов)

Загрузка ...

Новичок

Профиль
Группа: Участник
Сообщений: 5
Регистрация: 23.3.2005

Репутация: нет
Всего: нет

Задача -- говорит один человек, то есть дикторонезависимость не нужна.

podval

Дата 25.3.2005, 19:51 (ссылка)

(нет голосов)

Загрузка ...

Где я? Кто я?

Профиль
Группа: Экс. модератор
Сообщений: 3094
Регистрация: 25.3.2002
Где: СПб

Репутация: 2
Всего: 62

Для "неизвестного" слова:

1. Вычислить вектор признаков (считаем, что для эталонов они уже есть)
2. Сравнить с эталонными векторами.
3. Отождествить сказанное слово с тем эталоном, где степень "похожести" максимальна.

Speech Recognition by Dynamic Time Warping

Realist

Дата 19.4.2005, 15:41 (ссылка)

(нет голосов)

Загрузка ...

Новичок

Профиль
Группа: Участник
Сообщений: 5
Регистрация: 23.3.2005

Репутация: нет
Всего: нет

В общем понимании у меня есть три *.wav (эталоны) и файл, который я записал с микрофона.
Какой самый простой способ "понять" - к какому эталону он относиться ?

То есть -- как в дипломнике Руслана А. Попова приведён пример - spech и SSpeehh - для того чтобы сравнивать SSpeehh c эталоном speech его нужно нормализовать(то есть выровнять по времени). Но сейчас меня волнует следующее: как сравнить два файла ? Они оба *.wav. Меня интересует сам процесс нахождения отличий (схождения) -- может библиотеки есть готовые или на исходник какой глянуть -- всё в картинках показано(формул дохрена (www.dcs.shef.ac.uk/~stu/com326 - нельзя просмотреть исходники)) -- как оно понастоящему ? Как получить эту "синусоиду", наложить её на другую и получить отличия ? smile

.

Можно накатать программу на VB 6 - c gjvjom. speech api -- но понимает только английский и вообще VB - несерьёзно. Я хочу попробовать DTW - на builder или delphi. Подскажите чегонить по этому поводу.

1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:
« Предыдущая тема \| Центр помощи \| Следующая тема »