Методы анализа на основе линейного предсказания

Общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией

. (2.1)

Эта система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, модель имеет следующие параметры:

1) классификатор вокализованных и невокализованных звуков;

2) период основного тона для вокализованных сегментов;

3) коэффициент усиления G;

4) коэффициенты {аk} цифрового фильтра.

Все эти параметры медленно изменяются во времени /3,4/

.

Структурная схема модели анализа речи

Рис.2.1

Структурная схема модели речеобразования

Рис.2.2

Для вокализованных звуков хорошо подходит модель, содержащая только полюсы в своей передаточной функции (чисто полюсная), но для носовых и фрикативных звуков требуется учитывать и нули. Однако если порядок рмодели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G, так и коэффициенты можно оценить непосредственно с использованием эффективных с вычислительной точки зрения алгоритмов.

Отсчет речевого сигнала s (n) связан с сигналом возбуждения u (n) простым разностным уравнением

. (2.2)

Линейный предсказатель с коэффициентами определяется как система, на выходе которой имеем

. (2.3)

Системная функция предсказателя р -

го порядка представляет собой полином вида

. (2.4)

Погрешность предсказания определяется как

. (2.5)

Из уравнения (2.5) видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией

. (2.6)

Сравнение уравнений (2.2) и (2.3) показывает, что если сигнал точно удовлетворяет модели (2.2) и , то e (n) =Gu (n). Таким образом, фильтр погрешности предсказания A (z) является обратным фильтром для системы H (z), соответствующей уравнению (2.1), т.е.

. (2.7)

Основная задача анализа на основе линейного предсказания заключается в непосредственном определении параметров {ak} по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования уравнения (2.7). Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи. Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности на коротком сегменте сигнала. При этом предполагается, что полученные параметры являются параметрами системной функции H (z) в модели речеобразования.

Такой подход приводит к следующим результатам:

Пусть , тогда e (n) =Gu (n). Для вокализованной речи это означает, что е (n) будет состоять из последовательности импульсов, т.е. е (n) будет весьма мало почти все время. Поэтому в данном случае минимизация погрешности предсказания позволит получить требуемые коэффициенты.

1) Даже если сигнал формируется системой (2.2) с постоянными во времени параметрами, которая возбуждается либо единичным импульсом либо белым шумом, то можно показать, что коэффициенты предсказания, найденные по критерию минимизации среднеквадратического значения погрешности (в каждый момент времени), совпадают с коэффициентами в уравнении (2.2).

Перейти на страницу: 1 2

Другие публикации

Генераторы ВЧ фирм Rohde&Sсhwarz, Agilent Technology
Электронный генератор представляет собой устройство, преобразующее электрическую энергию источника постоянного тока в энергию незатухающих электрических колебаний ...

Усовершенствование материнской платы
Тема дипломной работы – "Усовершенствование материнской платы", являющаяся предметом исследования. Цель работы – выяснить неблагоприятные факторы работы м ...

Меню

Copyright @2020, TECHsectors.ru.