Математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели

Голубинский Андрей Николаевич; Гущина Анастасия Александровна.

А.Н. Г олубинский,

доктор технических наук

А. А. Гущина

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ИМПУЛЬСНОГО ИСТОЧНИКА РЕЧЕВОГО СИГНАЛА, ОСНОВАННАЯ НА ПОЛИГАУССОВСКОЙ

МОДЕЛИ

MATHEMATICAL MODEL OF A PULSED SOURCE OF SPEECH SIGNAL FOR THE DISCRIPTION OF PLOSIVE SOUNDS

Разработана математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели. Полученная модель адекватно описывает процесс речеобразования взрывных сегментов речи в виде суммы гауссовских функций, зависящих от времени.

Mathematical model of pulsed source of speech signal, based on poligauss model is developed. The resulting model adequately describes the process of speech production plosive segments of speech as a sum of the gaussian functions which depend on time.

Современный этап развития речевых технологий непосредственно связан с ЭВМ. Например, при решении ряда практических задач появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне.

Разработка речевого интерфейса включает в себя три составляющие: распознавание речи, понимание речи и синтез речи. При этом для понимания речи необходимо изучение не только фонетики и грамматики языка, но и правил семантической интерпретации. Системы анализа и синтеза речи основываются на изучении основных характеристик фонем и звуков, поведении звуковой волны и разработке на основе их моделей, адекватно описывающих речевой сигнал.

Источниками звука в процессе речеобразования являются различные участки речевого тракта. Как правило, выделяют три вида источника звука, участвующих в ре-чеобразовании — голосовой источник и два шумовых: турбулентный и импульсный. Участие импульсного источника приводит к образованию взрывных согласных. Взрывные согласные по артикулярной классификации разделяются на губные («б», «п»), альвеолярные («д», «т»), твердо-мягконебные («г», «к»); по способу образования на губные звонкие мгновенные («б», «г», «д») и губные шумные мгновенные («п», «к», «т») [1]. Следует отметить, что структура взрывных звуков изменчива и зачастую зависит от положения согласного в фонеме или слове.

На современном этапе существует несколько подходов к описанию согласных звуков. В сотовой связи используется кодирование речи на основе метода линейного предсказания. Речевой сигнал представляется в виде сигнала на выходе линейной системы с переменными во времени параметрами, возбуждаемой квазипериодическими импульсами (в пределах вокализованного сегмента) или случайным шумом (на невокализованном сегменте).

Другие подходы к представлению согласных звуков [2—4 и др.], как правило, используют еще более избыточный набор характеристик для параметризации. В работе [4] для определения мгновенных параметров сигнала необходимо осуществить фильтрацию гармонических составляющих, т.е. представить выходной сигнал фильтра в виде

периодической функции с мгновенной частотой и амплитудой. Однако заметим, что для согласных звуков гармоническая составляющая не является столь ярко выраженной, как для вокализованного речевого сегмента.

Таким образом, актуальным научным направлением в области математического моделирования речевых сигналов является разработка математических моделей, компактно и адекватно описывающих невокализованные сегменты речи, учитывающих особенности речеобразования.

Цель работы — разработка математической модели взрывных согласных звуков при использовании полигауссовской модели, и оценка параметров модели реального речевого сигнала.

Предлагается использовать для анализа и синтеза речи следующую математическую модель импульсного голосового источника в виде суммы гауссовских функций, зависящих от времени (полигауссовская модель):

р ~ ( - т)2

2

р о) = Ё Р ■e 9 , (1)

9=1

где Q — количество составляющих; Рд, тд и <Уч — соответственно значения амплитуд,

центральных составляющих и параметров, характеризующих ширину 9-й гауссовской компоненты.

В работе [5] представлено решение экспоненциальной аппроксимации функций Гаусса при следующих ограничениях:

1) сдвиги функции Гаусса (квадратичная экспонента с параметрами) являются целочисленными;

2) искомая функция совпадает с исходной во всех целых точках.

Однако для моделирования взрывных звуков целесообразно исследовать более общий случай, так как для реальных речевых сигналов параметры сдвигов квадратичной экспоненты могут быть произвольными, при этом жёсткое требование точного совпадения модели с реальным речевым сигналом в целых точках можно ослабить, например потребовав минимизацию среднеквадратичной ошибки модели.

Спектральная плотность модели (1), полученная на основе преобразования Фурье и его свойств, выглядит следующим образом:

2 2

¥ __ Q

Р(о)) = | р-=42я^ Рчачe 2 e-]1Шч , (2)

-¥ 9 =1

где (о = 2м- / — круговая частота; / — линейная частота.

Амплитудный спектр на основе выражения (2) имеет вид

\Р («)| = -Нм.

С _2„2 Л2

Q ас!%

¿Р^е 2 ^(отд)

9=1

V

С _2„2 Л2

Q УцЩд

2Рдф 2 sm(amq)

9=1

V

(3)

На рис. 1 в качестве примера представлен временной вид реального речевого сигнала и математической модели для согласного звука /б/ — тонкой сплошной и пунктирной линиями соответственно. При расчетах использовано р{ = р (/ -А), где А = 1/

(здесь — частота дискретизации, которая выбиралась равной 8 кГц).

+

Pi

1,2

0,6

-0,6

-1,2

0 500 1000 1500 2000 N

Рис.1. Временной вид речевого сигнала и математической модели

Для того чтобы оценить ошибки математической модели относительно реального речевого сигнала, предлагается использовать следующий подход. В качестве критерия близости характеристик математической модели и речевого сигнала будем использовать нормированные автокорреляционные функции (НАКФ) соответственно.

При этом НАКФ центрированного речевого сигнала :

By , By ,

b5 ц = = j •

j By 0 Ey ’

АКФ для центрированного речевого сигнала:

N-1 N-1

By (j) ° Byj = 2(xi- x )(xi-j- x)=2 Уі y- j, j =0, J •

(4)

(5)

здесь отсчеты центрированного речевого сигнала: y = x -x, i = 0,N-1; xt — начальные

отсчеты:

N —

число отсчетов

1

; x = n 2 xi — среднее

значение.

Для математической модели НАКФ модели b м (г):

j =

j Bp (0)

Bp (г)

t=jD

E„

(6)

где Ep — энергия модели;

АКФ модели:

¥ j Q

Bp (г) = f P(t) P(t -t)dt = -pp 2 Pq2aq e t 2 q=1

1

4s<2

1+ er/

Sq

(7)

здесь er/ (x) = -j= f e t2dt — функция ошибки. Выражение (7) получено для приближения

при разрешении гауссовских составляющих (малые перекрестные значения q-х слагаемых автокорреляционной функции).

В качестве критерия близости примем нижнюю границу среднеквадратичной ошибки:

0

i=0

N-1

i= 0

mq -

2

1 J

£b = 7 Z b - bj )2 ® inf. (8)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

J j=i

При расчете ошибки ограничим верхний индекс суммирования в (8) существенным значением отсчета АКФ равным N/4. Это обусловлено тем, что, как правило, значения АКФ, начиная с отсчета N/4, заходят в доверительные границы существенных значений [6]. Данный интервал, используемых отсчетов АКФ можно сопоставить со значением времени корреляции (характерным временным спаданием до «практического нуля» коэффициента корреляции). Заметим, что время корреляции (интервал корреляции) дает ориентировочное представление о том, на каком интервале времени заметная коррелированность между значениями случайного процесса существенна для решаемой задачи.

На рис. 2 в качестве примера для звука /б/ показаны графики АКФ реального речевого сигнала (сплошная линия) и модели (пунктирная).

АКФ 1

0,5

0

-0,5 ________________________________________________________________________________

0 100 200 300 400 N

Рис. 2. АКФ математической модели и реального речевого сигнала

На основе выражения для НАКФ bм (-г) можно вычислить коэффициенты Pq по методу наименьших квадратов, минимизировав ошибку eb (приравняв к нулю первые производные eb по каждому из коэффициентов) для Ep = const. Расчет амплитудных коэффициентов Pq можно осуществить на основе метода последовательных приближений, при этом следует наложить дополнительное ограничение в виде действительных значений Pq.

В качестве примера в табл. 1 представлены значения ошибок математической модели для взрывных согласных звуков, полученные на основе анализа реализации одного голоса диктора.

Таблица 1

Звуки /п/ /к / /т/ /б/ /г/ /д/

eb 6,2 3,7 4,2 4,2 6,0 6,3

Так как по теореме Винера — Хинчина АКФ связана со спектральной плотностью сигнала энергии обратным преобразованием Фурье, то данный критерий адекватно описывает как корреляционные связи, так и структурные свойства энергетического спектра сигнала. Анализ математической модели (1) посредством вычисления критерия

близости и эмпирической верификации на слух позволяет сделать вывод о том, что модель адекватна конечному временному ряду (речевому сигналу).

На основе проведенного в работе анализа можно выделить соответствующие каждому звуку параметры математической модели, характеризующие соответствующие спектральные составляющие. Стоит отметить, что для правильного произнесения взрывного звука целесообразно использовать такие слова русской речи, в которых исследуемый согласный звук не будет подвержен вокализации из-за предыдущей или последующей гласной. Примером таких звуков могут послужить следующие слова: «герБ», «йоД», «круГ» «канТ», «стоП», «пиК» и т.п.

В табл. 2 показан набор типовых значений параметров модели, полученных для каждого звука по реализациям одного диктора.

Разработанная математическая модель позволяет описать взрывной согласный звук малым количеством параметров при удовлетворительном качестве синтезированных звуков. Предлагаемая параметризация согласного звука требует, как правило, четыре гауссовские компоненты, т.е. количество существенных параметров необходимых для описания каждого отрезка длиной 20 мс, равно двенадцати, причем восемь из которых (шч, <Уч) являются константами. При этом стоит отметить, что набор значений параметров шч и <Уч для каждого звука, произнесенного одним диктором, является практически неизменным. Таким образом, представляет научный интерес исследование значений шч и <Уч для каждого звука в зависимости от диктора, с указанием доверительных интервалов их изменения, и определение их усредненных значений для соответствую щих звуков.

Заметим, что соответствующие ошибки (табл. 1), полученные на основе экспериментальных исследований, могут быть использованы для того, чтобы задать пороги критических значений соответствующей меры близости в рамках используемого критерия проверки на адекватность математической модели. Также при необходимости могут быть применены объективно-статистические критерии проверки гипотез (например, критерий Стьюдента, критерий на основе коэффициента множественной корреляции и др.).

Таблица 2

Звуки (глухие шумные мгновенные) /п/ /к/ /т/

Значения параметров Номер составляющей, q

1 2 3 4 1 2 3 4 1 2 3 4

Р 0,02 -0,075 -0,04 0,04 0 0,2 -0,6 0,11 0,01 0,55 -0,89 0,05

тч 30-10"3 52-10"3 63 ■ 10-3 70-103 14-10-3 61-10-3 64-10-3 120-10- 3 19-10-3 60-10-3 79-10-3 102-10- 3

62-10"4 10-10-4 25-10-4 77 ■ 104 100-10-4 61-10-4 11-10-4 120-10- 4 100-10-4 11-10-4 51-10-4 70-10-4

Звуки (звонкие шумные мгновенные) /б/ /г/ /д/

Значения параметров Номер составляющей, q

1 2 3 4 1 2 3 4 1 2 3 4

Р 0,2 -0,65 0,42 0,05 0,005 -0,12 0,01 -0,01 0,01 -0,08 0,01 0,02

тч 43-10"3 46-10-3 71-10-3 93 ■ 103 17-10-3 67 ■ 10-3 90-10-3 102-10- 3 20-10-3 57 ■ 10-3 72-10-3 104-10- 3

69-10"4 26 ■ 10-4 53 ■ 10-4 39-104 71-10-4 42 ■ 10-4 100 -104 120-10- 4 90-10-4 26 -10-4 40 ■ 10-4 120* 104

Таким образом, определив отличительные особенности для каждого взрывного согласного звука, выраженные компактным набором существенных параметров, совместно с критерием близости можно успешно реализовать разработанную математическую модель для ряда практических задач — применительно к системам синтеза и распознавания речи, идентификации и верификации по голосу и др.

ЛИТЕРАТУРА

1. Гусев М.Н., Дегтярев В.М. Расчет и измерение качества речевых сигналов. — СПб.: ГеликонПлюс, 2008. — 275 с.

2. Фант Г. Акустическая теория речеобразования. — Новосибирск: Наука, 1964.

— 284 с.

3. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. — М.: Радио и связь, 1981. — 496 с.

4. Азаров И.С., Петровский А.А. Вычисление мгновенных гармонических параметров речевого сигнала // Речевые технологии. — 2008. — №1. — С. 67—77.

5. Ситник С.М., Тимашов А.С. Приложения экспоненциальной аппроксимации по целочисленным сдвигам функций Гаусса // Вестник Воронежского государственного университета инженерных технологий. — 2013. — №1. — С. 67—77.

6. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление: пер. с англ. — М.: Букинист, 1974. — Вып.2. — 198 с.

REFERENCES

1. Gusev M.N., Degtyarev V.M. Raschet i izmerenie kachestva rechevyih signalov. — SPb.: GelikonPlyus, 2008. — 275 s.

2. Fant G. Akusticheskaya teoriya recheobrazovaniya. — Novosibirsk: Nauka, 1964.

— 284 s.

3. Rabiner L.R., Shafer R.V. Tsifrovaya obrabotka rechevyih signalov. — M.: Radio i svyaz, 1981. — 496 s.

4. Azarov I.S., Petrovskiy A.A. Vyichislenie mgnovennyih garmonicheskih parametrov rechevogo signala // Rechevyie tehnologii. — 2008. — N° 1. — S. 67—77.

5. Sitnik S.M., Timashov A.S. Prilozheniya eksponentsialnoy approksimatsii po tselochislennyim sdvigam funktsiy Gaussa // Vestnik Voronezhskogo gosudarstvennogo universiteta inzhenernyih tehnologiy. — 2013. — № 1. — S. 67—77.

6. Boks Dzh., Dzhenkins G. Analiz vremennyih ryadov. Prognoz i upravlenie: per. s angl. — M.: Bukinist, 1974. — Vyip.2. — 198 s.

Математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Голубинский Андрей Николаевич, Гущина Анастасия Александровна

Похожие темы научных работ по математике , автор научной работы — Голубинский Андрей Николаевич, Гущина Анастасия Александровна

MATHEMATICAL MODEL OF A PULSED SOURCE OF SPEECH SIGNAL FOR THE DISCRIPTION OF PLOSIVE SOUNDS

Текст научной работы на тему «Математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели»