Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта

Голубинский Андрей Николаевич; Гущина Анастасия Александровна

А.Н. Г олубинский,

доктор технических наук

А. А. Гущина

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ВОКАЛИЗОВАННЫХ СЕГМЕНТОВ РЕЧЕВОГО СИГНАЛА, ОСНОВАННАЯ НА МОДЕЛИ РЕЧЕВОГО ТРАКТА

MATHEMATICAL MODEL OF A SEGMENT OF VOICED SPEECH, BASED ON MODEL OF THE SPEECH PATH

Разработана математическая модель речевого сигнала, основанная на физической модели речевого тракта. Полученная модель адекватно описывает процесс рече-образования вокализованных сегментов речи как сложное периодическое колебание, которое можно представить в виде набора гармоник с произвольными амплитудами и фазами, возбуждаемыми природным генератором и проходящими через речевой тракт, представляющий собой несколько резонаторов.

Mathematical model of speech signal, based on aphysical model of the speechpath is developed. The model adequately describes the process of speech production voiced segments of speech as a complex periodic oscillation, which can be represented as a set of harmonics with random amplitudes and phases, excited natural generator and passing through the speech path, which is a few resonators.

Современный этап развития речевых технологий характеризуется повышением точности математических моделей речевого сигнала для решения ряда задач обработки речи, связанных с развитием биометрических систем информационной безопасности, синтезом и анализом речи, распознаванием речи, а также медициной, например для реабилитации пациентов с нарушениями речи и слуха [1].

Человеческая речь по своей структуре состоит из некоторого количества системообразующих факторов, связанных между собой либо структурно, либо по механизму взаимодействия [2], которые демонстрируются на примере акустических свойств речи (технологическая база, продуктивность, помехоустойчивость). Рассматривая речь как систему, состоящую из трех аспектов [2], обозначенных выше, наибольшее внимание необходимо уделить артикуляторным акустическим свойствам самой речеобразующей системы, так как звуки речи генерируются артикуляционным аппаратом человека и знание акустики речеобразования необходимо для правильной интерпретации физических данных. Для последующей математической формализации следует сначала понять физический процесс речеобразования. Однако ввиду того что речеобразующий механизм представляет собой относительно труднодоступную систему, даже на современном этапе представляется весьма сложным получить точные данные всех размеров речевого тракта и подробное описание его динамики. В связи с этим актуальной научной задачей является построение адекватных математических моделей речевого сигнала и речевого тракта.

Одним из источников образования звуков является голосовой источник, который возникает при колебании голосовых связок [3]. Он участвует в образовании нескольких групп звуков, и по степени участия голосового источника звуки делятся на гласные и согласные. Рассмотрим подробнее модель вокализованного сегмента речевого сигнала

применительно к задачам анализа и синтеза речи. Физическая модель речеобразования вокализованных сегментов речи показана на рис. 1.

Входной сигнал х(ґ) поступает от голосовых связок (природный генератор), проходит через #-е количество параллельно соединенных резонаторов (характеризующих форму речевого тракта), таким образом, на выходе формируется определенный произносимый вокализованный речевой сегмент у(ґ).

А/

Рис. 1. Модель речевого сигнала для вокализованного сегмента речи

Известно, что гласные звуки представляют собой квазипериодические колебания, вызванные действиями голосовых связок [3], таким образом, целесообразно использовать гармонические математические модели, адекватно описывающие данные сегменты речи [4].

Для вокализованного сегмента речи экспериментально было установлено, что на «фонетический смысл» гласных звуков существенно влияют амплитуды на частотах основного тона и обертонов речевого сигнала [4]. В связи с этим математическая модель вокализованного речевого сегмента будет содержать некоторый набор амплитудных, фазовых и частотных параметров, формируемых в результате прохождения поли-гармонического колебания через резонансную систему.

Цель работы — разработка математической модели вокализованного сегмента речи, основанной на модели речевого тракта для полигармонического сигнала источника, а также при учете вариаций частоты основного тона (ЧОТ).

Представим сигнал источника (голосовых связок) как сложное периодическое колебание в виде набора гармоник с произвольными амплитудами и начальными фазами, которое проходит через речевой тракт, представляющий собой несколько параллельно соединенных резонаторов.

Методом разделения переменных можно получить дифференциальные уравнения (ДУ) второго порядка, характеризующие временную зависимость звукового поля при формировании вокализованного речевого сигнала [5].

Рассмотрим математическую модель вокализованного сегмента речи У(і), являющуюся решением ДУ, которое описывает прохождение периодического колебания от источника в виде голосовых связок (т.е. полигармонического сигнала или нескольких гармоник ряда Фурье) через систему параллельных резонаторов с затуханием:

N 1 Ь

Х^(у"п + 2апУ'п + О 2 • Уп ) = Е Ь ^ 1 О ■ 1 + ® ^ (1)

«=1 С п I =1

где Оп = 2рРп; Гп — п-я формантная частота; о0 = 2р0 ; /0 — ЧОТ; ап — коэффициент затухания п-го резонатора; Ьі и (рг — соответственно амплитудные коэффициенты и начальные фазы, характеризующие сигнал генератора, т.е. сигнал, формируемый голосовыми связками; N — количество резонаторов; Ь — количество гармоник сигнала генератора; Сп — коэффициенты, характеризующие распределение воздушного потока (от сигнала источника) между резонаторами.

Для решения уравнения (1), применив принцип суперпозиции, получим следующие ДУ:

-1(У» + 2ап • Уп +О2 • Уп) = Ьі • этС1 о • і + р,^ п =1,N ; 1 = 1Ь . (2)

п

Решение данных дифференциальных уравнений упі (і) дает математическую модель речевого сигнала у(і) для вокализованных сегментов речи:

Ь N

Уп(і) = Е Уп,і(і); у(і) = Е Уп(і). (3)

і=1 п =1

Решение уравнения (1) в общем виде:

N Ь

у( і) = ЕЕ Уп,і(і). (4)

n,i

n_l l=\

Следует отметить, что общие решения неоднородных ДУ (2) представляются в виде суммы общих решений однородных ДУ и частных решений неоднородных ДУ:

ynJ (t) ° оо=оо+y ). (5)

’ n,l n,l n,l

Неопределенные коэффициенты можно получить для задачи Коши [6]:

Уп* (0) = 0; у П,1 (0) = 0. (6)

Решение общего однородного ДУ вида (2): y°°-(t) = -СпЪ1 {а sin(/Q2 -« • t)(lVcosj - 1щWcosj -anlWsin j -anW sin j +

+ 2a2Jw cos j )}/VQn -al (wn - 2Q ni X + 4«21 Ч2 +1X )1+

+ СпЪ1e-«n f COsW Q2 - t)(l X sln j - Q n sln j + 2OM COs j ) (7)

Qn - 2Q 2l2 w2 + 4l2wfo2 +1X . ()

Приведем числитель у (г) к виду:

п,1

Р„л сое Ап + ^ вш Ап = гп1 а1< Ап + впЛ), (8)

/ 2 2 • ^ Рп,1 ^ Я.п ,1 ^ . Р п, I

где гп,1 = ^Рп,1 + Чп,г , 8т ^ =--------, со^@п,г =------------------, те ^ = агсг8-•

Чп,1 Рп,1 Чп,1

Сравнивая выражения (7) и (8), видим, что:

Ап Чат,-а • г; (9)

_ Сnbie a f(lX2 sin j _WП sin j + 2anla0 cos j)

_ _ nble (l W0 sU1 jl ~W П

n,l 2 2 2 2 2 2 2

(W„ - l W>) + 41 w0an

= СпЬі е Ч ((і Ч -О п ) вІП Рі + 2«М С0в (Рі ) ;

(О 2 -1Ч)2 + 4/2о0«п2 ’

СпЬ1 е~Ч (і00(і 2°02- О п + Ч )СОв Р - « (і 4+ О п)5ІП Рі ))

Чп,і = --

л/°2 -«п2 ' ((Оп - 12 О2 )2 + 4іЧ4» )

(11)

Таким образом, общее однородное ДУ приводится к следующему виду:

у0"'(г) = САе«{(/Ч - а2>тр + 2аМсо8 р )2(а2- а2)+

+ (ч^іЧ02 -О2 +2«2 )сов р -ап(і 2ю\ +О2п )віп р,

/[/О2 -ч2 • ((О п-1Ч)2 +4і Чч2 )}х

8Іп^/О 2 «2 , , ((О п - 1Ч^Ш Рі - 2апЧ0 С0в Рі )д/О п -Ч

Чп • і + аг^

V

Ч0 -Оп + 2а1)с0Ър1-Чп(іЧ0 + Оп>т Рі

(12)

Частное решение неоднородного ДУ:

, У2-2

п і '________________

пі ' ' С Г\2 Л

У (і) = С Ь1 ((12°02 - Оп )5Іп( Чі + Рі) + 2апЧ С0в(іЧ0і + Рі)) =

О 4 + 4і 2о2

Ь1 вІп

(Ч0 і + рі) + аг^

V

2ч іч

О2

___п

2

\

■ + Ч

+ і 4 о4

і Ч-О 2 ,

222 °ч„

(13)

л/(а п -/Ч2)2 + 4/Ч-

Суммируя согласно (4) решения (12) и (13), можно показать, что решение уравнения (1) является суммой полигармонических колебаний с амплитудно-частотной модуляцией.

В частном случае при N=1; Сх = 1р = 2 получаются следующие выражения, для решения уравнения (1), которые соответствуют представленным в работе [6]:

Г2Ч2//2Ч2 а 2 , 0а2)2 )-1/2

У о о (і) = Ь е-Ч

((ЧпЧ)2 + і Ч(і 2°02 -О п + Чп2)2 ^/О2 -«п2 ' ((О п - і 2°о)2 + 4і2 Ч02 Ч )

Л

х

вІп( VО п-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ап • і + aгctg

■2ч

/°0л/°

22 0\* Ч0 "

Ь1 вІп

У“(і) = ■

і о0і + aгctg

/о0(/

2« і О

Ч)

(14)

222 ЧЧ

(15)

Л/(Оп - іЧ)2 + 4і2

Следует отметить, что в общем случае ЧОТ не является постоянной величиной. При этом вариации ЧОТ моделируют для /00) как правило, одной-тремя гармониками [3,7].

Получим решение для физической модели, представленной на рис.1 при наличии частотномодулирующей (ЧМ) составляющей в сигнале источника (голосовых связок). Известные в литературе решения о прохождении ЧМ-колебания через резонансную систему получены для следующих одновременно действующих ограничений [8]:

1) одна гармоника возбуждающего сигнала (о0);

2) один резонатор (с частотой резонанса О 0);

3) частота возбуждающего сигнала и собственная частота колебаний резонатора совпадают (ю0 = 00);

4) добротность резонансной системы велика (Q = 00 / 2а >>1);

5) индекс модуляции мал (т<<1).

Получим решение уравнения (1) при наличии ЧМ-модуляции в сигнале возбуждения. Таким образом, ДУ при учете ЧМ (для вариаций ЧОТ) имеет вид:

N 1 L í \

Z С (У"п+ 2an ' У'п +Q 2 ' Уп ^ ^ b¡ ' sin (l ' t +lm sin( W T* +Уо) + j )•

n=1 С „

(16)

l=1

Для обеспечения условия соблюдения максимума мгновенного значения ЧОТ в середине временного интервала (длительности вокализованного сегмента) будем полагать y0 =p/2, в результате ДУ (16) приобретает вид:

N 1 L

Z с (уП + 2an • Уп + W 2 • Уп) = Z bi ■sin (l wo • t - /да cos(Q0Mt)+j). (17)

n=1 C n l=1

Для решения ДУ (17) с целью получения математической модели y(t) представим /-е слагаемое в правой части выражения (17), используя разложение в ряд по функциям Бесселя [9]:

Bl (t) = bt • sin( lw01-1 • m cos( W0мt) + jl) = bJ0(l• m) sin( lw01 + jl) +

+ bZ (_1)¿ J2k (l' m) sin ([lW)- 2kW0м]t + ji) +

k =1

+ bZ (-1)k J2k (l' m) sin ([lW) + 2kW)0,í ]t + ji)-

k=1

■ biZ (-1)k J2k+1(l' m)sin|jl w -(2k + 1)WГ]* + ji +p

k = 0

(18)

- biZ (-1) J2k+1 (l' m)sin [lW) + (2k + 1)W0м]* + jl +~ k =0 V 2 J

В более общем случае, при наличии начальной фазы в ЧМ-колебании генератора выражение (17) выглядит следующим образом:

N 1 L

Zс~(У” + 2ап'у'п + W2'Уп^ = Zbl ■sinw'*-lm1 cos(Q0í* + ^)+j),

n=1 C n l=1

а выражение для Bl(t) (18) приобретает вид:

Bl(t) = blJ0(l'm) sin(lWt + jl) +

(19)

+ bl Z (-1)k J2 k (l' m)sin ([lW0 - 2kW 0м]* + jl- 2kg,)+

k =1

+ bl Z (-1) kJ2k (l' m )sin ([l W0 + 2kW0M ]* + jl + 2kg)-

k=1

biZ (-1) J2k+1 (l' m)sin |jlW0 - (2k + 1)W^]* + jl - (2k + 1)g, + —

k = 0

- ЬZ (-1)2*+1 (I • т)8т [/^о + (2к +1)00м]* + Р/ + (2к +1)^0 +“

к= 0 V 2 У

= В/,1(0 + В1,2 (*) + В/,3(0 + В/,4 (*) + В/,5(*). (20)

Решение уравнения (19) состоит из пяти частей и определяется согласно (4), (5), (12), (13), но с другими параметрами, причем четыре из них являются суммами рядов по индексу к. Таким образом, используя решения (4), (5), (12), (13), необходимо про-

вести следующие замены: параметры, которые находятся в правой части уравнения (1), заменяются на соответствующие для каждой составляющей выражения (20). То есть, для первого слагаемого Вп(ї) осуществляется замена параметра Ь1 на 0(і • т), для

второго Б12(ґ) замена Ь1 на Ь1 (-1)к32к(I • т) и т.д. Аналогично проводятся замены других параметров в соответствии с таблицей.

В/,1 (?) В/,2(? ) В/,3(0 В/,4(? ) В/,5(?)

Ь/ Ь 3 о т) Ь/ (-1) к3 2 к (і • т) Ь, (-1) к3 2к (/ • т) Ь1 (-1) 32к +1(і • т) Ь1 (-1)32к +1(і • т)

/Ю0 іЮ0 /Ю0 - 2 к0 0м /Ю0 + 2к00м /Ю0 - (2к +1)0 0м /Ю0 + (2к +1)0 0м

Р/ Рі Р/- 2к^0 Рі + 2 к^0 Рі- (2к + 1)^0 Рі + (2к + 1)^0

С ростом индекса модуляции расширяется полоса частот, занимаемая сигналом, при одновременном уменьшении значений амплитуд высокочастотных гармоник, поэтому полагают, что допустимо пренебречь всеми спектральными составляющими для р > 1т + 1, т.е. Jp (I • т)| р>1т +1 » 0 [9, 10]. Заметим, что индекс модуляции для обеспечения

естественности звучания, как правило, принимается равным т=0,5^1,5 [3]. Следовательно, при т<2, можно провести замену бесконечного верхнего предела в суммах выражения (18) на соответственно I и (I -1). В результате формула (20) принимает вид:

В1 (0 = Vо(1 •т) 8т( + 01) +

+

Ьі X (-1)к2 к (I • т^іп ([/й>о - 2к0 0м]? + ф- 2к/0)

к =1

Ь/ 2 (-1)к32к (/ • т ^іп ([/Ю + 2к0 0м ]? + Р + 2куо)

+

к=1

/-1

- Ь/2 (-1) 32к+1 (/ • т^іп I [Ю - (2к +1)00м]? + Р/ - (2к + 1)уо +

к = 0 /-1

Ґ

Ьі2 (-1) 32к+1 (/ • т^іп [Ю + (2к +1)0 0*]? + Р/ + (2к +1)^, + —

2

к = 0

V

В частном случае 30(0) = 1;3 (0) = 0, р = Ц

без частотной модуляции правая часть выражения (18)

Ь

2ЬI зт(!а0г + р), а решение сводится к формулам (4), (5), (12), (13).

(21)

(т=0) значения

приобретает вид

і =0

В качестве примера на рис. 2 и 3 соответственно показан временной вид функции у(?) (математическая модель получена как решение уравнения (17)) и амплитудный спектр. Для построения графиков параметры принимали следующие значения (что соответствовало экспериментальным значениям, характеризующим звук «и»): Ь =16;

N=2;

К™ = 3,333 Гц;

т1

= 1,2 ;у0 = 0; /0 = 156,25 Гц ;

Ь1 2,1 ; Ь2 1; Ь3 Ь4 Ь5 Ь6 Ь7 Ь8 Ь9 Ь10 Ь11 Ь12 0; Ь13 4; Ь14 3,5; Ь15 3;

Ь16 = 8; Р = 0; С1=С2=1; ^1=312,5 Гц; ^2= 2187,5 Гц; « =140,3 рад/с (0^7 [10];

«1 =0/201); а2 = 229,1 рад/с (02 = 30 [10]; «1 =02/202).

-3.10-6 0 0,05 0,1 0,15 0,2 0,25 0,3 1, сек

Рис. 2. Временной вид математической модели звука «и» с частотной модуляцией

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

£у(/),дБ

Рис. 3. Амплитудный спектр математической модели звука «и» с частотной модуляцией

Заметим, что полученное решение ДУ (19), состоит из пяти составляющих, четыре из которых являются суммами, включающими функции Бесселя. Оно является общим случаем, адекватно характеризуя вариации ЧОТ в сложном колебании, соответствующем речевому сигналу. При наличии достаточно высокой добротности резонансной системы, что, как правило, соответствует реальному речевому тракту

(ап = 0 п /(2Qn) << О п), справедливо приближение »О П. В результате ре-

шение существенно упрощается для практической реализации инженерных расчетов и может быть сведено к математической модели с амплитудно-частотной модуляцией (АЧМ):

и

(О = 2Ык С08( 2р£Р(/ + Фк)2 и1008 [2р(/ + 1)/</ + (/ +1) • т1 зт( 2^* + ^) + р/],

к=0

/=0

* е[0,7„ ],

К

где ти — длительность гласного звука; ^МкС0Б(2+ Фк) — составляющая,

к=0

которая характеризует переходные процессы (нарастание и спад амплитуд сигнала) и экспоненциальное затухание составляющих сигнала; т1 — индекс модуляции (в общем случае зависит от времени, однако при больших добротностях резонаторов можно примерно считать равным константе).

Таким образом, в работе синтезирована математическая модель речевого сигнала в виде решения ДУ, которое описывает прохождение полигармонического частот-номодулированного колебания через систему параллельных резонаторов с затуханием. Полученная в работе модель адекватно описывает процесс речеобразования при формировании вокализованных сегментов речи.

ЛИТЕРАТУРА

1. Сорокин В.Н., Вьюгин В.В., Тананыкин А. А. Распознавание личности по голосу: аналитический обзор // Информационные процессы. — 2012. — Т.12 — №1. — С. 1—30.

2. Галунов В.И. Речь как система // Труды XIII сессии Российского акустического общества: сборник трудов. — М., 2003. — Т.3. — С.19 —21.

3. Гусев М. Н., Дегтярев В. М. Расчет и измерение качества речевых сигналов. — СПб.: ГеликонПлюс, 2008. — 275 с.

4. Голубинский А.Н., Гущина А.А. Анализ и синтез гласных звуков на основе математической модели в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим сигналом // Наука и современность: сборник материалов Международной научно-практической конференции. — Новосибирск, 2012. — С. 23—28.

5. Сорокин В.Н. Теория речеобразования. — М.: Радио и связь, 1985. — 312 с.

6. Сорокин В.Н., Леонов А.С., Макаров И.С. Устойчивость оценок формантных частот // Речевые технологии. — 2009. — №°1. — С. 3—21.

7. Бабкин А. В. Особенности применения технологии Т0-Р80ЬЛ для модификации характеристик вокальных аллофонов // Диалог’2000: труды Международного семинара по компьютерной лингвистике и ее приложениям. — Т. 2. Прикладные проблемы. — М., 2000. — С. 33—40.

8. Баскаков С.И. Радиотехнические цепи и сигналы: учеб. для вузов по спец. «Радиотехника». — М.: Высш. шк., 1983. — 536 с.

9. Абрамовиц М., Стиган И. Справочник по специальным функциям. — М.: Мир, 1979. — 832 с.

10. Фланаган Дж. Анализ, синтез и восприятие речи. — М.: Связь, 1968. — 396 с.

MATHEMATICAL MODEL OF A SEGMENT OF VOICED SPEECH, BASED ON MODEL OF THE SPEECH PATH

Текст научной работы на тему «Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта»