Применение метода интегральных уравнений в задаче синтеза гласных русского языка

Любимов Н.А.

УДК 519.632.4:519.673

H. А. Любимов1

ПРИМЕНЕНИЕ МЕТОДА ИНТЕГРАЛЬНЫХ УРАВНЕНИЙ В ЗАДАЧЕ СИНТЕЗА ГЛАСНЫХ РУССКОГО ЯЗЫКА*

В данной статье описан метод интегральных уравнений для поиска решения внутренней задачи Гельмгольца с граничными условиями 3-го рода (импедансного типа). Полученное решение используется для описания волновых процессов в системе речевого тракта человека в момент произнесения гласных звуков. Для синтеза сигнала во временной области применяется модель источник-фильтр. Действие голосовых связок в качестве источника акустического возбуждения описывается моделью Лильенкрантца-Фанта. В качестве фильтра используется спектральная передаточная функция, формируемая на основе решения интегрального уравнения. В рамках аудиальных тестов подтверждается большая достоверность синтезируемых гласных ([а], [у], [и]) в сравнении с синтезом, использующим иные модели акустического речеобразования.

Ключевые слова: метод интегральных уравнений, внутренняя задача Гельмгольца, импеданс, источник-фильтр, модель Лильенкрантца-Фанта, синтез речи, передаточная функция.

I. Введение. Акустическая теория речеобразования имеет довольно долгую историю начиная с наиболее ранних работ Гельмгольца [1], а также трудов Фанта [2] и Рабинера [3]. Подробный анализ ранних математических моделей дан в [4].

Целостное описание явлений распространения звуковых волн в речевом тракте человека является весьма сложным процессом, поскольку должны быть учтены многие эффекты, влияющие на характер порождаемого на выходе звукового поля. К таким эффектам относятся: кривизна речевого тракта, характер колебания голосовых связок, излучение при открытом ротовом отверстии, подвижность и проницаемость стенок речевого тракта. Простейшие и наиболее часто используемые на практике модели пользуются одномерным приближением для описания функции звукового давления или скорости потока частиц. К таким моделям можно отнести, например, уравнение Вебстера относительно волновой функции давления p(z,t), где 0 ^ z ^ L — пространственная координата распространения плоской волны вдоль речевого тракта длины L, t > 0 — время и с — скорость звука:

д2р _ с2 д f , ,др\ = A(z)dz v {z)~th) '

Колебания голосовых связок и излучение ротового отверстия задаются граничными режимами. Функция A(z) представляет собой переменную площадь поперечного сечения цилиндра, внутри которого распространяются волны. Уравнение Вебстера хорошо изучено и имеет аналитические решения для некоторых частных случаев формы речевого тракта [5, 6]. В более общем случае, например, когда функция A(z) задана таблично, задача разрешается численно. Эффективным численным методом решения считается так называемая схема Келли-Локбаума [7], основанная на представлении Даламбера искомого решения в виде бегущих волн и его последующей дискретизации по временной и пространственной переменной:

, —у, 4—/ z=iAz,t=nAt —у , Ч 4— / \ p(z, t) = р (Z — Ctj + р (Z + ctj -> p i{n) + p i(n).

Данная схема обобщается для двумерного и трехмерного случая моделирования речеобразования, в том числе в неоднородных средах распространения волн [8, 9]. Основными проблемами при работе с такими многомерными цифровыми волноводами (digital waveguide) являются жесткие ограничения, налагаемые на сетку пространственно-временной дискретизации, и сопутствующее им возрастание вычислительной сложности при переходе к многомерным случаям [10].

1 Факультет ВМК МГУ, асп., e-mail: lubimov.nicolasQgmail.com

* Настоящие исследования проводятся при финансовой поддержке Министерства образования и науки Российской Федерации (соглашение № 14.579.21.0058), проект № RFMEFI57914X0058.

В других работах [11, 12] рассматриваются задачи, изначально учитывающие многомерность структуры речевого тракта, а следовательно, убирающие предположение о плоскости распространения волнового фронта. В работе [11] предложена двумерная модель, где роль области излучения играет полубесконечный цилиндр. Авторы сравнивают предлагаемую модель с описанным выше уравнением Вебстера. В обоих случаях для получения решения рассматривается численный метод конечных элементов. Важным заключением, сделанным в данной работе, является экспериментально подтвержденный факт расхождения решения уравнения Вебстера с решением рассматриваемой двумерной задачи в области высоких частот. Авторы поясняют это тем, что для больших волновых чисел при заданной геометрии речевого тракта возникают поперечные моды большей амплитуды, которые вносят ошибку в продольной аппроксимации волновой функции. Более сложная трехмерная модель речевого тракта рассмотрена в работе Ханнукайнена и Луккари [12]. Акустическое поле в ограниченной области х е О описывается уравнением колебаний ^г = с2Аи относительно потенциала скоростей и = и(хЛ). Особое внимание уделено граничным условиям в области голосовых связок, которое задается в виде + = 2уГ^-и, где р — плотность среды.

В описанных моделях остается не учтенным характер влияния стенок речевого тракта, определяемый потерями энергии и подвижностью стенки под действием звукового давления. В обоих случаях вводится допущение о непроницаемости стенок, выражаемое в виде граничного условия в форме Неймана = 0. Трехмерная модель речеобразования, предлагаемая в данной работе, использует постановку задачи, схожую с [12], однако при этом учитывается подвижность стенок речевого тракта.

В качестве основных компонентов речевого тракта рассматриваются голосовые связки и прилегающая к ним область, боковые стенки речевого тракта и язык, образованные мягкими тканями человеческого тела, заполненная воздухом полость речевого тракта (гортань), а также ротовое отверстие, которое может быть либо открыто (как в случае произнесения гласных звуков), либо закрыто (для некоторых взрывных согласных, таких как [б]). В данном приближении исключены некоторые другие внутренние органы, играющие роль в речеобразовании. Действие этих органов неявно включено в граничные условия рассматриваемой задачи. Например, легкие и подсвязочная область учитываются при описании звукового поля на голосовой щели. Носовая полость не учитывается, поскольку она играет существенную роль только для сонорных согласных ([н], [м]). В остальных случаях небная занавеска закрыта и таким образом замыкает поверхность речевого тракта. Действие губ можно также приближенно включить в описание поля на границе ротового отверстия.

2. Метод интегральных уравнений. На схематичном рис. 1 изображена область, участвующая в процессе речеобразования в рамках текущей модели. В соответствии с вышеперечисленными компонентами речевого тракта эта область задается следующим образом: $о — граница со стороны голосовой щели, ¿>1 — граница, определяемая стенками речевого тракта, ¿>2 — виртуальная граница, описывающая ротовое отверстие, V — внутренняя область речевого тракта. Полная поверхность речевого тракта образована сочленением частичных границ 5 = $о и ¿>1 и ¿>2-Вектор нормали п = п(х) является внешним по отношению к области V.

Рис. 1. Схематичное изображение трехмерного речевого тракта V человека от голосовой щели (г = 0) до ротового отверстия и области

губ (г = Ь)

Звуковые колебания образуются потоком воздуха, порождаемым легкими и проходящим через голосовую щель. За счет сокращения голосовых связок воздушный поток приобретает характер гармонических колебаний. Поэтому можно говорить, что в области 50 присутствует постоянный источник возбуждения вида /(х,ш)ешг, где }'(х,ш) € С. Конкретный вид источника описывается моделью колебания голосовых связок Лилъенкранца-Фанта [13], которая будет рассмотрена ниже.

Рассматривается внутренняя задача Гельмгольца относительно функции и(х,ш) € С2(У) и и С2(5), с граничными условиями 3-го рода (импедансного типа):

Аи(х, ш) + к2и(х, ш) = 0, х € V, (1)

ди

— (х,ш) + а(х,ш)и(х,ш) = /(х,ш), х € 5, (2)

дп

где а(х,ш) € С(5) и /(х,ш) € С(5) — заданные непрерывные по пространственной координате функции. Импедансные граничные условия соответствуют моделям, описанным в работах [14, 15] (для стенок речевого тракта) и [16] (для открытого ротового отверстия).

Как известно [17], с помощью основной интегральной формулы Грина решение (1) представи-мо* в виде

[ ( ди <Э£? \ егкЯ(х,у)

и{х) = J ( — (у)С(®,у) - и(у) — (х,у)\ (%, 0(х,у) = ф , (3)

5 У У

где у) — функция Грина. С использованием предельного перехода х ^ у на, границе 5 интегральная формула (3) преобразуется к виду

П(х)и(х) = ! (^-('¡¡)0(х,у) - (%,

5 У У

где функция П(ж) равна величине телесного угла, образуемого касательными к 5 в точке х. В частности, для регулярной поверхности П(ж) =

При подстановке сюда из граничного условия (2) интегральное представление переходит в уравнение относительно неизвестной функции и{х) € 5:

^и(х) + J ^ у) + у)^ и(у) (% = J 0(х, у)!(у) (%. (4)

5 У 5

Интегральное уравнение (4) можно также записать в операторном виде

» +А[п»] + В[(/] А [/]. (5)

вводя потенциалы простого и двойного слоя

/Г дО

0(х,у)ф(у) (%, В[ф] = 2

5 5 У

В силу слабой сингулярности подынтегральных функций потенциалы простого и двойного слоев представляют собой компактные операторы, действующие в пространстве непрерывных функций А, В : С(5) ^ С(5). Поэтому для доказательства существования и единственности решения интегрального уравнения (5) применима альтернатива Фредгольма.

Ядро оператора I + Аа + В совпадает с ядром интегрального уравнения, определяющего решение внешней задачи Дирихле через потенциал двойного слоя (см. теорему 3.15 из [18]): кег(1 +Аа + В) = кег(1 + В). Равенство имеет место, поскольку функция Грина всюду положительна, и, следовательно, кег А = {0}. В свою очередь в силу теоремы 3.17 из [18] кег(1+В) = кег(1+В*), где В* обозначает сопряженный оператор. Иными словами, подпространство нулей исходного интегрального оператора (5) совпадает с решением однородной внутренней задачи Неймана. Если волновое число к не является собственным значением внутренней задачи Неймана, то у данной однородной задачи существует только нулевое решение. В этом случае кег(1 + Аа + В) = 0 и в силу

*Далее для краткости частотную переменную опускаем, подразумевая и(х) = и(х,ш). 3 ВМУ, вычислительная математика и кибернетика, № 2

альтернативы Фредгольма следует однозначная разрешимость операторного уравнения (5) для любой правой части. В противном случае, если к совпадает с собственным значением внутренней задачи Неймана, единственность, вообще говоря, нарушается. Частота ш, на которой возникает данный эффект, является резонансом речевого тракта. На практике можно исключить данную частотную точку и ограничиться только определением области вокруг резонанса, называемой также или формантной областью, или формантой.

2.1. Метод численного решения. В данном разделе описан метод решения задачи (5), у которой, как было показано выше, практически для всех значений волнового числа к, существует единственное решение. В дальнейшем удобно перейти к цилиндрической системе координат: г = у^х2 + у2, 0 ^ г ^ Г£, в = агсйапу/ж, 0 ^ в < 2ж, г = г, О^г^Ь, в которой расстояние между точками х = (гх,вх,гх) и у = (гу, ву, записывается в виде

Щх, у) = ^'г2х + г1- 2гхгу сов (6Х - ву) + ¡>ж -

Можно приближенно считать, что объем V, ограниченный поверхностью 5, является телом вращения с осью симметрии г = 0. В таком случае поверхность задается в виде образующего контура 7 € Г: г = г(7), г = 2(7), включающего также ось г = 0 (см. жирную линию на рис. 1), на которой имеет место дополнительное граничное условие = 0.

Будем искать решение в виде суммы

ос

и(г,в,г) = ^ ит(г, г) соя тв.

т=0

Относительно неизвестных коэффициентов игп = ит(гх,гх) на образующем контуре вх = 0 интегральное уравнение записывается в следующем явном виде:

1

с функциями

■7<]'Ъ 1 I в

JdЪ = J йЪ г г г

2тг

Ат = Ат(гх,гх,гу,гу) = 10(х, у) соятву йву,

(6)

и якобианом ,1 = </(7) = гу

<9(3 йх дО йг

дгу (¿7у дгу (¿7у

{ йг

и? ¿7)

соя тву йву

(7)

(8)

( йг йг \

Л1)

= г,

йг

(¡■Уу

йг

йчУ

Для дискретизации задачи (6) используется метод Галеркина с линейными элементами. Кривая Г аппроксимируется кусочно-линейными функциями, связывающими N узлов сетки щ =

= г = 1.2...../V. так, что значение в некоторой точке (г(7), .2(7)), ^ г(7) ^ |_1,

^ ^(7) ^ ^¿+1; представимо в виде

и(1) =«¿(1 -7) +«¿+17, К7) = гг(1 -7) +гг+17, ^(7) = ^¿(1 -7) + ¿¿+17,

(9)

где 7 локально параметризует кривую, соединяющую точки (г^,^) и 1, ), и изменяется в пределах 0^7^ 1. Якобиан в этом случае становится равен

J(1) = г(7) у/(п+1 - г г)2 + (^+1 - = г(7)^/Дг2 + Аг2 = г(7)Д<, а внешняя нормаль в произвольной точке внутри отрезка равна п = -^-(Azi, —Аг^).

Для всех узлов сетки интегральное уравнение можно свести к системе линейных алгебраических уравнений для каждого индекса:

^ N N N

2Uii + Y1 А'./М + Yl ВиН = Y1 А1Л- i = l,2,...,N, j=1 j=1 j=1

где значения операторов могут быть найдены путем подстановки выражения неизвестной функции (9) в j-м узле в соответствующие интегралы

1 1

Aij[ip] = Aj j A(ri,Zi,r, z)ip(r, z)r (¿7, В^[ф] = A:j J Bfa, Zi, r, z)ip(r, z)r dj.

о о

Подынтегральные выражения в (7) и (8) содержат функции, непрерывные всюду, кроме точек R = R(x,y) = 0, в которых подынтегральная функция обращается в бесконечность. Чтобы избавиться от этого эффекта, предлагается выделить сингулярную часть интегралов, заменив их табличным значением известной функции, представимой в виде эллиптических интегралов [19]. Не содержащие сингулярностей интегралы вычисляются при помощи квадратурных формул Гаусса [201.

3. Синтез гласных. Синтез гласных, применяемый в данном эксперименте, состоит из нескольких шагов. Сначала на основе данных о строении речевого тракта вычисляется его амплитудно-частотная характеристика по формуле

w ч v(xout,w) ' n(xout) \и(хоиЬ,ш)\

п(ш) = —-= шр---, (10)

c(4,w)-n(4) \z(xont)f(u)\

где a;in, i?out — входная и выходная точки наблюдения. В цилиндрической системе координат можно взять icout = (0, 0, L).

Синтез гласных осуществляется на основе модели источник-фильтр (source-filter) [3, 4]. Функцию фильтра выполняет система речевого тракта, а источником звуковых колебаний являются голосовые складки.

Для экспериментального анализа была выбрана широко известная модель Лильенкрантца-Фанта, или LF-модель [21]:

{EQeat sin (ugt), 0

"ft (е~Ф~Те) ~ e"£(Tc"Te))' Te < Тс, (И)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

о, Т, < Тп,

где — период основного тона голоса, ш9 = параметры Тр, Те, Тс и Та задают временной

характер колебания складок, а Еа и Ее определяют амплитуду колебаний. Остальные параме-

т0

тры (а,е) подбираются, исходя из условия непрерывности и требования / а,ьр сИ = 0 (см. детали

о

в работах [21, 22]).

Комплексный спектр модели (11) выписывается в явном виде:

Е / \

= (а _ ¿ц)°2 + ш2 (е{а~^)Те {(а ^ ш) тп (шдТе)^ш9 соя (шдТе))) +

Eec~iujTe еТаш{е + ш)

(е(1 - еТа){ 1 - е-^(Го-Ге)) _ _

Условия квазистационарности спектральной характеристики предполагают, что аудио-сигнал может быть получен методом фильтрации сигнала источника:

s{t) = J h(t-T)fLF(T)dT,

Профиль речевого тракта

а

Спектр сигнала на выходе

0 0.05 0.10 0.15 0.20 Длина, м

Профиль речевого тракта

0.05 0.10 0.15 0.20 0.25 Длина, м

Профиль речевого тракта

0.05 0.10 0.15 Длина, м

0.20

1000 2000 3000 4000 Частота, Гц

Спектр сигнала на выходе

1000 2000 3000 4000 Частота, Гц

Спектр сигнала на выходе

1000 2000 3000 4000 Частота, Гц

Рис. 2. Профиль речевого тракта (слева) и спектр синтезированного аудиосигнала (справа) на границе ротового отверстия для различных фонем русского языка: а — фонема [а], б — фонема [у], в — фонема [и]

где h(t) — передаточная функция (10) во временной области. С учетом того что известно частотное представление спектральной функции (10), используется более эффективный метод перекрестного сложения (overlap-add method) [23].

4. Вычислительный эксперимент. Целью вычислительного эксперимента является использование разработанной модели для синтеза речевого сигнала гласных русского языка [а], [у], [и] с учетом известной геометрии речевого тракта в момент произношения [24]. Неформальным критерием оценки качества решения являются аудиальные тесты, синтезированные фонограммы для которых можно найти на странице http://mresearch.makseq.com/speech-production.

Передаточная функция речевого тракта рассчитывается по формуле (10). Для каждого гласного звука было построено численное решение передаточной функции, состоящее из 256 частотных точек. Графики, изображающие геометрию речевого тракта, и соответствующие им спектральные функции изображены на рис. 2.

Полученные спектральные профили гласных позволяют синтезировать соответствующие им во времени сигналы. В рамках неформальных аудиальных тестов с несколькими экспериментаторами было выявлено улучшение качества сигнала, построенного с применением описанных в данной работе интегральных уравнений. В качестве референсных результатов предлагалось прослушать аналогичные гласные, синтезированные при помощи модели Келли-Локбаума [7], а также при помощи трехмерной модели речевого тракта с абсолютно жесткими стенками, как это сделано в работе [12]. Было выявлено, что подвижность и проницаемость стенок речевого тракта, определяемая граничной функцией импеданса, существенно влияет на характер восприятия акустического сигнала. Субъективная аудиальная оценка синтеза является, безусловно, неформальным критерием качества моделей, однако достаточно эффективной для демонстрации возможностей моделирования. Аудиальный тест зачастую применяется в задачах TTS-синтеза (Text-To-Speech), а также оценки эффективности сжатия аудиосигнала.

5. Заключение. В данной статье была разработана модель акустического речеобразова-ния, учитывающая подвижность стенок речевого тракта. В соответствии с данной моделью было рассмотрено интегральное уравнение для поиска спектральной функции потенциала скоростей во внутренней области речевого тракта. Основной особенностью данной постановки задачи является наличие подвижных стенок речевого тракта, которые описываются с помощью импедансного граничного условия. Численный метод решения основан на методе граничных элементов со схемой Галеркина. Для упрощения метода было введено условие осевой симметрии, позволяющее свести поверхностное интегральное уравнение к интегралам по контуру, а также представить сингулярные интегралы аналитическим образом при помощи эллиптических интегралов.

Проведенный вычислительный эксперимент показал, что с помощью метода интегральных уравнений можно построить спектральную передаточную функцию, зная исходные параметры ре-чеобразования, такие, как строение речевого тракта и физические характеристики стенок. Полученную передаточную функцию можно использовать для последующего синтеза звуков во временной области. Аудиальные тесты демонстрируют достаточную разборчивость некоторых гласных русского языка.

СПИСОК ЛИТЕРАТУРЫ

1. Helmholtz Н. L. F. Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik. Vieweg, Braunschweig, 1863.

2. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.

3. Рабинер J1. Р., Шаффер Р. В. Цифровая обработка речевых сигналов. М.: Радио и Связь, 1981. (Rabiner L. R., Schafer R. W. Digital Processing of Speech Signals. Vol. 100. Englewood Cliffs: Prentice-Hall, 1978.)

4. Morgan N., Gold B. Speech and Audio Signal Processing: Processing and Perception of Speech and Music. N.Y.: John Wiley, 2000.

5. Сорокин B.H. Теория речеобразования. М.: Радио и Связь, 1985.

6. Сорокин В.Н. Речевые процессы. М.: Народное образование, 2012.

7. Kelly J. L., Lochbaum С. С. Speech synthesis // Proc. of the 4th Int. Congr. on Acoustics. Copenhagen, 1962. P. 1-4.

8. Mullen J. Physical modelling of the vocal tract with the 2D digital waveguide mesh. PhD Thesis. Univ. of York, 2006.

9. Speed M. D. A. Voice synthesis using the three-dimensional digital waveguide mesh. PhD Thesis. Univ. of York, 2012.

10. Karjalainen M., Erkut M. Digital waveguides versus finite difference structures: equivalence and mixed modeling // EURASIP J. App. Sig. Proc. 2004. 7. P. 978-989.

11. Kako Т., Капо Т. Numerical simulation of wave propagation phenomena in vocal tract and domain // 11th Int. Conf. on Domain Decomposition Methods. Greenwich, 1999. P. 268-273.

12. Hannukainen A., Lukkari Т., Malinen J., Palo P. Vowel formants from the wave equation // J. Acoust. Soc. Am. 2007. 122. N 1. P. 1-7.

13. Fant G. Glottal flow: models and interaction //J. Phonet. 1986. 14. P. 393-399.

14. Fung K.-Y., Hongbin J. Time-domain impedance boundary conditions for computational acoustics and aeroacoustics // Intern. J. Computational Fluid Dynamics. 2004. 18. N 6. P. 503-511.

15. Fant G., Nord L., Branderud P. A note on the vocal tract wall impedance // J. STL-QPSR. 1976. 17. N 4. P. 13-20.

16. Atig M., Dalmont J.-P., Gilbert J. Termination impedance of open-ended cylindrical tubes at high sound pressure level //J. Comptes Rendus Mecanique. 2004. 332. N 4. P. 299-304.

17. Тихонов A.H., Самарский А. А. Уравнения математической физики. M.: Изд-во МГУ, 1999.

18. Колтон Д., Кресс Р. Методы интегральных уравнений в теории рассеяния. М.: Мир, 1987.

19. J u h 1 P. М. The boundary element method for sound field calculations. PhD Thesis. Tech. Univ. of Denmark, 1993.

20. Бахвалов H. С., Жидков H.П., Кобельков Г.М. Численные методы. M.: Бином. Лаборатория знаний, 2003.

21. Fant G. The LF-model revisited. Transformation and frequency domain analysis // J. STL-QPSR. 1995. 2. P. 121-156.

22. Fant G. The voice source in connected speech //J. Speech Communication. 1997. 22. N 2. P. 125-139.

23. Smith J. O. Spectral audio signal processing. Stanford: CCRMA, 2010.

24. Сорокин B.H. Синтез речи. M.: Наука, 1992.

Поступила в редакцию 10.12.14

INTEGRAL EQUATION METHOD FOR SYNTHESIS OF RUSSIAN VOWELS

Liubimov N. A.

This paper presents an integral equation method for solving interior Helmholtz problem with impedance boundary conditions. The solution of this problem is used to infer acoustic wave propagation phenomena inside human vocal tract when vowel sound is pronounced. The source-filter model is applied further to resynthesize time-domain audio signal. The excitation source is derived by Liljencrants-Fant model of vocal folds motion. The integral equation solution is then produces the spectral transfer function in order to filter excitation signal. The informal listening assessments demonstrate superior intelligibility of some synthesized russian vowels ([a], [u], [i]) comparing with other acoustic model-based speech synthesizers.

Keywords: integral equation method, interior Helmholtz problem, impedance, source-filter model, Liljen-crants-Fant model, speech synthesis, transfer function.

Применение метода интегральных уравнений в задаче синтеза гласных русского языка Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Любимов Н. А.

Похожие темы научных работ по математике , автор научной работы — Любимов Н. А.

Текст научной работы на тему «Применение метода интегральных уравнений в задаче синтеза гласных русского языка»