УДК 81'34
Вестник СПбГУ. Сер. 9. 2010. Вып. 2
В. В. Евдокимова
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СОВРЕМЕННЫХ МЕТОДОВ ПОСТРОЕНИЯ ФОРМАНТНЫХ КАРТИН ГЛАСНЫХ
Программы автоматического определения траекторий движения формант становятся в настоящее время обязательной составной частью алгоритма обработки речевого сигнала при решении ряда фундаментальных и прикладных фонетических задач, таких как идентификация звуков, изучение супрасегментных характеристик, настройка синтезаторов речи. Их разработка до сих пор остается крайне актуальной, и большое количество исследований посвящено поиску методов вычисления движения формант-ных частот.
Пришедшая на смену ручной обработке сонограмм посегментная обработка записи речи (обработка окном) с последующим построением мгновенных и динамических спектрограмм позволяет определять формантные частоты, но собственно операция выделения формантных частот проводится визуально, и ее качество зависит от опыта исследователя. Она малопригодна в тех случаях, когда требуется анализ большого объема речевого сигнала в реальном масштабе времени.
Только применение автоматизированной процедуры построения формантных картин гласных обеспечивает необходимую динамику обработки речевого сигнала.
Анализ имеющейся информации позволяет условно сгруппировать основные работы этого направления и на примерах рассмотреть их особенности.
Для первой группы характерен чисто математизированный подход. Авторы полностью абстрагируются от акустических и физиологических особенностей речевого аппарата человека. Решение задачи формально сводится к анализу вариаций нестационарного многочастотного акустического сигнала. Оригинальные математические методы используются в основном для перехода из временной области в частотную и формирования зависимостей формантных частот от времени.
Так, в работе [1] рассмотрена возможность использования для построения формант-ной картины гласных методов преобразования Фурье и вейвлет-преобразования. Если разложение в ряды Фурье можно считать наряду с ЬРС-преобразованием общепринятым методом обработки речи, то вейвлет-преобразование раньше не использовалось для этого. Вейвлет-преобразование раскладывает сигнал на некоторое подобие частотных полос, но сохраняет в определенной степени представление во временной области, т. е. отражает моменты возникновения тех или иных частот в сигнале, что позволяет изучать вариации формант во времени. Необходимая коррекция результатов проводится по существующему банку формантных картин гласных.
Другим примером достижения той же цели можно считать использование в работе [14] фильтра Кальмана — рекурсивного фильтра, предназначенного для определения вектора состояния априорно известной динамической системы, в данном случае — речевого тракта. С его помощью «сглаживаются» скачки формант во временной области, появляется инструмент для изучения изменения формантной картины во времени.
Фильтрация Кальмана использована для той же цели и в работе [16], причем в ней поставлена задача объяснения неоднозначности реализации гласных на основе уче-
© В. В. Евдокимова, 2010
та кросс-корреляции формант. В качестве эталона использована экспериментально собранная база траекторий формантных картин.
В работе [21] метод LPC-преобразования дополнен процедурой «сглаживания» формант с помощью алгоритма быстрой сходимости Ньютона — Рафсона, т. е. итерации с оптимальным шагом. В этом случае в основу схемы расчета заложена априорно заданная структура передаточной функции речевого тракта. Тот же подход использован в работе [11], где заранее выбрана структура передаточной функции речевого тракта и проведено сравнение эффективности применения для определения формант методов обычного LPC-преобразования, SWLP — метода стабилизированного взвешенного преобразования, т. е. вычисления полюсных моделей с учетом влияния остаточной энергии путем изменения размера окна обработки, а также MVDR — метода минимизации дисперсии искажения реакции. Определены границы применимости каждого из этих методов.
В работе [18] найденные LPC-преобразованием траектории формант сглаживаются методом наименьшего среднего квадрата, а в работе [13]—путем введения смешанной Гауссовской модели для построения спектральной огибающей, т. е. сглаживание модифицированной речи обеспечивается формой событийных функций и введением соответствующего выделения формант.
В работе [7] для определения формант применяется метод построения модели авторегрессионного скользящего среднего (ARMA) в сочетании с периодическими импульсными возбуждениями, рассматривается выделение формантных составляющих из шума способом адаптивной оптимизации по методу наименьших квадратов.
Для построения траекторий формант в работе [9] использована смешанная байесовская фильтрация совместно с адаптивной сегментацией по частотным диапазонам, причем разработанный для этого алгоритм базируется на признаке взаимного изменения формант.
В работах [3] и [4] формантные составляющие и составляющая частоты основного тона определяются методом предсказания из MFCC-векторов, причем такой подход дает возможность не только найти частоты, но и оценить энергию каждой форманты.
Общим для всех исследований первой группы можно считать то, что в них авторы пытаются выделить из речевого сигнала формантные составляющие без учета фонетических особенностей его структуры. Предлагаемые методы позволяют, по утверждению авторов, устойчиво определять формантные частоты и строить траектории их изменения для использования в задачах распознавания. Присутствующие в речевом сигнале составляющие частоты основного тона и ее гармоник либо просто игнорируются, либо подавляются методами полосовой фильтрации. Таким образом, в принципе исключается учет взаимодействия голосового источника, формирующего низкочастотную глоттальную волну, и фильтрующего ее артикуляторного аппарата. Присутствие голосовых составляющих, которые проходят через нелинейный акустический фильтр артикуляторного аппарата и усложняют спектр речевой посылки, являются существенным фактором, затрудняющим получение качественного результата.
К работам по изучению формант примыкают исследования, посвященные разработке на основе акустико-физиологического подхода единой акустической модели речевого тракта [8, 16, 19, 20, 22]. Для них характерна детализация такой модели как акустической системы, которая представляет собой инструмент воспроизведения голоса. Однако такая сложнейшая адаптирующаяся биомеханическая система, как «мозг — речевой аппарат», несмотря на усложнение акустической модели, в принципе может быть описана
только упрощенно. Результаты работ этого направления могут помочь при синтезе речи, но малопригодны при ее анализе.
Другая группа исследований базируется на предложенной Г. Фантом ЬЕ-модели речевого тракта [5, 6], которая выделяет в речевом тракте голосовой источник и ар-тикуляторный аппарат. Формирование формантной картины рассматривается как результат фильтрации глоттальной волны артикуляторным аппаратом. Например, совместное влияние формы глоттальной волны и резонансных характеристик артикуля-торного аппарата на формирование формантных составляющих исследовано в работе [12].
Тематически близкие фонетические задачи, требующие определения формант, решены в работе [10], посвященной разработке модели речевого тракта, в которой импеданс системы распределен между голосовым источником (глоттальные потери) и ар-тикуляторным аппаратом (потери от губ), а также в работе [4], где форма глотталь-ной волны уточняется с учетом влияния формантных составляющих методом обратной фильтрации. Взаимосвязь изменения частоты основного тона и формант как резонансных частот единого речевого тракта рассмотрена в работе [2].
Использованный в работах этой группы подход имеет свои достоинства и свои ограничения. ЬЕ-модель представляет голосовой источник как генератор глоттальной волны, но не рассматривает его как полноценное динамическое звено, на вход которого поступает инициирующая энергия. Такая модель удобна при решении задач синтеза сигнала. Задавая форму глоттальной волны и динамические характеристики артикуляторного аппарата, можно сформировать требуемый речевой сигнал. Однако когда решается обратная задача анализа речевого сигнала, разделить действие голосового источника и артикуляторного аппарата становится в принципе невозможно.
Используемые в ряде работ методы обратной фильтрации, которые должны разделить влияние формы глоттальной волны и резонансных свойств артикуляторного аппарата, носят искусственный приближенный характер, т. е. присущий работам этой группы подход к изучению динамики речевого тракта более обоснован фонетически, но для решения задачи распознавания формант малопригоден.
и, ТУ,
w,Gw) \У20лу)
Рис. 1. Динамическая система речевого тракта человека, состоящая из двух динамических звеньев.
Ь (Ч) —давление потока воздуха, формируемого органами дыхания, на входе голосового аппарата; Wl(jw) —частотная передаточная функция голосового источника; W2(jw)—частотная передаточная функция артикуляторного аппарата; И1^)—выходной сигнал голосового источника; И2^) —выходной речевой сигнал.
Избежать указанного недостатка удается при описании речевого тракта полноценной двухзвенной моделью, в которой каждое звено (голосовой источник и артикулятор-ный аппарат) имеет свою структуру и свои динамические свойства (рис. 1). Процесс речеобразования рассматривается как двухэтапный. На первом этапе под действием внешнего инициирующего воздействия голосовой источник формирует сигнал (глот-тальную волну), который имеет сплошной спектр с резонансными пиками на частотах основного тона и его высших гармоник (тоновых составляющих). Этот сигнал поступает на вход артикуляторного аппарата и преобразуется им в речевую посылку. Пред-
ложенная схема не противоречит описанию сигнала в ЬР-модели и может рассматриваться как ее развитие.
Считая, что все частотные особенности глоттальной волны определяются динамикой голосового источника, сигнал можно задать в форме белого шума.
Заложенное в основу динамической модели структурное деление речевого тракта открывает возможность изучения его составных частей методом обратной фильтрации, используя живой речевой материал.
Выбранный подход позволяет обратиться при построении формантной картины гласной к математическому аппарату частотных методов, разработанных в теории автоматического управления, и использовать частотные передаточные функции как формальный аналог формантной картины и инструмент ее описания [23, 24]. Применение этого аппарата дает возможность использовать для количественной оценки динамических явлений в речевом тракте стандартные приемы описания динамических систем, удобные для последующего перехода к фонетическим характеристикам.
Для того чтобы выделить действие каждого из двух динамических звеньев, логично обратиться к совместной обработке двух различных речевых сигналов, в которых априорно заложен различный уровень присутствия глоттальной волны и отфильтрованных артикуляторным аппаратом формантных составляющих. В работе [24] для такой совместной обработки выбраны следующие сигналы:
- сигнал, соответствующий сегменту конкретной гласной фонемы,
- сигнал с длительностью речевой посылки в целом.
Если в первом сигнале определяемая формантная картина представлена наиболее рельефно, то во втором, благодаря статистическому усреднению, частотные особенности отдельных фонем предельно ослаблены и доминируют голосовые составляющие.
Обработка дала возможность получить амплитудно-частотные характеристики (АЧХ) артикуляторного аппарата, т. е. выделить и описать его фильтрующие свойства. Резонансные пики на такой АЧХ соответствуют формантным пикам речевого сигнала для гласных. На рис. 2-7 приведены примеры рассчитанных АЧХ и соответствующие им сонограммы аудиосигнала. Их сравнение подтверждает применимость разработанного метода, который позволяет на любом временном сечении сегмента гласной выделить формантную картину.
4000 ........:
3500 -
зооо г..............|...............^........................
2500 ¡¡¡¡|^
2000 Ь.............................^...............;.............
1500 1000 500
° 0,002 0,004 0,006
Рис. 2. Сонограмма, полученная для сегмента гласной
£ зо h
1000 2000 3000 4000 5000 Freguensy, Hertz
Рис. 3. Амплитудно-частотная характеристика артикуляторного аппарата, полученная для того же сегмента гласной /a/
0,003 0,007 0,010 0,013
Рис. 4- Сонограмма, полученная для сегмента гласной /е/
0,002 0,004 0,007
Рис. 6. Сонограмма, полученная для сегмента гласной /i/
^ 20 h
1000
2000
3000 4000 5000 Freguensy, Hertz
Рис. 5. Амплитудно-частотная характеристика арти-куляторного аппарата, полученная для того же сегмента гласной /е/
£20 и Д и
Q 15 £ 10
^ 5 i
PLh О
1000 2000 3000 4000 5000 Freguensy, Hertz
Рис. 5. Амплитудно-частотная характеристика артику-ляторного аппарата, полученная для того же сегмента гласной /i/
0,004 0,008 0,012
Рис. 8. Сонограмма, полученная для сегмента гласной /о/
3000 4000 5000 Freguensy, Hertz
Рис. 9. Амплитудно-частотная характеристика артику-ляторного аппарата, полученная для того же сегмента гласной /о/
Сравнение полученных таким образом формантных картин с результатами обработки соответствующих сонограмм подтверждает допустимость применения описанного способа.
0,008 0,017 0,025
Рис. 10. Сонограмма, полученная для сегмента гласной /и/
2000 3000 4000 5000 Freguensy, Hertz
Рис. 11. Амплитудно-частотная характеристика арти-куляторного аппарата, полученная для того же сегмента гласной /и/
4000 3500 3000 2500 2000 1500 1000 500 0
0,002 0,004
0,007
Рис. 12. Сонограмма, полученная для сегмента гласной / /
150
I
¡£>100
А
1000
2000
3000 4000 5000 Freguensy, Hertz
Рис. 13. Амплитудно-частотная характеристика арти-куляторного аппарата, полученная для того же сегмента гласной / /
Таким образом, представление речевого тракта в форме двухзвенной динамической системы дает возможность автоматизированного определения формантных частот как резонансных частот артикуляторного аппарата. Детализация изменения формант на временном отрезке действия гласной фонемы достигается выбором окна обработки.
В заключение могут быть сделаны некоторые выводы.
1. Проблема построения формантной картины гласной остается актуальной и привлекает внимание исследователей.
2. Способ применения двухзвенной динамической модели и совместной обработки двух реализаций речевого сигнала отличается от других исследований более полным представлением речевого тракта как единой системы речеобразования и дает возможность создать автоматизированную процедуру построения формантной картины.
Литература
1. Chaari S., Ouni K., Ellouze N. Wavelet ridge track interpretation in terms of formants // Interspeech. 2006. P. 2030-Tue2AlO.6.
2. Chladkova K., Boersma P., Podlipsky V. J. On-line Formant Shifting as a Function of F0 // Interspeech. 2009. P. 464-467.
3. Darch J., Milner B. A comparison of estimated and MAP-predicted formants and fundamental frequencies with a speech reconstruction application // Interspeech. 2007. P. 542-545.
4. Deng H., O'Shaughnessy D. Effect of incomplete glottal closures on estimates of glottal waves via inverse filtering of vowel sounds // Interspeech. 2007. P. 546-549.
5. Fant G. The voice source in the connected speech // Speech Communication. N 22. 1997. P. 125-139.
6. Fant G., Liljencrants J., Lin Q. A four-parameter model of Glottal Flow // STL-QPSR 4. 1985. P. 1-13.
7. Fattah S.A., Zhu W.-P., Ahmad M. O. An Approach to Formant Frequency Estimation at Low Signal-to-Noise Ratio // ICASSP. 2007. Vol. IV. P. 469-472.
8. Ghosh P. K., Narayanan Sh., Divenyi P., Goldstein L., Saltzman E. Estimation of articula-tory gesture patterns from speech acoustics // Interspeech. 2009. P. 2803-2806.
9. Glaser C., Heckmann M., Joublin F., Goerick C., Gross H. M. Joint Estimation of Formant Trajectories via Spectro-Temporal Smoothing and Bayesian Techniques // ICASSP. 2007. IV. 477480.
10. Kalgaonkar K., Clements M. A. Vocal tract and area function estimation with both lip and glottal losses // Interspeech. 2007. P. 550-553.
11. Magi C., Backstrom T., Alku P. Stabilised weighted linear prediction I a robust all-pole method for speech processing // Interspeech. 2007. P. 522-525.
12. Murphy P. J. Relationship between Harmonic Amplitudes and Spectral Zeros and Glottal Open Quotient // ICPhS XVI. 2007. Р. 889-892.
13. Nguyen Binh Phu, Akagi Masato. A flexible spectral modification method based on temporal decomposition and Gaussian mixture model // Interspeech. 2007. P. 538-541.
14. Ozbek I. Y., Demirekler M. Tracking of visible vocal tract resonances (VVTR) based on kalman filtering // Interspeech. 2006. P. 2029-Tue2A10.5.
15. Ozbek I. Y., Hasegawa-Johnson M., Demirekler M. Formant Trajectories for Acoustic-to-Articulatory Inversion // Interspeech. 2009. P. 2807-2810.
16. Qiang Fang, Akikazu Nishikido, Jianwu Dang, Aijun Li. Feedforward Control of A 3D Physiological Articulatory Model for Vowel Production // Interspeech. 2009. P. 52-55.
17. Rudoy D., Spendley D. N., Wolfe P. J. Conditionally linear Gaussian models for estimating vocal tract resonances // Interspeech. 2007. P. 526-529.
18. Schnell K., Lacroix A. Time-varying pre-emphasis and inverse filtering of speech // Interspeech. 2007. P. 530-533.
19. Takayuki Arai. Simple Physical Models of the Vocal Tract for Education in Speech Science // Interspeech. 2009. P. 756-759.
20. Takayuki Arai. Sliding Vocal-tract Model and its Application for Vowel Production // Interspeech. 2009. P. 72-75.
21. Weruaga L., Al-Khayat A. All-pole model estimation of vocal tract on the frequency domain // Interspeech. 2006. P. 1188-Tue2A1O.2.
22. Xiao Bo Lu, Thorpe W., Foster K., Hunter P. Ftom experiments to articulatory motion — A three dimensional talking head model // Interspeech. 2009. P. 64-67.
23. Евдокимова В. В. Системный подход к определению параметров речевого тракта // Вестн. С.-Петерб. ун-та. Сер. 9. 2007. Вып. 2. Ч. 2. С. 144-148.
24. Евдокимова В. В. Возможности методов моделирования голосового источника // Вестн. С.-Петерб. ун-та. Сер. 9. 2007. Вып. 2. Ч. 1. С. 58-63.
Статья поступила в редакцию 5 апреля 2010 г.