Научная статья на тему 'Системный подход к определению параметров речевого тракта'

Системный подход к определению параметров речевого тракта Текст научной статьи по специальности «Математика»

CC BY
241
33
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Евдокимова В. В.

Рассматривается метод построения динамической модели речевого тракта. Речевой тракт представлен в виде совокупности двух динамических звеньев голосового источника и артикуляторного аппарата. Предлагается метод построения частотных характеристик этих динамических звеньев на основе обработки экспериментально полученных аудиоматериалов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The system approach to determination of parameters of the vocal tract

The method of constructing the dynamic model of the vocal tract is considered. The traditional approach to the phonetic research of the vocal tract assumes dividing it into two parts: the source component (vocal chords (apparatus)) and the filter component (system of articulation). The coprocessing of several acoustic realizations helps to elaborate the methods of discrimination and modeling the transfer functions of the different components of the vocal tract.

Текст научной работы на тему «Системный подход к определению параметров речевого тракта»

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 9. 2007. Вып. 2. Ч. П

В.В. Евдокимова

СИСТЕМНЫЙ ПОДХОД К ОПРЕДЕЛЕНИЮ ПАРАМЕТРОВ РЕЧЕВОГО ТРАКТА

Решение широкого круга прикладных задач акустической фонетики диктует необходимость поиска функциональных и математических моделей речевого тракта человека. Многолетние медико-биологические и фонетические исследования подтвердили, что речевой тракт представляет собой сложную перестраиваемую акустическую систему, высокий уровень эмерджентности которой обеспечивается единством действия всех составных частей1,2. Тем не менее, необходимость решения конкретных фонетических задач приводила обычно к тому, что выделялся один из отделов речевого тракта, ответственный за формирование выходного акустического сигнала в исследуемом частотном диапазоне. Дальнейшие исследования базировались на изучении характеристик этого отдела. Можно выделить две основные группы таких задач.

Так, изучение просодических характеристик, в частности, оценка эмоционального состояния человека по его речи и ряд примыкающих к ней задач, обычно строится на формировании системы речевых признаков того или иного состояния3,4. Наряду с другими признаками в этой системе обычно присутствует и часто является определяющей группа, описывающая характер изменения частоты основного тона. Именно эта низкочастотная составляющая речевого сигнала в первую очередь интересует исследователей.

С другой стороны, в задачах изучения речи на фонемном уровне, например, распознавания речи, основное внимание сосредоточено на кратковременных высокочастотных модуляциях голосового сигнала, присущих той или иной конкретной фонеме. Основной целью исследований становится выделение и идентификация этих высокочастотных составляющих. Следствие такого подхода - появление фонетических моделей описания артикуляторной работы речевого аппарата. В приложении к гласным, такой моделью может считаться формантная картина1-2. В этом случае собственно голосовой низкочастотный сигнал рассматривается как помеха.

Сам характер структурирования фонетических задач обусловил выделение в речевом тракте двух отделов, каждый из которых ответственен за свой диапазон речевого сигнала. Тракт принято разделять на голосовой источник и артикуляторный аппарат.

Несмотря на то, что в ряде случаев эти диапазоны перекрываются, в большинстве известных работ исследование обычно сведено к анализу действия одной из этих двух частей речевого тракта, причем выделение в экспериментальных материалах искомой составляющей обычно сведено к методу подиапазонной частотной фильтрации, а разработка моделей ограничена описанием исследуемого отдела5-6. Например, в работах7 крайне детально разрабатывается математическая модель артикуляторного аппарата, но при этом не учитываются особенности воздействия на него со стороны голосового источника - структура такого сигнала.

Важным шагом в понимании процессов формирования речевой посылки стала предложенная Г. Фантом Ы7-модель, в которой впервые была описана частотная структура

© В.В. Евдокимова, 2007

голосового сигнала на входе артикуляторного аппарата8. Само представление этого сигнала в форме последовательности колоколообразных импульсов заданной формы говорило о его многочастотном характере. Изменение формы такого импульса соответствовало изменению соотношения интенсивностей и спектра частот ее высших гармоник - тембровых частот в голосовом сигнале. Хотя в ЬБ-модели входной голосовой сигнал воспринимался как заданный, сама его форма ставила задачу описания голосового источника как динамического звена, обладающего собственными частотными свойствами и учета влияния этих свойств на речевой сигнал. Пренебрегая обратными связями между отделами речевого тракта, можно упрощенно представить его в форме двухзвенной разомкнутой динамической системы, приведенной на рис.19.

Ц1) и, \¥20'а>) и2

Рис. 1. Динамическая система речевого тракта человека, состоящая из двух динамических звеньев

Введены обозначения:

где Ь(1:) - давление потока воздуха, формируемого органами дыхания, на входе голосового аппарата,

\¥10ю) - частотная передаточная функция голосового источника,

А,¥2(]оо) - частотная передаточная функция артикуляторного аппарата,

8(1:) - внешнее воздействие,

и^) - выходной сигнал голосового источника,

112(Х) - выходной речевой сигнал.

Функция 8(1) описывает энергетическое воздействие при речи со стороны костно-мышечной системы и легких, иначе говоря, воздушный поток заданной интенсивности, действующий на голосовой источник. Можно считать, что этот поток пока не имеет частотной структуры, а все избирательные частотные свойства голосового источника отражены в частотной передаточной функции Ж^'со), т. е. собственно голосовой источник рассматривается по отношению к функции БО) как фильтрующее звено. Такому представлению хорошо соответствует биологическое описание работы нижнего отдела речевого тракта, включающего в себя трахею, глотку и голосовые связки, как резонирующей нелинейной частотной системы, способной формировать автоколебательные процессы. Сформированный голосовым источником сигнал поступает на вход второго фильтрующего звена артикуляторного аппарата, который физически представляет собой совокупность надгортанных полостей и артикулирующих органов. Выходной сигнал с этого звена 1/20) определяется, таким образом, не только передаточной функцией 1¥2(]со), но и структурой сигнала II.

Предложенная двухзвенная модель речевого тракта открывает возможности поиска способов выделения сигналов 17и ир). Один из этих способов построен на процедуре совместной обработки двух реализаций речевого сигнала, в которых априорно различна степень присутствия в сигнале V' (1) составляющих, обусловленных действием голосового источника и артикуляторного аппарата. В общем случае этот сигнал может рассматриваться как смесь из колебаний частоты основного тона и тембровых частот с одной стороны

и колебаний с частотами, характерными для конкретных фонем - с другой. Степень присутствия каждой из этих групп составляющих может быть изменена при статистической обработке исходного аудиоматериала путем выбора участка и длительности обрабатываемого сегмента. Если сегментировать участок действия конкретной фонемы, то присутствие в спектрограмме составляющих ее собственных частот максимально.

С увеличением длительности обрабатываемого сегмента до фразы, нескольких фраз и далее до всего сообщения степень присутствия в спектрограмме частотных составляющих конкретной фонемы быстро падает из-за статистического усреднения. В то же время, составляющие частот голосового источника присутствуют в речевой посылке почти постоянно (кроме глухих согласных и пауз). Их интенсивность почти не ослабевает. В результате для достаточно длинной речевой посылки (в расчетах бралось несколько минут) можно придти к полностью сглаженной на высокочастотном участке спектральной плотности выходного сигнала 17/1), сохранившей, в то же время, пики на частотах основного тона и ее высших гармоник (если они были). В первом приближении такая спектральная плотность, в которой подавлено действие артикуляторного аппарата, может рассматриваться как спектральная плотность сигнала 17/0.

В отличие от частотной фильтрации описанный прием не вводит жесткой частотной границы фильтрации и позволяет сохранить в сигнале и0 как составляющую частоты основного тона, так и составляющие тембровых частот.

Вторым сравниваемым участком выбираем сегмент конкретной гласной фонемы. Частотная передаточная функция W2(jco) артикуляторного аппарата может быть описана соотношением (I)9'10:

кХ(<»)

Щ6'а>)/<

к2Л(со)

(1)

где 8/со) - спектральная плотность сигнала 11/0, полученная при обработке сегмента фонемы,

8д(со) - спектральная плотность сигнала и2((), полученная при обработке всей речевой посылки,

к0ика- коэффициенты усиления, полученные при обработке всей посылки и сегмента фонемы соответственно.

Логарифмические частотные характеристики артикуляторного аппарата, полученные для гласных описанным способом, приведены на рис. 2, 3.

А,

к (со)

Рис. 2. Передаточная функция артикуляторного аппарата при произнесении гласной фонемы [а]. Обработка речевого материала.

Рис. 3. Передаточная функция артикуляторного аппарата при произнесении гласной фонемы [i]. Обработка -65 речевого материала.

Сравнение полученных частотных характеристик с результатами определения формантных частот вручную по сонограммам подтверждают допустимость применения способа.

Надо отметить, что основным искажением, которое сделанное допущение может внести в форму частотной характеристики, может быть неполная компенсация составляющей частоты основного тона. Причина в том, что при обработке речевой посылки в целом из-за просодических процессов пик, соответствующий частоте основного тона, может сформироваться более низкий и широкий, чем на графике спектральной плотности фонемы.

При необходимости, например, для выделения сигнала U/t), реально соответствующего сегменту фонемы, перед тем как провести операцию фильтрации экспериментально полученного сигнала Ufi) через звено с передаточной функцией обратной передаточной функции артикуляторного аппарата, надо провести структурирование этой передаточной функции, представив ее в виде набора элементарных динамических звеньев11. Проведенные расчеты подтверждают применимость предлагаемого способа обработки экспериментального аудиоматериала для изучения частотных свойств голосового источника и артикуляторного аппарата.

1 Бондарко Л.В. Фонетика современного русского языка. СПб., 1998.

2 Фант Г. Акустическая теория речеобразования. М., 1964.

3 Sherif Ya., Simske S., Lin X., Burns J. Recognition of emotions in interactive voice response systems. Geneva, 2003. P. 729-732.

4 Oh-Wook Kwon, Kwokleung Chart, Jiucang Hao, Te-Won Lee. Emotion recognition by speech signals. Geneva, 2003. P. 125-128.

5 Akande 0., Murphy P. Estimation of the vocal tract transfer function with application to glottal wave analysis // Speech Communication. № 46, 2005. P. 15-36.

6 Carre R. From acoustic tube to speech production // Speech Communication. № 42. 2005. P. 227-240.

7 Леонов A.C., Макаров И.С., Сорокин В.Н„ ЦыплихинА.И. Артикуляторный ресинтез гласных // Информационные процессы. 2004. Т. 4. № 2. С. 73-92.

8 Fant G., Liljencrants J., Lin Q. A four-parameter model of glottal flow // STL-QPSR. 1985. № 2-3.

9 Евдокимова B.B. Способ построения динамической модели речевого тракта // Фонетический лицей. Вып. 2. СПб, 2006. С. 33-40.

10 Бесекерский В.А, Попов Е.П. Теория систем автоматического регулирования. М, 1972.

" Евдокимова В.В. Динамические модели составных частей речевого тракта // Фонетический лицей. Вып. 2. СПб, 2006. С. 22-32.

Статья принята к печати 8 ноября 2006 г

3,5

Ig H

4,5

i Надоели баннеры? Вы всегда можете отключить рекламу.