Научная статья на тему 'Возможности методов моделирования голосового источника в системах синтеза речи'

Возможности методов моделирования голосового источника в системах синтеза речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
454
96
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Евдокимова В. В.

В статье рассматривается работа голосового источника как части речевого тракта челове­ка. Обсуждается влияние основных свойств голосового источника на структуру речевого сигна­ла. Выделяются некоторые особенности речевого сигнала, определяемые голосовым источником. Проводится анализ реализации этих свойств в различных схемах голосового синтеза.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The potential of voice source modelling methods in speech synthesis systems

The goal of this paper is to consider the work of the voice source as part of the human vocal tract. This paper discusses the influences of voice source properties on the speech signal structure. The particular qualities of speech signal defined by the voice source are outlined. We attempt to investigate how these qualities are represented in various speech synthesis systems.

Текст научной работы на тему «Возможности методов моделирования голосового источника в системах синтеза речи»

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 9. 2007. Вып. 2

В.В. Евдокимова

ВОЗМОЖНОСТИ МЕТОДОВ МОДЕЛИРОВАНИЯ голосового ИСТОЧНИКА в СИСТЕМАХ СИНТЕЗА РЕЧИ

В речевом аппарате человека традиционно выделяют две основные составные части: голосовой источник и артикуляторный аппарат (речевой тракт)1. Такое деление речевого аппарата носит условный характер и в значительной степени определяется функциональным назначением каждой его части.

Голосовой источник является первичным генератором акустического сигнала: он обеспечивает процесс генерации глоттальной волны2. При формировании звука кости и хрящи гортани занимают определенное положение и обеспечивают установление механических колебаний голосовых связок под действием идущего из легких потока воздуха. Частота колебаний голосовых связок значительно превышает верхнюю границу полосы пропускания системы «мозг - речевой аппарат». Мозг не управляет непосредственно движением связок, однако изменение формы гортани по командам мозга обеспечивает подстройку частоты этих колебаний3. Сигнал голосового источника - самый мощный акустический сигнал, генерируемый человеком В состав биомеханической колебательной системы, генерирующей голосовой сигнал в разной степени входят практически все внутренние органы человека (можно вспомнить фигуры известных теноров). Голосовой сигнал индивидуален и по критерию мощности оптимизирован природой.

Периодическая последовательность возникающих в гортани скачков давления получила название глоттальной волны. Частота следования импульсов глоттальной волны соответствует частоте основного тона акустического сигнала (ЧОТ). Форма колоколо-образных импульсов глоттальной волны сходна у разных людей, но имеет индивидуальные отличия, определяемые размерами, формой, эластичностью, степенью натяжения голосовых связок.

Глоттальная волна порождает акустический голосовой сигнал. На графике спектральной плотности голосового сигнала присутствует ряд пиков. Самый низкочастотный и самый мощный лежит на частоте основного тона, остальные - на частотах ее высших гармоник (тембровые частоты). Вариация этих частот происходит в соответствии с интонационным рисунком речи сравнительно медленно на периоде слова, синтагмы, фразы (кроме тоновых языков).

Голосовой сигнал поступает на артикулярный аппарат - совокупность фарингаль-ной, ротовой и носовой полостей4. Его частотная характеристика формируется по командам мозга смещением активных артикулирующих органов. В выходном речевом сигнале присутствуют как гармонические составляющие конкретных фонем (у гласных -форманты), так и составляющие голосового сигнала. Их наложение может стать причиной ряда кратковременных фонетических эффектов, отмеченных в ряде экспериментов: зарегистрированы случаи внезапного резкого возрастания либо ослабления одной из формант, возникновения явлений типа биений, расщепления пика формант и т.д. Обычно эти явления носят непостоянный, случайный характер и трудно воспроизводятся.

© В.В. Евдокимова, 2007

При создании систем качественного синтеза речи должны быть учтены два ее основных свойства, определяемые голосовым источником: 1) интонационный рисунок речи (вариации голосовых частот); 2) наложение в речевом сигнале составляющих голосового источника и артикулярного аппарата.

Рассмотрим, как реализованы эти свойства в различных схемах голосового синтеза,

Формантная модель

Первые попытки имитировать голос, используя электротехнические акустические средства, относятся к середине прошлого века5. Проводился спектральный анализ речевого сигнала, затем воспроизводился набор гармонических составляющих. Не делалось различия между голосовыми и артикулярными составляющими сигнала. Такой способ (формантный синтез) был реализуем технически, но имел низкое качество. Причина неудач не только в несовершенстве техники, но и в отрыве от законов фонетики

Компилятивная модель

Внедрение компьютеров, возможность работы с большими информационными массивами интенсифицировали развитие систем компилятивного синтеза6. В основу моделей речевого процесса были положены аллофонные (субаллофонные) сегменты реальной речи. Компоновка речевого сообщения проводилась конкатенацией требуемых сегментов из базы данных. При составлении сообщения были учтены основные требования фонетики (сочетаемость фонем, подбор аллофонов, коартикуляция и т.д.). Реальность используемой голосовой базы полностью сохраняла в синтезируемой посылке особенности голоса диктора - его ЧОТ и тембровые частоты. Качество синтезируемого сигнала в основном определялось двумя факторами. Во-первых, формирование длинного речевого сообщения, в котором нужно было имитировать просодию, требовало большого расширения базы аллофонов. Во-вторых, изготовление такого сообщения требовало большого объема работы и высокой квалификации исполнителей. Нужно было подобрать сегменты, соответствующие не только по субаллофонному составу, но и по длительности и составу голосовых частот.

Описанная сложность имитации интонации синтезируемой речи, а также невозможность замены голоса диктора без полной замены всей аллофонной базы вызвали необходимость поиска математической процедуры трансформации синтезированного методом конкатенации сигнала. Был предложен ряд способов такой трансформации.

Рассмотрим возможности трансформации синтезированного сигнала на примере процедуры, предложенной И. Стилиану, как одной из универсальных и обоснованных математически. Опишем последовательность операций7.

Спектральная плотность сформированной методом конкатенации речевой посылки разделяется на два участка; гармоническая и шумовая составляющие. Граница участка выбирается по частоте, несколько превышающей частоту самого высокочастотного пика формантного диапазона (4000-5000 Гц). По автокорреляционной характеристике определяется составляющая ЧОТ. Регистрируются частоты и интенсивности остальных гармонических составляющих, интенсивность шумовой составляющей. Предложены специальные функции преобразования, которые позволяют по заданному заранее зако-

ну трансформировать длительность отдельных фонем, ЧОТ и общую интенсивность сигнала. Затем производится обычная процедура технического синтеза речевого сигнала из составляющих, выделенных при анализе. Гармонические сигналы задаются как набор гармонических составляющих, шумовая составляющая - как белый шум заданной интенсивности.

Процедура И. Стилиану позволяет изменять темп речи, интонацию, заменять голос диктора. Она существенно расширяет возможности метода компилятивного синтеза, но не предусматривает полную трансформацию голосового сигнала. Изменяется только ЧОТ. Тембровые частоты оторваны от нее на этапе анализа сигнала, не отличаются от формант и воспроизводятся без трансформации. Это может стать существенным недостатком. Как показывает эксперимент, среди тембровых частот могут присутствовать достаточно интенсивные составляющие (вторая, третья), которые тоже должны быть трансформированы.

Аппаратурная модель

Развитием направления фонемного синтеза стала разработка систем аппаратурного воспроизведения речевого сигнала по его составляющим без опоры на речевую базу диктора. Такие системы имеют общие принципы работы и похожую структуру8,

Рассмотрим систему аппаратурного синтеза на примере схемы фирмы DIGITAL Главные ее особенности: 1) детальная лингвистическая и фонетическая предварительная проработка текста сообщения, формирование на ее основе массивов описания энергетических и частотных параметров сообщения как функций времени; 2) многоканальная система воспроизведения речевого сигнала.

Модель артикулярного аппарата выполнена в виде набора полосовых фильтров. Каждый фильтр управляется в соответствии с выработанной ранее программой. На вход модели подаются два вида задающих внешних воздействий: 1) случайная последовательность прямоугольных импульсов и 2) белый шум. Структура системы фильтрации обеспечивает качество синтезируемого голоса. Отдельные ее ветви обеспечивают генерацию ЧОТ, генерацию формант, описывают назальный фактор, формируют шумовую составляющую. Результат синтеза сравнивается с эталоном и может быть откорректирован, Такая модель качественно имитирует речь. Она представляет собой как бы воспроизводящий музыкальный инструмент. Ее составные части не связаны структурно и не подвержены взаимовлиянию. Особенности речеобразования вводятся в модель извне на этапе разработки программы и тщательно воспроизводятся. Качество синтеза речи определяется уровнем фонетической проработки на предварительном этапе. В модели отсутствует единая фонетическая структура, нет деления воспроизводимых гармонических составляющих на голосовые и артикулярные. Отсутствует понятие голосового источника. Задающий сигнал формируется стандартными генераторами случайных функций, голосовая составляющая - полосовым фильтром.

Акустическая модель

В середине XX в. на основе обработки большого объема акустического и медико-биологического материала Г. Фантом была выдвинута гипотеза, что речевой аппарат

может быть интерпретирован как акустическая система заданной структуры, имеющая ряд резонансных частот10. В предложенной акустической модели были выделены две основные составные части: голосовой источник и артикулярный аппарат. На первом этапе исследования были сосредоточены в основном на изучении собственных акустических свойств артикулярного аппарата, экспериментальном подтверждении выбора ее структуры. Акустическая модель Фанта стала первой физически обоснованной моделью речевого аппарата. Она обеспечила качественное, а по резонансным (формантным) частотам количественное соответствие эксперименту. Результат ее создания - появление раздела акустической фонетики, объясняющего с физической точки зрения процесс ре-чеобразования.

Ряд дальнейших работ по совершенствованию акустической модели позволил детализировать строение и работу артикулярного аппарата, оценить их влияние на его резонансные акустические свойства. Акустическая модель артикулярного аппарата могла рассматриваться как составная часть схемы синтеза речевого сигнала. Однако не менее важной составной частью речевого аппарата является голосовой источник. На первом этапе он оставался за пределами акустической модели. Внимание к изучению голосового источника привлекла задача речевого синтеза. Процесс фонации сочетает в себе акустическую и нейрофизиологическую составляющие. Исследования этого процесса активно проводятся в ряде стран, но у автора нет информации о разработке динамической модели голосового источника, пригодной для применения в схеме синтеза речи.

Чтобы обеспечить в схеме речевого синтеза входное воздействие на модель артикулярного аппарата, было предложено заменить модель голосового источника описанием его выходного сигнала - глоттальной волны. Форму глоттальной волны позволили определить медико-биологические исследования11,

Была предложена ЬБ-модель голосового сигнала, описывающая глоттальную волну последовательностью импульсов заданной формы. Импульсы следуют с частотой ЧОТ. Форма импульсов подобна профилю экспериментально замеренной глоттальной волны. В качестве эталона для проверки правильности выбора формы выходного сигнала голосового источника была использована спектральная плотность голосовой составляющей реального речевого сигнала. Эта голосовая составляющая была выделена из речевого сигнала методом обратной фильтрации, т.е. путем подавления высокочастотных составляющих. Сравнение с эталоном показало, что голосовой сигнал оптимально моделируется функцией производной глоттальной волны. График производной глоттальной волны, описывающий весь цикл работы голосовых связок (открытый и закрытый периоды), по форме существенно отличен от синусоиды. Это говорит о значительном присутствии высших гармоник (тембровых частот). Их весомость в ЬБ-модели может быть задана формой графиков глоттальной волны и ее производной. Для настройки предусмотрены четыре специальных относительных коэффициента. Выбор этих коэффициентов и ЧОТ обеспечивает воспроизведение индивидуальных особенностей голоса.

Качественное отличие системы синтеза, использующей ЬБ-модель, от других систем, в том, что в структуру сигнала голосового источника заложены не только ЧОТ, но и тембровые частоты. Сохранена основа взаимодействия голосового источника и артикулярного аппарата. Для воспроизведения интонации интенсивность глоттальной волны, длительность фонемы, частота основного тона задаются как функции времени. Следовательно, ЬБ-модель реализует свойства голосового источника. Она представляет собой имитатор голосового сигнала и удобна для применения в системах аппаратурного синтеза речи. Сложнее использовать ее для анализа первичного речевого материала. Для

этого надо решать обратную задачу - по характеристикам живой речи определять параметры и-моДели. Это очень громоздкая задача, требующая повторения многих циклов расчетов.

Для решения задачи анализа речевого материала может быть предложен метод разработки единой модели речевого аппарата, состоящей из двух частей: 1) известной модели артикулярного аппарата и модели голосового аппарата12. Предлагается распространить частотный метод, использованный Г. Фантом при построении модели артикулярного аппарата, на построение динамической модели голосового источника и речевого аппарата в целом. Опишем голосовой источник как динамическое фильтрующее звено:

У/^со)

им

Голосовой источник как динамическое фильтрующее звено.

[/,(4) - входное воздействие; С/2 (£) - глоттальная волна; У/^со) - эквивалентная частотная передаточная

функция голосового источника.

Полагаем,что [/¡(£) - воздействие со стороны костно-мышечной и легочной систем - не имеет частотно-избирательного характера и может быть задано функцией белого шума.

Все особенности частотной фильтрации сосредоточены в фильтрующем динамическом звене и определяются частотной передаточной функцией Успешное применение и-модели дает основу для описания структуры этого динамического звена. Глоттальная волна 1Л?-модели, по определению, обладает определенной стационарностью и состоит из составляющих ЧОТ и тембровых частот. Следовательно, можно предполагать, что ^(/¿у) имеет несколько собственных резонансных частот Р1( I ... Ря. При действии внешнего воздействия для каждой гармонической составляющей на частотах Р2... Ря выполняется условие баланса фаз и амплитуд. Процесс генерации глоттальной волны может рассматриваться как вынужденные колебания, возникающие на резонансных частотах голосового источника под действием флуктуаций воздушного потока.

При таком подходе речевой аппарат может рассматриваться как единая динамическая система, состоящая из двух последовательно соединенных звеньев - голосового источника и артикулярного аппарата, каждое из которых имеет свои динамические свойства. Методом обратной фильтрации при обработке экспериментально полученных речевых материалов могут быть выделены частотные характеристики каждого из этих звеньев.

Отличие такого метода от акустической модели Фанта в том, что априорно не задается структура звеньев. Амплитудные частотные характеристики каждого из звеньев определяются в процессе обработки первичного материала.

При необходимости структурирование передаточных функций динамических звеньев может быть выполнено с помощью известных вычислительных процедур. Полученная двухступенчатая модель речевого аппарата учитывает свойства голосового источника и, возможно, найдет в дальнейшем применение в схемах синтеза речи.

Итак, голосовой источник представляет собой колебательную систему, имеющую собственные резонансные частоты. Выходной сигнал голосового источника содержит

составляющие частоты основного тона и тембровых частот. Упрощение структуры голосового сигнала в схемах синтеза (сохранение только ЧОТ) приводит к искажению синтезируемого сигнала и появлению дополнительного этапа настройки. Наиболее полное воспроизведение голосового сигнала возможно либо путем компиляции имеющегося речевого материала либо чисто аппаратурным синтезом, но с обязательным проведением этапов предварительного лингвистического и фонетического анализа моделируемого сигнала и, чаще всего, этапа подгонки под эталон.

Удобную основу проведения аппаратурного синтеза дает разработанная Г. Фантом и его коллективом ЛЕ-модель. Ее использование упрощает технологию и повышает качество синтеза. Новым направлением развития работ по синтезу речи может явиться представление речевого аппарата в форме двухзвенной модели, в которой голосовой источник представлен динамическим звеном, имеющим собственные частотные характеристики. Процедура определения параметров динамических звеньев, описывающих голосовой источник и артикулярный аппарат путем обратной фильтрации реального речевого сигнала, может быть автоматизирована и должна стать первым необходимым этапом синтеза речи по эталону.

1 Бондарко Л.В. Фонетика современного русского языка. СПб., 1998; Фант Г. Акустическая теория речеобразования. М., 1964; Скрелин ПА. Фонетические аспекты речевых технологий. Изд-во С.:Пе-терб. ун-та, 1999; Сорокин В.Н. Теория речеобразования. М., 1985.

2 Carlson R., Granstrom В. Speech synthesis // The Handbook of Phonetic Sciences. Oxford, 1997. P. 768-788; Фант Г. Указ. соч.; "Bant G. The voice source in connected speech // Speech Communication. 1997. N22. P. 125-139.

3 Akande 0., Murphy P. Estimation of the vocal tract transfer function with application to glottal wave analysis // Speech Communication. 2005. N 46. P. 87-93.

4 Carlson R., Granstrom B. Op. cit.; Фант Г. Указ. соч.; Klatt D. Analysis, synthesis, and perception of voice quality variations among female and male talkers // J. Acoustic Society of America, 1990. Vol. 87. P. 820-857.

5 Фант Г. Указ. соч.

6 Скрелин П.А. Фонетические аспекты речевых технологий, Изд-во С.-Петерб. ун-та, 1999.

7 Stylianou Y. Harmonie plus noise models for speech combined with statistical methods for speech and speaker modification. Paris, 1996.

8 Сорокин B.H. Синтез речи. M., 1992; Carlson R., Granstrom В. Op. cit. e.a.

9 Hallahan W.I. DECtalk Software: Text-to-speech technology and implementation // COMPAQ DIGITAL Technical J., 1996. P. 123-130.

10 Fant G., Liljencrants]., Lin Q. A four-parameter model of glottal flow. STL-QPSR, № 4.

11 DintherR., Veldhuis R., Kohlrausch A. Perceptual aspects of glottal-pulse parameter variations // Speech Communication, 1985. N 46. P. 142-154.

11 Евдокимова В.В. Выбор метода построения модели речевого тракта // Интегральное моделирование звуковой формы естественных языков. Изд-во С.-Петерб. ун-та, 2005. С. 74-87.

Статья принята к печати 8 ноября 2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.