УДК 81'34
В. Р. Женило, В. В. Потапов
Женило В. Р., доктор технических наук, профессор кафедры прикладной и экспериментальной лингвистики английского факультета МГЛУ; e-mail: [email protected]
Потапов В. В., доктор филологических наук, главный научный сотрудник НИР кафедрой прикладной и экспериментальной лингвистики английского факультета МГЛУ, ст. научный сотрудник филологического факультета МГУ; e-mail: [email protected]
ИНВАРИАНТНЫЕ КОМПОНЕНТЫ РЕЧЕВЫХ СИГНАЛОВ -ИХ ДИАГНОСТИКА И ВИЗУАЛИЗАЦИЯ1
Речевой сигнал весьма вариативен в реальных акустических условиях. Передавать информацию с помощью звука можно лишь с помощью инвариантных структур речевого сигнала. Часть таких инвариантных структур звука формируются непосредственно в аппарате речеобразования, а часть - в слуховой системе человека. Экспериментально доказано - слуховая система человека наиболее чувствительна к изменениям именно инвариантных компонентов речевых сигналов. Предлагаются методы диагностики гармонических составляющих речевых сигналов - его инвариантных компонентов.
Ключевые слова: информация; структура; инвариант; частотность; резонанс; обертон; чувствительность; спектр.
Zhenilo V. R.
D.Sc. (Techn.), Prof. Department of Applied and Experimental Linguistics, Institute of Applied and Methematical Linguistics, Faculty of the English Language, MSLU; e-mail: [email protected]
POTAPOV V. V.
D. Sc., Principal Research Fellow, Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the English Language, MSLU; e-mail: [email protected]
INVARIANT COMPONENTS OF SPEECH SIGNALS: ANALYSIS AND VISUALIZATION
In real-world acoustic environment the speech signal is characterized by high variability. It is possible to transmit information only using invariant structures of the speech signal. Some of these invariant structures are formed directly in the speech production apparatus while some are generated by the human auditory perception
1 Исследование поддержано Российским научным фондом (РНФ). Проект № 14-18-01059.
system. It is shown experimentally that the latter is most sensitive to changes in the speech signal invariant components. Some analysis methods of speech signal harmonic components (invariant components of a speech signal) are proposed.
Key words: information; structure; invariant; harmonic; frequency; resonance; overtone; sensitivity; spectrum.
Введение
Информация - это первичное понятие, не имеющее определения. Об этом подробно описывается в «Математическом энциклопедическом словаре». Однако в этом же издании имеется «Словарь школьной информатики», в котором говорится, что информация ... одна из исходных общенаучных категорий, отражающая структуру материи и способы ее познания, несводимая к другим, более простым понятиям. Такое сближение понятий «структура» и «информация» оказывается настолько продуктивным для дальнейшего обсуждения свойств звуковых волн вообще и речевых, в частности, что в статье далее будет принято рабочее определение: информация - это структура.
В реальных условиях речевые сигналы (и все звуковые сигналы вообще) весьма вариативны из-за множественных отражений и суммирований исходного речевого сигнала с самим собой. И чем больше отражающих поверхностей, пусть даже и самых маленьких, как, например, листва в лесу, тем значительнее продуцируемый речевой сигнал меняется и весьма значительно. Так, на рисунке 1 показаны две осциллограммы одного и того же исходного речевого сигнала, но записанного с помощью двух микрофонов.
Рис. 1. Один и тот же речевой сигнал, записанный с двух разных микрофонов
Одного - расположенного у губ говорящего на расстоянии 10-ти сантиметров (верхняя часть картинки), второго - на расстоянии полуметра (нижняя часть картинки). Поэтому, если в аудитории публика слушает лектора, то в каждом ухе слушателя осциллограмма речевого сигнала лектора отличается от этого же речевого сигнала в другом ухе [3; 5; 6].
Из исследований, проведенных в последнее время, становится ясно, что в речевом сигнале есть какие-либо инварианты, позволяющие передавать и доводить информацию до каждого слушателя в неизменном виде [11; 12]. Очевидно, что передавать информацию можно лишь с помощью каких-то неизменных (инвариантных) структур, а осциллограмма (волна) речевого сигнала таковой не является (по внешнему виду).
Методика и результаты исследования
Чувствительность слуха к изменениям инвариантов в звуке
Известно, что основными инвариантными элементами речевых сигналов являются его гармонические компоненты, а именно -в сложных (по сути и описанию) волновых процессах в природе существует лишь одна форма сигнала, которая сохраняет в себе некоторые характеристики в неизменном виде. Это сигналы гармонического типа. Где бы ни продуцировался и как бы ни распространялся сигнал гармонического типа, отражаясь от разных поверхностей и снова складываясь со всеми своими отражениями, в реальных земных условиях у него всегда остается неизменной, во-первых, характерная форма этой волны, а именно - форма тригонометрической функции синуса (косинуса). Эту характеристику можно отнести к разряду качественной. Но существует и количественная характеристика (показатель), которая абсолютно не изменяется. Это - частота сигнала гармонического типа. Это один из инвариантов волновых процессов, который можно было бы назвать пятым законом сохранения в природе, если бы он сам не вытекал из законов сохранения энергии и импульса. Точнее, если источник звука долго продуцирует сигнал гармонического типа, то при неподвижности отражающих поверхностей сумма всех отражений этого гармонического сигнала, все отражения в сумме дают тот же самый сигнал гармонического типа. При этом амплитуда итогового гармонического сигнала может варьироваться от одной точки пространства к другой, а значение параметра (фаза) меняется
весьма значительно. Поэтому хорошо известен тот факт, что наше слуховое восприятие [13] не воспринимает вариации значения фазы, но хорошо воспринимает вариации амплитуды. Однако лучше всего наш слух воспринимает вариации частоты гармоники.
Эксперименты, проведенные нами в Московском государственном лингвистическом университете показали, что средняя пороговая чувствительность нашего слуха к амплитудным модуляциям сигналов гармонического типа составляет менее одного децибела. А чувствительность к частотной модуляции составляет величину порядка десятых долей музыкального полутона. В перерасчете не на слуховые единицы измерения, а на физические значения порогов чувствительности слуха к модуляциям сигналов гармонического типа получается, что наш слух на порядок лучше воспринимает частотную модуляцию, нежели амплитудную. И это естественно, поскольку частота сигнала гармонического типа инвариантна к множественным отражениям, а амплитуда и, тем более, фаза - нет. В таблице 1 проведены усредненные значения нижних пороговых величин модуляций, которые еще воспринимает наше ухо.
Таблица 1
Нижние пороговые средние значения чувствительности слуха к модуляциям сигналов гармонического типа
Частота сигнала (в герцах) Амплитудная модуляция (в децибелах) Частотная модуляция (в полутонах) Амплитудная модуляция (в процентах) Частотная модуляция (в процентах)
125 1.8 ± 1.0 1.9 ± 9.1 23 ± 12 6 ± 26
500 1.0 ± 0.8 0.5 ± 0.8 12 ± 10
2000 0.8 ±0.7 0.2 ± 0.3 10 ± 8 0.6 ± 0.9
8000 0.7 ± 0.5 0.3 ± 0.3 8 ± 6 0.9 ± 0.9
Последние два столбца таблицы хорошо иллюстрируют тот факт, что с учетом физических характеристик наша слуховая система лучше всего ощущает изменения (вариации) частоты сигнала гармонического типа, и на порядок хуже модуляции амплитуды этих же гармоник.
Приведенные результаты экспериментов иллюстрируют, как хорошо наш слух «заострился» для восприятия инвариантных показателей сигналов - лучше всего. И хуже воспринимает степени вариации неинвариантных показателей.
Приведенные факты объясняют - почему опытные фоноскописты (специалисты в области речеведения) практически никогда не исследуют форму волны речевого сигнала (осциллограмму), несмотря на то, что она является первичной. А сразу же переходят к сонаграмме, в которых отражается инвариантная структура (информация) динамики частот гармонических компонентов речевых сигналов. Например, на рисунке 2 показаны осциллограммы и сонаграммы в одной и той же точке времени одного и того же исходного речевого сигнала, но прошедшего разные электроакустические звенья передачи речевого сигнала.
Рис. 2. Один и тот же речевой сигнал (слева - оригинал), подвергшийся дифференцированию (посередине) и испытавший резонирующий эффект (справа)
Извлечение инвариантов из речевых сигналов
Примерно 200 лет назад французский ученый Жан Батист Жозеф Фурье предложил раскладывать любую, даже необязательно аналитически заданную функцию (например, заданную в табличной форме, как речевые сигналы в памяти компьютера) на множество гармонических функций. И несмотря на то, что изначально это потребовалось Фурье для описания и расчета движения тепловых волн в твердых предметах, сейчас это применяется в большом количестве научных исследований и, в частности, исследованиях речевых сигналов. Этому изобретению обязаны своим существованием и развитием все современные акустические исследования и достижения в области изучения свойств речевых сигналов и их обработки.
Во многих, даже научных, книгах можно встретить утверждение, что ряды Фурье можно использовать только для математического модельного описания периодических сигналов. Но это не так. Теорема Фурье утверждает, что любую, пусть даже совершенно непериодическую функцию, можно разложить на отрезке в ряд Фурье. Другими словами, вместо исследуемого речевого сигнала можно исследовать его адекватную модель, состоящую только из модельных гармонических функций. Это принципиально важное свойство рядов Фурье, позволяющего изучать вместо весьма вариативного в реальных земных условиях речевого сигнала его модель, состоящую из инвариантных элементов - гармонических компонентов речевых сигналов.
Поэтому вместо того, чтобы говорить о том, когда можно или нельзя применять ряды Фурье, следует четко представлять, когда и где модельное описание звуковых сигналов с помощью инвариантных гармонических компонентов является адекватным, а когда - нет. Кратко можно сказать, что ряды Фурье всегда:
- абсолютно точно (адекватно) описывают любые звуковые сигналы внутри временного кадра выбранной длительности;
- адекватно описывают периодические сигналы внутри кадра и вне его в том лишь случае, если в кадр попадает целое число периодов исследуемого звукового сигнала (музыкального звука, звонкого звук речи и т. п.);
- адекватно описывают взрывные и фрикативные звуки внутри выбранного временного кадра, который дополняется нулями, при увеличении длительности временного кадра до бесконечности.
Построить адекватные модельные ряды Фурье в реальных условиях спектрального анализа звукового сигнала практически невозможно. Например, в случае необходимости определения частоты основного тона голоса в речи надо точно знать период тонального участка речевого сигнала. А его-то, по сути, и нужно найти. Или, если требуется найти спектральный состав взрывного звука, необходимо знать его границы, что тоже неизвестно заранее.
На помощь приходит технология вырезания кадров речевого сигнала с помощью так называемых оконных, или взвешивающих, функций. И здесь начинает работать принцип неопределенности Гейзенберга. Эмпирически доказано [1], что лучшим окном для этого является окно Гаусса. А Чуи доказал это теоретически - лучшим в информационном смысле окном для спектрального анализа является окно Гаусса [2; 9].
Продуцируемые и воспринимаемые инварианты
Единственные сигналы гармонического типа, которые мы реально продуцируем в речи, - это свободно затухающие сигналы гармонического типа, возникающие в речевом тракте при его возбуждении каждым голосовым импульсом в отдельности. Правда, эти сигналы гармонического типа настолько кратки по времени, что в низких мужских голосах они практически полностью затухают еще до очередного хлопка голосовых складок. В то время как в бокалах и колоколах аналогичные свободно затухающие колебания длятся секунды, а в больших колоколах даже минуту и больше.
Стремление как можно точнее показать треки резонансных частот речевого тракта привели к тому, что помимо них самих на сонаграмме стали хорошо видны еще и другие загадочные следы гармонических компонентов речевых сигналов. Они показаны на рисунке 3 в самой нижней части сонаграммы. В. Н. Сорокин [7] показал, что это не следы каких-то гармонических колебаний, а это след формы голосового импульса, возбуждающего воздушный столб речевого тракта. Модель формы голосовых импульсов, предложенная АпапШраёЪапаЪЬа в 1984 г. [8], показана на рисунке 4. На этом же рисунке отражена широкополосная сонограмма модельных голосовых импульсов.
След средней части голосового
импульса
След открытия голосовых
След закрытия голосовых складок
►
Рис. 3. Фрагмент реального речевого сигнала с хорошо выраженными следами хлопков голосовых складок
Рис. 4. Модельная форма голосового импульса (Апап^раМапаЬИа [8]) -слева и сонаграмма этих импульсов - справа
Рассматривая вопрос, какие сигналы гармонического типа продуцирует человек, когда говорит или поет, оказывается, что таковыми являются только свободно затухающие колебания воздушного столба речевого тракта. С этим обычно не соглашаются те, кто привык считать, что при фонации гласных звуков речи или при пении голосовые складки «генерируют» ряд сигналов гармонического типа, называемых обертонами, которые отстоят одинаково друг от друга на равном расстоянии по частоте. Но в действительности голосовой импульс с его формой не содержит и не продуцирует какие-либо сигналы гармонического типа, за исключением свободно затухающих колебаний речевого тракта. Откуда же тогда берутся обертоны, которые мы так или иначе ощущаем или которые четко визуализируются с помощью узкополосных сонаграмм? (см. рис. 3). Кроме того, как доказано теоретически и экспериментально - если искусственно синтезировать ряд сигналов гармонического типа, частоты которых равны соответствующим частотам основного тона голоса и всем обертонам, то практически нет разницы между реальным звучанием голоса (в речи или в пении) и модельным синтезом голоса по тем же обертонам.
Ответ на этот давно известный вопрос выглядит так: обертоны голоса «поштучно не продуцируются» и не образуются голосовыми складками, а образуются в слуховых системах восприятия звуков и в спектроанализаторах. Понимание этого явления хорошо описал Фурье. Он доказал, что когда появляется необходимость описания
поведения сложной структуры волн разной природы, то необязательно четко описывать (предсказывать) движения самой волны, форма которой очень изменчива и трудно описывается, достаточно сначала математически представить исходную волну в виде суммы отдельных сигналов гармонического типа, а затем рассматривать распространение каждой гармонической компоненты в отдельности. Сделать это теоретически реально. Проще рассмотреть распространение совокупности волн гармонического типа, теоретическая модель которых хорошо известна, чем описывать поведение волны произвольной формы. Таким образом, сначала надо исходную речевую волну у источника ее образования (у губ) разложить на совокупность сигналов гармонического типа, а затем рассмотреть, как будет распространяться каждая гармоника в отдельности (учитывая, что она никогда не изменяет свою форму и значение ее частоты остается инвариантной). В итоге в точке приема (прослушивания) звуковой волны снова сложить все модельные гармонические компоненты и получить итоговый сигнал. Полученный сигнал будет равен реальному речевому сигналу, претерпевшему все те преобразования, которые возникают при всем множестве отражений и суммирований речевого сигнала с самим собой в реальных акустических условиях. Без такого разложения речевого сигнала на отдельные модельные сигналы гармонического типа описать (предсказать) распространение речевой волны в реальных земных условиях очень сложно, а порой практически невозможно. Описанная модель позволяет это сделать хотя бы теоретически. И это фундаментальное свойство речевых волн, видимо, успешно используется всеми живыми интеллектуальными системами.
Поясним это на следующем примере. На рисунке 5 показана сонаграмма искусственного сигнала, состоящего из суммы сигналов простейшего импульсного типа (дельта-импульсы), периодичность следования которых друг за другом меняется. На одном участке периодичность следования этих импульсов примерно равна одной секунде (1 Гц), затем плавно нарастает и достигает периодичности, лучше сказать частоты - 300 Гц. Визуализация типичной компьютерной сона-граммы - это в действительности покадровое спектральное описание сигнала. На рисунке 5 спектральная информация об одном временном кадре сигнала соответствует одному вертикальному ряду компьютерных пикселей. На том участке, где импульсы следуют очень редко, на сонаграмме видны отдельные (изолированные) вертикальные линии.
Эти вертикальные линии на сонаграмме соответствуют тому временному кадру, в который попал одиночный импульс. Иначе говоря, если во временной кадр попадает только один импульс, то его след на со-награмме будет иметь вид изолированной от соседей вертикальной черной линии.
Рис. 5. Осциллограмма (вверху) и сонаграмма (внизу) частотно модулированных импульсов
Временные кадры, в которые попадает пара и более смежных импульсов, приобретают не вид отельных вертикальных линий, а мы видим рисунок, называемый рисунком обертонов голоса. Что происходит в этом случае? Во временной кадр попадает несколько звуковых импульсов. И рядом с кадром (вне его) также располагаются импульсы примерно с таким же периодом их следования. В итоге в этом временном кадре оказывается возможным построение адекватной модели Фурье, которая визуализируется с учетом принципа неопределенности Гейзенберга. Суть срабатывания принципа неопределенности Гейзенберга следующая: внутри кадра возможна только одна адекватная модель разложения периодического сигнала на сумму сигналов гармонического типа с кратными частотами, равными обратной величине периода следования этих импульсов. Идеально визуализировать значения частот этих модельных сигналов гармонического типа
нельзя. Нельзя добиться того, чтобы на сонаграмме значения частот модельных сигналов гармонического типа выглядели в виде идеальных тоненьких линий. В этом суть принципа неопределенности Гейзенберга для сигналов гармонического типа.
Сделаем следующий вывод: обертоны не продуцируются голосовыми складками «поштучно», а образуются в слуховой системе (в системе спектрального описания сигнала). Но обязательно следует отметить, что первопричиной их образования является факт почти строгой периодичности работы голосовых складок. Если не будет высокой степени периодичности работы голосовых складок, то не будут появляться и обертоны голоса. Это явление выявляется у тех людей, у которых голосовые связки не могут работать строго периодически, или когда голосовые складки удаляются, и человек пробует извлекать гласные звуки речи с помощью ложных голосовых складок, физиология которых не позволяет достичь желаемой периодичности их работы.
Диагностика инвариантных элементов звука
Рассматривая вопрос диагностики наличия в речевом сигнале отдельных компонентов сигналов гармонического типа, неважно, какого типа эти гармонические колебания. Реально ли они продуцируются говорящим, например в виде свободно затухающих гармонических колебаний воздушного столба речевого тракта, или это модельные компоненты гармонического типа, образующиеся в слуховой системе или в спектроанализаторе. Сказанное ниже будет справедливо как для диагностики сигналов гармонического типа, реально возникающих после каждого хлопка голосовых складок (резонансных частот речевого тракта), так и для модельных сигналов гармонического типа, называемых нами обертонами голоса.
Указателем на наличие в речевом сигнале гармонических компонентов являются локальные максимумы амплитудного спектра каждого временного кадра речевого сигнала. Приведем два простых критерия диагностики того, что тот или иной локальный максимум амплитудного спектра на самом деле является следом сигнала гармонического типа, а не чем-то иным, что очень часто встречается в реальных амплитудных спектрах.
Первые критерии диагностики описаны в работах [1; 2; 14], суть которых заключается в следующем. Если речевой сигнал взвешивается
с помощью функции Гаусса с параметром с то амплитудный спектр в логарифмической шкале (например, в шкале децибел) каждой гармонической компоненты1 речевого сигнала будет иметь вид параболы. И поскольку быстрое преобразование Фурье дает нам спектр в отдельных дискретных частотах Уп У У идущих с постоянным шагом А, то простое разностное уравнение (1) позволяет получить нам меру близости М измеренного лепестка амплитудного спектра к следу лепестка, оставляемому любым стационарным сигналом гармонического типа:
М_ I Уп+1-2Уп+Уп-1 20!н(е) (1)
М_ 1 2Д2 2с/ 4 7
Но формула эта справедлива только для немодулированных (стационарных) гармонических компонентов речевого сигнала. Если в сигнале имеет место амплитудная или частотная модуляция, то значение величины Ь_ 20^(е) находится из амплитудного и фазового спектров в три этапа: 1
- сначала находится локальный максимум амплитудного спектра в окрестности интересуемой частоты;
- затем из фазового спектра извлекается значение величины амплитудной и частотной модуляции [4];
- вносится поправка в величину Ь, и получается итоговая мера близости следа исследуемого сигнала к сигналу гармонического типа (1).
Вторым простым (в плане объема вычислительных затрат) является критерий диагностики локального максимума амплитудного спектра, существующий в периферической нервной системе зрения животных, а именно, в сетчатке их глаза [10], где проблемы диагностики (распознавания) зрительных объектов очень схожи с проблемами диагностики (распознавания) главных инвариантных компонентов звука - сигналов гармонического типа.
Заключение
В статье рассмотрена проблема передачи информации с помощью звуковых волн, которые весьма вариативны в реальных условиях. Информацию можно передавать только с помощью инвариантных
1 Стационарной, амплитудно или частотно модулированной.
100
структур, которыми могут выступать частоты гармонических составляющих речевых сигналов. Некоторые такие инвариантные структуры формируются непосредственно в аппарате речеобразования в виде частот свободно затухающих колебаний воздушного столба речевого тракта. А некоторые образуются в слуховой системе - это обертоны голоса. Экспериментально доказано, что слуховая система человека наиболее чувствительна к изменениям именно инвариантных компонентов звука речи - гармоническим компонентам речевого сигнала. И при невозможности восприятия по отдельности быстро повторяющихся голосовых импульсов слух воспринимает часто повторяющуюся последовательность голосовых импульсов как совокупность обертонов голоса, описываемых сигналами гармонического типа. Механизмы диагностики и визуализации реально продуцируемых гармоник и модельно слышимых гармоник одни и те же.
СПИСОК ЛИТЕРАТУРЫ
1. Женило В. Р. Компьютерная фоноскопия. - М. : Изд-во Академии МВД России, 1995. - 207 с.
2. Женило В. Р. Информация, звук и преобразование Фурье-Гаусса: материалы XV Междунар. конф. «Информатизация и информационная безопасность правоохранительных органов». - М. : Академия управления МВД России, 2006. - С. 332-340.
3. Кипяткова И. С., Ронжин А. Л., Карпов А. А. Автоматическая обработка разговорной русской речи. - СПб. : ГУАП, 2013. - 314 с.
4. Математический энциклопедический словарь. - М. : Советская энциклопедия, 1988. - 847 с.
5. Петровский А. А. (ред.). Анализаторы речевых и звуковых сигналов: Методы, алгоритмы и практика (с МАТЛАБ примерами). - Минск : Бестпринт, 2009. - 456 с.
6. Потапова Р. К., Михайлов В. Г. Основы речевой акустики. - М. : ИПК МГЛУ «Рема», 2012. - 494 с.
7. Сорокин В. Н. Речевые процессы. - М. : Народное образование, 2012. -600 с.
8. Ananthapadmanabha T. V. Acoustic Analysis of Voice Source Dynamics // STL QPSR. - 1984. - № 1-24. - P. 2-3.
9. Chui C.K. An Introduction to Wavelets. - Boston : Academic Press, 1992. - 264 p.
10. HubelD. H. Eye Brain, and Vision. - 2nd ed. - New York : W. H. Freeman and Company, 1995. - 256 p.
11. Potapova R. K., Potapov V. V. Auditory and Visual Recognition of Emotional Behaviour of Foreign Language Subjects (by Native and non-Native Speakers) // M. Zelezny, I. Habernal, A. Ronzhin (eds.) SPECOM 2013. LNAI. - Vol. 8113. - Springer, Heidelberg. - 2013. - P. 62-69.
12. Potapova R. K., Potapov V. V. Associative Mechanism of Foreign Spoken Language Perception (Forensic Phonetic Aspect) // A. Ronzhin, R. Potapova, V. Delic (eds.) SPECOM 2014. LNCS. - Vol. 8773. - Springer, Heidelberg. -2014. - P. 13-122.
13. Schacter D., Gilbert D., Wegner D. Sensation and Perception // Charles Linsmeiser. Psychology. Worth Publishers. - 2011. - P. 158-159.
14. Zhenilo V. R., Potapov V. V. Invariant Components of Speech Signals: Analysis and Visualization // A. Ronzhin, R. Potapova, N. Fakotakis (Eds). SPECOM 2015. LNCS (LNAI). - Vol. 9319. - Springer, Heidelberg. - 2015. -P. 251-258.