УДК 81'33
Р. К. Потапова
доктор филологических наук, профессор Академии МАИ, директор института прикладной и математической лингвистики, заведующая кафедрой прикладной и экспериментальной лингвистики факультета ГПН МГЛУ e-mail: [email protected]
ВАРИАТИВНОСТЬ АКУСТИЧЕСКИХ ПАРАМЕТРОВ ЗВУЧАЩЕЙ РЕЧИ1
В статье рассмотрены подходы к изучению факторов, влияющих на звучащую речь, с учетом дальнейшего моделирования источника устной информации (говорящего), особенностей его физиологических, эмоционально-стилистических характеристик, технических условий записи материала (например, Skype, YouTube). На материале русской речи рассмотрены модификации вариантов фонем (звукотипы) применительно к полному и неполному типам произнесения в соответствии с разными стилями произношения.
Ключевые слова: вариативность речи и голоса; лингвистические факторы; экстралингвистические факторы; фонетические факторы; технологические факторы.
R. K. Potapova
Sc.D., Professor; Director of the Institute of Applied and Mathematical Linguistics, MSLU; Head of the Department of Applied and Experimental Linguistics, MSLU e-mail: [email protected]
VARIABILITY OF ACOUSTIC PARAMETERS OF SPOKEN LANGUAGE2
The article describes approaches to the study of factors affecting spoken language, taking into account further modeling of the source of verbal information (the speaker), characteristics of his / her physiological, emotional and stylistic characteristics, and technical conditions of the material recording (e.g., Skype, YouTube). Using the material of Russian speech, modification of phoneme variants (soundclasses) is considered for complete- and incomplete-type speech production in accordance with various styles of pronunciation.
Key words: variability of speech and voice; linguistic factors; extralinguistic factors; phonetic factors; technological factors.
1 Исследование поддержано Российским Научным Фондом (РНФ). Проект № 14-18-01059.
2 The research is supported by the Russian Science Foundation (RSF). Project № 14-18-01059.
Речевой сигнал по своей сущности представляет собой непрерывный нестационарный случайный процесс, статические характеристики которого меняются во времени, а начало и конец не заданы. При исследовании речевого сигнала удобно принять допущение о его квазистационарных свойствах, т.е. неизменности характеристик на некотором временном отрезке Т (см. об этом, например: [4; 11]).
На фонетические характеристики звучащей речи оказывают влияние лингвистические и нелингвистические факторы [5, с. 58-71], среди которых можно отметить психическое и физическое состояние говорящего, явления, связанные с патологией мышления и психическими болезнями, а также некоторые виды болезней, например, расстройства речи, болезнь легких, рак гортани, расщепление неба, хроническая хрипота и катаральное состояние, состояние зубов (натуральных и искусственных, потери главным образом передних зубов), влияние наркотиков, алкоголя и т. д. Необходимо также отметить акустические и технические условия, сопутствующие записи речевого материала [5, с. 58; 6].
Для классификации факторов, оказывающих влияние на речь, необходимо учесть те, которые характеризуют состояние человека, отражают воздействие внешней среды, а также связаны с ситуацией общения, стратегией поведения говорящего и т. д. Г. С. Рамишвили [10, с. 62] предложил следующую систему признаков, влияющих на вариативность параметров речи:
- внешние / внутренние: болевые воздействия (тактильные) можно отнести к внешним факторам, а какое-либо заболевание - к внутренним;
- речевые / неречевые: помехи, фиксирующиеся при записи речи, могут быть речевыми или неречевыми, например, шумом какого-либо источника;
- естественные / искусственные: особенности речепроизводства, связанные со структурой речевого аппарата, будут относиться к естественным, а с использованием вставной челюсти, - искусственным;
- умышленные / неумышленные: явления маскировки можно отнести к умышленным искажающим признакам, а особенности отклонений речи при произнесении в затрудненных условиях - к неумышленным;
- спорадические / ординарные: спорадические - единичные, непостоянные признаки голоса, возникающие под воздействием случайных факторов (болевых, алкогольных, наркотических, простудных
заболеваний и т. д.); ординарные - признаки, возникающие в процессе нормального функционирования речеобразующего тракта и обусловленные артикуляционно-голосовыми навыками.
Вышеуказанные признаки связаны с природой механизма рече-образования, функционирование которого обусловлено спонтанными отклонениями движений артикуляторов от заданной артикуляторной программы, а также преднамеренными изменениями самой артикуля-торной программы, свойственной данному индивиду (например, в целях маскировки особенностей своего голоса или имитации чужого).
Кроме того, ряд признаков обусловлен вариативностью технических условий записи фонограмм (разброс характеристик звукозаписывающей и воспроизводящей аппаратуры, наличие шумов в телефонном канале связи, акустические особенности помещения, в котором проводилась запись и др.).
Специалисты выделяют четыре группы факторов вариативности параметров речи и голоса:
- лингвистические;
- физиологические;
- экстралингвистические;
- технологические.
Эмоционально-стилистические характеристики речи отнесены к лингвистическим факторам, а ситуации, отражающие акустические свойства окружающей среды, - к экстралингвистическим. Эмоциональное состояние также может отражать действительную или воображаемую ситуацию процесса речевой коммуникации, что проявляется в специфическом изменении спектральных или просодических характеристик. Индивидуальные особенности голоса диктора могут явиться следствием как физиологических и патологических особенностей строения речевого аппарата, так и психического состояния.
Существуют и другие факторы, оказывающие влияние на вариативность акустических параметров, например, профессия, возраст, образование говорящего, которые являются предметом изучения специальных дисциплин, например, социолингвистики, фоностилистики.
Лингвистические факторы вариативности присущи речи как языковой системе. К ним относятся позиционные и комбинационные изменения звуков, эмоционально-стилистические различия и ненормативные отклонения речевых характеристик из-за диалектного произношения, жаргона, акцента и др.
При статистических измерениях спектрально-временных характеристик необходимо учитывать фактор эмоционально-стилистической вариативности речи. Ранее были получены данные по влиянию типа произнесения на характеристики основных звуковых вариантов фонем - звукотипов [1, с. 31-35]. Исследовался полный тип произнесения, который характеризовался тщательностью и отчетливостью артикуляции, и неполный тип произнесения (разговорный стиль), отличающийся некоторой небрежностью и сопровождающийся усилением редукции гласных. Характеристики гласных в полном и неполном типах произнесения достаточно близки. Исключение составляет гласный [о] в позиции между мягкими согласными, у которого F4 понизилась при неполном типе произнесения на 500 Гц. Позиционные отличия ударных гласных [а, о, у] между твердыми согласными в отличие от [а, о, у] между мягкими оказались незначительными.
При слуховом восприятии заметны различия в качестве предударных гласных, находящихся в начале слова, после заднеязычных и шипящих [ш, ш':], как, например, в словах утюг [ут'ук] и шалить [шал'ит']. В целом наиболее устойчивые различия гласных наблюдаются в сильной позиции (в ударном слоге) и в слабой позиции (в безударном слоге).
Анализ спектральных характеристик звукотипов согласных позволил установить следующее: наблюдается ослабление энергетического уровня щелевых звуков при неполном типе произнесения по сравнению с полным. Так, в области частот 5...8 кГц энергетический уровень звуков [с, с', з, з', ш, ж] на 6...9 дБ меньше, чем при полном типе произнесения. Для звуков [х, х' ф, ф', в, в'] ослабление уровня составляет 3...5 дБ. Спектральные характеристики мягких согласных отличаются от характеристик парных твердых согласных наличием усиления спектральной энергии в области частот 2,5...3 кГц. Для согласных [х, х'] наблюдалось изменение спектра в целом. Спектральные характеристики смычных согласных для полного и неполного типов произнесения различаются не столь сильно.
Для сонантов при неполном типе произнесения (например, при разговорном стиле произношения) по сравнению с полным стилем характерен более низкий уровень формант (на 6...12 дБ). На спектральные характеристики сонантов оказывает влияние их позиция. Сравнение спектральных характеристик сонантов, находящихся в ударном
слоге в разных позициях, показывает, что частоты формант сонантов в абсолютном начале фразы (т. е. в начале первого слога после паузы) выше соответствующих формант сонантов третьего слова фразы. Выделенным оказывается не только абсолютное начало фразы, но и начало ее третьего слога, которое также характеризуется некоторым повышением частоты формант по сравнению со значениями формант сонантов конца первого и середины третьего слога фразы. Разница в частоте формант при полном типе произнесения достигает 200 Гц. Для сонантов, находящихся в конце первого слова фразы, по сравнению с сонантами, находящимися в середине слова, не отмечалось сколько-нибудь регулярных изменений частоты формант; уровень же формант уменьшился примерно на 6 дБ. Оглушение сонантов обнаружено в позициях абсолютного конца фразы и после согласного перед гласным. В абсолютном конце фразы оглушение сонантов при разговорном стиле произношения, т. е. неполном типе произнесения, встречается примерно в 3 раза чаще, чем в полном. Оглушению чаще подвергались мягкие сонанты, особенно плавные, следующие за гласными [и, ь, ъ]. В интервокальной позиции оглушались также преимущественно мягкие сонанты между гласными [и, э] или перед ними.
В позициях после согласного и перед ним оглушение сонантов отмечалось как на стыках морфем и знаменательных слов, так и внутри морфем. В частности, оглушение сонантов отмечалось в позиции после глухих согласных перед гласными на стыках знаменательных слов. В позиции перед глухим согласным оглушение сонантов отмечено во всех случаях. Спектральные характеристики твердых и мягких носовых сонантов в ряде фонетических позиций оказались очень близкими.
В целом, на окраску согласных в нормативном произношении оказывают влияние лабиализация (огубление) последующей гласной [о, у] - как, например, в слове зуб [зуп], палатализация (смягчение) -зал - взял [зал - вз'ал] и веляризация, связанная с дополнительным подъемом задней части спинки языка к мягкому нёбу и смещением назад - лак - лоб [лак - лоп].
Следовательно, полный тип произнесения (торжественный, официальный стиль произношения) характеризуется тщательностью произнесения; его признаком является возможность полной фонемной интерпретации фразы. В разговорном стиле (непринужденном, беглом, небрежном) при неполном типе произнесения теряется четкость
артикуляции. Безударные гласные в конечных позициях могут переходить в нейтральные с частотой формант около 500, 1500 и 2500 Гц, а в других позициях подвергаться сильной редукции. В силу сказанного за нормативное произношение для статистических измерений следует принять полный тип произнесения.
На акустические характеристики речи оказывает влияние эмоциональное состояние говорящего. Выделяют следующие характерные признаки эмоциональных высказываний: особая контрастность по частоте основного тона, динамичность произнесения, резкое увеличение или сокращение времени высказывания. Существуют логические, эмоциональные и волевые интонационные модели. Несмотря на широкий диапазон изменений интонации, в ней сохраняются постоянные структуры - интонемы - как релевантные элементы коммуникации, например, вопрос, повеление, угроза, совет, сожаление и др. Определенные типы эмоций оказываются общими для ряда языков. Например, по данным слухового анализа выделяется до 17 видов эмоциональных состояний, опознаваемых всеми группами слушателей: удовольствие, радость, восторг, неудовольствие, возмущение, негодование, гнев, злость, ненависть, раздражение, пренебрежение, ярость, ирония, угроза, упрек, страх, испуг, мольба, отчаяние, тоска, горечь, удивление. Для большинства эмоций значения характеристик оказываются близкими [2; 3; 6; 7; 8; 9; 14; 15; 16].
Для некоторых видов эмоций наблюдается значительное увеличение диапазона изменений частоты основного тона. Если для нейтрального произнесения F0 = 110...140 Гц, то для эмоций «ирония» и «неудовольствие» F0 = 80...170 Гц, а для эмоции «восторг» F0 = 70...200 Гц.
Положительные виды эмоций («удовольствие», «восторг») характеризуются повышением частоты формант F2...F4 ударного гласного на 100...300 Гц, уровня формант А3, А4 - на 6...12 дБ, а также увеличением длительности ударного слога в основном за счет гласного почти в два раза. В группе отрицательных видов эмоций («ирония») обращает на себя внимание факт значительного увеличения частоты форманты F2 (примерно на 350 Гц). Частота основного тона (ЧОТ) на ударном гласном резко изменялась, причем скорость изменения достигала 800 Гц/с. Отмечалось также дрожание частоты основного тона. Несомненно, приведенные данные могут сильно меняться в зависимости от контекста и ситуации [2, с. 144].
Для эмоции «неудовольствие» получены другие значения параметров. Так, среднее значение частоты формант F2_F4 ниже стандартного. Снижена скорость изменения ЧОТ, причем максимум имел место не на ударном, а на заударном гласном (100 и 450 Гц соответственно). При этом для эмоции «возмущение» в отличие от эмоции «неудовольствие» частота форманты F2 увеличена, а формант F3 и F4 уменьшена. Длительность ударного гласного также уменьшена почти в 1,5 раза.
Следовательно, эмоциональное состояние диктора оказывает существенное воздействие на спектральные и просодические параметры речи, что следует учитывать при отборе речевых тестов для оценки качества передачи. Вместе с тем, включать этот вид факторов в нормативную статистику речи, видимо, нецелесообразно из-за трудности однозначной интерпретации категорий эмоций.
Вариативность статистических характеристик может возникать из-за ненормативного (диалектного, жаргонного) произношения у некоторой группы лиц. Сюда же следует отнести просторечие - диалогическую речь с элементами нормативного литературного языка.
Рассмотренные признаки акцента представляют интерес для социолингвистики, верификации личности, методики изучения иностранных языков. При исследовании статистических характеристик ненормативные признаки (диалектальная речь и явление акцента) должны быть исключены из рассмотрения.
К физиологическим факторам вариативности характеристик отнесены разброс размеров полостей речевого аппарата (РА), длина голосовых связок (ГС) и индивидуальные особенности строения РА у дикторов. Известно, что средние статистические размеры РА мужчин и женщин различаются примерно на 17 %, так как частота формант обратно пропорциональна длине речевого аппарата от голосовой щели до отверстия рта, соответствующее различие должно наблюдаться в распределении формант.
При произнесении звуков размеры полостей РА и соответствующие им спектры заметно варьируют из-за нестабильности позиций артикулярных органов. Так, по данным В. Н. Сорокина [12, с. 274], при артикуляции гласного [а] в составе слов нестабильность положения спинки языка достигала 30 0%. Если допустить, что настолько же изменяются размеры передней и задней полостей РА, то вариативность резонансных частот F1 и F2 окажется такой же.
Таблица
Значения частот формант гласных
Форманты гласных F. в слогах (Гц)
л о £ F. Согласный - гласный Гласный - согласный
s |и| |э| |а| |о| |у| |и| |э| |а| |о| |у|
Согласный /п/
го 0,200 0,400 0,700 0,400 0,275 0,200 0,450 0,650 0,350 0,300
s g F2 1,476 1,875 1,250 0,700 0,550 2,100 1,625 1,250 0,750 0,700
F3 2,125 2,500 2,200 2,125 2,150 2,700 2,250 2,200 2,200 -
со F1 0,300 0,600 0,750 0,350 0,250 0,200 0,500 0,800 0,500 0,300
S g F2 1,700 1,950 1,250 0,550 0,550 2,250 1,800 0,800 0,800 0,700
F3 2,300 2,35 2,200 2,550 2,100 2,450 2,300 2,200 1,900 1,900
со X F1 0,375 0,700 0,850 0,450 0,400 0,250 0,725 1,000 0,600 0,300
S ^ X F2 2,250 2,200 1,350 0,950 0,900 2,600 1,900 1,500 1,000 0,700
F3 2,800 3,000 2,375 2,100 2,800 3,300 2,750 2,250 2,000 2,900
Согласный /п'/
го F1 0,150 0,425 0,700 0,500 0,300 0,250 0,400 0,550 0,350 0,300
s £ F2 2,150 1,900 1,375 1,000 0,527 2,150 2,000 1,475 1,025 0,700
2 F3 3,000 2,265 2,250 2,200 2,500 3,000 2,600 2,400 2,275 -
го F1 0,175 0,450 0,800 0,450 0,250 0,200 0,500 0,900 0,450 0,100
s F2 2,100 1,900 1,450 0,750 0,750 2,100 1,800 1,300 0,800 0,400
F3 2,800 2,400 2,200 1,900 2,000 2,500 2,200 2,000 1,900 1,900
со X F1 0,200 0,500 0,875 0,450 0,800 0,250 0,650 0,900 0,650 0,300
S ^ X F2 2,700 2,200 1,625 1,000 0,800 2,200 2,300 1,600 1,100 0,600
F3 3,300 2,900 2,625 2,600 2,950 3,600 2,800 2,750 1,950 2,600
В таблице приведены значения частот формант гласных в слогах СГ, ГС для двух мужских и женских голосов русской речи, по измерениям М. Халле (M. Halle) [13]. Данные наглядно демонстрируют позицию и индивидуальную вариативность формантных частот. Например,
разница в частоте F1 и F2 на гласном [и] в слогах СГ для мужских голосов и отклонение для женского голоса от среднего значения для двух мужских голосов достигли 50 о%. Отметим также временную изменчивость характеристик для голоса одного из дикторов, на которого оказывают воздействие физическое и эмоциональное состояние.
К числу физиологических факторов вариативности характеристик также относится взаимовлияние полостей РА и подсвязочной полости, возникающее при раскрытии голосовой щели. При этом из-за конечного акустического сопротивления голосовой щели должна наблюдаться быстрая девиация резонансных частот, достигающая 10 % частоты при закрытой голосовой щели. Одновременно могут возникать дополнительные резонансы в области F1 и F2, затухание которых при закрытой щели снижается. Этим явлением объясняются наблюдаемые на спектрограммах речевого сигнала так называемые «ложные» форманты, которые, возможно, определяют индивидуальность голоса диктора. При автоматическом измерении формантных параметров исключение «ложных» формант вряд ли осуществимо, тем более что их характеристики зависят от ряда трудно оцениваемых признаков скважности импульсов голосовых связок.
К экстралингвистическим факторам вариативности характеристик речевых параметров отнесены явления ситуации - пространственное и предметное окружение адресанта в процессе речевой коммуникации, а также динамика или статика положения корпуса говорящего в пространстве. Поза, мимика и жесты оказывают заметное воздействие на диалогическую речь, снимая эмоциональную и семантическую избыточность, присущую письменной речи. Эти признаки являются предметом изучения кинесики и в статистических исследованиях речи не учитываются.
Технологические факторы вариативности речевых характеристик примыкают к экстралингвистическим явлениям, хотя их воздействие проявляется во внесении частотных и нелинейных искажений в уже сформированный речевой сигнал. К этой группе условно можно отнести акустические свойства окружающей среды, акустические показатели помещений и особенности распространения звука в открытом пространстве [11].
Таким образом, предложенная классификация факторов вариативности акустических параметров речи по четырем основным группам
(лингвистическая, физиологическая, экстралингвистическая и технологическая) достаточно условна [5]. Тем не менее она прагматически удобна для изучения особенностей речи и голоса применительно к решению ряда задач фундаментального и прикладного речеведения.
СПИСОК ЛИТЕРАТУРЫ
1. Златоустова Л. В. Фонетические единицы русской речи. - М. : Изд-во Моск. ун-та, 1981. - 105 с.
2. Михайлов В. Г., Златоустова Л. В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.
3. Нушикян Э. А. Типология интонации эмоциональной речи. - Киев ; Одесса : Вища школа, 1986. - 157 с.
4. Потапова Р. К. Речь: коммуникация, информация, кибернетика. -5-е изд.- М. : Книжный дом «Либроком», 2015. - 600 с.
5. Потапова Р. К., Михайлов В. Г. Основы речевой акустики. - М. : ИПК МГЛУ «Рема», 2012. - 494 с.
6. Потапова Р. К., Потапов В. В. Язык, речь, личность. - М.: Языки славянской культуры, 2006. - 496 с.
7. Потапова Р. К., Потапов В. В. Речевая коммуникация: От звука к высказыванию. - М.: Языки славянских культур, 2012. - 464 с.
8. Потапова Р. К., Потапов В. В. Исследование речевого сигнала при условии дифференциации эмоциональных состояний (на базе экспериментального моделирования) // Информатизация и информационная безопасность правоохранительных органов : материалы XXI Всероссийской научной конференции, 30-31 мая 2012 г. - М., 2012. - С. 271-273.
9. Потапова Р. К., Потапов В. В., Лебедева Н. Н., Агибалова Т. В. Междис-циплинарность в исследовании речевой полиинформативности. - М. : Языки славянской культуры, 2015. - 352 с.
10. Рамишвили Г. С., Антидзе В. Г. Система мавтоматической идентификации личности говорящего по фонограмме речи // Вопросы судебно-фоноскопической экспертизы. - Тбилиси : Наука, 1988. - С. 60-77.
11. Сапожков М. А. Речевой сигнал в кибернетике и связи. - М. : Связьиздат, 1963. - 452 с.
12. Сорокин В. Н. Теория речеобразования. - М. : Радио и связь, 1985. - 313 с.
13. Halle M. The sound's pattern of Russian. - Gravenhage : Mouton, 1959. - 206 p.
14. Potapova R. K., Potapov V. V. Temporal correlates of emotions as a speakerstate specific parameters for forensic speaker identification (speech tempotal correlates of fear/anxiety for Russian native speakers) // Potapova R. (ed.). Proc. of the Intern. Workshop "Speech and Computer" (SPECOM'2003). -Moscow, 2003. - P. 291-301.
15. Potapova R. K., Potapov V. V. Kommunikative Sprechtätigkeit: Russland und Deutschland im Vergleich. - Köln ; Weimar ; Wien : Böhlau Verlag, 2011. -312 S.
16. Potapova R. K., Potapov V. V. Auditory and visual recognition of emotional behavior of foreign language subjects (by native and non-native speakers) // SPECOM 2013. Lecture Notes in Artificial Intelligence. - 8113. - LNAI. -Cham ; Heidelberg; New York; Dordrecht; London, 2013. - P. 62-69.