Научная статья на тему '2012. 04. 027. Потапова Р. К. , Михайлов В. Г. Основы речевой акустики. - М. : ИПК МГЛУ «Рема», 2012. - 494 с. - библиогр. : С. 478-490'

2012. 04. 027. Потапова Р. К. , Михайлов В. Г. Основы речевой акустики. - М. : ИПК МГЛУ «Рема», 2012. - 494 с. - библиогр. : С. 478-490 Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
247
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФОНЕТИКА ЭКСПЕРИМЕНТАЛЬНАЯ
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2012. 04. 027. Потапова Р. К. , Михайлов В. Г. Основы речевой акустики. - М. : ИПК МГЛУ «Рема», 2012. - 494 с. - библиогр. : С. 478-490»

УРОВНИ ЯЗЫКА

ФОНЕТИКА. ФОНОЛОГИЯ

2012.04.027. ПОТАПОВА Р.К., МИХАЙЛОВ В.Г. ОСНОВЫ РЕЧЕВОЙ АКУСТИКИ. - М.: ИПК МГЛУ «Рема», 2012. - 494 с. -Библиогр.: с. 478-490.

В книге освещаются проблемы речевой акустики, охватывающие широкий спектр вопросов электросвязи, информатики, психолингвистики, криминалистики и др.

Книга состоит из восьми глав.

Первая глава «Лингвистические закономерности звучащей речи» посвящена модели речевой коммуникации и ее системным свойствам, системе фонем русской речи, различительным признакам и их рангам, модели слухового восприятия звучащей речи.

Функционирование модели восприятия речи определяется основными системными свойствами речевой коммуникации. Модель распознавания звучащей речи действует на синтаксическом, просодическом и сегментном уровнях, которые взаимодействуют на основе принципа компенсации (замены) функций синтаксиса, лексики, интонации и различительных признаков звукотипов в данном семантическом и ситуационном контексте, поддерживаемом мимикой и жестами (принцип «что надо, а не что дано»).

Звуковые облики лексических единиц, устойчивых словосочетаний в речевом потоке определяются совокупностью признаков, описывающих ритмическую структуру и интонацию, и групповых различительных признаков звукотипов, а изолированных слов (слогов) - также частными различительными признаками. Соотношение между представленностью признаков в звучащей речи, как и их принадлежность к заданному уровню, весьма условны.

Вид речевого воздействия передается в звучащей речи с помощью лексико-грамматических средств, причем эмоциональная

окраска фразы обеспечивается набором слабоконтрастных просодических акустических средств: соотношением длительности и интенсивности сегментов в речевой структуре, паузами и др. В отличие от речевого воздействия эмоциональная установка представлена в звучащей речи контрастными акустическими признаками, обеспечивающими устойчивое перцептивное распознавание видов эмоций по изолированному фонетическому слову как носителями языка, так и иностранцами.

Глава вторая «Акустические параметры речевого сигнала» посвящена проблеме вариативности параметров, статистическим характеристикам акустических параметров, инвентарю акустических и перцептивных параметров.

Авторами предложена классификация факторов вариативности акустических параметров единиц речи по четырем основным группам: лингвистической, физиологической, экстралингвистической и технологической. Эмоционально-стилистические характеристики звучащей речи отнесены к лингвистической группе, а изменения характеристик речи при воздействии окружающих шумов, ситуации - к экстралингвистической.

Акустические параметры различительных признаков основных коррелятивных рядов имеют довольно устойчивые характеристики, обеспечивающие противопоставление групп фонем в фонологической системе по ранжированным признакам (в порядке снижения): твердый / мягкий, звонкий / глухой, сонорный / шумный, смычный / щелевой.

Описание речевого контитуума как психолингвистического явления в терминах перцептивных параметров приводит к членению речевого потока на сегментные единицы (звук, слово, синтагма, фраза), фонетическое качество которых представлено системой различительных признаков и их акустических коррелятов. Акустические параметры (в отличие от акустических коррелятов) не обладают в общем случае собственными критериями интерпретации значения сегментов, однако их изучение позволяет выявить существенные закономерности звучащей речи, необходимые для успешного применения фонетических знаний в области речевых технологий.

Акустические параметры находятся в сложной взаимосвязи с перцептивными. Перцептивные параметры, определяющие фоне-

тическое качество звучания - тембр, громкость, высота голоса, -соотносятся не с отдельными акустическими параметрами речи, а с их совокупностью - спектром, интенсивностью, частотой основного тона, длительностью ударных и безударных слогов. Некоторому акустическому параметру могут приписываться разные перцептивные характеристики, например частоте основного тона - высота голоса, четкость, тембральная окраска, плаксивость, хриплость, резкость.

Поскольку характеристики отражают те или иные свойства сигнала, то фонетическое качество звучания следует принять за обобщенную акустико-перцептивную характеристику звучащей речи. К обобщенной характеристике отнесены также четкость артикуляции (произношения), показателем которой является различимость звуков, слогов, а на семантическом уровне - внятность (разборчивость слов, фраз) и в данном ситуационном и семантическом контексте - смысл речевого высказывания. При этом соотношение между различимостью звуковых единиц и статистическими амплитудно-частотными характеристиками звучащей речи определяется условиями передачи и восприятия.

Глава третья «Методы цифрового кодирования речевого сигнала» включает в себя информацию о методах непосредственного кодирования, методах параметрического компандирования, методах анализа и синтеза источников речевых колебаний, применении вокодеров в системах связи (Интернет, 1Р-телефония).

Методы цифрового кодирования авторы разделяют на две группы: непосредственного кодирования формы речевой волны и параметрического компандирования, при которых кодируется не собственно речевой сигнал, а некоторый набор сигнал-параметров, отражающих артикулярные и спектрально-временные характеристики речи. Все выделители основного тона подразделяются на три группы: на основе использования временных свойств речевого сигнала, на основе частотных свойств речевого сигнала и комбинированные.

Методы выделения основного тона предполагают выполнение обработки речевого сигнала в два этапа: предварительной обработки и статических измерений с принятием решения о предполагаемом истинном значении основного тона. На первом этапе должно быть по существу обеспечено устранение (ослабление)

влияния речевого аппарата на колебания голосовых связок, при необходимости восстановлены нижние гармоники основного тона, отсутствующие в результате частотных (линейных) искажений, внесенных в речевой сигнал телефонным аппаратом (микрофоном) и линией связи, и приближенно (грубо) определено значение основного тона. Устройства, выполняющие указанные процедуры, представляют собой элементарные выделители основного тона.

В четвертой главе «Перцептивные параметры звучащей речи» рассматриваются методы измерения разборчивости речи, а также методы описания фонетического качества звучания.

Качество звучащей речи определяется совокупностью признаков, характеризующих естественность, узнаваемость, понятность, громкость, наличие посторонних призвуков и помех. Цель тестирования заключается в установлении степени соответствия качества звучания некоторым нормам, выявлении источников искажения и их устранения.

Тестирование звучащей речи осуществляется в интересах телефонии (оценка качества передачи для тракта связи), педагогики (обучение произношению на иностранном языке), медицины (выявление дефектов речи и слуха), криминалистики (идентификация личности по голосу) и др.

Таблицы должны отвечать ряду требований, обеспечивать однозначное соответствие между степенью разборчивости и основными параметрами речи - формантным распределением и качеством передачи, соответствовать звуковому и слоговому составу разговорной речи, обладать низкой запоминаемостью и хорошей однородностью, давать стабильные результаты с минимальным разбросом. Таблицы должны быть простыми в обращении, записываться буквами, а не знаками фонетической транскрипции.

Поскольку при сравнении ставится задача выявления способности моделей синтеза речи к адекватной передаче речевых сообщений, то весьма существенно отображение в речевых тестах всего многообразия эмоционально-стилистических различий. Для проведения измерений рекомендованы специально подобранные фразы.

Метод парных сравнений позволяет достаточно четко описать качество речи. Между альтернативными и балльными оценками качества, а также между оценками качества и разборчивости речи имеется тесная связь.

К признакам, воспринимаемым как механические искажения, отнесены: дребезжание, треск (хрип), призвуки, глухость, фон, а к признакам искажения речевых характеристик - картавость, гнусавость, плаксивость, нечеткость артикуляции и шепелявость.

Метод оценки качества по селективным признакам позволяет более точно описать небольшое различие в звучании речи по сравнению с методом парных сравнений.

Пятая глава «Методы описания акустических и перцептивных параметров по данным исследований синтезированной речи» включает информацию об эффективности параметрических моделей анализа-синтеза речи, методах анализа специфических искажений синтезированной речи, дифференциальной (пороговой) чувствительности слуха.

Определена точность выделения периодов основного тона из естественной и синтезированной речи при использовании в вокодере выделителя основного тона по фильтровому методу. Анализ точности выделения проводился путем подсчета относительного числа правильно выделенных периодов основного тона по осциллограммам стандартной фразы, прочитанной тремя дикторами-мужчинами. Оказалось, что точность выделения основного тона из естественной речи равна 92%, а из синтезированной - 77% (относительно пиков естественной речи), т.е. число ошибок во втором случае почти утроилось. При этом особенно много ошибок возникло на звонких согласных (ж, б).

Параметрические модели анализа-синтеза речи, применяемые в вокодерной связи и фонетических исследованиях, могут обеспечить целостность системы речевой коммуникации и адекватность звучания естественной и синтезированной речи. Критерием оценки качественных показателей моделей анализа-синтеза речи является коэффициент качества передачи.

В шестой главе «Методы автоматического распознавания речи» авторы рассматривают основные предпосылки при разработке методов автоматического распознавания речи, акустико-фонети-ческое декодирование речи, фонетическое декодирование с опорой на слог, дикторонезависимое распознавание изолированных слов, просодическую информацию в системах автоматического распознавания речи, распознавание речи на основе принципов сигнальной фонетики, ассоциативный бионический подход к декодирова-

нию речевого сигнала в распознающих системах, применение систем автоматического распознавания речи.

Системы распознавания должны выполнять: параметрическую обработку речевого сигнала, сегментацию, классификацию единиц речи на сегментно-просодическом и семантико-синтакси-ческом уровнях.

Все распознающие системы в той или иной форме должны выполнять декодирование устного речевого высказывания. При этом предполагается, что акустическому сигналу условно соответствуют дискретные последовательности языковых знаков, которые передают лингвистическую информацию. Последовательность знаков может быть представлена в фонетической транскрипции или на более высоком уровне в орфографической записи. При ограниченном словаре за минимальную единицу распознавания принимают слово.

Основополагающее значение имеет выбор системы признаков речевого сигнала, используемых для распознавания, а также вид речевого материала: изолированные слова или связная речь. При анализе речевого сигнала очень важно, с одной стороны, выявить его спектральные свойства, а с другой - учесть те временные процессы, которые существенны для восприятия.

В случае распознавания изолированных слов нетрудно установить начало и конец отдельного слова. Его акустические признаки будут определяться только данной реализацией. Однако в потоке речи осуществить сегментацию слов значительно труднее, так как между отдельными словами нет четкого разграничения, а акустические признаки отдельных звуков в словах и на границах слов подвергаются такому сильному влиянию соседних звуков, что точная фонетическая транскрипция становится невозможной. В связи с этим для распознавания приходится применять системы автоматического понимания, задача которых состоит в установлении смысла высказывания. Чтобы определить грамматическую и смысловую правильность высказывания в подобных системах, можно применить дополнительную информацию. При этом система может по смыслу целого правильно оценивать и даже дополнять плохо распознанные части высказывания, т.е. осмысленно «указывать».

Во многих системах распознавания речи используются только акустические характеристики сегментного уровня языка (глас-

ных, согласных, слогов в составе слова). Основным эталонным уровнем в этих системах является уровень слова, а записанная в память лингвистическая информация характеризует поступающее сообщение на словарном (лексическом) уровне.

Акустико-фонетическое декодирование представляет собой один из этапов автоматической обработки речи, целью которого является преобразование акустического сигнала в последовательность псевдофонетических дискретных единиц, т. е. в последовательность символов, эквивалентных, например, фонемам. Таким образом, основная задача состоит в сегментации речевого потока с использованием признаков деления, существующих в сигнале. В идеале каждый сегмент должен соответствовать определенной фонеме. Но в действительности одна и та же фонема может быть представлена последовательностью нескольких сегментов или частью сегмента, что затрудняет сегментацию сигнала.

В системах распознавания все чаще в качестве базовой единицы берется слог, так как коартикуляция соседних звуков локализуется внутри слога, что упрощает процесс сегментации, и число слогов ограничено.

В системах распознавания слитной речи с обширным словарем базовой единицей остается все же фонема. Принято условно считать, что всякая фраза в речи воспринимается как последовательность дискретных элементов, называемых фонемами, и достаточно определенного числа фонем, чтобы образовать любое слово в конкретном языке. По определению лингвистов, фонема - это наименьшая звуковая единица, влияющая на значение слова. Однако возникает трудность фонемной интерпретации звуковой волны. Акустическая реализация фонем отличается неустойчивостью и высокой вариативностью. На одну и ту же фонему могут влиять позиция, комбинаторика, коартикуляция, ударение, эмоции, скорость речеобразования, социальные характеристики диктора и т.д., приводящие к появлению вариантов, называемых аллофонами.

При декодировании речи в качестве эталона часто используется описание фонем с помощью фонетических или артикулятор-ных признаков. При этом постулируется, что эти признаки непосредственно коррелируют с акустической волной и работой органов артикуляции, участвующих в речеобразовании. При описании артикуляции звуки классифицируют обычно по следующим

основным признакам: 1) противопоставлению глухой / звонкий в зависимости от наличия / отсутствия вибрации голосовых связок; 2) способу артикуляции, представляющему механизм преодоления преграды при образовании звука; 3) месту артикуляции, соответствующему положению тела языка и других активных речевых органов; 4) степени открытости звука; 5) степени напряжения речевого тракта.

Оценка и сравнение систем распознавания слитной речи на фонетическом уровне представляют значительную сложность по многим причинам: число идентифицируемых фонем изменяется в зависимости от языка; степень распознавания - от диктора и типа фраз (это могут быть изолированные слова, подготовленная речь, спонтанная речь и т.д.). Однако средний коэффициент ошибок при сегментации и распознавании речи определить можно.

При разработке систем автоматического распознавания речи все большее распространение получает метод использования слоговой информации. В настоящее время известны три подхода к автоматическому распознаванию речи с опорой на слог: 1) речь, поступающая на вход системы, сегментируется на участки, подобные слогу, которые далее сопоставляются с хранящимися в памяти эталонами слогов; 2) синтезированные из слогоподобных сегментов слова сопоставляются с вводимыми в систему словами; 3) речевой сигнал, поступающий на вход системы, анализируется, разбивается на звукоподобные (или более мелкие) сегменты, которые затем объединяются в слоговые единицы.

Результаты экспериментов свидетельствуют о том, что при восприятии речи человек руководствуется не только акустическими данными. Более того, звуки, характеризующиеся одинаковыми акустическими параметрами, могут восприниматься как разные. В то же время разные звуки могут иметь сходные, а иногда и идентичные акустические параметры. Исследование в области восприятия гласноподобных стимулов показало, что синтезированные гласноподобные стимулы с варьирующими значениями первой и второй формант могут восприниматься как один и тот же звук, и наоборот - стимулы, имеющие одинаковые акустические параметры, могут восприниматься как разные звуки. Таким образом, акустическая информация сама по себе не является решающей для правильного восприятия и понимания сообщения. Особую роль в

данном случае приобретает семантическая информация, поскольку сам акт коммуникации предполагает передачу и определение смысла высказывания.

Результаты многочисленных опытов показали, что интерпретация речевого высказывания - это активный процесс, следствие сложной поведенческой деятельности человека. На понимание сообщения оказывает воздействие совокупность факторов высшего порядка: знание априорного характера, опыт, учет ситуации общения, социальный ценз и др. Дополнительно к входному акустическому сигналу слушающий в процессе восприятия и интерпретации сообщения использует различные источники информации, ситуацию, контекст, невербальные ориентиры, структуру языкового высказывания (лексическую, синтаксическую, фонетико-фонологи-ческую), прошлый опыт в данной области и т.д.

В седьмой главе «Автоматическое распознавание говорящего по голосу» представлен материал о теории и практике автоматического распознавания говорящего по голосу, текстозависимой верификации говорящего, текущей верификации говорящего, идентификации говорящего по фонограмме речи, адаптации к голосу диктора, верификации диктора по речевому сигналу в условиях акустических помех.

В основу алгоритма автоматической идентификации говорящего по фонограмме речи положена идея о том, что в условиях незащищенности от помех и вариативного представления речевого сигнала поиск индивидуальности голоса следует вести не по всему сигналу, а по участкам, наименее подверженным возмущающим влияниям извне и одновременно с этим наилучшим образом отражающим тембральные и тональные свойства голоса. Такими участками, естественно, являются гласные звуки, и в особенности ударные гласные, которые, кроме этого, нередуцированны и стойки к коартикуляциям с соседними фонемами.

Описание голоса большим набором таких опорных сегментов в случае статистически представительного по длительности анализируемого фрагмента фонограммы речи гарантирует представление голоса с помощью разнотипных гласных фонем, что, в свою очередь, обеспечивает сопоставимость различных по содержанию фрагментов фонограмм речи, принадлежащих тем или иным говорящим.

Глава восьмая «Методы синтеза речевого сигнала» включает в себя информацию по истории синтеза речи (основные методы синтеза речи), автоматическому преобразованию «текст - речь», о синтезе по правилам, по применению систем автоматического синтеза речи.

Методы синтеза, по мнению авторов, подразделяются на три основных вида: параметрический синтез, синтез по правилам, цифровое кодирование формы волны.

Преобразование письменного текста в устную (звучащую) речь выглядит следующим образом: на начальном этапе анализируется текст с целью выявления структуры предложения и фонемного состава каждого слова. Затем это абстрактное лингвистическое представление преобразуется в форму речевого сигнала. Вышеуказанные процессы тесно связаны с моделями речеобразо-вания и акустическими характеристиками речи.

Фонологический процессор работает снизу вверх при использовании правил низшего уровня, анализируя каждое слово отдельно до получения структуры фонологического слова. Он также работает сверху вниз при применении правил высшего уровня для формирования структуры высшего порядка, т.е. интонационной группы. Для этого фонологический процессор оперирует правилами, с помощью которых преобразуются одно или несколько фонетических слов, объединяясь в интонационную группу, а также правилами, определяющими интонационный центр высказывания. Обе операции зависят от правил построения интонационных групп и присвоения фокуса. По правилам построения интонационных групп они должны формироваться так, чтобы в достаточной мере принимались во внимание фонологические, синтаксические, а также семантические факторы.

В распоряжение фонологического процессора необходимо представить синтаксическую и семантическую информацию. Фонологическая информация используется для таких высказываний, как простое повествовательное предложение, повелительное предложение, специальный вопрос: общий вопрос, вопрос-повторение, где интонационные группы могут быть построены без применения структурной информации или непосредственно применены правила ядерного ударения. Последние формулируются следующим образом: в пределах одной интонационной группы все основные уда-

рения, за исключением самого крайнего справа, должны быть сокращены до второстепенного ударения.

Лексическая информация также важна для опознавания логических операций, которые стимулируют эмфатическое ударение и притягивают интонационные центры высказывания в свою область, обычно передвигая их влево. Эти лексические единицы являются такими словами, как нет, больше, много, все, также и т.д. Они модифицируют смысл высказывания и притягивают интонационный центр к первому фонетическому слову.

Вторая группа правил связана с определением логического фокуса в соответствии со структурной информацией. При этом фонологический процессор должен получить синтаксические функциональные данные относительно тех составляющих, которые были перемещены влево. Структуры большей продолжительности, такие как вопросы, относительные местоимения, перерывы, обособления и т.п., легко опознаются с помощью переменных, представляющих непосредственно доминирующие метапеременные, определяемые в лексиконе как признаки субкатегоризации, или/и метапеременные, ограниченные номинацией.

Сегменты, соответствующие переходам между звонкими согласными и гласными, нормируются. Эти вычисления позволяют получать более быструю и естественную речь путем изменения при синтезе интенсивности, длительности, частоты основного тона в соответствии с данными, получаемыми из фонологического процессора. Фонологический процессор преобразует входящую цепочку букв, представляющих синтезируемое предложение, в соответствующую цепочку фонем и выдает список маркеров, относящихся к длительности, ритму и изменениям частоты основного тона и обобщающих весь процесс обработки. Фонологический процессор расставляет ударения и просодические маркеры, которые отражают изменяющуюся акустику открытых и закрытых слогов, редукцию гласных звуков, стыки и т.п. Они же используются для управления просодическими параметрами синтезированной речи на уровне фонетического слова, интонационной группы синтагмы и предложения (фразы).

В.В. Потапов

i Надоели баннеры? Вы всегда можете отключить рекламу.