УДК 004.934.2
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ НЕЧЁТКОЙ ЛОГИКИ
© 2012 г. И.Ю. Беликов
Южно-Российский государственный South-Russian State
технический университет Technical University
(Новочеркасский политехнический институт) (Novocherkassk Polytechnic Institute)
Описывается фонемная модель русского языка. Предлагается метод классификации на основе бинарного дерева решений и нечеткой логики. Выделяются фонетические классы по акустико-фонетическим свойствам речевого сигнала. В результате исследования получены признаки фонемных классов, уточнен состав фонем внутри классов.
Ключевые слова: фонемная модель речи; нечеткая логика; бинарное дерево решений; акустические свойства речи.
This article describes phonemic model of the Russian language. We propose a method of classification based on the binary decision tree and fuzzy logic. Phonetic classes are distinguished by acoustic-phonetic properties of speech signal. A result of research obtains criteria for phoneme classes of phonemes within the specified classes.
Keywords: classification of speech; phonemic speech model; fuzzy logic; a binary decision tree; the acoustic properties of speech.
Важной задачей в сфере информационных технологий является классификация речи, иными словами распознавание речевых сигналов. Большое внимание уделяется проблеме идентификации команд. Однако задача классификации непрерывной речи человека является наиболее сложной и актуальной. Существует множество теорий классификации образов, нацеленных на определенный вид речевых моделей. В данной статье речь идет о фонемной языковой модели.
Фонема представляет собой условно неделимую единицу речи. Под фонемной моделью речи, исходя из источников [1-3], следует понимать речевой сигнал вида:
5 (^ =¿Q(Дtи) + (Дп), (1)
т=1 п=1
где 5- речевой сигнал; Q(Дtm) - шумовая компонента среды, вызванная любыми источниками помех; Rn (Дп) - присутствие п-й фонемы на данном
отрезке; k - конечное число фонемных образов в данной речевой модели; I - число интервалов между фонемами. В формуле берется интервал времени Дtn , как некоторый отрезок, определяющий временной интервал существования фонемы. Интервал времени Дtm указывает как на речевую паузу (отсутствие
полезного сигнала), так и на шум окружающей среды. Сумма в формуле (1), в виде склеивания элементов, объясняется физиологическим восприятием человеком речевых сигналов. Необходим некоторый временной интервал для накопления ощущения и определения фонемы или паузы.
В случае достаточно большого присутствия шумовой компоненты в сигнале требуется условие для разделения двух слагаемых - энергия фонемы должна быть на порядок выше энергии шума. В сигнале в один и тот же промежуток времени может находиться несколько достаточно близких трудноразличимых фонем [2], это обусловлено коэффициентом п в урав-
нении. С точки зрения акустико-фонетической теории, человек не использует инвариантное к диктору описание сигнала, обеспечивающее идентификацию всего алфавита фонем. Вероятнее всего, он использует описание, которое позволяет уверенно различать лишь группы неразличимых фонем.
Одно из важнейших свойств слуха - принцип накопления ощущения. Исходя из этого принципа при анализе фонемы невозможно выделить её главные и второстепенные временные участки. Все элементы в цепочке в той или иной мере вносят вклад в формирование ощущения. В модели строится распределение текущего ощущения по времени. Находятся максимумы этого распределения, на основе чего делается вывод об итоговом ощущении фонемы. Моделируемые при таком подходе процессы наиболее хорошо согласуются с теми процессами, которые происходят в слуховой системе человека при распознавании речи [3].
Таким образом, если и существует пространство, в котором априорное распределение признаков для классов не зависит от диктора, то этими классами являются не отдельные фонемы, а группы неразличимых фонем. Фонемная модель любого языка должна состоять из конечного набора фонем. Русский язык характеризуют основные 27 фонем, из них 6 фонем гласных: {а, а'}, {о, о'}, {и, и'}, {у, у'}, {ы, ы'}, {э, э'}; 21 фонема согласных: {п, п'}, {б, б'}, {т, т'}, {д, д'},{ к, к'}, {г, г'}, ц, ч, й, {ф, ф'}, {в, в'}, {с, с'}, {з, з'}, ш, щ, ж, {х, х'}, {м, м'}, {н, н'}, {л, л'},{ р, р'}. Если учитывать штрих вверху - ударность, то всего получаем фонем 48. Как правило, многообразие звуков получается путем композиции нескольких фонем (например, звук «я» получается путем склеивание фонем «й» и «а»).
Задача фонемного анализа непрерывной речи сводится к двум этапам:
1. Деление на фонемные классы;
2. Определение наиболее вероятной фонемы внутри класса.
Любой звуковой сигнал, являющийся звуковым сигналом русской речи, можно разбить единственным образом на участки двух видов: квазистационарные и переходные [3, 4]. Квазистационарные участки соотносятся к области нахождения фонемных образов с большей вероятностью, а переходные - те участки, на которых могут присутствовать несколько фонем с равной степенью вероятности, либо вообще отсутствовать принадлежность к определенному образу фонемы. Порядок следования фонем соответствует порядку следования звуков в слове или команде.
Фонемное представление анализируемого сигнала выбирается таким образом, что все квазистационарные участки анализируемого речевого образа принадлежат конечному числу фонемных классов. То есть частотно-временной спектр вейвлет-преобразования Хаара [5, 6] гарантирует с большой вероятностью принадлежность квазистационарного участка к определенному классу фонем. Для каждого звукового сигнала можно произвести классификацию всех областей на определенный вид классов [3]. Полученный результат является кодом сигнала, который впоследствии может быть проанализирован для получения алфавитной интерпретации речевого сигнала.
Представленная выше модель дает возможность формально описать структуру речевого сигнала, представленного на рис. 1. В качестве единиц структуры используется фонемный элемент Rn (Д:п), где п е (1, k).
Полное время речевого сигнала записывается как t = Дt1 + Д:2 + Дtз + Д:п . Временные промежутки Д^,
Дtз, Д:п соответствуют полезному сигналу - некоторым фонемам. Интервал Д:2 может быть как шумом, так и отсутствием сигнала. Внутри фонемные переходы Р", Р2п характеризуют неустойчивое преобладание текущей фонемы в данный момент времени. Однако присутствие другой фонемы с большей вероятностью носит внутриклассовый характер. Участок Кп является квазистационарным. Учитывая то,
что R1(Дt1) = р + К1 + Р21, R2(Дt3) = Р12 + К2 + Р22, Rn (Д:п) = Р1п + Кп + Р2п , структуру сигнала, представленную на рис. 1, можно записать в виде:
5 (:) = Rl (Д:1) + Q(Дt2)+R2 (Дз)+Rn (Д:п).
Интервал Д:2 с такой точки зрения можно учитывать так же в качестве перехода между слогами или словами, в зависимости от его длительности. С точки зрения практического использования, представленная модель интересна следующими свойствами: конечный и небольшой набор минимальных речевых образов, универсальность максимально приближена к физиологической природе интерпретации речевого сигнала [4], возможность использования для представления других языков.
Классификацию фонем следует проводить по их акустико-фонетическим свойствам. В своих ранних трудах ученые Р. Якобсон, Г. Фант и М. Хале [7] описывают признаки разделения фонем на определенные классы. Они используют в качестве параметров зоны формирования звуков в речевом тракте человека. Основные параметры, представленные в таблице, вносят определенные ограничения на местонахождение информативных признаков каждого класса в спектрально-временном представлении сигнала.
Рис. 1. Структурное представление речевого сигнала
Признаки речевых сигналов
№ п/п Признаки звучности и тона Акустическая характеристика Артикуляционная характеристика
1 Гласный / негласный Наличие/отсутствие формантной структуры Возбуждение голосовых связок
2 Согласный / несогласный Низкий/высокий уровень энергии Наличие/отсутствие преграды в голосовом тракте
3 Звонкий / глухой Наличие/отсутствие гармонических колебаний Наличие/отсутствие колебания голосовых связок
4 Напряженный /ненапряженный Более/менее отчетливые резонансные области в спектре Большая/меньшая деформация голосового тракта
5 Носовой / ротовой Широкая/узкая полоса энергии спектра К ротовому резонатору добавляется носовой
Внутренние различительные признаки, обнаруженные на данный момент в различных языках мира, лежат в основе их лексического и морфологического состава и сводятся к ряду правил. Все внутренние признаки делятся на два класса, которые могут быть названы признаками звучности и признаками тона; признаки первого класса родственны просодическим признакам силы и количества, признаки второго класса - просодическим признакам высоты тона. Признаки звучности основаны на различиях в количестве и концентрации энергии в спектре и во времени. Признаки тона основаны на различных краевых характеристиках частотного спектра. Классификация артикуляционных данных должна проводиться с учетом акустической системы.
С учётом сказанного на рис. 2 показана классификация фонем на основные группы с помощью бинарного дерева решений [8].
классе не шумные. Класс сонорных приобрел разделение на носовые и голосовые, из-за проявившихся слабых отдельных свойств таких фонем как 'и', 'у', 'ы'. Это не противоречит физическому способу формирования. Эти фонемы являются больше носовыми гласными, чем голосовыми. Фонемы 'м', 'н', 'л', 'р' были сгруппированы в общий подкласс носовых.
До этого момента фонемное бинарное дерево не имело полного описания правил перехода между его ветвями. Существовало лишь четкое разделение между глухими и звонкими, которое заключалось в преобладании энергии выше или ниже уровня в 1200 Гц. Шипящие от взрывных отличались продолжительностью и временным усилением частотных областей. Разделение между гласными и сонорными заключалось в интенсивности спектра возле первой формант-ной частоты. Отдельная работа велась по описанию разделительных признаков среди гласных фонем, так как они имели четко выраженную формантную структуру и ее переходы [9].
В ходе исследований, в результате использования быстрого алгоритма вейвлет-преобразования Хаара [6] и градиентного метода поиска формантных частот, был установлен ряд правил и условий перехода между ветвями бинарного дерева. Обнаружение речи сводилось к измерению энергии первоначального режима работы (которое характеризует энергию шума в окружающей среде) и текущей энергии сигнала. Разделение на класс глухие или звонкие происходит по концентрации энергии в пределах 1,2 - 1,3 кГц. Глухие фонемы содержат большую часть энергии в области высоких частот, а звонкие в области низких. Так как в области высоких частот избирательность базилярной мембраны человека строится не на точном определении частоты, а на группе частот, было предложено анализировать определенные частотные области. Для разделения шипящих и не шипящих используется сравнение в областях энергии 8 - 2 и 2 - 1 кГц [2]. Звонкие в свою очередь делятся на шумные и не шумные по принципу сравнения частот 8-1,5 и 1,4 - 0,5 кГц [2, 3]. Не шумные делятся на голосовые и сонорные в результате анализа уровней 1,0 - 0,7 и 0,4 - 0,1 кГц [8].
Для определения вероятности нахождения фонем внутри класса использовалась нечеткая логика с Г-функцией [10], имеющей следующий вид:
, Ь - х
1--, а < х < Ь;
Рис. 2. Бинарное дерево классификации фонем
Предлагаемая на рис. 2 структура бинарного дерева отличается от эталонного, представленного в работах Р. Якобсона. В области глухих фонема 'ц' перешла в класс шипящих, а фонема 'х' из шипящих перешла в класс не шипящих. Внутри класса шипящих фонема 'ш' перешла в подкласс низких и стала рядом с фонемой 'ф'. Класс не шипящих разделился на два подкласса - взрывных и не взрывных, благодаря фонеме 'х'. Изменение произошло в области звонких фонем, в
F (х) =
b - a
, х - c ,
1--, b < х < c;
c-b
0, иначе.
При (Ь - а) = (с - Ь) имеем случай симметричной треугольной функции принадлежности, которая может быть однозначно задана двумя параметрами из тройки (а, Ь, с). В ходе многочисленных экспериментов были получены параметры Г-функции для ряда фонем. Например, для голосовых гласных 'а', 'о', 'э', представленных на рис. 3.
На рис. 3 верхняя часть является нормой для отношения третьей формантной частоты к первой, нижняя часть отображает зависимость отношения второй форманты к первой. В точках пересечения линий вероятность фонем одинакова. Для точного определения голосовых фонем необходимо два представленных отношения формантных частот. Глухие не шипящие фонемы 'к', 'т' имеют нормы принадлежности, представленные на рис. 4.
В данном случае используется отношение энергии уровней 500 - 150 Гц. Для точного определения необходимо анализировать отношение областей 1,6 - 1,0 и 8 - 3 кГц. Преобладание энергии в первой области характерно для фонемы 'к', а во второй для
фонемы 'т'. Для получения фонемного кода используется принцип накопления ощущения фонемы. Для фонем, представленных рис. 3, этот диапазон находится в пределах 0,063 с [8], так как фонема носит протяженный характер. Фонемы, представленные рис. 4, являются взрывными, и время протяженности для них составляет примерно 0,003 с [8].
Фонемный код речевого сигнала 'каша' отображен на рис. 5. При этом в верхней части рисунка представлен сам фонемный код, а в нижней - вероятность появления фонем. При формировании кода выбирались фонемы с максимальным накоплением вероятности при межклассовом переходе бинарного дерева.
«Э» «О» «А»
«А» «О» «Э»
Рис. 3. Параметры треугольной нормы для голосовых фонем
«т» «К»
Рис. 4. Параметры треугольной нормы для глухих не шипящих фонем
Рис. 5. Фонемный код слова 'каша'
В заключение можно отметить, что фонемная модель в совокупности с представленными методами классификации производит вероятностный фонемный анализ речевого сигнала. Использование бинарного дерева решений позволяет произвести поиск фонемных групп с минимальным количеством операций. Нечеткая логика, наиболее подходящая для случайных процессов, позволяет реализовать принцип накопления фонетического ощущения звуков. Дальнейшее исследование заключается в оптимизации полученных методов и алгоритмов, адаптации к индивидуальным особенностям диктора, применение полученных результатов в системах квазиреального времени на программируемых логических интегральных схемах.
Литература
1. Фант Г. Акустическая теория речеобразования. М., 1964. 284 с.
Поступила в редакцию
2. Кельманов А.В. О некоторых проблемах построения систем распознавания инвариантных к диктору // Тезисы АРСО-15, Таллинн, 1989. С. 103 - 104.
3. Кириллов С.Н., Стукалов Д.Н. Анализ речевых сигналов на основе акустической модели // Техническая кибернетика. 1994. № 2. С. 147 - 153.
4. Чистович Л.А., Венцов А.В., Гранстрем М.П. Физиология речи. Восприятие речи человеком. СПб., 1976. 388 с.
5. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. СПб., 1999. 204 с.
6. Беликов И.Ю., Ковалев О.Ф. Алгоритм поиска резонансных частот в одномерных сигналах // Результаты исследований - 2011 : материалы 60-й науч.-техн. конф. профессорско-преподавательского состава, науч. работников, аспирантов и студентов / Юж.-Рос. гос. техн. ун-т (НПИ). Новочеркасск, 2011. С. 25 - 26.
7. Звегинцев В.А. Новое в лингвистике. Вып. 2. М., 1961. 637 с.
8. Сапожков М.А. Речевой сигнал в кибернетике и связи. М., 1963. 451 с.
9. Фланаган Д.Л. Анализ, синтез и восприятие речи. М., 1968. 392 с.
10. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы. М., 2007. 383 с.
1 марта 2012 г.
Беликов Иван Юрьевич - аспирант, кафедра «Электронные вычислительные машины», Южно-Российский государственный технический университет (Новочеркасский политехнический институт). Тел. 8-918-899-59-91. E-mail: [email protected]
Belikov Ivan Yuryevich - post-graduate student, department «Computer machines», South-Russian State Technical University (Novocherkassk Polytechnic Institute). Ph. 8-918-899-59-91. E-mail: [email protected]