УДК 004.934
СИСТЕМНЫЙ ПОДХОД К ПРИНЯТИЮ РЕШЕНИЙ И ОБРАБОТКЕ РЕЧЕВОЙ ИНФОРМАЦИИ НА ОСНОВЕ МЕТОДА НЕЧЕТКОГО ФОНЕТИЧЕСКОГО КОДИРОВАНИЯ
Л.В. Савченко
В статье рассматривается применение методологии системного анализа к задаче распознавания речи в автономных технических и информационных системах с голосовым интерфейсом. На основе теоретико-информационного подхода разработан новый вычислительно эффективный алгоритм принятия решений и обработки речевой информации с нечетким фонетическим кодированием, в котором, в отличие от традиционных подходов с построением отдельных акустических моделей для каждого вида минимальных речевых единиц типа отдельных фонем, предлагается рассматривать взаимосвязи между различными фонемами. Представленный алгоритм реализован в информационной системе интеллектуальной поддержки принятия решений для обработки речевой информации, приведена ее функциональная схема. Для повышения эффективности и надежности голосового интерфейса на предварительном этапе предложено выполнить обучение оператора стабильному произношению каждой фонемы. Представлены результаты экспериментального исследования точности и быстродействия разработанного алгоритма в задаче распознавания изолированных слов русского языка в сравнении с методами на основе скрытых марковских моделей и глубоких нейронных сетей. Показано, что предложенный подход существенно превосходит традиционные методы распознавания речи не только по точности, но и по времени распознавания и затратам памяти для хранения акустической модели
Ключевые слова: системный анализ, обработка речевой информации, нечеткое фонетическое кодирование, теоретико-информационный подход
Введение
В последнее время появляется все большее число информационных и технических систем, которые непрерывно осуществляют анализ состояния сложных прикладных объектов и используют полученную информацию для последующего управления этими объектами [1]. При этом нередко пользователю необходимо обеспечить доступ к подсистеме управления, чтобы вносить корректировки в автоматически принимаемые решения. В связи с тем, что непосредственный доступ к управляемому объекту может быть затруднен, при обеспечении коммуникации с удаленными объектами все чаще используется голосовые интерфейсы.
Существующие технологии трансформации речи в текст, такие как скрытые марковские модели (СММ), модели гауссовских смесей (МГС), глубокие нейронные сети (ГНС), реализуются и оказываются недостаточно эффективными для практического применения в автономных технических системах с повышенными требованиями к надежности и безопасности. Точность распознавания сильно варьируется при наличии разнообразных акустических помех, акцента, дефектов речи, изменении физического и эмоционального состояния пользователя. Несомненный интерес здесь представляет применение в настоящей работе методологии системного анализа и теоретико-информационного подхода в рамках принципа минимума информационного рассогласования Кульбака-Лейблера [2] для повышения эффективности автономных систем принятия решений.
Савченко Людмила Васильевна - НГЛУ, ассистент, e-mail: LyudmilaSavchenko@yandex.ru
Системный анализ технических систем с голосовым интерфейсом
Построение голосового интерфейса технических и информационных систем обычно сводится к решению задачи распознавания речи, которая состоит в том, чтобы распознаваемому речевому сигналу поставить в соответствие наиболее близкое слово (фразу) из словаря. Следуя методологии системного анализа, в настоящей работе формулируется проблемная ситуация недостаточной эффективности распознавания изолированных слов (например, команд в системах голосового управления) с использованием существующих речевых технологий в автономных системах с повышенными требованиями к надежности и безопасности. Цель работы состоит в снижении вероятности ошибочного распознавания а , вычислительной сложности (среднего времени) принятия решений I, а также затрат памяти г, необходимой для хранения акустических моделей. Для достижения поставленной цели необходимо:
- решить задачу повышения точности и времени распознавания изолированных слов на основе представления модели фонемы как нечеткого множества минимальных речевых единиц и асимптотически нормального распределения Кульбака-Лейблера [2];
- реализовать предложенный алгоритм в рамках информационной системы принятия решений и обработки речевой информации для русского языка;
- провести экспериментальные исследования эффективности разработанного подхода в задаче распознавания изолированных слов.
По результатам аналитического обзора литературы было выявлено крайне незначительное число методов, приемлемых для реализации голосового интерфейса в автономных технических
системах на малопроизводительном оборудовании. В частности, на основе теоретико-информационного подхода и принципов слоговой фонетики был разработан метод фонетического кодирования слов (ФКС) [3], который позволяет выполнить быструю адаптацию на голос нового диктора. При этом, как известно [4], для повышения вычислительной эффективности информационное расстояние Кульбака-Лейблера между спектральными мощности речевых сигналов можно оценить с помощью выхода обеляющего фильтра (ОФ). Нами были выделены следующие недостатки метода ФКС [5]: за счет объединения близких фонем в один кластер на выходе алгоритма распознавания существует много альтернативных решений и при распознавании не учитываются согласные звуки.
Алгоритм принятия решений и обработки речевой информации с нечетким фонетическим кодированием
Для преодоления указанных недостатков в настоящей статье предлагается воспользоваться методологией системного анализа. В отличие от традиционных подходов, в которых сложный объект - фонема описывается с построением отдельных акустических моделей для каждого вида минимальных речевых единиц типа отдельных фонем, в настоящей работе предлагается рассматривать взаимосвязи между различными фонемами. Предложен новый вычислительно эффективный алгоритм принятия решений и обработки речевой информации с нечетким фонетическим кодированием слов (НФКС) [5], в котором фонема описывается как нечеткое
множество минимальных речевых единиц (МРЕ)
* * —
г, /. (xг))}, г = 1, R, где г - номер фонемы из
ФБД объемом R, а /. (x г) - степень
принадлежности эталона x г к .-ой фонеме, которая
оценивается как условная вероятность Р ^ . / x г)
того, что объект г-ого класса оказался ближайшим соседом .-го эталона [5]. Предложенный алгоритм представлен в табл. 1.
Таблица 1
Алгоритм принятия решений и обработки речевой информации с нечетким фонетическим кодированием
Входные данные: речевой сигнал Х, ФБД
*
эталонных фонем x г, словарь {X ^}.
*
Выходные данные: слово из словаря X
Продолжение табл. 1
1. Вычислить границы слогов (г^^,) с
точностью до номера сегмента с помощью алгоритма амплитудного детектора.
2. Для каждого выделенного слога п = 1, N
2.1. Выполнить сегментацию п-го слога
2.2. Для каждого выделенного сегмента
k = 1, К
п
2.2.1. Поставить каждому к-му сегменту в соответствие определенный тип звука (гласный, звонкий, сонорный, глухой, шипящий)
2.3. Найти индекс сегмента кп гласного
звука
2.4.
Для
каждого
фрейма
t = П (кп), (кп) гласного звука кп
2.4.1. Вычислить индекс у(г) ближайшей
фонемы-эталона x г по принципу минимума
информационного расстояния Лейблера:
Кульбака-
у(г) = argmin рК11 x(t)/xг г = 1,Т г £ {1,...,R}
2.4.2. Для каждого г = 1, R 2.4.2.1. Вычислить /п (г):
(г ):
1
г
/ЛЧ =
№ - ^ +1 г г п п г = г
(2)
2 /(г, г), (1)
п
где /(г, г) = тш/^) ^ г), /(x(t) / x г)).
3. Для каждого слова X ^ из словаря выполнить
3.1. Если количество слогов N в распознаваемом слове совпадает с количеством
слогов ¿1 слова из словаря, то 3.1.1. Вычислить /:
/I
8(Ь1 - N)• 2 /п (г,п )
п = 1
где 8( х) - дискретная дельта-функция.
3.1.2. Определить количество совпадений фонетических классов к^
3.1.3. Вычислить модифицированную степень принадлежности слова /:
ul = 1
Окончание табл. 1 j + ki • Aj, j + ki • Aj < 1
1, j + ki ■ Aj > 1 *
4. Найти ближайшее слово X с максимальной
степенью принадлежности j:
*
X = argmax j. l e {1,...,L}
В этом алгоритме для уточнения полученного решения используются выделенные с помощью алгоритмов машинного обучения сегменты согласных звуков [6], описываемых с помощью таких акустических признаков, как длительность сегмента, отношение максимальной амплитуды фонемы к максимальной амплитуде содержащего ее слога и частота, при которой спектральная мощность сигнала принимает максимальное значение. Параметр Д¡л подбирается экспериментально для каждого класса согласных
звуков. На предварительном этапе пользователя необходимо обучить стабильному произношению всех эталонных звуков. Для этого в работе [5] была предложена модификация метода НФКС, где в отличие от задачи распознавания заранее известен класс звука.
Архитектура информационной системы
В настоящем разделе рассмотрим архитектуру информационной системы интеллектуальной поддержки принятия решений для обработки речевой информации на основе алгоритма НФКС, которая реализует следующие функции:
- автоматическое распознавание речи на основе алгоритма НФКС с фонемной сегментацией речевого сигнала и классификацией согласных фонем;
- автоматическое формирование словаря для метода НФКС по текстовому файлу;
- предварительное обучение пользователя стабильному произношению эталонных фонем;
- возможность сохранения в ФБД нескольких эталонных звуков.
Функциональная схема системы представлена на рисунке.
<
Микрофон
Функциональная схема разработанной информационной системы
Здесь речевой сигнал поступает с микрофона в блок звукозаписи, где происходит его запись и автоматическое сохранение в нужном формате. Получившийся звуковой файл поступает в блок обработки информации, где осуществляется его предварительная обработка (удаляются паузы в начале и в конце сигнала), разбиение речевого сигнала на фреймы и фонемная сегментация, после чего для каждого фрейма извлекаются акустические признаки и вычисляется мера близости с эталонами из ФБД. На вход блоку формирования словаря подается блок постановки произношения (пользователь обучается
стабильному произношению эталонных фонем), затем выполняется фонетическое кодирование команд. Выход блока обработки и транскрипция
эталонных команд попадают на вход блока принятия решений на основе предложенного алгоритма НФКС.
Результаты экспериментальных исследований
Рассмотрим задачу распознавания изолированных слов русского языка на основе предложенного подхода в сравнении с базовым методом ФКС и традиционными системами распознавания: реализация СММ с МГС в библиотеке СМи Pocketsphinx и акустические модели на основе ГНС из фреймворка Ка№. В качестве ФБД использовались 10 гласных звуков, произнесенных одним диктором после предварительного этапа обучения произношению.
Словарь содержит 1900 наименований лекарств, продаваемых в одной аптеке Нижнего Новгорода. В эксперименте принимали участие 12 дикторов (8 мужчин и 4 женщины). Каждый из них произносил по 200 изолированных слов из словаря. Распознавание слов осуществлялось в метрике Кульбака-Лейблера и ОФ. Кроме того, использовался традиционный подход с сопоставлением кепстральных коэффициентов (MFCC, Mel-Frequency Cepstral Coefficients) в метрике Евклида. Частота дискретизации речевого сигнала равна 8 кГц, порядок АР-модели />=12, длительность одного фрейма составила М=120 отсчетов или т = 15 мс по времени, отношение сигнал/шум равно 20 дБ. В таблице 2 приведена усредненная по всем дикторам оценка вероятности ошибки распознавания, средняя длительность распознавания однослоговой команды и объем, необходимый для хранения акустической модели. Для оценки последнего показателя предполагается, что вещественное число занимаем 4 байт.
Таблица 2
Сравнение систем распознавания
изолированных слов русского языка
а , % t , мс z, Кб
СМ МГС 20,2±5,6 180±1,2 21335
М ГНС 19,5±6,5 290±1,5 98095
Евклида/ MFCC 15,0±3,0 25±0,1 1,6
ФКС Кульбака-Лейблера/ СПМ 13,0±3,2 118±0,8 160
ОФ 16,5±2,6 17±0,1 0,5
Пред- Евклида/ MFCC 12,0±1,8 29±0,2 2
ложен -ный алгоритм Кульбака-Лейблера/ СПМ 9,5±2,3 125±0,6 160,4
ОФ 12,0±3,4 21±0,2 0,9
Из таблицы видно, что предложенный подход на основе операций с нечеткими множествами превосходит по точности распознавания традиционные методы на 10-13% и базовый метод ФКС на 3-6%. Методы распознавания ФКС и НФКС на основе теоретико-информационного подхода значительно превосходят традиционные системы распознавания по вычислительной сложности и объему памяти, необходимой для хранения акустической модели. Предложенный подход по этим показателям незначительно уступает методу ФКС за счет дополнительных
затрат на операцию нечеткого пересечения (п. 2.4.2.1 в табл. 1).
Заключение
В настоящей работе предложен новый системный подход к принятию решений и обработки речевой информации на основе алгоритма с нечетким фонетическим кодированием. С помощью разработанной информационной системы был проведен ряд экспериментальных исследований. Показано, что предложенный подход на 3-6% превосходит по точности распознавания базовый метод ФКС и на 10-13% традиционные системы распознавания. Предложенный подход существенно превосходит по времени и объему хранения акустической модели традиционные системы распознавания. Поэтому он может служить прототипом автономных технических систем голосового управления на малопроизводительном
оборудовании. Например, когда необходимо оператору использовать дополнительный (как правило, дублирующий) канал управления и информации в сложных ситуациях, когда его руки и ноги заняты, а зрение перегружено. В частности, с помощью речи можно осуществить резервное управление бортовым оборудованием,
измерительными системами и индикаторами, а также производить запрос навигационных или иных данных и получать информацию (предупреждение) об аварийных ситуациях.
Исследование выполнено при поддержке гранта Президента РФ МД-306.2017.9.
Литература
1. Benesty, J. Springer Handbook of Speech Recognition / J. Benesty, M. Sondh, Y. Huang. N. Y.: Springer,- 2008.- 1159 p.
2. Kullback, S. Information Theory and statistics / S. Kullback // Dover Pub. 1997. 399 p.
3. Savchenko, A.V. Phonetic Words Decoding Software in the Problem of Russian Speech Recognition / A.V. Savchenko// Automation and Remote Control.- 2013.-Vol. 74.- No. 7. P. 1225-1232.
4. Савченко, В.В. Теоретико-информационное обоснование и анализ эффективности метода фонетического кодирования-декодирования в задаче автоматического распознавания речи / В.В. Савченко, А.В. Савченко // Радиотехника и электроника.- 2016.- Т. 61.- № 4.- C. 373-379.
5. Savchenko, L.V. Towards the creation of reliable voice control system based on a fuzzy approach / L.V. Savchenko, A.V. Savchenko // Pattern Recognition Letters.-2015.- Vol. 65.- P. 145-151.
6. Савченко, Л.В. Оценка качества произношения на основе метода нечеткого фонетического кодирования / Л.В. Савченко // Телекоммуникации.- 2017.- № 5.- С. 3339.
Нижегородский государственный лингвистический университет
SYSTEMATIC APPROACH TO DECISION-MAKING AND SPEECH PROCESSING USING
"OBSCURE PHONETIC CODING METHOD"
L.V. Savchenko
Academic Assistant, Nizhny Novgorod State Linguistic University, Nizhny Novgorod, Russian Federation
e-mail: LyudmilaSavchenko@yandex.ru
The article reviews methodology of system analysis in speech recognition for autonomous information systems with a voice interface. Based on the information-theoretic approach, a new computationally effective algorithm for decision-making and processing of speech information with obscure phonetic coding was developed. Unlike traditional approaches, which involve the construction of separate acoustic models for each type of minimal speech units such as individual phonemes, it is suggested to consider the interrelations between different phonemes.
The presented algorithm is applied to the information system of intellectual support of speech information processing. Its functional scheme is also provided in the article. To increase the efficiency and reliability of the voice interface in the preliminary stage, it is suggested to conduct special trainings for system operators in order to enable them to pronounce each of the phonemes adequately. The results of experimental study of the accuracy and speed of the developed algorithm used for recognizing isolated words of the Russian language as compared to the methods based on hidden Markov models and deep neural networks are also presented. The proposed approach significantly exceeds the traditional methods of speech recognition not only in accuracy, but also in terms of recognition time and memory costs for storing the acoustic model
Key words: system analysis, speech processing, obscure phonetic coding, theoretic information approach
References
1. Benesty J., Sondh M., Huang Y. "Springer Handbook of Speech Recognition", N. Y., Springer, 2008, 1159 p.
2. Kullback, S. "Information Theory and statistics", Dover Pub, 1997, 399 p.
3. Savchenko, A. V. "Phonetic Words Decoding Software in the Problem of Russian Speech Recognition", Automation and Remote Control, 2013, vol. 74, no. 7., 1225-1232 pp.
4. Savchenko, V.V., Savchenko A.V. "Information-theoretic analysis of efficiency of the phonetic encoding-decoding method in automatic speech recognition", Journal of Communications Technology and Electronics, 2016, vol. 61, no. 4, 430-435 pp.
5. Savchenko, L.V., Savchenko A.V. "Towards the creation of reliable voice control system based on a fuzzy approach" Pattern Recognition Letters, 2015, vol. 65, 145-151 pp.
6. Savchenko, L.V. "Quality assessment of pronunciation based on the fuzzy phonetic coding method" Telecommunications, 2017, vol. 5, 33-39 pp.