Научная статья на тему 'Исследование оптимального алгоритма обработки речевых сигналов системы голосового управления'

Исследование оптимального алгоритма обработки речевых сигналов системы голосового управления Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
154
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ / SPEECH SIGNALS PROCESSING / ТОЧНОСТЬ РАСПОЗНАВАНИЯ / RECOGNITION ACCURACY / ГОЛОСОВОЕ УПРАВЛЕНИЕ / VOICE CONTROL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов Алан Казанферович

Актуальность и цели. Объектом исследования является оптимальный алгоритм обработки речевых команд для систем голосового управления (СГУ). Цель работы оценка эффективности оптимального алгоритма в сравнении с известными алгоритмами, используемыми в готовых программных компонентах распознавания. Материалы и методы. Исследования проводились в программном экспериментально-исследовательском комплексе, реализованном в пакете прикладных программ для решения технических задач MATLAB 7.0 с использованием стандартного набора аппаратных средств персонального компьютера, предназначенного для решения широкого круга задач. Результаты. В соответствии с результатами экспериментального исследования отмечено повышение точности распознавания по сравнению с « CMU Sphinx » на 1,7 %, с « RWTH ASR » на 5,6 % и с « Julius » на 2,1 % и увеличение запаса точности за счет возрастания разницы между минимальной глобальной оценкой расхождения (МГОР) истинного и максимально близкого к истинному распознаваниями. Выводы. Экспериментально исследован оптимальный алгоритм обработки речевых команд для СГУ в условиях современной «агрессивной» шумовой обстановки. Результаты исследований подтвердили эффективность предложенного алгоритма. В дальнейшем актуальным является исследование оптимального алгоритма с использованием дополнительных баз шаблонов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов Алан Казанферович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF AN OPTIMAL ALGORITHM FOR SPEECH SIGNALS PROCESSING OF VOICE CONTROL SYSTEMS

Background. The object of the research is the optimal algorithm for speech commands processing for a voice control system (VCS). The aim of the work is to evaluate the effectiveness of the optimal algorithm in comparison with the known algorithms, used in ready-made software recognition components. Materials and methods. The study was conducted in the software experimental and research complex, realized in the software package MATLAB 7.0 intended for solving technical problems, using a standard set of PC hardware, designed for a wide range of tasks. Results. In accordance with the results of the pilot study there was an increase of recognition accuracy by an average of 1.7 % in comparison with CMU Sphinx, and of 5.6 % as opposed to RWTH ASR, and of 2.1 % when using Julius software. There was also an increase in accuracy reserve, due to the growth of the difference between the global minimum different evaluation (GMDE) of true and the closest to the true recognition. Conclusions. The optimal algorithm for speech commands processing of the VCS in a modern aggressive noise situation was experimentally investigated. The research results have confirmed the effectiveness of the proposed algorithm. In the future, the study of the optimal algorithm using the additional database templates seems to be actual.

Текст научной работы на тему «Исследование оптимального алгоритма обработки речевых сигналов системы голосового управления»

УДК 004.934

ИССЛЕДОВАНИЕ ОПТИМАЛЬНОГО АЛГОРИТМА ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ СИСТЕМЫ ГОЛОСОВОГО УПРАВЛЕНИЯ

А. К. Алимурадов

RESEARCH OF AN OPTIMAL ALGORITHM FOR SPEECH SIGNALS PROCESSING OF VOICE CONTROL SYSTEMS

A. K. Alimuradov

Аннотация. Актуальность и цели. Объектом исследования является оптимальный алгоритм обработки речевых команд для систем голосового управления (СГУ). Цель работы - оценка эффективности оптимального алгоритма в сравнении с известными алгоритмами, используемыми в готовых программных компонентах распознавания. Материалы и методы. Исследования проводились в программном экспериментально-исследовательском комплексе, реализованном в пакете прикладных программ для решения технических задач MATLAB 7.0 с использованием стандартного набора аппаратных средств персонального компьютера, предназначенного для решения широкого круга задач. Результаты. В соответствии с результатами экспериментального исследования отмечено повышение точности распознавания по сравнению с «CMUSphinx» на 1,7 %, с «RWTHASR» на 5,6 % и с «Julius» на 2,1 % и увеличение запаса точности за счет возрастания разницы между минимальной глобальной оценкой расхождения (МГОР) истинного и максимально близкого к истинному распознаваниями. Выводы. Экспериментально исследован оптимальный алгоритм обработки речевых команд для СГУ в условиях современной «агрессивной» шумовой обстановки. Результаты исследований подтвердили эффективность предложенного алгоритма. В дальнейшем актуальным является исследование оптимального алгоритма с использованием дополнительных баз шаблонов.

Ключевые слова: обработка речевых сигналов, точность распознавания, голосовое управление.

Abstract. Background. The object of the research is the optimal algorithm for speech commands processing for a voice control system (VCS). The aim of the work is to evaluate the effectiveness of the optimal algorithm in comparison with the known algorithms, used in ready-made software recognition components. Materials and methods. The study was conducted in the software experimental and research complex, realized in the software package MATLAB 7.0 intended for solving technical problems, using a standard set of PC hardware, designed for a wide range of tasks. Results. In accordance with the results of the pilot study there was an increase of recognition accuracy by an average of 1.7 % in comparison with CMU Sphinx, and of 5.6 % as opposed to RWTH ASR, and of 2.1 % when using Julius software. There was also an increase in accuracy reserve, due to the growth of the difference between the global minimum different evaluation (GMDE) of true and the closest to the true recognition. Conclusions. The optimal algorithm for speech commands processing of the VCS in a modern aggressive noise situation was experimentally investigated. The research results have confirmed the effectiveness of the proposed algorithm. In the future, the study of the optimal algorithm using the additional database templates seems to be actual.

Key words: speech signals processing, recognition accuracy, voice control.

Введение

Речевой сигнал - это нелинейный и нестационарный сигнал сложной формы, образуемый артикуляционным отделом речевого аппарата человека с целью языкового общения. Обработка речевых сигналов в СГУ - это анализ изолированных речевых команд (слов, словосочетаний) с четко выраженными границами начала и конца, включающий следующие этапы обработки: предварительная коррекция, сегментация на фрагменты, определение информативных параметров и распознавание.

Повышение эффективности обработки речевых команд - одна из самых интересных и сложных задач голосового управления. На сегодняшний день представлено большое количество алгоритмов [1-4], разнообразие которых обусловлено как важностью проблемы, так и отсутствием достаточно эффективных методов ее решения. Применение существующих алгоритмов в СГУ ограничено из-за использования в них неоптимальных методов обработки, в основе которых применены сложные вычислительные математические операции. Применение последних возможно только при наличии мощных серверных ресурсов с удаленным доступом через сеть Интернет, что приводит к затруднению их использования в специализированных условиях.

В научной работе [5] предложен алгоритм обработки речевых команд для СГУ с использованием оптимальных методов обработки, который обеспечивает необходимую точность распознавания, имеет достаточно низкую вычислительную сложность для работы в реальном времени и свободную программную реализацию.

Данная статья является продолжением ранее опубликованных трудов [5-7] и посвящена вопросу исследования разработанного оптимального алгоритма обработки речевых команд для СГУ.

Критерии оценки эффективности, методика и средства проведения исследования

В качестве критериев оценки эффективности оптимального алгоритма использовались точность распознавания [8] и разница минимальной глобальной оценки расхождения [9].

Точность распознавания - это безразмерная величина, равная отношению правильно распознанных речевых команд к их общему количеству:

A = Ctrru^ • 100 % , C

^ total

где A - точность распознавания; Ctrue - правильно распознанные команды; Ctotal - общее количество команд.

Разница МГОР - безразмерная величина, суть которой заключается в вычислении разницы МГОР вектора информативных параметров истинно распознанной речевой команды и МГОР-вектора информативных параметров команды, максимально близкой к истинному распознаванию:

Л = G — G

~ true appr'

где А - разница МГОР; Gtrue - МГОР-вектора информативных параметров истинно распознанной речевой команды; Gtappr - МГОР-вектора информативных параметров команды, максимально близкой к истинному распознаванию.

На практике все речевые сигналы в той или иной степени являются за-шумленными. В условиях современной «агрессивной» шумовой обстановки и в зависимости от интенсивности шум может существенно исказить результаты обработки речевых сигналов. Наиболее характерными шумами, оказывающими негативное воздействие на работоспособность СГУ, являются фоновые шумы. Фоновые шумы ухудшают разборчивость речевых команд и могут привести к большой погрешности между поступающими в систему зашум-ленными сигналами и шаблонами, полученными в ходе обучения системы «чистыми» речевыми командами. Большие погрешности являются основной причиной низкой точности распознавания и малых значений МГОР.

На рис. 1 представлена схема исследования оптимального алгоритма обработки речевых команд. Методика исследования предполагает выполнение трех этапов: формирование входного зашумленного сигнала речевой команды, непосредственная обработка с помощью оптимального алгоритма и сравнение результата распознавания с исходной речевой командой.

В схеме предусмотрена возможность регулировки значений параметров шума при формировании входного зашумленного сигнала - вид и уровень амплитуды.

Исследования проводились в программном экспериментально-исследовательском комплексе, реализованном в пакете прикладных программ для решения технических задач МЛТЬЛБ 7.0.

Рис. 1. Схема исследования оптимального алгоритма обработки речевых команд

Исследование оптимального алгоритма обработки речевых команд

Экспериментальное исследование проводилось с использованием разработанной базы данных речевых сигналов [10]. Исходные данные для исследования: речевые сигналы - обучающая и тестовая непересекающиеся выборки звуков русского языка длительностью не более 10 мс, частота дискретизации 8000 Гц, разрядность квантования 16 бит. Обучающая выборка сформирована из 1000 чистых (соотношение сигнал/шум 50 дБ) речевых сигналов (20 различных звуков по 50 произношений каждый), которые произнесли 50 человек (мужчины и женщины). Тестовая выборка сформирована из 60 речевых сигналов (20 различных звуков по 3 произношения каждый), зарегистрированных при различных уровнях фонового белого шума.

В табл. 1 и на рис. 2 представлены результаты исследования оптимального алгоритма обработки речевых команд для СГУ в сравнении с рассмотренными в [5] известными алгоритмами, используемыми в готовых программных компонентах распознавания с открытым исходным кодом (без использования лингвистических, фонетических, грамматических и языковых баз шаблонов): «CMUSphinx» [l1], «RWTHASR» (RASR) [12] и «Julius» [13].

Таблица 1

Результаты исследования оптимального алгоритма обработки речевых команд для СГУ

Отношение сигнал/шум SNRin, дБ A, %

«CMU Sphinx» «RWTH ASR» «Julius» Оптимальный алгоритм

15 42,3 41,4 44,1 43,2

20 55,8 52,6 54,3 53,7

25 62,9 59,8 61,3 63,5

30 74,7 71,4 73,8 77,7

35 87,2 84,8 88,1 91,1

40 92,7 90,8 92,3 95,1

зо Н—

15 20 25 30 35 40

SNR in, дБ

Рис. 2. Результаты исследования оптимального алгоритма обработки речевых команд для СГУ

Как видно из результатов, при малых значениях SNRin 15 дБ и 20 дБ точность распознавания оптимального алгоритма незначительно хуже и уступает известным алгоритмам. Однако при значениях SNRin, превышающих 20 дБ, оптимальный алгоритм обеспечивает наилучшие значения точности распознавания - в среднем на 1,7 %, чем «CMU Sphinx», на 5,6 %, чем «RWTHASR» и на 2,1 %, чем метод «Julius».

На рис. 3 представлены диаграммы - графическая интерпретация рассматриваемой разницы между МГОР. По вертикальной оси отложены значения А. Если А > 0, то распознавание считается истинным, при А < 0 - ложным. По горизонтальной оси в первой строке отмечены тестовые звуки («А1», «А2», «А3»,...), во второй - звуки с МГОР, максимально близкой к истинному распознаванию. Для примера на рис. 3,а,б изображены диаграммы для алгоритма, используемого в программном компоненте «CMU Sphinx» и оптимального алгоритма соответственно. Из диаграмм видно, что практи-

чески для всех звуков разница МГОР для оптимального алгоритма намного больше, чем для алгоритма, используемого в программном компоненте «CMU Sphinx». Это означает, что оптимальный алгоритм не только обеспечивает точности распознавания, но и формирует определенный ее запас.

б)

Рис. 3. Разность МГОР между истинным и максимально близким к истинному распознаваниями: а - алгоритм, используемый в программном компоненте «CMU Sphinx»; б - оптимальный алгоритм обработки речевых команд

Заключение

Разработанный оптимальный алгоритм экспериментально исследован на реальных звуках русского языка (кратковременных речевых сигналах) в сравнении с известными алгоритмами. Особенностью являлось то, что алгоритм был исследован без подключения лингвистических, фонетических, грамматических и языковых баз шаблонов. Результаты экспериментального исследования подтвердили повышение точности распознавания в среднем на 1,7 %, чем у «CMU Sphinx», на 5,6 %, чем у «RWTH ASR» и на 2,1 %, чем у «Julius», и обеспечение запаса точности за счет увеличения разницы между МГОР истинного и максимально близкого к истинному распознаваниями. В дальнейшем актуальным является исследование оптимального алгоритма с использованием дополнительных баз шаблонов.

Список литературы

1. Методы автоматического распознавания речи : в 2 кн. : пер. с англ. / У. А. Ли, Э. П. Нейбург, Т. Б. Мартин [и др.] ; под ред. У. Ли. - М. : Мир, 1983. - Кн. 1. -328 с.

2. Методы автоматического распознавания речи : в 2 кн. : пер. с англ. / Д. Х. Клетт, Дж. А. Барнет, М. И. Бернстейн [и др.] ; под ред. У. Ли. - М. : Мир. 1983. -Кн. 2. - 392 с.

3. Рабинер, Л. Р. Цифровая обработка речевых сигналов : пер. с англ. / Л. Р. Раби-нер, Р. В. Шафер. - М. : Радио и связь, 1981. - 496 с.

4. Алимурадов, А. К. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / А. К. Алимурадов, П. П. Чураков // Измерение. Мониторинг. Управление. Контроль. - 2015. - № 2 (12). - С. 27-35.

5. Алимурадов, А. К. Оптимальный алгоритм обработки речевых команд для системы голосового управления / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. - 2015. - № 2 (14). - С. 139-149.

6. Алимурадов, А. К. Обработка речевых команд в системах голосового управления / А. К. Алимурадов // Измерение. Мониторинг. Управление. Контроль. -2014. - № 1 (7). - С. 50-57.

7. Алимурадов, А. К. Интеллектуальная обработка речевых сигналов в системах автоматического управления / А. К. Алимурадов, А. Ю. Тычков // Известия кабардино-балкарского государственного университета. - 2012. - Т. 2, № 5. -С. 66-67.

8. Huang, X. Spoken Language Processing. Guide to Algorithms and System Develop-men / X. Huang, A. Acero, H.-W. Hon. - Prentice Hall, 2001. - 980 p.

9. Speech production knowledge in automatic speech recognition / Simon King, Joe Frankel1, Karen Livescu, Erik McDermott, Korin Richmond, Miijam Wester // The Journal of the Acoustical Society of America. - 2007. - Vol. 121, iss. 2. - 22 p.

10. Разработка верифицированной базы данных речевых сигналов для диагностики состояния органов дыхания / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, Ю. С. Квитка, Д. А. Ярославцева // Перспективные информационные технологии (ПИТ 2013) : тр. междар. науч.-техн. конф. - Самара : Изд-во Самар. науч. центра РАН, 2013. - С. 147-150.

11. Sphinx-4: A flexible open source framework for speech recognition / W. Walker, P. Lamere, P. Kwok, R. S. Bhiksha Raj, E. Gouvea, P. Wolf, J. Woelfel // Sun Microsystems, Inc, Tech. Rep. SMLI TR-2004-139. - 2004. - Nov. - 15 p.

12. The RWTH Aachen University Open Source Speech Recognition System / R. David, G. Christian, H. Georg, N. Hermann ; Human Language Technology and Pattern Recognition Computer Science Department, RWTH Aachen University, Germany. -4 p. - URL: https://www-i6.informatik.rwth-aachen.de

13. Lee, A. Julius - an open source real-time large vocabulary recognition engine / A. Lee, T. Kawahara, K.Shikano // Proc. European Conf. on Speech Communication and Technology, Aalborg, Denmark, Sep. 2001. - Aalborg, Denmark, 2001. -Р. 1691-1694.

Алимурадов Алан Казанферович Alimuradov Alan Kazanferovich

инженер-исследователь researcher of research department,

научно-исследовательского отдела, Penza State University Пензенский государственный университет E-mail: [email protected]

УДК 004.934 Алимурадов, А. К.

Исследование оптимального алгоритма обработки речевых сигналов системы голосового управления / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. - 2015. - № 4 (16). - С. 120-125.

i Надоели баннеры? Вы всегда можете отключить рекламу.