Математические методы моделирования, управления и анализа данных
УДК 004.93
РОЛЬ КЛАСТЕРИЗАЦИИ ПРИ РЕШЕНИИ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО АКУСТИЧЕСКИМ ХАРАКТЕРИСТИКАМ*
А. С. Полякова1, М. Ю. Сидоров2
1 Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: polyakova_nasty@mail.ru 2Ульмский университет Германия, 89081, Ульм, аллея Альберта Эйнштейна, 43 Е-mail: maxim.sidorov@uni-ulm.de
Для решения задачи автоматического распознавания эмоций предлагается использовать различные методы интеллектуального анализа данных, такие как искусственные нейронные сети, системы на нечеткой логике, метод опорных векторов и др. В качестве метода предобработки данных предлагается использовать предварительную кластеризацию данных с последующим применением классификации. Для выделения значимых признаков используется метод главных компонент.
Ключевые слова: распознавание эмоций, кластеризация, классификация, искусственные нейронные сети, системы на нечеткой логике, метод опорных векторов.
CLUSTERING IN SPEECH-BASED EMOTION RECOGNITION PROBLEMS USING
ACOUSTIC CHARACTERISTICS
A. S. Polyakova1, M. Yu. Sidorov2
1Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: polyakova_nasty@mail.ru 2Ulm University 43, Albert Einstein Alee, Ulm, 89081, Germany E-mail: maxim.sidorov@uni-ulm.de
In this paper, a variety of data mining techniques, such as artificial neural networks, fuzzy logic system, support vector machines, and others, is proposed for solving the problem of automated emotions recognition. Author also suggests using preliminary data clustering as a preprocessing technique before using classification methods. Principal component analysis is used to extract the most informative features.
Keywords: emotion recognition, clustering, classification, artificial neural networks, fuzzy logic, support vector machines.
В процессе человеко-машинной коммуникации возникает ряд задач, связанных с обработкой текстовой, визуальной (изображения, видео) и аудиоинформации. Для успешного развития диалоговых систем необходимы исследования по разработке методов автоматического распознавания эмоций человека на основе таких данных. Понимание эмоций другого человека важно как для общения между людьми, так и при взаимодействии человека с системами искусственного интеллекта. Автоматическое распознавание речи и эмоций говорящего может найти активное применение, например, в телекоммуникационной сфере, в дистанционном обучении и в других областях, включая мониторинг психологического состояния экипажей космических кораблей в ходе выполнения длительных полетов [1].
Проблема распознавания эмоций представляет собой задачу классификации (обучение с учителем). Количество характеристик, которые можно извлечь
только из речевого сигнала, значительно и может достигать числа 6500, а количество признаков, основанных на графическом отображении (фото и видео), может быть более 16000. В таком случае использование всего набора данных в процессе распознавания может существенно замедлить и снизить точность получаемого решения. Поэтому важным для снижения размерности в процессе решения задачи идентификации эмоций является извлечение наиболее информативных признаков, используемых алгоритмами распознавания. Для того чтобы выбрать наиболее подходящие характеристики, могут быть использованы статистические методы, такие как метод главных компонент (PCA), а также более сложные, к примеру, генетические алгоритмы (GA).
* Работа выполнена в рамках и при финансовой поддержке проекта RFMEFI57414X0037.
Решетнеескцие чтения. 2015
В работе [2] рассматривается процедура извлечения информативных признаков, основанная на адаптивном многокритериальном генетическом алгоритме, исследуется ее эффективность в сочетании с различными классификационными моделями.
В данной работе решение задачи распознавания эмоций предлагается проводить в три этапа:
1. Отбор информативных признаков с помощью метода главных компонент.
2. Предварительная кластеризация данных по критерию эффективности алгоритмов классификации.
3. Использование различных (наиболее эффективных) методов классификации для каждого кластера.
Процесс кластеризации зависит от выбранного метода. Для каждого метода необходимо ставить множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т. д. Именно от вариации комбинаций этих параметров зависит качество решения задачи.
Для задачи классификации применяется несколько методов интеллектуального анализа данных: искусственные нейронные сети [3], системы на нечеткой логике [4], метод опорных векторов, линейная регрессия, а также алгоритм ^-средних. Для кластеризации применяются иерархические алгоритмы [5] и алгоритм ^-средних.
Для исследования работоспособности и качества предложенной схемы была использована база данных эмоций Emo-DB [6], содержащая более 500 экземпляров выборки. База данных включает в себя звуковые файлы, в которых находятся эмоциональные высказывания 10 актеров на немецком языке. Каждое высказывание имеет свою эмоциональную метку: нейтральное, злость, страх, радость и др.
Каждый звуковой файл описывается 384 признаками, представляющими собой максимальное, минимальное, среднее значения или среднеквадратическое отклонение акустических характеристик, описывающих речевой сигнал, его высоту, вибрацию, интенсивность и т. п.
Для анализа эффективности применения предварительной кластеризации была оценена точность классификации на полном наборе признаков.
Результаты тестирования предлагаемого метода представлены в докладе.
Библиографические ссылки
1. Брестер К. Ю., Семенкин Е. С., Сидоров М. Ю. Система автоматического извлечения информативных признаков для распознавания эмоций человека в речевой коммуникации // Программные продукты и системы. 2014. № 4(108). С. 127-131.
2. Brester C., Semenkin E., Sidorov M., Minker W. Self-adaptive multi-objective genetic algorithms for feature selection // Proceedings of International Conference on Engineering and Applied Sciences Optimization (OPT-i'14). 2014. P. 1838-1846.
3. Федотов Д. В., Семенкин Е. С. О прогнозировании экономических показателей с помощью нейро-эволюционных моделей // Вестник СибГАУ. 2014. Вып. 5(57). С. 299-304.
4. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm // Proceedings of the 11th Intern. Conf. on Informatics in Control, Automation and Robotics (ICINCO-2014). 2014. P. 318-323.
5. Барсегян А. А., Куприянов М. С., Степанен-ко В. В., Холод И. И. Методы и модели анализа данных: OLAP и Data Mining. СПб. : БХВ-Петербург, 2004.
6. Burkhardt F., Paeschke A., Rolfes M., Sendl-meier W. F., Weiss B. A database of german emotional speech. Interspeech. 2005. P. 1517-1520
References
1. Brester K. Yu., Semenkin E. S., Sidorov M. Yu. Sistema avtomaticheskogo izvlecheniya informativnykh priznakov dlya raspoznavaniya emotsiy cheloveka v rechevoy kommunikatsii // Programmnyye produkty i sistemy. 2014. No. 4(108). S. 127-131.
2. Brester C., Semenkin E., Sidorov M., Minker W. Self-adaptive multi-objective genetic algorithms for feature selection // Proceedings of International Conference on Engineering and Applied Sciences Optimization (OPT-i'14). 2014. P. 1838-1846.
3. Fedotov D. V., Semenkin E. S. O prognozirovanii ekonomicheskikh pokazateley s pomoshch'yu neyroevolyutsionnykh modeley [On forecasting economic indexes by means of neuroevolutionary models] // Vestnik SibGAU. 2014. Vol. 5(57), рр. 299-304.
4. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm // Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics (ICINCO-2014). 2014. Pp. 318-323.
5. Barsegyan A. A., Kupriyanov M. S., Stepanen-ko V. V., Kholod I. I. Metody i modeli analiza dannykh : OLAP i Data Mining. SPb. : BKHV - Peterburg, 2004 .
6. Burkhardt F., Paeschke A., Rolfes M., Sendl-meier W. F., Weiss B. A database of german emotional speech. Interspeech. 2005. Рp. 1517-1520.
© Полякова А. С., Сидоров М. Ю., 2015