Научная статья на тему 'РАСПОЗНАВАНИЕ ЭМОЦИЙ В ЗВУКАХ ТОЛПЫ ПОСРЕДСТВОМ АНАЛИЗА СПЕКТРОГРАММ СВЕРТОЧНЫМИ НЕЙРОННЫМИ СЕТЯМИ'

РАСПОЗНАВАНИЕ ЭМОЦИЙ В ЗВУКАХ ТОЛПЫ ПОСРЕДСТВОМ АНАЛИЗА СПЕКТРОГРАММ СВЕРТОЧНЫМИ НЕЙРОННЫМИ СЕТЯМИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
распознавание эмоций / мел-спектрограммы / сверточные нейронные сети (CNN) / трансферное обучение / функция потерь кросс-энтропии / градиентный спуск / emotion recognition / chalk spectrograms / convolutional neural networks (CNNs) / transfer learning / cross-entropy loss function / gradient descent

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рудакова Полина Андреевна, Семенов Тимофей Александрович

В статье предлагается метод распознавания эмоций в звуках толпы с использованием сверточных нейронных сетей (CNN) и трансферного обучения. Аудиозаписи толпы преобразуются в мел-спектрограммы, которые затем подаются на предварительно обученную сеть AlexNet, модифицированную для классификации эмоциональных состояний толпы (одобрение, неодобрение, нейтральность). Проведенные эксперименты на наборе данных Emotional Crowd Sound показали высокую точность распознавания эмоций — 92,54%. Результаты подтверждают эффективность предложенного подхода и указывают на возможность его применения для анализа массовых аудиопотоков в реальных условиях. В заключении обсуждаются перспективы использования различных спектральных шкал и расширения метода на другие наборы данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рудакова Полина Андреевна, Семенов Тимофей Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EMOTION RECOGNITION IN CROWD SOUNDS THROUGH SPECTROGRAM ANALYSIS BY CONVOLUTIONAL NEURAL NETWORKS

The paper proposes a method of emotion recognition in crowd sounds using convolutional neural networks (CNN) and transfer learning. Crowd audio recordings are converted into chalk spectrograms, which are then fed to a pre-trained AlexNet network modified to classify the crowd's emotional states (approval, disapproval, neutrality). The experi-ments conducted on the Emotional Crowd Sound dataset showed a high emotion recognition accuracy of 92.54%. The results confirm the effectiveness of the proposed approach and indicate that it can be applied to analyse mass audio streams in real-world environments. Finally, the prospects of using different spectral scales and extending the method to other datasets are discussed.

Текст научной работы на тему «РАСПОЗНАВАНИЕ ЭМОЦИЙ В ЗВУКАХ ТОЛПЫ ПОСРЕДСТВОМ АНАЛИЗА СПЕКТРОГРАММ СВЕРТОЧНЫМИ НЕЙРОННЫМИ СЕТЯМИ»

Андар Юрьевич Кагазежев, старший преподаватель, младший научный сотрудник, andarkas@ya. ru, Россия, Москва, Московский государственный строительный университет

CONCEPT OF AUTOMATION OF DESIGN OF CAPITAL REPAIR OF RESIDENTIAL BUILDINGS WITH THE USE

OF II SYSTEMS

A.Yu. Kagazezhev

In the harsh climate of the Arctic zone, the design of apartment buildings (ICDs) requires careful consideration of specific factors such as low temperatures, wind and snow loads, and limited timeframes for work execution. This paper proposes a concept for improving the design of MCDs using artificial intelligence (AI) systems based on a previously developed building typology. All ICDs are divided into types based on key parameters: roof type, facade type, number of floors. For each type, ready-made design solutions have been developed, which greatly simplify the design and repair process. It is proposed to use computer vision (CV), machine learning (ML) and natural language processing (NLP) methods for automatic classification of buildings, selection of the most appropriate design solutions from the database and their adaptation to individual features of the object. The automation of these processes will significantly reduce design time, improve the accuracy of calculations and adapt ready-made solutions for complex operating conditions. The results of the study show that the integration of AI into the design process allows to optimize the work of engineers, reducing time and resource costs, as well as improving the quality of design solutions, especially in the extreme climatic conditions of the Arctic.

Key words: apartment buildings, capital repair, artificial intelligence.

Andar Yur'yevich Kagazezhev, senior lecturer, junior researcher, andarkas@ya. ru, Russia, Moscow, Moscow State Construction University

УДК 004.934

DOI: 10.24412/2071-6168-2024-10-313-314

РАСПОЗНАВАНИЕ ЭМОЦИЙ В ЗВУКАХ ТОЛПЫ ПОСРЕДСТВОМ АНАЛИЗА СПЕКТРОГРАММ

СВЕРТОЧНЫМИ НЕЙРОННЫМИ СЕТЯМИ

П.А. Рудакова, Т.А. Семенов

В статье предлагается метод распознавания эмоций в звуках толпы с использованием сверточных нейронных сетей (CNN) и трансферного обучения. Аудиозаписи толпы преобразуются в мел-спектрограммы, которые затем подаются на предварительно обученную сеть AlexNet, модифицированную для классификации эмоциональных состояний толпы (одобрение, неодобрение, нейтральность). Проведенные эксперименты на наборе данных Emotional Crowd Sound показали высокую точность распознавания эмоций — 92,54%. Результаты подтверждают эффективность предложенного подхода и указывают на возможность его применения для анализа массовых аудиопотоков в реальных условиях. В заключении обсуждаются перспективы использования различных спектральных шкал и расширения метода на другие наборы данных.

Ключевые слова: распознавание эмоций, мел-спектрограммы, сверточные нейронные сети (CNN), трансферное обучение, функция потерь кросс-энтропии, градиентный спуск.

Исследование, направленное на анализ эмоций в звуковых данных, производимых толпой, представляет значительный интерес в контексте практической применимости и теоретической сложности. Развитие методов распознавания эмоций в аудио-окружении имеет широкий спектр приложений, включая анализ обширного объема видеоданных. Сложность данного исследования присуща нестандартности анализа массовых аудиопотоков, требующей не только углубленного понимания коллективной эмоциональной составляющей, но и адаптации подходов анализа индивидуальных диалогов к многоголосой среде. Сложность анализа эмоций, заложенных в криках толпы, заключается в том, что они не являются простым суммированием отдельных эмоциональных звуков, как это было бы при разговоре одного человека.

Когда люди кричат в толпе, они в основном используют короткие слова или отдельные модулированные высказывания вместе с другими людьми, а также используют специальные звуки, например, освистывание или свист в знак одобрения, или издают звуки, хлопая, ударяя по столам или тряся предметы. Другими словами, они ведут себя и издают звуки как коллективный субъект толпы, например, хор, хотя и без централизованного управления [1]. Более того, в реальных ситуациях, таких как спортивный матч, эмоции разных толп могут смешиваться, например, болельщики забившей и проигравшей команды кричат и шумят вместе. Поэтому мы определяем речь толпы как совокупность одновременных звуков, как голосовых, так и звуковых. Эмоциональное распознавание речи толпы, таким образом, имеет специфические характеристики и требует особого подхода.

Имеет место предположение, что эмоции в звуках толпы характеризуются частотно-амплитудными характеристиками, которые в меньшей степени зависят от отдельных людей; другими словами, все толпы похожи и в каком-то смысле являются одной и той же толпой. Наиболее часто для классификации аудио используют современный метод, который заключается в анализе визуального представления звуков - спектрограмм, - с помощью сверточных нейронных сетей (CNN).

Начиная с набора маркированных данных звуков речи толпы с реальных событий, полученных из видеороликов из открытых источников сети Интернет, визуальные графики, представляющие частотно-масштабные спектрограммы во времени, генерируются из фрагментов, отобранных с помощью скользящих окон по всем исход-

ным клипам [2] звуков толпы. Затем визуальные графики фильтруются и стандартизируются, чтобы сделать их однородными в масштабе и кодировке.

Поскольку низкоуровневый визуальный анализ требует больших вычислительных возможностей с точки зрения времени, памяти и обучающих данных, а специфические особенности набора данных связаны с высокоуровневыми деталями звука, имеет смысл выбрать подход трансферного обучения. Трансферное обучение позволяет использовать предварительно обученную сеть для анализа низкоуровневых характеристик и настраивать сеть на ограниченном количестве конкретных клипов. Таким образом, изображения спектрограмм подаются на предварительно обученную сверточную нейронную сеть (CNN) для изображений на основе AlexNet, [3] которая интегрирована с дополнительными слоями классификации категорий эмоций толпы. Наконец, полностью обученная CNN используется для распознавания эмоций на тестовом наборе спектрограмм.

Ключевым моментом является то, что звук может быть преобразован в образ, кодирующий все релевантные характеристики исходного звука, т. е. в спектрограмму.

Существенные различия между большим набором естественных изображений, которые использовались для предварительного обучения сети, и изображениями спектрограмм могут препятствовать трансферному обучению, поскольку данные находятся в одном и том же пространстве признаков, но с разными распределениями. Более того, что касается других входных звуковых данных, например, речь одного человека, эмоциональные звуки толпы часто имеют небольшие различия между одной категорией и другой, и на них сильно влияет шум окружающей среды. Однако многообещающие результаты предыдущих исследований по трансферному обучению для эмоциональной речи [4], [2] побуждают использовать трансферное обучение для звуков толпы при условии наличия достаточного количества обучающих изображений для этапа тонкой настройки. С другой стороны, использование CNN с последовательным предварительным обучением, например, GoogleNet, AlexNet, должно обеспечить преимущество в виде эффективного распознавания низкоуровневых характеристик изображения, например, форм, краев, распределения цветов, без вычислительных затрат на обучение с нуля.

Организация информационного потока гетерогенного трансферного обучения [5] в предлагаемой системе включает два основных этапа: преобразование звука в спектрограммы и обучение передаче знаний.

Преобразование звука в спектрограмму заключается в том, что вначале берется маркированный звуковой клип различной длительности, затем он дискретизируется блоками по 2 секунды, нормализуются параметры звука и, наконец, из каждого блока генерируется стандартизированная спектрограмма, маркированная эмоцией исходного клипа.

Важно использовать преобразование спектрограмм в мел-спектрограммы.

Когда речь заходит о вычислении высоты звука, спектрограмма становится неотъемлемой частью процесса. Она создается путем последовательного применения оконного преобразования Фурье к небольшим фрагментам речевого сигнала, которые затем умножаются на определенную оконную функцию. Результат этой операции - матрица, в которой каждый столбец представляет спектр короткого участка исходного сигнала. Эта методика обеспечивает представление о частотном содержании звукового сигнала в течение определенного периода времени, что позволяет анализировать и интерпретировать акустическую информацию.

Математически, кратковременное преобразование Фурье (STFT) выражается как:

X(t, ш) = f-^ х(т)ш(т — t)e~lWTdT, где х(т) - входной сигнал, ш(т — t) - оконная функция, ш - частота, t - время.

Известно, что человеческое ухо более чувствительно к изменениям на низких частотах по сравнению с высокими [6]. Например, изменение частоты с 100 Гц на 120 Гц будет более заметным для человека, чем изменение с 10000 Гц на 10020 Гц, которое, скорее всего, не вызовет заметных реакций.

В связи с этим была предложена новая единица измерения высоты звука - мел. Это измерение основано на психофизиологическом восприятии звука человеком и логарифмически связано с частотой. Мел широко используется в акустике для оценки высоты звуков и позволяет более точно оценивать, как человек воспринимает изменения в частоте звука. Соотношение между частотой f в герцах и мел-шкалой m выражается формулой:

m = 2595 logw(1 + ^).

Преобразование сигнала в спектрограмму помогает не только в восприятии человеком звука, но и в машинном анализе аудиоданных. Например, это полезно при анализе речи для распознавания слов или эмоций. Понимание того, как различные частоты влияют на восприятие звука, открывает широкие возможности для его анализа

[7].

Трансферное обучение представляет собой довольно стандартный процесс. Исходная CNN модифицируется на последних уровнях, а затем переобучается по изображениям спектрограмм для распознавания эмоциональных меток толпы.

Метод трансферного обучения использует высокий потенциал распознавания сверточных нейронных сетей (CNN), обученных на обширных наборах данных изображений. В данном случае, используется база данных ImageNet, с применением CNN AlexNet, предварительно обученной на ImageNet. Выбор AlexNet обусловлен его высокой эффективностью в распознавании изображений, а также его предыдущим использованием в задаче распознавания эмоций в речи для последующего сравнения [4].

Основная идея заключается в том, что ранние слои хорошо обученных CNN в некоторой степени схожи между собой. Эти ранние слои специализируются на выявлении признаков изображения, начиная от пикселей с высококонтрастными соседями, краев, углов, и заканчивая большими областями с распределением цветов и сложными формами. В соответствии с такой интерпретацией, только последние слои работают с композицией предыдущих признаков, выполняя окончательную категоризацию.

Операция свёртки в CNN определяется как:

S(i,j) = (I * K)(i,j) = У У l(i -m,j - п) K(m,п),

¿—'т^—'п

где I - входное изображение, К - фильтр (ядро свёртки), S(i, j) - результат свёртки в позиции (i, j).

В качестве функции активации в сверточных нейронных сетях часто используется функция ReLU (Rectified Linear Unit), которая определяется как:

/(х) = max(ü, х).

Эта функция вводит нелинейность в модель и помогает справиться с проблемой исчезающих градиентов.

Фактический трансфер знаний (Knowledge Transfer) [8] осуществляется путем использования CNN, предварительно обученной методом наблюдения на более чем миллионе общих изображений и тысяче категорий. Это происходит путем замены последних слоев одним или несколькими новыми слоями, ориентированными на распознавание различных категорий. Ранние слои такой сети способны извлекать общие признаки, например, края, текстуры и формы, которые являются универсальными для различных типов изображений. Использование этих обобщенных признаков позволяет модели эффективно адаптироваться к новой задаче классификации эмоций в звуках толпы. Кроме того, тонкая настройка модели на новом наборе данных улучшает ее способность распознавать специфические для задачи особенности. Преимущества данного метода связаны со скоростью процесса, более быстрой по сравнению с полным обучением CNN с нуля, и возможностью повторного обучения новым категориям с меньшим объемом образцов изображений, чем необходимо для исходной или новой сети.

В процессе обучения сети используется функция потерь кросс-энтропии, которая измеряет разницу между предсказанным распределением вероятностей и истинным распределением. Функция кросс-энтропии определяется как:

L = - Е^Уг^у ,

где у; - истинная метка класса (обычно one-hot кодирование), у - предсказанная вероятность класса, N - количество классов.

Выходные вероятности модели обычно получают с помощью функции Softmax. Функция Softmax широко используется в многоклассовой классификации для преобразования выходных значений нейронной сети (логитов) в вероятности, которые суммируются до 1. Формула функции Softmax для класса i среди N возможных классов записывается как:

^ gZj

^ у = Ёй^ где у - предсказанная вероятность класса i, z; - логит для класса i, то есть выходное значение нейронной сети перед применением функции Softmax, N - количество классов.

В процессе оптимизации параметров модели используется алгоритм градиентного спуска, который обновляет веса в в направлении, противоположном градиенту функции потерь L:

в = в - ^FeL(0),

где ^ - скорость обучения (learning rate), FeL(0) - градиент функции потерь по параметрам модели.

В качестве датасета для проведения экспериментов, описанных в статье, использовался набор Emotional Crowd Sound [9], содержащий 68 оригинальных аудио файлов, и разделенный на эмоциональные классы "Одобрение", "Неодобрение", "Нейтральность".

Эксперименты разделены на два этапа, оба из которых используют 80 % звуковых блоков, т. е. спектрограмм, для тонкой настройки CNN, а оставшиеся 20 % - для тестирования/оценки, чтобы также предотвратить и выявить избыточную подгонку.

Первый этап реализует обучение и тестирование на звуковых блоках, случайно выбранных из набора данных. Это стандартный подход для изображений, который также используется в современных работах по распознаванию речевых эмоций [10]. На точность результатов может повлиять тот факт, что при случайном разбиении для обучения и тестирования будут рассматриваться разные блоки одного и того же звукового клипа, возможно, включающие одну и ту же часть клипа, если блоки, сгенерированные с помощью скользящего окна из одних и тех же смежных кадров в 1-секундных окнах, перекрываются. Этот подход слаб для обнаружения избыточной подгонки, поскольку мы не можем предотвратить случайное извлечение алгоритмом одних и тех же перекрывающихся кадров из двух разных смежных блоков. Если они не являются смежными, два блока из одного и того же звукового клипа могут иметь очень похожие характеристики (шум, ритмичный или непрерывный звук, например, хлопки или крики).

Поэтому на втором этапе эксперимента были разделены обучающие и тестовые подмножества, при этом различные исходные файлы были выбраны вручную, с целью получить блоки из разных звуковых клипов.

В ходе эксперимента сеть обучалась в течение шести эпох, используя минибатч размером 5 изображений.

Модель тестировалась на валидационных данных каждые три итерации; обучающие изображения перемешивались в начале каждой эпохи, а валидационные изображения - перед каждым шагом валидации.

Результаты оценивались с помощью метрики точности валидации, которая вычисляется как:

. _ Количество верных предсказаний л --

лСС^^ЯСу — -X 100.

Общее количество предсказаний

Эксперименты с использованием случайного разделения обучения и проверки показывают, что сеть эффективно справляется с поставленной задачей; для достижения идеальной точности, на наборе данных достаточно трех эпох обучения. При увеличении числа эпох существенного улучшения не происходит, что касается как ошибки обучения, так и валидационной ошибки. С другой стороны, после ручного разделения набора данных, показатели лишь немного снижаются, хотя они более последовательны.

Итоговая оценка точности составила 92,54%.

Этот результат позволяет сделать вывод, что подход на основе трансферного обучения сверточной нейронной сети AlexNet подходит для классификации эмоциональных звуков толпы.

Будущие направления исследования предполагают сравнение экспериментов с использованием различных спектрограммных шкал восприятия подач, отличных от шкалы mel, например, log, bark, erb. Эксперименты также могут быть расширены на другие наборы данных.

Список литературы

1. Ekman P. An Argument for Basic Emotions // Cognition and Emotion. 1992. № 6(3/4). Pp. 169-200.

2. Prasomphan S. Detecting human emotion via speech recognition by using speech spectrogram // 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). 2015. P. 1-10.

3. Deng J., Dong W., Socher R., Li L.-J., Li K., & Fei-Fei L. ImageNet: A large-scale hierarchical image database // 2009 IEEE Conference on Computer Vision and Pattern Recognition. 2009. P. 248-255. DOI:10.1109/CVPR.2009.5206848 (дата обращения: 10.05.2024).

4. Прокопеня А.С. Сверточные нейронные сети для обработки речи // 57-я научная конференция аспирантов, магистрантов и студентов учреждения образования "Белорусский государственный университет информатики и радиоэлектроники": тезисы докладов. Минск: БГУИР, 2021. С. 14-15.

5. Day O., Khoshgoftaar T. M. A survey on heterogeneous transfer learning // J Big Data. Florida Atlantic University College of Engineering and Computer Science, Boca Raton, USA. 2017. № 4(1). P. 29. DOI:10.1186/s40537-017-0089-0.

6. Stevens S. S., Volkmann J., Newman E. B. A Scale for the Measurement of the Psychological Magnitude Pitch. 1937. 188 p.

7. Мубаракшина Р.Т. Методы и средства распознавания эмоций по голосу // Неделя науки СПбПУ: материалы научной конференции с международным участием. Санкт-Петербург: ФГАОУ "Санкт-Петербургский политехнический университет Петра Великого". 2019. С. 31-34.

8. Lu Y., Luo L., Huang D., Wang Y., Chen L. Knowledge Transfer in Vision Recognition: A Survey // ACM Comput. Surv. V. 53, № 2. 2020. P. 37.

9. Emotional Crowd Sound [Электронный ресурс]. URL: https://ieee-dataport.org/open-access/emotional-crowd-sound (дата обращения: 10.05.2024).

10. Lech M., Stolar M., Bolia R., Skinner M. Amplitude-Frequency Analysis of Emotional Speech Using Transfer Learning and Classification of Spectrogram Images // Adv. Sci. Technol. Eng. Syst. J. 2018. № 3(4). Pp. 363-371. DOI:10.25046/aj030437.

Рудакова Полина Андреевна, аспирант, swinol. polina1998@gmail. com, Россия, Тула, Тульский государственный университет.

Семенов Тимофей Александрович, студент, semenov. [email protected], Россия, Тула, Тульский государственный университет

EMOTION RECOGNITION IN CROWD SOUNDS THROUGH SPECTROGRAM ANALYSIS BY CONVOLUTIONAL

NEURAL NETWORKS

P.A. Rudakova, T.A. Semenov

The paper proposes a method of emotion recognition in crowd sounds using convolutional neural networks (CNN) and transfer learning. Crowd audio recordings are converted into chalk spectrograms, which are then fed to a pre-trained AlexNet network modified to classify the crowd's emotional states (approval, disapproval, neutrality). The experiments conducted on the Emotional Crowd Sound dataset showed a high emotion recognition accuracy of92.54%. The results confirm the effectiveness of the proposed approach and indicate that it can be applied to analyse mass audio streams in real-world environments. Finally, the prospects of using different spectral scales and extending the method to other datasets are discussed.

Key words: emotion recognition, chalk spectrograms, convolutional neural networks (CNNs), transfer learning, cross-entropy loss function, gradient descent.

Rudakova Polina Andreevna, postgraduate, swinol.polina1998@gmail. com, Russia, Tula, Tula State University,

Semenov Timofey Alexandrovich, student, semenov. timofeisemyonov@yandex. ru, Russia, Tula, Tula State

University

УДК 004.021

DOI: 10.24412/2071-6168-2024-10-316-317

ИСПОЛЬЗОВАНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ ТРЕНДОВ

А.С. Сазонова, А.А. Кузьменко, Л.Б. Филиппова, А.А. Курдин

В данной статье представлен анализ методов интеллектуальной аналитики данных, применяемых для исследования статистики популярных видеохостингов. Рассматриваются статистический анализ, кластеризация, машинное обучение и методы обработки естественного языка. Эти методы позволяют выявлять закономерности в поведении аудитории, прогнозировать популярность контента, оптимизировать стратегии продвижения. В статье показано, как применение передовых технологий искусственного интеллекта открывает новые возможности для глубокого понимания предпочтений зрителей и тенденций на видеохостингах. Разработанная информационно-аналитическая система способна извлекать ценные знания из больших данных для принятия эффективных управленческих решений.

Ключевые слова: анализ данных, контент-маркетинг, прогнозирование трендов, искусственный интеллект, машинное обучение, интеллектуальный анализ данных, ChatGPT.

Введение. В настоящее время видеохостинги, играют важную роль в распространении информации и развлекательного контента. Огромные объемы данных, генерируемые этими платформами, открывают широкие возможности для их анализа и извлечения ценных знаний. Актуальность разработки специализированных информационно-аналитических систем для исследования статистики видеохостингов обусловлена рядом факторов.

316

i Надоели баннеры? Вы всегда можете отключить рекламу.