Нейронные сети в задаче жанровой классификации музыкальных композиций

Беленький Михаил Александрович; Гринева Наталья Владимировна

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

1.2.1 ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ

(ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ)

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

DOI: 10.33693/2313-223X-2024-11-1-135-150 УДК: 519.6 ГРНТИ: 28.23 EDN: EIJGDK

Нейронные сети в задаче жанровой классификации музыкальных композиций

М.А. Беленький1, a ©, Н.В. Гринева2, b ©

Финансовый университет при Правительстве Российской Федерации, г. Москва, Российская Федерация

a E-mail: [email protected] b E-mail: [email protected]

Аннотация. В работе исследовано применение нейронных сетей в задаче классификации аудиосигналов по десяти различным жанрам. Рассмотрена особенность обработки звукового сигнала в цифровой среде, выявлена связь между преобразованием Фурье и спектрограммами, рассмотрены характеристики аудиосигналов. Обучение нейронных сетей проводилось на основе датасета GTZAN, содержащего 1000 композиций. На основе датасета было сформировано 4 сравниваемых между собой набора данных, на каждом из них оценена работа трех архитектур нейронной сетей: сверточной, рекуррентной нейронных сетей, многослойному перцептрону. Практическая значимость работы заключается в возможности формирования музыкальных рекомендаций, в организации и структурировании музыки. Цель работы - готовый классификатор, который с высокой точностью мог бы определять вероятность отношения композиции к одному из десяти жанров.

Ключевые слова: аудиосигнал, мел-спектрограмма, спектр, преобразование Фурье, GTZAN, многослойный перцептрон (MLP), сверточная нейронная сеть (CNN), задача жанровой классификации

ОБРАЗЕЦ ЦИТИРОВАНИЯ: Беленький М.А., Гринева Н.В. Нейронные сети в задаче жанровой классификации музыкальных композиций // Computational Nanotechnology. 2024. Т. 11. № 1. С. 135-150. DOI: 10.33693/2313-223X-2024-11-1-135-150. EDN: EIJGDK

DOI: 10.33693/2313-223X-2024-11-1-135-150

Neural Networks in the Task

of Genre Classification of Musical Compositions

M.A. Belenkiy1, a ©, N.V. Grineva2' b ©

Financial University under the Government of the Russian Federation, Moscow, Russian Federation

a E-mail: [email protected] b E-mail: [email protected]

Abstract. This study investigates the application of neural networks in the task of classifying audio signals into ten different genres. The peculiarities of processing audio signals in the digital environment are examined, along with the relationship between Fourier transformation and spectrograms, and the characteristics of audio signals. Neural network training was conducted using the GTZAN dataset, which contains 1000 compositions. Four comparable datasets were formed based on this dataset, and the performance of three neural network architectures - convolutional, recurrent, and multilayer perceptron - was evaluated on each of them. The practical significance of this work lies in the possibility of forming musical recommendations and organizing music. The goal of the study is to develop a classifier that could accurately determine the probability of a composition belonging to one of the ten genres.

Key words: audio signal, mel spectrogram, spectrum, Fourier transform, GTZAN, multilayer perceptron (MLP), convolutional neural network (CNN), genre classification task

FOR CITATION: Belenkiy M.A., Grineva N.V. Neural Networks in the Task of Genre Classification of Musical Compositions. Computational Nanotechnology. 2024. Vol. 11. No. 1. Pp. 135-150. (In Rus.) DOI: 10.33693/2313-223X-2024-11-1-135-150. EDN: EIJGDK

ВВЕДЕНИЕ

Музыка - это самый популярный вид искусства, который исполняют и слушают миллиарды людей каждый день. Существует множество музыкальных жанров, таких как метал, поп, джаз, классика, регги, блюз, диско и хип-хоп.

В последние годы музыкальная индустрия все больше и больше смещается в сторону цифровой дистрибуции через стриминговые (потоковые) музыкальные сервисы и онлайн-магазины. Такая модель дистрибуции позволяет потребителям в любое время иметь возможность прослушивания музыки из большой музыкальной библиотеки, а музыкальным исполнителям легче монетизировать свои произведения. Примером мировых стриминговых сервисов могут быть Spotify, Apple Music, Amazon Music, YouTube Music и др., популярными российскими площадками являются Яндекс. Музыка, СберЗвук, VK Музыка, МТС Music и другие.

Потоковые сервисы привели к экспоненциальному увеличению объема мультимедийного контента, поэтому с этим возросла и необходимость структурирования музыки, эффективных инструментов для ее организации и автоматической рекомендации. Ранее классификация жанров музыки, доступной в цифровом формате, выполнялась вручную. Такой способ классификации являлся сильно субъективным, он занимал много вре-

мени и труда, что становилось проблемой для больших объемов данных. От человека-классификатора требовалось знание различных жанров и стилей, что предельно трудоемко при миллионах песен, существующих в современном мире.

В работе проводится исследование того, как звуковой сигнал обрабатывается в цифровой среде, выявляется связь между преобразованием Фурье и спектрограммой, анализируются характеристики, которыми обладают аудиофайлы, также сравниваются несколько архитектур нейронных сетей, которые могли бы предсказывать жанр конкретной композиции, определяется оптимальный для работы нейронной сети набор характеристик, на основе которого может строиться базовая система рекомендаций музыки.

Цель работы - получить классификатор, который с высокой точностью мог бы определять вероятность отношения композиции к одному из десяти жанров. Будут сравниваться четыре различных набора данных, с которыми предстоит работать каждой из трех сравниваемых архитектур нейронной сети: сверточной нейронной сети, рекуррентной нейронной сети и многослойному перцеп-трону. Дополнительной задачей, не входящий в основную часть работы, является базовая система рекомендаций, которая на основе выбранного набора будет предлагать наиболее похожие композиции для конкретной песни. В работе представлены оригинальные иллюстрации.

Беленький М.А., Гринева Н.В.

1. РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ И ЖАНРОВАЯ КЛАССИФИКАЦИЯ

Автоматическая рекомендация музыки:

• позволяет каждому пользователю получить рекомендации, учитывающие его личные предпочтения и историю прослушивания (например, на многих стриминговых платформах для пользователей формируются «плейлисты дня»);

• дает возможность пользователю открыть для себя новые жанры и новых исполнителей, соответствующих его вкусам;

• позволяет экономить время на поиске музыки, предлагая пользователю уже готовый список рекомендаций;

• способствует наиболее точной маркировке и упорядочиванию контента контент-провайдерами.

Рекомендательные системы подвергались глубокому изучению, однако проблема рекомендаций музыки осложняется огромным социальными и географическими факторами, влияющими на предпочтения слушателя, а также большим разнообразием различных музыкальных стилей и жанров.

Музыкальные жанры - это один из способов организации и классификации музыкального контента, это категориальные ярлыки, созданные людьми для идентификации или характеристики стиля музыки. Музыкальный жанр является важным дескриптором, который широко используется для организации и управления большими цифровыми музыкальными базами данных и распространения музыки. Музыкальные жанры возникали в результате сложного взаимодействия между общественностью, маркетингом, историческими и культурными факторами. Определение жанра музыкального произведения является достаточно нетривиальной задачей из-за субъективности человеческого восприятия, из-за отсутствия стандартов классификации, а также из-за того, что музыкальные жанры трудно поддаются систематическому описанию.

Жанровая классификация музыки имеет ряд преимуществ и полезных аспектов.

1. Организация и систематизация. Жанровая классификация музыки помогает систематизировать и организовать множество различных музыкальных произведений. Она позволяет классифицировать музыку по стилю, характеру и другим параметрам, что упрощает поиск и категоризацию музыкальных произведений.

2. Легкость восприятия. Жанровая классификация музыки помогает слушателям быстрее и легче понимать и оценивать музыку. Она позволяет слушателям лучше понимать музыкальные жанры, их стили и характеристики, что улучшает восприятие и оценку музыки.

3. Социальный аспект. Жанровая классификация музыки может использоваться для культурной и социальной классификации. Музыкальные жанры часто связаны с определенными культур-

ными или социальными группами, что позволяет использовать их в контексте социальных и культурных исследований.

4. Продвижение музыки. Жанровая классификация музыки может использоваться в музыкальной индустрии для продвижения и продажи музыкальных произведений. Жанровая классификация позволяет определить целевую аудиторию и направить музыкальные произведения в нужное русло, что может помочь в продвижении музыкальных работ.

5. Академический аспект. Жанровая классификация музыки может использоваться в музыкальном образовании и исследованиях. Она позволяет студентам и исследователям понимать музыку, ее историю и развитие, и проводить анализ музыкальных произведений на основе жанровых характеристик.

Существуют критерии восприятия, связанные с текстурой, инструментовкой и ритмической структурой музыки, которые могут быть использованы для характеристики конкретного жанра.

2. ТЕОРИЯ ОБРАБОТКИ АУДИОСИГНАЛОВ

Сигнал - это изменение определенной физической величины с течением времени. Аудиосигналом называется сложный сигнал, который состоит из нескольких одночастотных звуковых волн, совместно распространяемых в среде; для аудиосигнала изменяемая величина - это давление воздуха. В природе все сигналы являются аналоговыми, то есть непрерывными сигналами, которые могут принимать любое значение в определенном диапазоне и передаваться в виде непрерывной волны. Для работы сигналов (в частности аудиосигналов) в цифровых системах связи необходимо преобразовать аналоговый сигнал в цифровой. Сначала аналоговый сигнал подвергается дискретизации - разбиению на отдельные отрезки времени. Затем каждый отрезок амплитуды сигнала преобразуется в цифровое значение, которое записывается в память компьютера или другого цифрового устройства.

Осциллограмма - оцифрованная версия сигнала, которая отражает давление звуковой волны на мембрану микрофона, которая представляет собой огибающую амплитуды сигнала в зависимости от времени. На рис. 1 представлена график осциллограммы аудиосигнала, он полезен для наглядной визуализации сигнала, его формы и частоты колебаний.

2.1. Дискретное преобразование Фурье

Преобразование Фурье - это математическая формула, которая позволяет разложить сигнал на составляющие его частоты и отображает амплитуду каждой частоты, присутствующей в сигнале. Другими словами, суть преобразования состоит в переходе от амплитудно-временного представления сигнала к амплитудам и фазам, зависящим от частоты.

Waveplot

0.2

0.1

0.0

-0.1

-0.2

0.6 1.2 1.8 2.4 3 3.6 4.2 4.8

Time

Рис. 1. Осциллограмма аудиосигнала Fig. 1. Audio oscillogram

На рис. 2 схематично изображен смысл преобразования Фурье, а ниже представлена формула:

FT = Дю) = J e ~[&tf ( t )dt,

где f (t) - непрерывная функция; f (о) - преобразование Фурье; q - частота.

Сигнал f [Signal f ]

Время [Time]

Частота [Frequency]

Спектр колебаний f [Oscillation spectrum f]

Рис. 2. Преобразование Фурье Fig. 2. Fourier Transform

Поскольку в работе имеем дело с ограниченными по времени, дискретными сигналами, применяется дискретное преобразование Фурье (ДПФ), математический метод, который преобразует последовательность дискретных данных из временной в частотную область. Формула дискретного преобразования Фурье выглядит, как:

N -1 i 2 nkn N

DTFT = = Х xne

n - 0

где хп - дискретный сигнал;

Хк - его преобразование Фурье; N - количество отсчетов в сигнале; к - номер частотной компоненты.

Спектр дискретного сигнала является результатом дискретного преобразования Фурье; это набор частот и их амплитуд, которые объединяются вместе для получения сигнала. Так как спектр изменяется со временем, изменяются и составляющие его частоты. Он может быть представлен суммой конечного числа гармоник.

2.2. Спектрограмма

и оконное преобразование Фурье

Визуальный способ представления спектра различных частот, присутствующих в форме волны, называется спектрограммой. По оси х отображается время, по оси y - частота в герцах (Гц). Так как громкость сама по себе является не линейной, а логарифмической функцией, ось y обычно преобразуется из частот в децибелы (дБ). На рис. 3 представлена спектрограмма аудиосигнала, где на вертикальной оси показаны частоты (от 0 до 213 кГц), а на горизонтальной - время в секундах.

Спектрограмма изображается в виде тепловой карты, где разные цвета используются для обозначения амплитуды или силы каждой частоты. Чем ярче цвет, тем выше энергия сигнала. Каждый вертикальный «срез» спектрограммы представляет собой спектр сигнала в конкретный момент времени и показывает, как распределяется мощность сигнала на каждой частоте, присутствующей в сигнале.

Чтобы создать спектрограмму, мы не можем использовать FFT1 для всей звуковой дорожки сразу. Для разложения сигнала на составляющие его частоты используется следующий алгоритм: спектрограмма разбивает сигнал на кратковременные сегменты, а затем вместо FFT для всего сигнала применяется STFT2 к каждому сегменту для того, чтобы определить частоты, содержащиеся в этом сегменте.

FFT - быстрое преобразование Фурье (БПФ), алгоритм ускоренного вычисления дискретного преобразования Фурье (ДПФ).

STFT - оконное преобразование Фурье, разновидность преобразования Фурье, метод анализа коротких участков сигнала определенной длины, называемых окнами.

2

НЕЙРОННЫЕ СЕТИ В ЗАДАЧЕ ЖАНРОВОЙ КЛАССИФИКАЦИИ МУЗЫКАЛЬНЫХ КОМПОЗИЦИЙ Беленький М.А., Гринева Н.В.

Рис. 3. Спектрограмма аудиосигнала Fig. 3. Audio spectrogram

Оконное преобразование Фурье для дискретного времени выглядит, как:

да

STFT = Xm (ю)= £ х (n) w (n - mR)e,

n = -да

где x(n) - входной сигнал в момент времени n; w(n) - некоторая оконная функция длины M; Xm (q) - дискретно-временное преобразование Фурье оконных данных, центрированных по времени mR;

R - размер перехода в выборках между последовательными преобразованиями Фурье. У спектрограммы есть некоторое количество характеристик, основными из них можно считать следующие:

• частота дискретизации (sampling rate) - количество отсчетов в секунду. Наиболее распространенная частота семплирования составляет 44,1 кГц, она используется в рамках стандарта Audio CD. В данной работе мы будем использовать частоту по умолчанию в 2 раза меньше, 22 050 Гц, чтобы уменьшить объем данных. Произведение частоты дискретизации и длины файла дает нам общее количество выборок;

• размер окна - длина участка сигнала, который анализируется с помощью оконной функции. Чем больше размер окна, тем более подробно анализируется каждый спектр каждого участка сигнала, однако высок риск потерять информацию о быстро меняющихся частотах. Окна должны быть достаточно малы, чтобы частотные характеристики спектра были относительно стабильными (то есть, чтобы сигнал в течение короткого временного промежутка являлся стационарным). В работе размер окна составляет 2048 сэмплов;

• тип окна или оконная функция - функция, которая используется для ограничения сигнала до определенного участка или окна. Оконная функция умно-

жается на сигнал для большей гладкости по краям при применении преобразования Фурье. Обычно в качестве оконной функции используется Гауссово окно, окно Хемминга, окно Ханна или окно Кайзера. На рис. 4 изображено большинство разновидностей оконных функций. В работе по умолчанию используется окно Ханна;

• размер шага определяет, насколько сильно перекрываются окна, используемые для анализа сигнала. Чем меньше размер шага, тем более подробно анализируется спектр каждого участка сигнала, но при этом увеличивается количество вычислений, необходимых для построения спектрограммы. В работе размер шага равен 512 сэмплам.

2.3. Мел-спектрограмма

Эксперименты ученых показали, что люди воспринимают частоты в нелинейном масштабе, гораздо лучше различая небольшие изменения высоты тона на низких частотах, чем на высоких. В результате был введен мел - психофизическая единица звука, близкая к тому, как звук воспринимается людьми. Мел-шкала соотносит воспринимаемую частоту чистого тона с его фактической измеренной частотой, оставляю полезную информацию с точки зрения восприятия слуха. Формула для преобразования частоты в шкалу Mel выглядит следующим образом:

Mel = M (f ) = 1125 ln | 1 + —|.

v; I 700)

На рис. 5 изображен пример мел-спектрограммы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Спектрограмма Mel вносит два важных изменения по сравнению с обычной спектрограммой, которая отображает зависимость частоты от времени:

• использует мел-шкалу вместо шкалы частот по оси у;

• использует шкалу децибел вместо амплитуды для обозначения цветов.

tnang blackman hamming hann bartlett flattop

bohman blackmanharris nuttall barthann

general gaussian( 1.5, 7) kaiser(14) gaussian(7) taylor general hamming(0.7) chebwin(IOO)

Рис. 4. Оконные функции для STFT Fig. 4. Window Functions for STFT

-10 dB

0 0.5 1

3 3.5 4 4.5

-70 dB

-80 dB

Рис. 5. Мел-спектрограмма Fig. 5. Mel-spectrogram

Мел-фильтры - треугольные функции, которые равномерно распределены на мел-шкале, переход к ней осуществляется с помощью матричного умножения мел-фильтров и спектрограммы.

3. ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ

Осциллограмма хоть и является интуитивно понятной формой визуализации, однако аудиосигнал обычно не используется в таком виде в задачах машинного обучения. Для того, чтобы сделать сигнал полезным, необходимо извлечь менее очевидные особенности.

Чтобы получить адекватное представление музыкального сигнала, позволяющее осуществлять его дальнейшую обработку, применяется процедура вы-

деления акустических характеристик для получения компактного представления сигнала в виде вектора признаков. Поэтому одной из важных подзадач внутри задачи классификации является задача идентификации и выбора надлежащего компактного подмножества исходного набора признаков, который бы обеспечил высокую точность определения жанра, в то же время не снижая показатели производительности и временные затраты.

Извлекаемые характеристики можно разделить по предмету зависимости анализируемых объектов: на временные (объекты зависят от времени) и на спектральные (объекты зависят от частоты). Из них формируется набор признаков, представленный 23-мерным вектором. Для данной задачи были выбраны как

Беленький М.А., Гринева Н.В.

временные, так и спектральные характеристики, многие из них использовались в определенной части научных исследований. Рассмотрим каждый параметр подробно:

3.1. Спектральный центроид (Spectral centroid)

Спектральный центроид - это точка равновесия спектра. Центроид является мерой спектральной формы, ее часто ассоциируют с понятием меры спектральной яркости, в данном случае - яркости звука. Большие значения центроида отражают смещение в сторону

«более ярких», более высоких частот, тогда как меньшие значения отражают смещение в сторону более низких частот. Спектральный центроид вычисляется:

C=

j Mt [n] n

n = 1

j^Mt [n]

n = 1

где М[п] - величина преобразования Фурье в кадре Г; п - частотный диапазон.

Рис. 6. Спектральный центроид Fig. 6. Spectral centroid

3.2. Спектральная полоса пропускания (Spectral bandwidth)

Спектральная ширина в кадре t представляет собой среднеквадратичную разницу между частотным спектром и его центроидом. Если мы рассматриваем спектральный центроид как ожидаемое значение спектрального распределения кадра, то спектральную полосу пропускания можно рассматривать как вариант дисперсии спектрального распределения кадра. Большие значения спектральной полосы пропускания приравниваются к спектрально широкому кадру, малые значения - к узкому.

Спектральная полоса пропускания может быть рассчитана по формуле

' I s (k)(f (k)-f)Р1",

V k J

где S (k) - спектральная величина в частотном диапазоне k;

f (k) - частота в диапазоне k; fc - спектральный центроид;

p - степень отклонения от спектрального центроида, по умолчанию p = 2.

3.3. Спектральный спад (Spectral rolloff)

Спектральный спад определяется как частота Rt, ниже которой находится определенный процент распределения амплитуд спектра, зачастую используются значения 85 или 95%, в работе пороговым значением принимается среднее значение по всему спектру. Спектральный спад так же, как и спектральный центроид, считается мерой спектральной формы. Он вычисляется:

Rt N

£ Mt [л] = 0,85£ Mt [п].

п = 1 п = 1

3.4. Спектральный поток (Spectral flux)

Спектральный поток представляет собой меру величины спектрального изменения, которое происходит между последовательными кадрами аудиосигнала.

Спектральный поток измеряет, насколько быстро изменяется спектральное содержание аудиосигнала с течением времени. Иными словами характеристика является показателем ритмической или текстурной вариативности композиции и рассчитывается:

Ft =(Nt [n]- Nt-, [n])2,

где iVt[n] - нормированная величина преобразования

Фурье в окне t.

1.0 0.8 0.6 0.4 0.2 0.0 -0.2

Spectral Bandwidth p = 2 p = 3 - p = 4

la v\ \ \

Ji

0.6

1.2

L j\ I I \ A J 4 1 \

к V ч m t у . и

f\

\ Й v. I

4/ Ш

1.8

2.4 Time

3.6

4.2

4.8

Рис. 7. Спектральная полоса пропускания для p = 2, 3 и 4 Fig. 7. Spectral bandwidth for p = 2, 3, and 4

Spectral Rolloff

Рис. 8. Спектральный спад Fig. 8. Spectral rolloff

Рис. 9. Спектральный поток Fig. 9. Spectral flux

Беленький М.А., Гринева Н.В.

3.5. Частота пересечения нуля (Zero-crossing rate)

Частота пересечения нуля - мера шумности сигнала. Иначе говоря, это доля времени, в которую значение сигнала во временной области пересекает нулевую ось. Пересечение нуля происходит, когда последовательные отсчеты в цифровом сигнале имеют разные знаки. Периодические звуки, как правило, имеют небольшое значение этого параметра, в то время как шумные зву-

ки, наоборот, имеют высокие показатели. Частота пересечения нуля вычисляется в каждом временном интервале сигнала по формуле:

N

^ =Х I5(X[п])-5(х [п -1])|,

п = 1

где х(п) - сигнал во временной области, а функция 5 имеет значение 1 или 0 для положительных и отрицательных аргументов соответственно.

Рис. 10. Частота пересечения нуля Fig. 10. Zero Crossing Rate

- RMS Energy Mean RMS Energy Low Energy: 0.58

0.2

0.1 0.0

-0.1

-0.2

0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8

Time

Рис. 11. Функция Low Energy Fig. 11. Low Energy Feature

3.6. Низкоэнергетический уровень (Low energy feature)

Функция Low Energy (низкоэнергетического уровня) - доля кадров, среднеквадратичное значение (RMS) которых ниже среднеквадратичного значения

(RMS) песни в целом. Данная функция измеряет, насколько сконцентрирована энергия песни по отношению ко времени. Музыка, содержащая тихие части, будет иметь большую низкую энергетическую ценность, чем непрерывные звуки. В музыке разные жанры

могут иметь разные характеристики громкости. Например, классическая музыка, как правило, имеет более широкий динамический диапазон, чем поп-музыка, которая обычно более сжата с точки зрения громкости.

3.7. Мел-кепстральные коэффициенты (MFCC)

Мел-кепстральные коэффициенты (Mel-frequency cepstral coefficients) - это перцептивно мотивированные коэффициенты кепстрального преобразования Фурье, которые используются для анализа звуковых сигналов. Другими словами, это набор спектральных коэффициентов, представляющих аудиосигнал с учетом особенностей человеческого восприятия звука.

После применения преобразования Фурье и получения спектрального представления аудиосигнала, спектр преобразуется с помощью логарифмической шкалы частот. Далее, полученный сигнал преобразуется обратно с помощью IFFT3, мы получаем кеп-стральный спектр, состоящий из последовательности коэффициентов. Кепстральные коэффициенты проходят через мел-фильтры, выполняется дискретное косинусное преобразование (DCT), результат которого и будет набором MFCC-коэффициентов. Алгоритм получения коэффициентов схематично изображен на рис. 12.

Сигнал [Signal]

Преобразование Фурье [Fourier transform]

Переход к мел-шкале [Conversion to Mel scale]

Логарифмирование [Logarithmization]

Дискретное косинусное

преобразование [Discrete cosine transform]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

MFСС-коэффициенты [MFœ coefficients]

Рис. 12. Алгоритм извлечения MFCC-коэффициентов Fig. 12. MFCC coefficients extraction algorithm

После STFT диапазон частот может быть не похож на реальное восприятие звуков человеком. MFCC-коэффициенты улавливают спектральное восприятие лучше, они позволяет устранить лишние детали в сигнале, которые не несут важной информации (шумы), что улучшает качество распознавания звуковых сигналов.

Согласно результатам, полученным в ряде исследований, было определено, что только первые пять коэффициентов MFCC обеспечивают наилучший уровень классификации музыкальных жанров. На рис. 13 продемонстрировано изменение во времени первых пяти коэффициентов.

Рис. 13. MFCC-коэффициенты (1-5) Fig. 13. MFCC coefficients (1-5)

3.8. Темп (Tempo)

Темп (или скорость) в музыке - наиболее ясная для понимания характеристика из ранее перечисленных.

3 IFT - Обратное преобразование Фурье (ОПФ), метод, который позволяет восстановить сигнал из его частотного представления.

Темп определяется, как скорость звучания музыкального произведения. Темп обычно измеряется в BPM (Beats Per Minute) и указывает количество ударов, которые происходят в течение одной минуты. Таким образом, темп зависит от длительности каждого такта в музыке.

Беленький М.А., Гринева Н.В.

Формула для вычисления темпа может быть представлена в виде следующего отношения:

BPM = - 60, l

где b - количество тактов (ударов) в минуту;

l - длина такта в секундах.

Вычисление темпа может быть полезным в задачах жанровой классификации, так как музыка различных жанров может иметь различные темпы и ритмы.

Обычно ритмические характеристики не ограничиваются темпом: в некоторых исследованиях рассчитываются относительные амплитуды и периоды первого и второго пиков гистограмм биений, общая сумма этой гистограммы и т.д. Также, немало и спектральных характеристик, которые можно получить во время анализа композиции: это спектральный разброс (spread), спектральный скос (skew), спектральный эксцесс (kur-tosis), спектральная плоскость (flatness), спектральный гребень (crest) и другие. К другим характеристикам можно отнести коэффициенты спектрального контраста (мера разницы в энергии между пиками и впадинами спектра), цветность (chroma, гармоническое содержание аудиосигнала) и другие. Все они могут быть полезны для различных задач обработки аудиосигналов. Но мы ограничимся вышеперечисленным набором характеристик для дальнейшего их использования в самой задаче жанровой классификации.

Таблица 1

Изначальный набор признаков [Initial set of features]

№ Название характеристики [Name of feature]

1 Спектральный центроид [Spectral Centroid]

2 Спектральная полоса пропускания [Spectral Bandwidth]

3 Спектральный спад [Spectral Rolloff]

4 Спектральный поток [Spectral Flux]

5 Частота пересечения нуля [Zero-Crossing Rate]

6 Низкоэнергетический уровень [Low Energy]

7 MFCC-коэффициенты [MFCC Coefficients]

8 Темп [Tempo]

4. ФОРМИРОВАНИЕ

НАБОРОВ ХАРАКТЕРИСТИК

Для начала рассмотрим набор данных, который мы будем использовать для прикладной части данной работы.

4.1. Используемый датасет

Существует немало датасетов для задачи жанровой классификации композиций. Наиболее известные из них:

• Million Song Dataset (MSD) - коллекция аудиофайлов и метаданных одного миллиона популярных музыкальных треков;

• Free Music Archive (FMA) - крупномасштабный набор данных, содержащих 106 тысяч аудиозаписей и 161 жанр;

• GTZAN Dataset - набор данных, содержащий 1000 аудиофайлов в формате WAV (Waveform Audio Format) длительностью в 30 секунд каждый и 10 жанров, для каждого из которых есть по 100 примеров.

Последний датасет выбран для текущей задачи, его преимуществом является относительно небольшой объем данных (около 1 ГБ), обеспечивающий экономию вычислительной мощности. Наборы MSD и FMA являются более разнообразными, однако их объем составляет несколько сотен ГБ, их обработка может требовать предельно большой вычислительной мощности.

Датасет был собран в начале 2000-х гг. как раз-таки с целью построения системы жанровой классификации музыки в автоматическом режиме. GTZAN содержит следующие музыкальные жанры: блюз, кантри, хип-хоп, метал, регги, классику, диско, джаз, поп-музыку, рок. Несмотря на ограничение набором жанров, он остается пригодным вариантом для обучения базовой модели жанровой классификации.

4.2. Наборы признаков

Для того, чтобы ответить на вопрос, какие признаки можно использовать для того, чтобы наиболее точно распознать жанр композиции, перед нами стоит задача подбора оптимального вектора характеристик, который мы будем использовать уже в задаче машинного обучения. Под оптимальностью в данном случае подразумевается:

1) высокое качество: качество является очевидным требуемым результатом работы машинного обучения, оно может быть оценено с помощью различных метрик, например, с помощью accuracy, recall, precision и других метрик, используемых для оценки моделей машинного обучения;

2) приемлемый размер: размер набора данных является важным критерием, ввиду технических и вычислительных ограничений в данном случае оптимальным набором будет считаться наиболее компактный (среди наборов, обеспечивающих одинаковое качество модели обучения, лучше тот, что содержит меньший объем данных);

3) приемлемое время обучения: оптимальным набором будет считаться тот, который за наименьшее время обеспечит высокий уровень качества модели.

Было принято сформировать четыре различных набора данных, а затем сравнить их по указанным критериям. Опишем содержание каждого набора данных:

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

Набор №1

В наборе используется расширенный перечень признаков, описанный в табл. 2. Для спектральных величин, первых пяти MFCC-коэффициентов и для частоты пересечения нули рассчитываются ^ (среднее значение) и а (стандартное отклонение), тем самым мы значительно уменьшаем объем получаемого набора. В наборе 1000 изначальных аудиодорожек (по 30 с), каждая аудиодорожка преобразуется в 22-мерный массив признаков. Общий объем данных составляет 22 тысячи элементов.

Набор №2

В наборе аналогично используется расширенный перечень признаков, описанный в табл. 2. Предусмотрено увеличение данных путем разделения каждого аудиофайла на 3 отрывка одинаковой длины. В итоге в наборе 3000 изначальных аудиодорожек (по ~10 с), каждая аудиодорожка преобразуется в 22-мерный массив признаков. Общий объем данных составляет 66 тысячи элементов.

Набор №3

В наборе аналогично используется расширенный перечень признаков, описанный в табл. 2. Предусмо-

5. ТЕХНИЧЕСКАЯ ЧАСТЬ

Перейдем к технической части работы, в которой мы рассмотрим применение средств языка программирования Python в реализации поставленных целей. Перед основной задачей было необходимо составить наборы данных, описанные в п. 3. Для наборов 1-3 был использован подход, при котором параллельно выпол-

трено увеличение данных путем разделения каждого аудиофайла на 5 отрывков одинаковой длины. В итоге в наборе 5000 изначальных аудиодорожек (по ~6 с), каждая аудиодорожка преобразуется в 22-мерный массив признаков. Общий объем данных составляет 110 тысяч элементов.

Набор №4

Набор такого типа используется в схожем исследовании. Предусмотрено увеличение данных путем разделения каждого аудиофайла на 10 отрывков одинаковой длины. В итоге в наборе 10 тысяч изначальных аудиодорожек, каждая аудиодорожка содержит массив из 125 векторов, каждом из которых содержит первые пять MFCC-коэффициентов. Общий объем данных составляет чуть более 6 миллионов элементов.

Каждый из четырех наборов в ходе его применения для задачи жанровой классификации будет проверен на оптимальность. Тот набор характеристик, который бы обеспечил наилучшую точность распознавания жанра за оптимальное время, в дальнейшем может использоваться для определения жанра отдельных музыкальных композиций (вероятности принадлежности к одному из жанров) или для составления базовых музыкальных рекомендаций.

няются несколько процессов, в программировании это называется мультипроцессингом. Его использование повысило производительность в 2.2, сэкономив более 15 минут ожидания. Быстрее всего собирались данные для набора №4 (77 с), медленнее - для набора №2 (303 с). Рассмотрим алгоритм выполнения задачи для каждого из четырех наборов данных.

Таблица 2

Расширенный набор признаков [Extended set of features]

№ Название характеристики [Name of feature]

1-2 Спектральный центроид: среднее значение, СКО [Spectral centroid: mean, standard deviation]

3-4 Спектральная полоса пропускания: среднее значение, СКО [Spectral bandwidth: mean, standard deviation]

5-6 Спектральный спад: среднее значение, СКО [Spectral rolloff: mean, standard deviation]

7-8 Спектральный поток: среднее значение, СКО[Spectral flux: mean, standard deviation]

9-10 Частота пересечения нуля: среднее значение, СКО [Zero-crossing rate: mean, standard deviation]

11 Низкоэнергетический уровень [Low energy]

12-13 Первый коэффициент MFCC: среднее значение, СКО [1 MFCC coefficient: mean, standard deviation]

14-15 Второй коэффициент MFCC: среднее значение, СКО [2 MFCC coefficient: mean, standard deviation]

16-17 Третий коэффициент MFCC: среднее значение, СКО [3 MFCC coefficient: mean, standard deviation]

18-19 Четвертый коэффициент MFCC: среднее значение, СКО [4 MFCC coefficient: mean, standard deviation]

20-21 Пятый коэффициент MFCC: среднее значение, СКО [5 MFCC coefficient: mean, standard deviation]

22 Темп [Tempo]

Беленький М.А., Гринева Н.В.

1. Обработка созданного в п. 3 массива данных с характеристиками аудиофайлов, разделение датасета на выборки X и Y.

2. Разделение выборок X и Y на обучающую, вали-дационную и тестовую выборки.

3. Построение трех различных архитектур нейронных сетей: сверточной нейронной сети (Con-volutional Neural Network, CNN), рекуррентной нейронной сети (Recurrent Neural Network, RNN) и многослойного персептрона (Multilayer Perceptron, MLP).

4. Компиляция и обучение модели: выбор оптимизатора, функции потерь, количества эпох и размера батча. Вывод графика динамики метрики accuracy и функции потерь.

Результаты рабо

5. Проверка модели на тестовой выборке: построение матрицы ошибок и вывод четырех метрик: accuracy, precision, recall и f1-score.

6. Сравнение результатов трех архитектур и выбор лучшей по скорости обучения модели и ее качеству.

Далее мы опишем основные итоги, полученные в ходе выполнения задачи. В рамках задачи было построено 12 нейронных сетей по 3 типа для 4 наборов. Было принято исключить результат MLP для набора №4 по причине низкой работоспособности. В табл. 3 представлены показатели четырех метрик для каждого из случаев. Было решено определить 3 лучшие модели, основываясь на метрике accuracy.

Таблица 3

[Results of work]

Модель [Model] MLP CNN RNN MLP CNN RNN MLP CNN RNN MLP CNN RNN

Набор №1 [Set №1] Набор №2 [Set №2] Набор №3 [Set №3] Набор №4 [Set №4]

accuracy O^7 O,629 O^ O,779 0,796 O,765 0,814 0,799 O,78l - O,7l8 0,633

recall O,629 O,577 O,779 O,795 O,766 O,8U O,8Ol O,78O - O,7l5 O,627

precision O^ O^ O,779 O,796 O,765 O,8l4 O,799 O,78l - O,7l8 0,633

f1 O,649 O,624 O,594 O,786 O,8Ol O,77l O,8l6 O,8l4 0,783 - 0,738 O^

Вектор характеристик [Feature vector] 22 х 1

Сверточный слой № 1 [Feature layer No. 1]

21 X 128

Коэффициент отсечения 0,2 [Dropout rate 0.21

Коэффициент отсечения 0,2 [Dropout rate 0.2]

Слой пулинга № 1

[Pooling layer No. 1] 21 х 128

Сверточный слой № 2 [Feature layer No. 21

20 X 128

Слой пулинга № 2

[Pooling layer No. 2] 21 х 128

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сверточный слой № 3 [Feature layer No. З1

20 X 128

Слой пулинга № 3

[Pooling layer No. З1

20 X 128

Фильтров 128 Размер ядра 2

[Filters 128 Kernel size 2]

Размер окна 1 Фильтров 128

[Window size 1]

Размер ядра 2

[Filters 128 Kernel size 2]

Размер окна 1 [Window size 1]

Фильтров 256

[Filters 256] Размер ядра 16 [Kernel size 16]

Размер окна 1 [Window size 1]

+ReLU

0 blues

1 classical

9 rock

Рис. 14. Архитектура сверточной нейронной сети (CNN) Fig. 14. Convolutional neural network (CNN) architecture

Общая точность сверточной модели нейронной сети для наборов 2 и 3 показала значения 79,6 и 79,9% соответственно. CNN модель для набора №3 показывала максимальную точность 82,4%. Но наилучшее качество по метрике accuracy показала модель многослойного персептрона также для набора № 3. Средняя достоверность предсказания MLP составляла 81,4%, а наилучшая - 84,9%.

Опишем архитектуры моделей CNN и MLP, которые используются для набора №3. На рисунке 14 схематично изображена архитектура CNN.

Архитектура CNN включает в себя следующие слои:

1) Conv1D №1: сверточный слой (1D - для одномерных данных) с 128 фильтрами, размером ядра, равным 2, и функцией активации (далее, ФА) ReLU;

2) MaxPooling1D №1: слой пулинга, с размером окна, равным 1;

3) Conv1D №2: сверточный слой с 128 фильтрами, размером ядра, равным 2, и ФА ReLU;

4) MaxPooling1D №2: слой пулинга, с размером окна, равным 1;

5) Dropout №1: слой регуляризации, с коэффициентом отсечения, равным 0,2;

6) Conv1D №2: сверточный слой с 256 фильтрами, размером ядра, равным 16, и ФА ReLU;

7) MaxPooling1D №3: слой пулинга, с размером окна, равным 1;

8) Dropout №2: слой регуляризации, с коэффициентом отсечения, равным 0,2;

9) Flatten: выравнивающий слой, который преобразует многомерные данные в одномерный вектор;

10) Dense №1: полносвязный слой с 64 нейронами и ФА ReLU;

11) Dense №2: полносвязный слой с 10 нейронами и ФА softmax. В этом слое используется L1 регуляризация4 с коэффициентом 0,15.

Архитектура MLP также схематично изображена на рис. 15.

Скрытые слои [Hidden layers]

Вектор характеристик [Feature vector] 22 х 1

Входной слой [Input layer] 22 х 256

Нейронов 256 [Neurons 256]

Скрытый слой № 1 [Hidden layer № 1] 22 х 128

Нейронов 128 [Neurons 128]

Скрытый слой № 2 [Hidden layer № 2] 22 х 64

Нейронов 64 [Neurons 64]

Скрытый слой № 3 [Hidden layer № 3] 1 х 256

Нейронов 256 [Neurons 256]

0 blues

1 classical

9 rock

Рис. 15. Архитектура многослойного персептрона (MLP) Fig. 15. Multilayer perceptron (MLP) architecture

+ReLU

Архитектура MLP представляет следующий вид:

1) входной слой: полносвязный слой с 256 нейронами и ФА ReLU;

2) скрытый слой №1: полносвязный слой с 128 нейронами и ФА ReLU;

3) скрытый слой №2: полносвязный слой с 64 нейронами и ФА ReLU;

4) flatten: выравнивающий слой;

4 L1-регуляризация - это метод добавления штрафа на модуль весов в целевую функцию при обучении модели, чтобы стимулировать разреженность весов и выполнение отбора признаков, приводящего к уменьшению числа значимых признаков и повышению интерпретируемости модели.

5) скрытый слой №2: полносвязный слой с 256 нейронами и ФА ReLU;

6) выходной слой: полносвязный слой с 10 нейронами и ФА softmax.

Рассмотрим матрицы ошибок для обеих моделей. Confusion Matrix является инструментом для оценки производительности моделей классификации. Она позволяет визуализировать результаты классификации в виде тепловой карты, на которой сравниваются фактические и предсказанные классы. На рис. 16 и 17 можем увидеть результаты классификации на наборе № 3 для моделей CNN и MLP соответственно.

НЕЙРОННЫЕ СЕТИ В ЗАДАЧЕ ЖАНРОВОЙ КЛАССИФИКАЦИИ МУЗЫКАЛЬНЫХ КОМПОЗИЦИЙ Беленький М.А., Гринева Н.В.

blues classical country disco _ hiphop

cS Ol

& jazz metal pop reggae rock

Accuracy = 0.80

Predicted

Рис. 16. Матрица неточностей для модели CNN Fig. 16. Confusion matrix for CNN model

80 blues

70 classical

60 country

50 disco

40 lhiphop cS Ol R jazz

■ 30 metal

20 pop

10 reggae

100 rock

Accuracy = 0.87

Predicted

Рис. 17. Матрица неточностей для модели MLP Fig. 17. Confusion matrix for MLP model

Видим, что в данном случае модель лучше всего справляется с классификацией классических произведений (98%), регги (91%) и метала (88%). Чаще всего модель ошибается при распознавании музыки кантри (65%), часто путая этот жанр с блюзом, поп-музыки (72%), ложно определяя регги, и рока (73%). Также видно, что некоторое количество раз модель ложно определила джаз, как классику, кантри и метал, как рок, однако общая точность модели все равно считается достаточно хорошей.

Взглянем на матрицу ошибок модели персептрона (см. рис. 17).

Метрика accuracy достигает 84%, из всех жанров в текущем примере лучше всего распознается регги (94%), классика (92%), блюз (90%), джаз (89%) и метал (88%), хуже всего - кантри (68%). Среди ошибок отметим наиболее частые: неверное распознавание джаза, как классической музыки; хип-хопа и кантри, как регги; кантри, диско и метала, как рок-музыки. Анализируя матрицу ошибок, существенная часть ошибок в распознавании жанра зачастую похожи на те, которые мог бы совершить обычный слушатель.

ЗАКЛЮЧЕНИЕ

В работе мы погрузились в теорию обработки сигналов, в спектральные и временные характеристики, которыми обладают музыкальные композиции. Были проанализированы 4 набора данных, а также построены 12 различных нейронный сетей, в результате которых мы можем считать, что лучшими для работы с жанровой классификацией оказались MLP и CNN нейронные сети, обученные на наборе из 22 характеристик, вычисляемых на пятикратно разделенных аудиофайлах: лучший показатель метрики accuracy составил 85%. Результат не является пределом, точность может быть увеличена с увеличением наборов для обучения,

с улучшением вычислительной техники и модификацией архитектуры нейронных сетей.

Классификация музыки, в том числе жанровая, построение рекомендательных систем и анализ музыки в целом - все эти области являются сложными и активно изучаемыми в наши дни. Развитие и углубление в каждую из них требует дальнейших исследований, использования новых алгоритмов и моделей нейронных сетей, а также внимания к уникальным особенностям музыкальных произведений и предпочтений слушателей.

Литература/References

1. Silla C.N., Koerich A.L., Kaestner C.A.A. A feature selection approach for automatic music genre classification. International Journal of Semantic Computing. 2009. No. 03. Pp. 183-208.

2. Geoffroy P. A large set of audio features for sound description (similarity and classification). In: CUIDADO Project. 2004.

3. Silla C., Koerich A., Kaestner C. A machine learning approach to automatic music genre classification». Journal of the Brazilian Computer Society. 2008. Vol. 14. No. 3.

4. Tzanetakis G., Cook P. MARSYAS: A framework for audio analysis. Organised Sound. 2000. No. 4 (3). Pp. 169-175.

5. Tzanetakis G., Essl G., Cook P. Automatic musical genre classification of audio signals. In: Proc. Int. Symp. Music Information Retrieval (ISMIR). Oct. 2001.

6. Tzanetakis G., Cook P. Musical genre classification of audio signals. IEEE Transactions on Speech and Audio Processing. 2002. Vol. 10. No. 5. Pp. 293-302.

7. Choi K., Fazekas G., Sandler M. Automatic tagging using deep convolutional neural networks. In: Intl. Society for Music Information Retrieval Conf. (ISMIR). 2016.

8. Choi K., Fazekas G., Sandler M., Cho K. Convolutional recurrent neural networks for music classification. 2016.

9. Rafi Q.G., Noman M., Prodhan S.Z. et al. Comparative analysis of three improved deep learning architectures for music genre classification. International Journal of Information Technology and Computer Science. 2021. No. 13. Pp. 1-14.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

10. Van den Oord A., Dieleman S., Schrauwen B. Deep content-based music recommendation. In: Advances in Neural Information Processing Systems. 2013. Pp. 2643-2651.

11. Van den Oord A., Dieleman S., Schrauwen B. Transfer learning by supervised pre-training for audio-based music

classification. In: Conference of the International Society for Music Information Retrieval, (ISMIR 2014). 2014.

12. Vaibhavi M., Krishna P.R. Music genre classification using neural networks with data augmentation. 2021.

13. Crème M., Burlin C., Lenain R. Music genre classification. Stanford University, December 15, 2016.

Статья проверена программой Антиплагиат. Оригинальность - 98,86%

Рецензент: Золотова Т.В., доктор физико-математических наук; профессор, кафедра анализа данных и машинного обучения; Финансовый университет при Правительстве Российской Федерации

Статья поступила в редакцию 01.03.2024, принята к публикации 28.03.2024 The article was received on 01.03.2024, accepted for publication 28.03.2024

СВЕДЕНИЯ ОБ АВТОРАХ

Беленький Михаил Александрович, студент, факультет информационных технологий и анализа больших данных; Финансовый университет при Правительстве Российской Федерации; г. Москва, Российская Федерация. ORCID: 0009-0005-9079-9489; E-mail: michael. [email protected]

Гринева Наталья Владимировна, кандидат экономических наук, доцент; доцент, кафедра анализа данных и машинного обучения; Финансовый университет при Правительстве Российской Федерации; г. Москва, Российская Федерация. ORCID: 0000-0001-7647-5967; Author ID: 303847; E-mail: [email protected]

ABOUT THE AUTHORS

Mikhail A. Belenkiy, student, Faculty of Information Technology and Big Data Analysis; Financial University under the Government of the Russian Federation; Moscow, Russian Federation. ORCID: 0009-0005-9079-9489; E-mail: [email protected]

Natalia V. Grineva, Cand. Sci. (Econ.), Associate Professor; associate professor, Department of Data Analysis and Machine Learning; Financial University under the Government of the Russian Federation; Moscow, Russian Federation. ORCID: 0000-0001-7647-5967; Author ID: 303847; E-mail: [email protected]

Нейронные сети в задаче жанровой классификации музыкальных композиций Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Беленький Михаил Александрович, Гринева Наталья Владимировна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Беленький Михаил Александрович, Гринева Наталья Владимировна

Neural Networks in the Task of Genre Classification of Musical Compositions

Текст научной работы на тему «Нейронные сети в задаче жанровой классификации музыкальных композиций»