Научная статья на тему 'СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ В СИСТЕМАХ РЕЧЕВОГО АНАЛИЗА'

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ В СИСТЕМАХ РЕЧЕВОГО АНАЛИЗА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обнаружение голосовой активности / машинное обучение / спектральные методы / шумоподавление / voice activity detection / machine learning / spectral methods / noise suppression

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рудакова Полина Андреевна, Рудаков Владимир Иванович

В статье проводится всесторонний анализ современных методов обнаружения голосовой активности (VAD), которые являются ключевым компонентом во многих системах обработки речи и аудиосигналов. Рассмотрены четыре основных типа методов: энергетические, спектральные, статистические, и методы на основе машинного обучения. Освещены их преимущества и недостатки, что позволяет оценить их применимость в различных условиях. Особое внимание уделено анализу, как каждый из методов адаптируется к вызовам, связанным с шумовыми помехами и необходимостью обработки данных в реальном времени. Предложены направления будущих исследований, включая использование передовых техник обучения для снижения зависимости от больших объемов данных и повышения эффективности систем VAD в сложных акустических средах.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рудакова Полина Андреевна, Рудаков Владимир Иванович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARATIVE ANALYSIS OF VOICE ACTIVITY DETECTION ALGORITHMS IN SPEECH ANALYSIS SYSTEMS

The paper conducts a comprehensive analysis of modern methods of voice activity detection (VAD), which are a key component in many speech and audio signal processing systems. Four main types of methods are considered: energy-based, spectral, statistical, and machine learning-based methods. Their advantages and disadvantages are highlighted, al-lowing for an assessment of their applicability under various conditions. Particular attention is given to the analysis of how each method adapts to challenges associated with noise interference and the need for real-time data processing. Directions for future research are proposed, including the use of advanced learning techniques to reduce reliance on large data vol-umes and enhance the efficiency of VAD systems in complex acoustic environments.

Текст научной работы на тему «СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ В СИСТЕМАХ РЕЧЕВОГО АНАЛИЗА»

УДК 004.934

Б01: 10.24412/2071-6168-2024-10-401 -402

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ

В СИСТЕМАХ РЕЧЕВОГО АНАЛИЗА

П.А. Рудакова, В.И. Рудаков

В статье проводится всесторонний анализ современных методов обнаружения голосовой активности (УЛЕ), которые являются ключевым компонентом во многих системах обработки речи и аудиосигналов. Рассмотрены четыре основных типа методов: энергетические, спектральные, статистические, и методы на основе машинного обучения. Освещены их преимущества и недостатки, что позволяет оценить их применимость в различных условиях. Особое внимание уделено анализу, как каждый из методов адаптируется к вызовам, связанным с шумовыми помехами и необходимостью обработки данных в реальном времени. Предложены направления будущих исследований, включая использование передовых техник обучения для снижения зависимости от больших объемов данных и повышения эффективности систем УЛЕ в сложных акустических средах.

Ключевые слова: обнаружение голосовой активности, машинное обучение, спектральные методы, шумоподавление.

Обнаружение голосовой активности (Voice Activity Detection, VAD) является критически важным компонентом во многих системах обработки аудио и речевых технологиях. Эффективность VAD напрямую влияет на качество и эффективность речевого распознавания, систем телекоммуникации, а также многих других приложений, где необходимо точно различать фрагменты голоса от фоновых шумов и тишины. Суть алгоритмов VAD заключается в определении присутствия или отсутствия речи в аудиопотоке, что позволяет улучшить последующую обработку сигналов и оптимизировать ресурсы системы.

С развитием технологий и увеличением требований к качеству речевых коммуникаций возникла потребность в более продвинутых методах обнаружения речевой активности, способных эффективно функционировать в условиях высокого уровня шума и различных акустических сценариев. Современные подходы к VAD включают не только традиционные энергетические и спектральные методы, но и алгоритмы, основанные на машинном обучении и нейронных сетях, которые предлагают значительные улучшения в точности и универсальности.

Обнаружение голосовой активности (VAD) - это технология, используемая для определения наличия или отсутствия речи в аудиосигнале. Основная задача VAD заключается в различении речевых и неречевых сегментов в аудиопотоке, что необходимо для улучшения эффективности обработки сигналов и оптимизации использования ресурсов в речевых и мультимедийных приложениях. Эффективный алгоритм VAD уменьшает объем данных, передаваемых к декодеру, и повышает точность систем распознавания речи, уменьшая их нагрузку за счет исключения несущественных фрагментов.

Алгоритмы VAD могут быть классифицированы на основе их подходов к обработке и анализу сигналов.

Энергетические методы, использующие пороговое значение сигнала для определения наличия речи, характеризуются своей простотой и высокой скоростью обработки, и основаны на идее, что речевые сигналы обычно имеют выше уровень энергии по сравнению с тишиной или фоновым шумом. Эти методы работают путём измерения энергии сигнала в заданном временном окне и сравнения её с заранее установленным порогом.

Одним из таких методов является энергия короткого времени (Short-Time Energy) [4]. Если энергия входящего кадра высока, кадр классифицируется как озвученный, а если энергия входящего кадра низка, он классифицируется как неозвученный. Кратковременная энергия фрейма хт определяется в соответствии с уравнением:

Em = -al[x(m)h(n - т)]2 ,

где

h(n) — i0-54 - 0.46 cos (j^), при 0 <n<N - 1

I 0, иначе

В этом методе используется окно Хэмминга, которое дает большое затухание за пределами полосы частот по сравнению с прямоугольным окном.

Этот метод эффективен в условиях с минимальным фоновым шумом, но его производительность снижается, когда уровень шума приближается к уровню речевого сигнала.

Для улучшения эффективности энергетических методов в различных условиях шума, может быть использован адаптивный порог, который корректируется на основе средней энергии недавних неречевых сегментов сигнала и может быть выражен как:

в — & • Enoise , _

где а - коэффициент, который контролирует чувствительность порога, а Enolse — средняя оцененная энергия фонового шума. Значение а обычно больше единицы и подбирается экспериментально.

Однако, энергетические методы часто страдают от низкой точности в условиях переменного уровня шума, так как шум может значительно изменять уровень энергии сигнала. Высокий уровень фонового шума может сильно затруднить различение между шумом и речью, особенно если шум имеет переменную динамику. Также на точность этих методов может повлиять непостоянство речевых сигналов: различные голоса и стили речи могут иметь различные уровни амплитуд, что требует более сложных подходов к установлению порогов.

Таким образом, хотя энергетические методы и являются полезным инструментом в наборе алгоритмов VAD, их использование наилучшим образом подходит для контролируемых или предсказуемых условий звуковой среды. В более сложных акустических условиях предпочтительнее использовать более продвинутые методы, способные учитывать разнообразные аспекты сигнала.

Спектральные методы обнаружения голосовой активности (VAD) используют частотные характеристики звукового сигнала для определения наличия речи [5]. Основываясь на анализе спектра аудиосигнала, эти методы позволяют отличить речь от шума с большей точностью, чем простые энергетические методы.

Спектральный анализ включает преобразование аудиосигнала из временной области в частотную с помощью быстрого преобразования Фурье (FFT). FFT анализирует каждый сегмент (окно) сигнала, чтобы определить доминирующие частоты и их амплитуды:

N-1

Z-i2nkn

s(n) • е « ,

п = 0

где S(k) — спектральный компонент на частоте k, s(n) — значение сигнала во временной точке n, N — общее число точек в анализируемом окне.

Существует несколько способов анализа полученного спектра для обнаружения речи:

Анализ энергии по частотным полосам: оценивается энергия в определённых частотных полосах, наиболее значимых для речи (обычно 300-3400 Гц). Если энергия в этих полосах превышает заданный порог, сегмент классифицируется как речь [3].

Вычисление спектральной плотности мощности (PSD): PSD сигнала вычисляется для каждого окна, и на основе него делаются выводы о наличии речи: где |S(k)| — модуль спектрального компонента на частоте k.

Использование спектральных признаков, таких как мел-кепстральные коэффициенты (MFCC): используются для оценки формант, которые являются резонансными частотами человеческого голоса [1].

Использование спектрального анализа позволяет VAD алгоритмам эффективно работать в условиях различного уровня шума и при разной громкости речи. Спектральные методы особенно полезны в мультимедийных и телекоммуникационных приложениях, где необходима высокая точность определения речевых сегментов.

Перейдем к рассмотрению статистических методов обнаружения речи. Статистические методы обнаружения голосовой активности используют статистическое моделирование для определения вероятности присутствия речи в аудиосигнале. Эти методы обычно превосходят по точности простые энергетические и спектральные методы, особенно в условиях с переменным уровнем фонового шума.

Одним из основных подходов является метод скрытых марковских моделей (СММ) [2]. Скрытые марковские модели используются для моделирования временных последовательностей данных, в которых предполагается, что система находится в одном из нескольких скрытых состояний. В контексте VAD эти состояния могут соответствовать "речь" и "тишина".

Модель СММ описывается следующими параметрами:

Набор состояний S = Й, S2, ... ,SN],

Начальное распределение состояний nl = P(q1 = St), где q1 — начальное состояние.

Матрица переходов А = [йу], где atj = P(qt+1 = Sj | qt = St)

Функции плотности вероятности для наблюдений, зависящих от состояния bt (ot), где ot — наблюдение в момент времени t.

Для каждого временного окна вычисляются вероятности того, что окно содержит речь, на основе:

P(Q I О,X) = iTilbl(Ol) П1=\^= i aijbj(ot+i) ,

где X = (А, В, л) - параметры модели; Q - последовательность состояний; О - последовательность наблюдений.

Другим из подходов, более точно моделирующих статистические распределения данных, является смешанные гауссовские модели (СГМ) [4]. СГМ представляют собой смесь нескольких гауссовских компонент, каждая из которых характеризуется средним, ковариацией и весом компоненты. В контексте VAD каждая компонента может моделировать распределение акустических характеристик для речевых и неречевых сегментов.

Функция плотности вероятности СГМ задается как:

Р(х) = Ц= i шкК(х\ ßk,£k) , где ык - веса компонент; ßk - средние значения; - ковариационные матрицы; Ж - гауссовская функция плотности.

Методы на основе глубоких нейронных сетей. Методы на основе глубоких нейронных сетей имеют большой потенциал обрести популярность в решении задач обнаружения голосовой активности, благодаря их способности адаптироваться к различным условиям и улучшать точность обнаружения речи в сложных акустических сценариях.

В современных исследованиях и коммерческих разработках систем обнаружения голосовой активности (VAD) широко применяются модели на основе машинного обучения, включая нейронные сети [6]. Однако значительная часть этих разработок, особенно наиболее эффективные и передовые, остаются закрытыми коммерческими продуктами, доступ к детальному описанию которых ограничен. Это усложняет возможность анализа и сравнения различных подходов в академических исследованиях. С другой стороны, открытые решения, такие как Silero VAD, хотя и доступны для использования, не всегда предоставляют полное описание используемых моделей и могут быть менее эффективными с точки зрения скорости обработки по сравнению с такими инструментами, как WebRTC [7]. Важно отметить, что, несмотря на свою доступность, открытые системы могут страдать от сниженной скорости и точности, что существенно ограничивает их применение в требовательных или реальных производственных условиях. Эта ситуация подчеркивает необходимость дальнейших исследований и разработок в области открытых и доступных технологий VAD.

Ниже представлена сравнительная таблица, которая систематизирует различные методы обнаружения голосовой активности (VAD), выделяя их ключевые преимущества и недостатки, а также примеры известных реализаций.

Тип метода Преимущества Недостатки Типичные области применения

Энергетические методы Простота реализации, низкие требования к вычислительным ресурсам. Низкая точность в шумных условиях. Простые голосовые интерфейсы.

Спектральные методы Высокая точность в идеальных условиях, учитывает частотные характеристики сигнала. Сложнее в реализации, требуют больше вычислительных ресурсов. Аудио и видеоконференции, сложные голосовые интерфейсы.

Статистические методы Высокая точность, адаптивность к условиям Требуют большой объем данных для обучения Безопасность, системы видеонаблюдения

Методы на основе глубоких нейронных сетей Очень высокая точность, адаптивность, способность обучаться на сложных данных Требуют значительных вычислительных ресурсов и больших наборов данных для обучения Голосовые ассистенты, смарт-устройства, мультимедийные приложения

Подводя итог, можно сказать, что разнообразие методов обнаружения голосовой активности (VAD) предоставляет исследователям и разработчикам множество опций для реализации в зависимости от специфических требований приложения. От простых энергетических методов до сложных моделей на основе машинного обучения, каждый подход имеет свои преимущества и недостатки, которые следует тщательно взвешивать при выборе подходящей технологии VAD. Энергетические методы подходят для задач с ограниченными вычислительными ресурсами и требованиями к точности, в то время как спектральные и статистические методы предлагают более высокую точность и адаптивность. С другой стороны, методы на основе машинного обучения, хотя и требуют значительных ресурсов для обучения и выполнения, предоставляют наивысшую точность и гибкость, делая их идеальными для сложных и динамичных приложений.

При выборе метода VAD важно учитывать такие факторы, как условия эксплуатации, доступные ресурсы и конкретные требования к точности и скорости обработки. Оптимальный выбор обеспечит не только высокую эффективность обработки речи, но и удовлетворение специфических потребностей пользователя и системы. В итоге, продолжающиеся исследования и разработки в этой области обещают дальнейшее улучшение технологий VAD, что сделает возможным новые применения и улучшение пользовательского опыта в голосовых и мультимедийных системах.

В заключение статьи следует подчеркнуть, что хотя существующие методы обнаружения голосовой активности (VAD) предоставляют широкий спектр технологических решений, каждый из них имеет свои ограничения, которые могут влиять на их применимость в различных условиях. Например, хотя энергетические методы могут быть быстрыми и экономичными с точки зрения ресурсов, они часто не обеспечивают достаточную точность в шумных условиях. С другой стороны, методы на основе машинного обучения, предлагающие высокую точность и адаптивность, требуют значительных вычислительных ресурсов и больших объемов данных для обучения, что может быть неприемлемо в ограниченных условиях.

Таким образом, важной задачей для будущих исследований в области VAD является разработка таких методов, которые смогут сочетать высокую точность обнаружения речи с экономичностью использования ресурсов. Один из потенциальных подходов к решению этой задачи может заключаться в разработке гибридных систем, которые будут интегрировать быстрые, но менее точные методы с более сложными алгоритмами машинного обучения для улучшения общей точности без значительного увеличения вычислительных затрат. Также перспективным направлением является использование технологий передового обучения, таких как передача обучения (transfer learning) и обучение с частичным привлечением учителя (semi-supervised learning), которые могут помочь уменьшить необходимость в больших объемах тренировочных данных, сохраняя при этом высокую эффективность обработки.

Эти и другие инновационные подходы потенциально могут привести к созданию новых моделей VAD, которые будут более универсальными и эффективными, что, в свою очередь, расширит области их применения в различных секторах, от мобильных устройств и помощников до систем безопасности и автоматизированных промышленных решений.

Список литературы

1. Аксёнов О.Д. Метод мел-частотных кепстральных коэффициентов в задаче распознавания речи // Электронные системы и технологии: 55-я юбилейная конференция аспирантов, магистрантов и студентов, Минск, 22-26 апреля 2019 г.: сборник тезисов докладов / Белорусский государственный университет информатики и радиоэлектроники. Минск, 2019. С. 45 - 46.

2. Огнев И.В., Парамонов П.А. Распознавание речи методами скрытых марковских моделей в ассоциативной осцилляторной среде // Технические науки. Информатика, вычислительная техника. 2013. № 3 (27).

3. Сергиенко А. Цифровая обработка сигналов: Учебник для вузов. Питер, 2006.

4. Meduri S.S., Ananth R.A Survey and Evaluation of Voice Activity Detection Algorithms. Кёльн: LAP Lambert Academic Publishing, 2012.

5. Панова А.А., Яковенко А. А., Методы детектирования голосовой активности // SAEC. 2019. №1.

6. Савенков И.Н., Ермоленко Т.В., Цыбик А.В. Разработка VAD-алгоритма на основе глубокого обучения // Проблемы искусственного интеллекта. 2022. №1 (24).

7. Python interface to the WebRTC Voice Activity Detector [Электронный ресурс] URL: https://github.com/wiseman/py-webrtcvad (дата обращения: 17.04.2024).

Рудакова Полина Андреевна, аспирант, [email protected], Россия, Тула, Тульский государственный университет,

Рудаков Владимир Иванович, инженер-программист, vladimirrudd@gmail. com, Россия, Тула, ООО «Айтулабс»

COMPARATIVE ANALYSIS OF VOICE ACTIVITY DETECTION ALGORITHMS IN SPEECH ANALYSIS SYSTEMS

P.A. Rudakova, V.I. Rudakov

The paper conducts a comprehensive analysis of modern methods of voice activity detection (VAD), which are a key component in many speech and audio signal processing systems. Four main types of methods are considered: energy-based, spectral, statistical, and machine learning-based methods. Their advantages and disadvantages are highlighted, allowing for an assessment of their applicability under various conditions. Particular attention is given to the analysis of how

each method adapts to challenges associated with noise interference and the need for real-time data processing. Directions for future research are proposed, including the use of advanced learning techniques to reduce reliance on large data volumes and enhance the efficiency of VAD systems in complex acoustic environments.

Key words: voice activity detection, machine learning, spectral methods, noise suppression.

Rudakova Polina Andreevna, postgraduate, [email protected], Russia, Tula, Tula State University,

Rudakov Vladimir Ivanovich, software engineer, vladimirrudd@gmail. com, Russia, Tula, OOO «ITooLabs» УДК 004.021

DOI: 10.24412/2071-6168-2024-10-404-405

РАЗРАБОТКА И РЕАЛИЗАЦИЯ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ДЛЯ ПОИСКА ОПТИМАЛЬНОЙ

КОНФИГУРАЦИИ ПК

Л.Б. Филиппова, Ю.А. Леонов, А.С. Сазонова, Е.С. Музалевский

В статье представлена математическая модель и описан процесс реализации системы конфигурирования персонального компьютера на основе предпочтений пользователя. Модель позволяет подбирать оптимальный набор комплектующих с учетом их производительности, стоимости и совместимости. Разработан интерфейс для взаимодействия пользователя с системой. Предложены метрики оценки эффективности на основе отзывов пользователей.

Ключевые слова: конфигурация, математическая модель, комплектующие, аппаратное обеспечение, персональный компьютер.

Конфигурирование персонального компьютера представляет собой сложную задачу ввиду большого разнообразия комплектующих и их параметров. Ручной подбор оптимальной конфигурации требует экспертных знаний и значительных временных затрат. Вместе с тем автоматизация данного процесса может значительно упростить выбор оптимальной конфигурации ПК. Данную проблему следует решать, разработав математическую модель для автоматического конфигурирования персонального компьютера, которая должна работать на основе предпочтений пользователя по цене, производительности и другим параметрам. Так же необходимо разработать пользовательский интерфейс и сформировать систему оценки эффективности работы модели. Реализация такой системы позволит упростить процесс конфигурации ПК для конечного пользователя.

Методы и материалы исследования

Для того чтобы представить задачу поиска оптимальной конфигурации в виде математической модели, следует использовать систему линейных уравнений, ограниченную системой булевых уравнений, определяющих совместимость комплектующих. Данные уравнения необходимо формировать на основе нормализованных метрик эффективности и производительности аппаратного обеспечения, а также весов, отражающих степень значимости указанных метрик в контексте поиска оптимальной конфигурации. Поиск оптимальной конфигурации ПК, следует идентифицировать как задачу оптимизации, где система линейных уравнений, сводиться к одному уравнению, которое можно рассматривать как целевую функцию. В контексте математической модели, значение целевой функции представляет собой коэффициент оптимальности, который является мерой эффективности системы [5].

Данная задача имеет схожие черты с классическими проблемами линейного программирования и теории полезности. В линейном программировании целью является максимизация или минимизация линейной целевой функции и при этом все ограничения должны быть линейны. Теория полезности, с другой стороны, рассматривает оптимизацию с учетом линейных и нелинейных ограничений, основной целью является максимизация коэффициента полезности.

В данной модели, комплектующие являются конечным множеством, это означает, что число аппаратного обеспечения заранее известно. Математическая модель для поиска оптимальной конфигурации, ограничена системой булевых уравнений, что не свойственно задам линейного программирования и теории полезности. При учете данных особенностей модели, следует рассматривать задачи дискретной, а в частности комбинаторной оптимизации, где оптимальное решение ищется среди дискретных значений, которыми комплектующие и являются.

Эффективность системы достигается путем суммирования произведения нормализованных метрик, описывающих производительность комплектующих на их весовые коэффициенты. Таким образом, веса играют важную роль в балансировке вклада каждой метрики в общую производительность системы. В данной модели, максимизация целевой функции приводит к оптимизации всей системы.

При формировании математической модели, следует учесть, что общее число всех возможных конфигураций ПК, полученных при сопоставлении совместимых комплектующих, составляет 3.75 * е21. Учитывая указанный масштаб, необходимо уменьшать количество вариантов, поскольку анализ всех возможных сборок без использования подобных методов не представляется возможным. В первую очередь необходимо убрать все комплектующие которых нет в продаже или для них отсутствуют тестовые данные.

Метрика производительности ПК рассчитывается по формуле (1): Partmetric = welght_cpumetrlc * cpumetrlc + weight_gpumetrlc * gpumetrlc + + welght_ssdmetrlc * ssdmetric +

+weight_hddmetrlc * hddmetrlc (1)

где partmetrlc - целевая функция, weight_cpumetrlc - вес метрики производительности процессора, а cpumetrlc -метрика процессора.

В алгоритме необходимо учитывать наличие нескольких жестких дисков (HDD) или твердотельных накопителей (SSD). Для определения оптимальной конфигурации выбирается наилучшая метрика, поскольку влияние накопителей на общую производительность системы является невысоким. В свою очередь, наличие нескольких видеокарт не учитывается моделью, ввиду слишком малого количества данных о работе двух видеокарт

[4].

i Надоели баннеры? Вы всегда можете отключить рекламу.