6. Ranganathan H., Chakraborty S., Panchanathan S. Multimodal emotion recognition using deep learning architectures // 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). - IEEE, 2016. - С. 1-9.
7. Давыдов А.Г., Киселев В.В., Кочетков Д.С. Классификация эмоционального состояния диктора по голосу: проблемы и решения // Труды международной конференции «Диалог 2011». - М.: РГГУ, 2011. - С. 178-185.
8. Кальян В.П. Выбор решений при распознавании эмоций по речи // Машинное обучение и анализ данных. - 2016. - Т. 2 - № 4. - С. 454-470.
9. Стерлинг Г., Приходько П. Глубокое обучение в задаче распознавания эмоций из речи // Труды конференции «Информационные технологии и системы 2016» / ИППИ РАН. - 2016. - С. 451-456.
10. Полякова А.С., Сидоров М.Ю., Семенкин Е.С. Комбинирование подходов кластеризации и классификации для задачи распознавания эмоций по речи // Сибирский журнал науки и технологий. - 2016. - Т. 17 - № 2. - С. 335-342.
11. Лосева Е.Д., Липинский Л.В. Распознавание эмоций человека по устной речи с применением интеллектуальных методов анализа данных // Актуальные проблемы авиации и космонавтики. - 2016. - Т. 1 - № 12. - С. 533-535.
12. Ingale A. B., Chaudhari D. S. Speech emotion recognition //International Journal of Soft Computing and Engineering (IJSCE). - 2012. - Т. 2. - №. 1. - С. 235-238.
13. Алешин Т.С., Редько А.Ю. Принципы подготовки баз речевых данных для задачи распознавания эмоционального окраса речи человека по речевому сигналу // Современные наукоёмкие технологии. - 2016. - № 6. - С. 229-233.
14. Lyon R.F. Machine hearing: An emerging field // IEEE signal processing magazine. - 2010. - Т. 27. - №. 5. - С. 131-139.
УДК 004.934.2, 004.032.26
Панова Анастасия Андреевна,
студент,
Яковенко Антон Александрович,
ведущий программист
МЕТОДЫ ДЕТЕКТИРОВАНИЯ ГОЛОСОВОЙ АКТИВНОСТИ
Россия, г. Санкт-Петербург, ФГАОУ ВО «Санкт-Петербургский политехнический университет Петра Великого», [email protected], [email protected]
Аннотация. В работе представлен аналитический обзор предметной области детектирования голосовой активности. Рассмотрены основные способы решения данной задачи, применяемые на практике. Предложен подход, основанный на анализе визуального представления акустического сигнала, свёрточных нейронных сетях и парадигме машинного слуха. Приведена структурная схема соответствующей методологии, лежащей в основе предлагаемого исследования.
Ключевые слова: детектор голосовой активности, обработка речевых сигналов, машинный слух, сверточные нейронные сети.
Anastasia Panova,
Student, Anton Yakovenko,
Lead software engineer
VISUAL SPEECH-BASED VOICE ACTIVITY DETECTION:
PROBLEM STATEMENT
Russia, St.Petersburg, Peter the Great St.Petersburg Polytechnic University, [email protected], [email protected]
Abstract. The paper presents an analytical review on the voice activity detection. The basic approaches, applied in practice for solving this problem, are considered. A modern approach based on the analysis of the visual representations of the acoustic signal, convolutional neural networks and the machine-hearing paradigm is proposed. A structural diagram of the corresponding methodology underlying the proposed study is presented.
Keywords: voice activity detection, speech signal processing, machine hearing, convolutional neural network.
В настоящее время продолжают активно развиваться технологии анализа речевых сигналов, классификации акустических событий, фильтрации, а также голосовые интерфейсы человеко-машинного взаимодействия, решающие задачи распознавания речи и голосовой биометрии [1]. Для соответствующих систем важную роль играют детекторы акустических событий. На практике целевой сигнал подвержен шумовому воздействию звукового окружения, но прежде чем его обрабатывать и анализировать, необходимо выявить участки фонограммы, на которых он присутствует. В данной работе рассмотрим проблему детектирования голосовой активности (Voice Activity Detection, VAD).
В автоматизированных системах обработки речи детектор голосовой (или речевой) активности позволяет разделить поток аудиоинформации на вокализованные (речевые) и невокализованные (неречевые) участки. Данный этап речевой обработки является базовым компонентом системы и оказывает решающее влияние на её производительность. Его задача заключается в подборе подходящего критерия, который позволит с высокой долей вероятности предсказать, что данный участок фонограммы содержит речь. В результате неверно принятого решения может произойти потеря части полезного сигнала - речевых данных. Детектирование речи также способствует более качественному выявлению информативных признаков речи и, как следствие, увеличению точности распознавания, уменьшению вероятности ошибок первого и второго рода. На сегодняшний день известно множество методов детектирования речи, однако, разработка новых подходов по-прежнему сохраняет свою актуальность.
Считается, что речевые участки акустического сигнала, состоящего из линейной смеси с другими, неречевыми источниками, обладают некоторыми стационарными признаками, по которым их возможно детектировать. Существуют разнообразные методы параметризации речевых сигналов [2]. Можно выделить несколько распространённых информационных признаков речи, которые используются при обнаружении вокализованных участков на фонограмме [3]. Рассмотрим кратко эти методы.
Первый базовый информационный параметр - мощность сигнала. Если мощность рассматривается, как функция времени, её называют временной мощностью, а если, как функция частоты - спектральной плотностью. При использовании данного параметра экспериментальным образом задаётся порог, относительно которого происходит выделение целевого сигнала. Порог может задаваться мощностью фонового шума. Такой метод позволяет в режиме реального времени изменять порог, в зависимости от измерений уровня мощности шума. Но, несмотря на возможность работы в реальном времени, в данном методе не учитываются какие-либо специфические характеристики сигнала, присущие только речевым участкам, поэтому различные импульсные помехи будут детектироваться как речь. Также, в качестве речевого параметра может использоваться динамика изменения мощности сигнала. Так, при возрастании и затухании вокализованных участков речи, уровень мощности будет заметно увеличиваться или уменьшаться.
Другой информационный параметр - число нулевых переходов (Zero Crossing Rate, ZCR). Эта характеристика показывает грубую оценку спектральных свойств акустического сигнала. Считается, что вокализованные участки обладают гораздо меньшим значением ZCR, в сравнении с шумом, для которого это значение является случайным. Однако, использование данного параметра недостаточно эффективно для детектирования речи, поскольку некоторые шумы и музыка могут определяться, как речь, а невокализованные участки речи - наоборот, как шум.
Ещё одним информационным параметром выступают особенности речевого сигнала в кепстральной области. Такой подход основывается на методах кепстрального анализа и детектирует речь путём оценки корреляционных свойств векторов кепстральных коэффициентов [4]. Кепст-ральный анализ относительно хорошо определяет большинство сигналов, но также испытывает трудности с определением речи на фоне музыкальных и импульсных помех.
Существуют и другие речевые признаки, но в качестве общего вывода можно заключить, что ни один из них не является универсальным стационарным информационным параметром речи. Каждый параметр
при индивидуальном использовании не позволяет с достаточной точностью осуществлять классификацию участков акустических сигналов по критерию речь/не речь. Поэтому для обнаружения речевых участков часто используют комбинацию информационных параметров.
Наиболее простая задача из категории УЛБ - обнаружение пауз в речевом сигнале (или удаление фрагментов тишины). Речевой детектор производит бинарную классификацию для обрабатываемого фрейма акустического сигнала и принимает решение о наличии речи на данном участке, что довольно легко при отсутствии стационарных или импульсных помех [5]. В таком случае могут использоваться любые речевые признаки из упомянутых выше. Но в реальных условиях входной сигнал представлен в виде смеси информативной составляющей и шума. В некоторых случаях уровень фонового шума может быть очень высок, а речь заглушена этим шумом. Неправильное детектирование речевых участков для подобного сигнала может привести к обрезанию звуков и, как следствие, потери информации. Рассмотрим наиболее распространённые методы обнаружения голосовой активности [6].
Стандартизированные методы УЛБ в речевых кодеках 0.729Б и 0.723.1Л, используемых для представления телефонной речи, выполняют обнаружение с помощью нескольких различных способов, включая анализ спектральной формы и энергии поддиапазонов. Кодер О.729Б делит речь на интервалы по 10 мс и вырабатывает решение о наличии или отсутствии речи для каждого фрейма, оценивая при этом четыре параметра: разность энергий всего диапазона, разность энергий диапазона низких частот, искажение спектра, разность частоты переходов через ноль. Алгоритм кодера О.723.1Л имеет аналогичную структуру. Отличие заключается в разделении на интервалы по 30 мс.
Алгоритмы УЛБ кодеров ОБМ-РЯ/НЯ/ЕРЯ имеют комплексную структуру. Здесь предсказанная остаточная энергия сигнала сравнивается с адаптивным порогом. Предсказанная остаточная энергия вычисляется с использованием значений действительной и сглаженной автокорреляции, которые описывают спектральные характеристики сигнала.
Метод адаптивного многоскоростного детектирования речи, представленный в кодере ЛМЯ1, раскладывает входной сигнал на девять неравномерных поддиапазонов с помощью банка фильтров. При этом, нижние полосы частот имеют меньшую полосу пропускания, а более высокие частотные диапазоны - большую пропускную способность. Затем вычисляется энергия в каждом поддиапазоне с оценкой отношения сигнал/шум (ОСШ). Решение о детектировании принимается путём сравнения суммы ОСШ поддиапазонов с адаптивным порогом и поступает на схему анализа предыдущих решений.
Метод VAD, используемый в кодерах IS-127/133, называется алгоритмом определения скорости (Rate Determination Algorithm, RDA). Он даёт существенное увеличение канальной ёмкости путём контроля мощности радиопередачи с целью ослабления межканальной интерференции. Скорость определяется путём сравнения ОСШ со значениями адаптивных порогов, зависящих от уровня фонового шума и ОСШ предыдущего фрейма. Затем информация поступает на схему анализа предыдущих решений.
Стоит отметить, что данные методы являются узкоспециализированными и применяются в основном в инфокоммуникационных системах передачи информации. Кроме того, ни один из этих методов не демонстрирует высокой достоверности и точности обнаружения речевой активности и пауз одновременно, поэтому требуется как усовершенствование существующих техник, так и разработка новых [7]. Однако, несмотря на значительное количество реализаций VAD, существующие решения полностью не отвечают требованиям, продиктованным особенностями задачи распознавания голосовых участков для анализа речевых сигналов. Данная проблема оказывается слишком сложной для применения методов, основанных на жестких правилах, которые задают множество различных условий и исключений. Также, недостаток многоступенчатого подхода заключается в том, что ошибки, совершенные на одном шаге, распространяются на другие, в результате чего деградирует качество системы.
Таким образом, цель предстоящего исследования - разработать алгоритм детектирования акустических событий, на примере задачи определения вокализованных участков на фонограмме. В результате обзора предметной области был предложен комплексный подход к данной задаче, основанный на методах машинного обучения. Соответствующая блок-схема, описывающая основные этапы, приведена на рис. 1.
! Обучение: 1
Г > г > > с Г \
Тестир ование: У Г
Г 1 V J —► г > ^ J —► f ^ ^ J — <4- г \ < >
I \_
i________________________________________________________
Рис. 1. Структурная схема детектора голосовой активности
Кроме того, для представления акустического сигнала, перспективным является применение подхода с позиции машинного слуха [8], который предполагает моделирование физиологических процессов кодирования слуховой информации на этапе предобработки сигнала.
Наиболее впечатляющие достижения в последние годы были продемонстрированы в области анализа визуальных данных для распознавания изображений с использованием свёрточных нейронных сетей. На этом фоне активно развиваются мультимодальные (аудиовизуальные) подходы к задаче детектирования речи, учитывающие не только аудио, но и видеоинформацию [9].
Однако, посредством кратковременного преобразования Фурье, акустический сигнал также можно представить в качестве изображения. С учётом вышесказанного, в работе предлагается реализовать подход к детектированию голосовой активности на основе визуального представления акустического сигнала [10][11]. Такие изображения не соответствуют статистическому распределению изображений визуальных объектов, однако они обладают собственными пространственными закономерностями во временной и частотной области, на которых возможно выполнить обучение модели. При этом нейронная сеть должна изучить структуру человеческой речи.
В данном аналитическом обзоре были рассмотрены основные методы решения задачи детектирования речи, применяемые в практических приложениях, отмечены их недостатки и обусловлена актуальность разработки новых подходов. Предложен способ решения данной задачи, сочетающий способы визуального представления аудиоинформации, парадигму машинного слуха и искусственные нейронные сети.
Список литературы
1. Кравцов С. А. Исследование работы детектора речевой активности в задаче идентификации диктора / Кравцов С.А., Тупицин Г.С., Топников А.И., Сагациян М.В., Приоров А. Л. // Радиотехнические и телекоммуникационные системы. - 2015. -№ 4 (20). - С. 61-68.
2. Яковенко А.А., Сидоренко Е.В. Алгоритмы параметризации речевых сигналов и частичного обучения на закрытом множестве дикторов // XVII Всероссийская научная конференция "Нейрокомпьютеры и их применение". Тезисы докладов. - М.: ФГБОУ ВО МГППУ, 2019. - С. 211-213.
3. Борисевич Д.А., Давыдов Г.В., Попов В.А. Обнаружение речи в сигналах в режиме реального времени // Доклады БГУИР. - 2013. - № 5 (75). - С. 100-103.
4. Зельманский О.Б., Давыдов А.Г. Построение программного модуля сегментации речи на основе анализа изменения спектра // Безопасность информационных технологий. - 2011. - № 3. - С. 127-133.
5. Кравцов С. А., Топников А.И., Приоров А. Л. Оценка значимости акустических признаков в задаче детектирования голосовой активности // Цифровая обработка сигналов. - 2016. - № 2. - С. 9-13.
6. Волченков В.А., Витязев В.В. Методы и алгоритмы детектирования активности речи // Цифровая обработка сигналов. - 2013. - № 1. - С. 54-60.
7. Дмитриев В.Т., Лазарев С.И. Методы повышения эффективности детектирования акустически взвешенных участков речевого сигнала // Перспективные технологии в средствах передачи информации - ПТСПИ' 17. - 2017. - С. 183-186.
8. Lyon R.F. Machine hearing: An emerging field // IEEE signal processing magazine. - 2010. - Т. 27. - №. 5. - С. 131-139.
9. Суворов Д. А. Аудиовизуальный детектор голосовой активности на базе глубокой сверточной сети и обобщенной взаимной корреляции / Суворов Д.А., Жуков Р.А., Тетерюков Д.О., Зенкевич, С.Л. // Мехатроника, автоматизация, управление. -2018. - № 19 (1) - С. 53-57.
10. Le Cornu T., Milner B. Voicing classification of visual speech using convolu-tional neural networks // FAAVSP-The 1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing. - 2015. - ISCA, Vienna, Austria. - P. 103-108.
11. Sehgal A., Kehtarnavaz N. A convolutional neural network smartphone app for real-time voice activity detection // IEEE Access. - 2018. - Т. 6. - С. 9017-9026.
УДК 004.912
Чернобаев Игорь Дмитриевич,
аспирант кафедры ВСТ.
Скорынин Сергей Сергеевич, аспирант кафедры ВСТ.
Суркова Анна Сергеевна,
д-р тезн. наук, доцент, доцент кафедры ВСТ
ПРИМЕНЕНИЕ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ
В ЗАДАЧЕ ВЫЯВЛЕНИЯ НЕИСКРЕННИХ СООБЩЕНИЙ
В ОНЛАЙН СЕРВИСАХ
Россия, Нижний Новгород, НГТУ им Р.Е. Алекссева, [email protected], [email protected], [email protected]
Аннотация. В статье рассмотрено моделирование текстовых данных для последующей классификации. Рассмотрена возможность применение и проанализирована эффективность классических рекуррентных нейронных сетей в рамках задачи бинарной классификации текстовых последовательностей, а также представлена модифицированная рекуррентная нейронная сеть.
Ключевые слова: бинарная классификация, текстовые данные, рекуррентные нейронные сети, функция активации, облегченный управляемый рекуррентный блок.
Chernobaev Sergey, PhD student at the Department of CST.
Skorynin Sergey, PhD student at the Department of CST.
Surkova Anna,
DSc, associate professor at the Department of CST