Научная статья на тему 'Выбор признаков в задаче распознавания эмоций диктора'

Выбор признаков в задаче распознавания эмоций диктора Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
181
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ЭМОЦИЙ / EMOTION RECOGNITION / РЕЧЕВЫЕ ПРИЗНАКИ / SPEECH FEATURES / ГЕНЕТИЧЕСКИЕ АЛГОРИТМЫ / GENETIC ALGORITHMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шолохов Алексей Владимирович

Исследуется подход к выбору наиболее информативных признаков в задаче автоматического определения эмоционального состояния человека по записям устной речи. Для получения оптимального подмножества признаков по заданному критерию качества распознавания использовался генетический алгоритм.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шолохов Алексей Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURE SELECTION FOR SPEAKER’S EMOTION RECOGNITION

The article deals with the problem of the most informative features selecting for automatic emotional speaker’s state recognition. Genetic algorithm was used to obtain the optimal subset of features for a given quality criterion of recognition.

Текст научной работы на тему «Выбор признаков в задаче распознавания эмоций диктора»

бая функция из фу, ф1; ф3. Заметим, что это условие выполняется, если ф~ не может быть линейно выражена через ф2, т.е. не существует такого к = const, что ф~ = к ф2. Несложно показать, что если это условие нарушается, то система (2) вырождается и не может быть однозначно идентифицирована (исключением является случай n = 1, который не представляет интереса с точки зрения поставленной задачи).

Продолжим редукцию модели (3). Чтобы исключить процедуру деления, умножим правую и левую части (3) на ф2:

фуф2 - фуф2 = 01 (ф 1ф2 - ф1<Р2 ) + 03 (фзф2 "фз<Р2 ) . (4)

Введем новые переменные уу = фуф2 - фуф2, у1 = ф 1ф2 - ф1ср2, у3 = (ф3ф2 - ф3ср2, умножим модель

(4) на у1 и проинтегрируем по времени на интервале от t0 до t:

t t t J у у yd = 01 Jyf dt + 03 J у 3 yd . t0 t0 t0

t t t Тогда, введя по аналогии выражения § у = J у у yd , §1 = J yfdt, §3 = J У3 У1 dt, получим

t0 t0 t0

§ Д1 =01 +03I3I-1.

Продифференцировав по времени, получаем

§ у §-1 -§ у §-2§ 1 =03 (§ 3§-1 -§3§-2§ 1 ) . (5)

Модель (5) является редуцированной формой модели (2), в которой остался только один неизвестный параметр 03, а выходной сигнал и регрессор известны. Соответственно параметр 03 может быть идентифицирован любым из описанных выше способов. Как и ранее, в выражении (5) можно исключить процедуру деления, умножив его на §j2. Таким образом, итеративная процедура каскадной редукции позволяет выделить из исходной модели (1) только те неизвестные параметры, которые требуется идентифицировать. Во избежание достижения интегралами больших величин интегрирование может проводиться на не интервале от t0 до t, а на некотором интервале от t - T до t, t > T, образующем временное окно. Это позволит также отслеживать вариации идентифицируемого параметра, но пока оставляет открытым вопрос выбора ширины окна T.

Работа выполнена при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (государственный контракт № 16.740.11.0553).

1. Льюнг Л. Идентификация систем. Теория для пользователя. - М.: Наука, 1991. - 432 с.

2. Арановский С.В., Бобцов А.А., Никифоров В.О. Синтез наблюдателя для нелинейного объекта в условиях гармонического возмущения, приложенного к выходной переменной // Научно-технический вестник СПбГУ ИТМО. - 2010. - № 3 (67). - С. 32-39.

3. Aranovskiy S., Bobtsov A., Kremlev A., Nikolaev N., Slita O. Identification of frequency of biased harmonic signal // European Journal of Control. - 2010. - № 2. - P. 129-139.

4. Бобцов А.А., Ефимов Д.В., Пыркин А.А., Золгадри А. Алгоритм адаптивного оценивания частоты смещенного синусоидального сигнала с аддитивной нерегулярной составляющей // Мехатроника, автоматизация, управление. - 2012. - № 2. - C. 16-21.

Арановский Станислав Владимирович - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кандидат технических наук, ст. научный сотрудник, [email protected]

Бобцов Алексей Алексеевич - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор технических наук, профессор, декан, [email protected] Пыркин Антон Алексеевич - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кандидат технических наук, ассистент, [email protected]

УДК 004.93+57.087.1

ВЫБОР ПРИЗНАКОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ЭМОЦИЙ ДИКТОРА

А.В. Шолохов

Исследуется подход к выбору наиболее информативных признаков в задаче автоматического определения эмоционального состояния человека по записям устной речи. Для получения оптимального подмножества признаков по заданному критерию качества распознавания использовался генетический алгоритм. Ключевые слова: распознавание эмоций, речевые признаки, генетические алгоритмы.

Важность проблемы автоматического распознавания эмоций объясняется тем, что их выражение в значительной степени улучшает взаимопонимание у людей при общении друг с другом. Знания эмоцио-

Научно-технический вестник информационных технологий, механики и оптики,

2012, № 3 (79)

нальной окраски высказывания позволяют извлечь более полную информацию, содержащуюся в речевом сигнале. Одна из основных проблем в распознавании эмоций заключается в том, что неизвестно, какие именно речевые характеристики и их подмножества отвечают за проявление той или иной эмоции. В связи с этим важным этапом предобработки является процесс извлечения из большого объема тех данных, которые действительно содержат в себе необходимую информацию. Кроме того, наличие шумовых нерелевантных признаков может снизить устойчивость классификатора. Таким образом, из множества всех извлеченных признаков необходимо выбрать подмножество, обучившись на котором, классификатор покажет наилучшую оценку качества распознавания.

Так как количество возможных решений экспоненциально зависит от размерности пространства признаков, было решено использовать генетический алгоритм для поиска оптимального решения. Целевая функция представляла собой оценку вероятности правильного распознавания со слагаемым, штрафующим наборы из большого количества признаков.

Эксперименты проводились на Берлинской базе записей эмоциональной речи EMO-DB [1]. Для каждой аудиозаписи формировались 400-мерные вектора признаков, которые и составили обучающую выборку. В качестве классификатора использовался метод опорных векторов (Support Vector Machine) [2]. В таблице представлены полученные в результате эксперимента оценки вероятности безошибочной классификации эмоций. В левой части ячеек (столбцы 1) показаны оценки для исходного набора признаков, а в правой (столбцы 2) - для отобранных генетическим алгоритмом, количество которых в 10 раз меньше. Значение в каждой ячейке соответствует отдельно обученному бинарному классификатору. Как видно, в некоторых случаях качество распознавания даже повысилось на сокращенных наборах признаков.

Эмоции Скука Отвращение Страх Радость Грусть Нейтральное

1 2 1 2 1 2 1 2 1 2 1 2

Гнев 0,95 0,96 0,87 0,89 0,89 0,87 0,75 0,79 0,98 0,97 0,98 0,99

Скука - 0,85 0,79 0,86 0,79 0,88 0,88 0,78 0,73 0,72 0,67

Отвращение - - 0,72 0,68 0,76 0,76 0,89 0,91 0,88 0,88

Страх - - - 0,76 0,77 0,90 0,88 0,89 0,85

Радость - - - - 0,94 0,95 0,92 0,88

Грусть - - - - - 0,83 0,84

Таблица. Оценка вероятности безошибочной классификации эмоций для исходного набора речевых признаков (столбцы с индексом 1) и набора признаков, отобранных генетическим алгоритмом

(столбцы с индексом 2)

Эксперименты показали, что генетический алгоритм является эффективным средством для решения задачи выбора подмножества информативных признаков. В дальнейшем планируется исследовать адаптивные генетические алгоритмы, параметры которых могут подстраиваться в ходе работы, тем самым увеличивая скорость поиска решения и увеличивая вероятность выхода из локальных оптимумов.

1. Берлинская база эмоциональной речи [Электронный ресурс]. - Режим доступа: http://pascal.kgw.tu-berlin.de/emodb/, свободный. Яз. англ. (дата обращения 09.02.2012).

2. Cortes C., Vapnik V. Support vector networks // Machine Learning. - 1995. - V. 20. - P. 1-25.

Шолохов Алексей Владимирович - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студент, [email protected]

УДК 519.688

ТЕХНОЛОГИЯ СИНТЕЗА РУССКОЙ РЕЧИ НА ОСНОВЕ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ

П.Г. Чистиков

Представлен подход к построению системы синтеза речи на основе скрытых марковских моделей применительно к русскому языку. Для повышения ее гибкости применяется алгоритм кластеризации состояний. Представлен подход моделирования сигнала возбуждения.

Ключевые слова: синтез речи, скрытые марковские модели, параметризация речи, кластеризация данных.

Архитектурно и логически систему синтеза можно разделить на две части - построение модели голоса и непосредственно синтез [1]. Первая часть включает в себя следующие этапы: вычисление акустических, лингвистических и просодических признаков для каждого аллофона из базы данных; обучение контекстно-зависимых HMM (скрытых марковских моделей); кластеризация состояний HMM на основе лингвистических и просодических признаков. Синтезирующая часть представляет собой следующую последовательность действий: транскрибирование входного текста и вычисление лингвистических и просодических характеристик для каждого аллофона; формирование последовательности HMM; генерация акустических параметров на основе полученной модели; вычисление функции возбуждения и ее фильтрация с целью получения итогового речевого сигнала.

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 3 (79)

i Надоели баннеры? Вы всегда можете отключить рекламу.