Научная статья на тему 'Применение методов нелинейной динамики для распознавания эмоции радости в речи'

Применение методов нелинейной динамики для распознавания эмоции радости в речи Текст научной статьи по специальности «Математика»

CC BY
397
82
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭМОЦИЯ / EMOTION / ЭМОЦИОНАЛЬНОЕ СОСТОЯНИЕ / EMOTIONAL STATE / РЕЧЬ / SPEECH / РЕЧЕВОЙ СИГНАЛ / SPEECH SIGNAL / НЕЛИНЕЙНАЯ ДИНАМИКА / NONLINEAR DYNAMICS / РЕКОНСТРУКЦИЯ АТТРАКТОРА / ATTRACTOR RECONSTRUCTION / РЕКУРРЕНТНЫЙ ГРАФИК / RECURRENCE PLOT

Аннотация научной статьи по математике, автор научной работы — Сидоров Константин Владимирович, Филатова Наталья Николаевна

Рассмотрена задача распознавания образцов речи, зарегистрированных в момент проявления испытуемыми эмоции радости, от образцов речи этих же дикторов в нейтральном состоянии. Для решения задачи использованы методы нелинейной динамики. Исследования проведены на записях, взятых из базы Emo-DB (Берлин), и фрагментах русскоязычной базы (Тверь). Сформирован модельный корпус эмоциональной речи, состоящий из базы данных двух уровней (фраз и фонем), послуживший основанием для оценки работоспособности разрабатываемых алгоритмов. Выделены устойчивые признаки нелинейной динамики – реконструкция аттрактора и рекуррентный график. Предложены новые количественные признаки для классификации образцов речи человека, испытывающего эмоцию радости, основанные на оценках максимальных векторов реконструкции аттрактора для четырех квадрантов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Сидоров Константин Владимирович, Филатова Наталья Николаевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF NONLINEAR DYNAMICS METHODS FOR JOY EMOTION RECOGNITION IN SPEECH

The article deals with the task of recognizing speech samples, recorded when speakers under test display the emotion of joy, from samples of the same speakers’ speech in a neutral state. Methods of nonlinear dynamics were used to solve the problem. Studies were performed on recordings from the base of Emo-DB (Berlin) and fragments of the Russian bases (Tver). A model housing of emotional speech was formed, consisting of two-level database (sentences and phonemes), served as the basis for the initial evaluation of developed algorithms performance. Stable signs of nonlinear dynamics were formed the attractor reconstruction and the recurrence plot. New quantitative signs were proposed for speech patterns classification of the person experiencing the joy emotion, based on estimates of the maximum vectors of the attractor reconstruction for the four quadrants.

Текст научной работы на тему «Применение методов нелинейной динамики для распознавания эмоции радости в речи»

4. Зализняк А.А. Грамматический словарь русского языка. - М.: Русский язык, 1987. - Изд. 4-е, испр. и доп. - 880 с.

5. Тузов В.А. Компьютерная семантика русского языка. - СПб: Изд-во СПбГУ, 2004. - 400 с.

6. Боярский К.К., Каневский Е.А. Проблемы пополнения семантического словаря // Научно-технический вестник СПбГУ ИТМО. - 2011. - № 2 (72). - С. 132-137.

7. Национальный корпус русского языка [Электронный ресурс]. - Режим доступа: http://ruscorpora.ru/corpora-usage.html, свободный. Яз. рус. (дата обращения 30.05.2012).

8. Manning C.D., Raghavan P., Schutze H. An Introduction to Information Retrieval. - Cambridge University Press, Cambridge, England. - 2009. - 504 p.

Лапшин Сергей Владимирович - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, [email protected]

Лебедев Илья Сергеевич - Санкт-Петербургский национальный исследовательский университет ин-

формационных технологий, механики и оптики, кандидат технических наук, доцент, [email protected]

УДК 004.934.2

ПРИМЕНЕНИЕ МЕТОДОВ НЕЛИНЕЙНОЙ ДИНАМИКИ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИИ РАДОСТИ В РЕЧИ К.В. Сидоров, Н.Н. Филатова

Рассмотрена задача распознавания образцов речи, зарегистрированных в момент проявления испытуемыми эмоции радости, от образцов речи этих же дикторов в нейтральном состоянии. Для решения задачи использованы методы нелинейной динамики. Исследования проведены на записях, взятых из базы Ешо-ББ (Берлин), и фрагментах русскоязычной базы (Тверь). Сформирован модельный корпус эмоциональной речи, состоящий из базы данных двух уровней (фраз и фонем), послуживший основанием для оценки работоспособности разрабатываемых алгоритмов. Выделены устойчивые признаки нелинейной динамики - реконструкция аттрактора и рекуррентный график. Предложены новые количественные признаки для классификации образцов речи человека, испытывающего эмоцию радости, основанные на оценках максимальных векторов реконструкции аттрактора для четырех квадрантов. Ключевые слова: эмоция, эмоциональное состояние, речь, речевой сигнал, нелинейная динамика, реконструкция аттрактора, рекуррентный график.

Введение

На современном этапе развития информационных технологий разработка методов и систем распознавания эмоционального состояния человека по речевому сигналу с помощью аппаратно-программных средств является актуальной задачей, позволяющей решить ряд проблем в области биомедицинских технологий. В последние годы наблюдается явное усиление интереса к анализу речевого сигнала как объективного показателя эмоционального состояния человека [1, 2]. Различные исследования в области акустики, психолингвистики и психофизиологии позволили собрать сведения о множестве акустических, просодических и лингвистических характеристик речи, которые можно использовать в качестве информативных признаков при распознавании эмоционального состояния, проявляющихся на уровне сегментов, фонем (звуков), слогов, целых слов и фраз. Чаще всего используются следующие признаки речевого сигнала [3]: спектрально-временные, амплитудно-частотные, вейвлет, кепстральные и характеристики (инварианты) нелинейной динамики. Судя по полученным результатам, перечисленные признаки зарекомендовали себя с положительной стороны. Однако, несмотря на большое количество проведенных в данном направлении исследований, ряд проблем все еще остается нерешенным, и многие идеи требуют дальнейшего развития. В частности, отсутствует универсальная теоретическая модель описания речевых образцов в условиях проявления разных видов эмоций, отражающая взаимосвязь вида эмоций и объективных характеристик речевого сигнала.

На текущий момент времени выделение новых информативных признаков, по возможности родственных человеческому восприятию, и поиск эффективных методик распознавания эмоций, являются важнейшей задачей. В работе рассматривается способ решения этой задачи методами нелинейной динамики, позволяющими получить количественную и качественную оценку признаков, проявляющихся в речевом сигнале человека, испытывающего эмоцию радости.

Модельный корпус эмоциональной речи

В настоящее время в Тверском государственном техническом университете активно ведутся разработки системы распознавания эмоционального состояния человека по образцам речевого сигнала. Для проведения исследований необходимо наличие модельного корпуса эмоциональной речи, т.е. базы дан-

ных, в которой хранятся образцы речи испытуемых, находящихся в различных эмоциональных состояниях. В связи с этим был сформирован модельный корпус эмоциональной речи, состоящий из двух частей (русской и немецкой). При создании русскоязычной части в качестве дикторов (испытуемых) выступили 5 человек, каждый из которых, на основе одного нейтрального образца, создал несколько клонов с различным уровнем проявления положительной эмоции радости [4], выбор которой обусловлен интересами дальнейшего применения разрабатываемой технологии. При формировании немецкоязычной части использовались записи эмоции радости и нейтрального состояния, взятые из берлинской базы данных эмоциональной речи Emo-DB (Berlin Database of Emotional Speech) [5], состоящей из 535 фраз 10 дикторов, имитирующих набор эмоциональных состояний: гнев, скука, отвращение, беспокойство/страх, печаль, радость/счастье и нейтральное состояние. В целом, модельный корпус состоит из двух уровней, связанных иерархически. Уровень 1 включает образцы фраз от разных дикторов. Используя алгоритм автоматической генерации речевых объектов [6] для каждой записи уровня 1, получены объекты уровня 2 - фонемы. Всего для проведения исследований сформированы 4 обучающие выборки (ОВ):

1. ОВ 1.1 - 18 русских записей контрольной фразы «А голос мой звучит примерно так»;

2. ОВ 1.2 - 180 гласных фонем, полученных из ОВ 1.1;

3. ОВ 2.1 - 120 немецких фраз;

4. ОВ 2.2 - 300 гласных фонем, сформированных из ОВ 2.1.

Реконструкция аттрактора

Для конструктивного решения задачи распознавания эмоций по речи необходимо количественно охарактеризовать речевой сигнал и выделить существенные параметры, отвечающие за эмоциональное состояние человека, т.е. необходимо подобрать соответствующий математический аппарат. Перспективным, по мнению авторов, в этом плане является аппарат нелинейной динамики, позволяющий реконструировать фазовый портрет аттрактора по временному ряду или по одной его координате. Для реконструкции аттрактора исследуемый временной ряд xn,...,xn-1 подвергается задержке координат [7]:

У, = (x,, x,+T^ хж>-1),X t = 5 -1 5 = N - (т - 1)х, (1)

где N - общее число элементов (точек) временного ряда; т - задержка по времени между элементами временного ряда (временной лаг); т - размерность вложения (размерность лагового пространства).

При выборе значения временной задержки т используется идея о том, что если точки, образующие временной ряд, независимы друг от друга, то реконструированные вектора (1) несут в себе наибольшее количество информации об исследуемом ряде. По этой причине необходимо выбирать т таким образом, чтобы корреляция между элементами временного ряда xt и xt+T была по возможности минимальной. Такой выбор осуществляется при вычислении автокорреляционной функции В(т) = 1/ к ^ ^-0( xn - x) • (xT— x), к = N -т , где x - математическое ожидание. Временная задержка т

выбирается равной времени первого пересечения нуля автокорреляционной функцией [8] (рис. 1, а), значение задержки составляет 13 (т = 13). Величина размерности вложения m определяется с точки зрения достаточности (насыщения) посредством вычисления корреляционного интеграла С(е) и корреляционной размерности D2 реконструкции аттрактора [8]. Корреляционный интеграл С(е), показывающий относительное число пар точек аттрактора x,, x,, находящихся на расстоянии не больше е, определяется как

С (е) = lim 1/ M (M -1) 0(е-r(x, x,)), i, j = 1,..., M, (2)

D2 = limlogС(e)/logе , (3)

где M - число рассматриваемых состояний xj (количество точек xj на аттракторе); r - расстояние между точками аттрактора; 6(а) - ступенчатая функция Хевисайда. После нахождения С(е) (2) и D2 (3), строится зависимость корреляционной размерности D2 от размерности вложения m (1), определяется точка, при которой кривая наклонов насыщается (рис. 1, б), корреляционная размерность аттрактора составляет 3,6 (D2 = 3,6), она достигается при размерности вложения, равной 5 (m = 5).

Проведен нелинейный анализ фраз (ОВ 1.1, ОВ 2.1) и фонем (ОВ 1.2, ОВ 2.2) (рис. 2) на основе реконструкции аттрактора (1). Выявлено, что в большинстве случаев наблюдается взаимосвязь геометрии аттрактора с состоянием эмоционального возбуждения (объектам нейтрального состояния присуще более правильная форма, стремящаяся к эллипсообразной). Установлено, что эмоция радости по сравнению с нейтральным состоянием имеет меньшую траекторию разброса реконструкции, как для фраз, так и для фонем.

7

Z I* б

0 2 4 6 8 10 12 14 16 18 20 22 24*10' Значения задержки по времени отсчеты

а

Двагавапь,

бел ому шу.чу

Si Г5

\ А 7

To'Lha. mild кот«

кривая наклонов насыщается

0 2 3 4 6 7

Значения размерности вложения т б

Рис. 1. Выбор оптимальных значений реконструкции: автокорреляционная функция объекта ОВ 1.1 (а)

зависимость значений Б2 от т (б)

13000

-стоо

а б

Рис. 2. Аттракторы фонемы «и» ОВ 1.2: радость (а); нейтральное состояние (б)

Предложен новый признак, определяемый по результатам реконструкции, который существенно снижает размерность описаний речевых образцов и позволяет осуществлять количественно сравнение аттракторов - усредненный максимальный вектор реконструкции аттрактора по четырем квадрантам

Rmi • Вначале находится первый вектор реконструкции в первом квадранте R1 = -Jx2 + x2+T , где xi - значение временного ряда в i -й момент времени, т - временная задержка. Далее вычисляются оставшиеся n векторов в первом квадранте, в результате получается множество значений векторов реконструкции R1 = {R1,R2,...,Rl„}. Из множества R1 выбирается максимальный вектор R^. Аналогично находятся максимальные вектора реконструкции аттрактора в других квадрантах R^, R^ и R^ . Далее рассчитывается усредненный максимальный вектор реконструкции аттрактора по четырем квадрантам R^, который является новым количественным признаком для распознавания i -го речевого образца:

Rmax(i)=0,25^4=1 rLO), i=1,...,м, (4)

где j - номер квадранта, i - номер речевого образца (предложение или фонема); M = 18 для ОВ 1.1; M = 180 для ОВ 1.2; M = 120 для ОВ 2.1; M = 300 для ОВ 2.2.

Количественная оценка реконструкций аттракторов на выборках речевых образцов разной длительности (таблица) выполнена с использованием следующих характеристик:

= м-1 -X M Ri(0, j = M 1 -X M Rix(0, j = 1,...,4. (5)

Установлено, что как на уровне фраз (ОВ 1.1, ОВ 2.1), так и на уровне фонем (ОВ 1.2, ОВ 2.2) эмоция радости по сравнению с нейтральным состоянием характеризуется меньшим значением (4),

(5). Следует отметить тот факт, что образцы русскоязычной части корпуса с эмоцией радости (на всех уровнях) имеют приблизительно в два раза меньшее значение признака .

Объекты Эмоциональное возбуждение Выборка Признаки, отсчеты

тах Л 2 тах Л3 тах Л 4 тах лаН тах

Фразы (предложения) Радость ОВ 1.1 19596 18786 16229 18561 18293

ОВ 2.1 28257 34587 29716 39138 32925

Нейтральное состояние ОВ 1.1 37536 35547 31384 38358 35706

ОВ 2.1 31671 33045 34846 40882 35111

Фонемы (звуки) Радость ОВ 1.2 13067 7969 9456 5361 8963

ОВ 2.2 11098 10208 11800 11762 11217

Нейтральное состояние ОВ 1.2 28387 13795 18267 9194 17411

ОВ 2.2 15590 11801 18777 14434 15151

Таблица. Усредненный максимальный вектор реконструкций аттракторов Л^ах

Рекуррентный график

В 1987 г. Экман и соавторы [9] разработали так называемые рекуррентные графики (диаграммы), позволяющие исследовать т -размерную траекторию лагового пространства (1) посредством двухмерного представления ее рекуррентности (повторяемости траекторий по происшествии некоторого времени в пространстве реконструкции аттрактора). Рекуррентный график представляется в виде двумерной или треугольной (так как обе стороны от главной диагонали под углом л /4 являются симметричными) матрицы размером N х N, по обеим осям которой откладывается время. Матрица заполнена черными и белыми точками (единицами и нулями), где черные точки обозначают наличие рекуррентности, а белые -отсутствие [10]:

Л = 0(е,--II х,--х,\|), ,, Ч = 1,..., N, (6)

Ч 4 ' || ' ] |[

где N - число рассматриваемых состояний х,; е , - радиус выбранной окрестности (расстояние от центра окрестности х1 до ее границы); || • || - норма.

Если точка траектории реконструкции аттрактора в момент времени хЧ попадает в выбранную окрестность другой точки в момент х,, то такие точки считаются рекуррентными, вследствие чего на рекуррентном графике появляется точка черного цвета с координатами хЧ, соответствующая единице, и наоборот [7]. Радиус выбранной окрестности е , (6) выбирается не более 10% от максимального значения диаметра восстановленной реконструкции аттрактора [8]. На рис. 3 приведены примеры рекуррентных графиков объектов ОВ 1.1.

х10

ш

х10

т

1 2 3 4501234 Время, отсчеты Х10* Время, отсчеты

а б

Рис. 3. Рекуррентные графики фраз: радость (а); нейтральное состояние (б)

х10"

Визуально установлено, что для объектов, выражающих эмоцию радости (рис. 3, а), характерна более контрастная топология по сравнению с нейтральным состоянием (рис. 3, б). Эмоция радости характеризуется более резкими изменениями динамики временного ряда и нестационарностью, вследствие чего в структуре рекуррентного графика появляются характерно выраженные белые зоны, указывающие на нерегулярность процесса. Текстура эмоции радости характеризуется более выраженными скоплениями горизонтальных и вертикальных линий, повторяющихся с некоторой периодичностью.

Заключение

В среде MATLAB в виде m -файлов реализован программный модуль распознавания эмоции радости человека по речевому сигналу, основанный на использовании двух качественных ( yt, R ) и пяти

количественных (R^-R^ax ; Ri) признаков нелинейной динамики. При тестировании программного модуля на модельном корпусе эмоциональной речи точность распознавания, т. е. отнесения к одному из двух возможных классов (радость или нейтральное состояние), составила 93% для немецкоязычной и 95% для русскоязычной частей корпуса. Для сравнения отметим, что при распознавании образцов «нейтральной» и «агрессивной» речи из базы Emo-DB точность распознавания 96% получена при использовании 4 признаков, а 98% - при использовании 384 признаков [1]. В работе [2] классификатор, построенный для этой же базы Emo-DB, решал задачу разделения двух классов образцов речи (нормальное состояние и отклонение от него, возникающее у человека, испытывающего различные эмоции). Точность классификации составила 97 % при использовании 211 признаков и 87 % - при 15 признаках. Предлагаемый набор параметров аппарата нелинейной динамики после соответствующей адаптации будет использоваться для формирования динамической модели, отображающей взаимосвязь эмоционального состояния человека с характеристиками речевого сигнала.

Литература

1. Давыдов А.Г., Киселев В.В., Кочетков Д.С. Классификация эмоционального состояния диктора по голосу: проблемы и решения // Труды международной конференции «Диалог 2011». - М.: РГТУ, 2011. - С. 178-185.

2. Лукьяница А.А., Шишкин А.Г. Автоматическое определение изменений эмоционального состояния по речевому сигналу // Речевые технологии. - М.: Народное образование, 2009. - № 3. - С. 60-76.

3. Сидоров К.В., Филатова Н.Н. Анализ признаков эмоционально окрашенной речи // Вестник Тверского государственного технического университета. - Тверь: ТвГТУ, 2012. - Вып. 20. - С. 26-31.

4. Сидоров К.В., Филатова Н.Н., Калюжный М.В. Модельный русскоязычный корпус эмоциональной речи // Приоритетные направления развития науки и технологий: доклады XI всероссийской научн.-техн. конф. - Тула: Инновационные технологии, 2012. - С. 115-117.

5. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. A Database of German Emotional Speech // Proc. Intern. Conf. Interspeech. - Lissabon, 2005 [Электронный ресурс]. - Режим доступа: http://pascal.kgw.tu-berlin.de/emodb/index-1280.html, свободный. Яз. англ. (дата обращения 10.07.2012).

6. Сидоров К.В., Филатова Н.Н. Алгоритм автоматической генерации речевых объектов // Сборник материалов I Международной научн.-практ. конф. «Технические науки - основа современной инновационной системы». - Ч. 1. - Йошкар-Ола, 2012. - С. 118-120.

7. Сидоров К.В. Диагностика эмоционального состояния диктора на основе рекуррентного анализа речевого сигнала // Междисциплинарные исследования в науке и образовании. - 2012. - № 1 Sp. -[Электронный ресурс]. - Режим доступа: http://www.es.rae.ru/mino/157-702, свободный. Яз. рус. (дата обращения 10.07.2012).

8. Горшков В.А., Касаткин С.А. Идентификация временных рядов авиационных событий методами и алгоритмами нелинейной динамики. - М.: Бланк Дизайн, 2008. - 208 с.

9. Eckmann J.P., Kamphorst S.O., Ruelle D. Recurrence Plots of Dynamical Systems // Europhys. Lett. 5. -1987. - P. 973-977.

10. Киселев В.Б. Рекуррентный анализ - теория и практика // Научно-технический вестник СПбГУ ИТМО. - 2006. - № 29. - С. 118-127.

Сидоров Константин Владимирович Филатова Наталья Николаевна

Тверской государственный технический университет, аспирант, [email protected], Ьт181(1огоу@та11.ги

Тверской государственный технический университет, доктор технических наук, профессор, [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.