УДК 621.391: 004.522
АНАЛИЗ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ДИКТОРА ПО ГОЛОСУ НА ОСНОВЕ ФОНЕТИЧЕСКОГО ДЕТЕКТОРА ЛЖИ
В.В. САВЧЕНКО Р.А. ВАСИЛЬЕВ
Нижегородский государственный лингвистический университет
e-mail:
При учете проблемы многокритериальное™ качества устной (звучащей) речи предложен критерий минимума требуемой избыточности голосового сигнала. На его основе представлены программная реализация и результаты экспериментального исследования фонетического детектора лжи в задаче тестирования эмоционального состояния личности по голосу в комфортных и некомфортных условиях.
Ключевые слова: информатика, человеко-машинное взаимодействие, речевые технологии, информационная теория качества речи, фонетический детектор лжи, психолингвистика.
Фонетический детектор лжи (ФДЛ) - это зарегистрированная в Роспатенте программа для ЭВМ [1], предназначенная для тестирования эмоционального состояния личности по голосу. В ее названии отражены особенности принципа действия ФДЛ, а именно: анализ фонетического строя речи диктора в зависимости от текущего эмоционального состояния последнего. Общеизвестный к нему интерес со стороны не только специалистов, но и разнообразных отечественных СМИ, продиктован, прежде всего, его принципиально новыми возможностями, а именно: высокой чувствительностью к отклонениям в эмоциональном состоянии диктора при минимальных требованиях (1-2 минуты) к продолжительности анализируемого фрагмента голосового сигнала. Объяснением этого служит принципиально новый принцип действия ФДЛ, основанный на автоматической оценке качества речи диктора на базовом, фонетическом уровне по общесистемному шенноновскому критерию минимума требуемой избыточности (МТИ) речевого сигнала. По существу, это первая попытка в мире - в теории и на практике - преодолеть острейшую проблему многокритериально-сти устной речи с позиций строгого, теоретико-информационного подхода [2]. Тем больший интерес для специалистов широкого профиля представляют публикуемые далее результаты теоретического и экспериментального исследования ФДЛ в задаче тестирования эмоционального состояния личности по голосу.
Принцип действия большинства современных систем автоматического анализа речи на фонетическом уровне основывается [3] на последовательном членении голосового сигнала на короткие (5-10 тс) отрезки данных х = *,х ,...,* ] длиной в одну МРЕ с их последующим сопоставлением по тонкой, в частности, спектральной структуре [4] с соответствующим эталоном. Главной проблемой для таких систем является выбор и обоснование множества фонетических эталонов |.
Известно, что любой диктор в силу ряда причин, например, из-за особенностей своей речи или слуха, в принципе не в состоянии в процессе речеобразования точно воспроизвести эталон х^ той или иной (г-й) МРЕ. Выходом из этой ситуации может служить задание каждой МРЕ не одной, а одновременно несколькими допустимыми вариантами х^ 7 = 1,, где г = 1;Я , а Я - объем фонетической базы данных (ФБД). В таком случае
диктору будет достаточно приблизить свое произношение к любому из них, чтобы быть правильно понятым гипотетическим наблюдателем или слушателем. Этим существенно ослабляется рассматриваемая проблема вариативности устной речи: каждый конкретный диктор в процессе своего «говорения» выбирает наиболее удобный, достижимый для себя
вариант эталонного произношения МРЕ из некоторого множества альтернатив <j x^ j
Одновременно становится понятным и собственно критерий качества формируемого (на выходе голосового тракта диктора) голосового сигнала к эталону: он должен войти в границы J -множества вариантов рассматриваемой МРЕ Х^ как полноправный, (J +1) -й
его элемент. Задача переходит, в таком случае, в сугубо предметную плоскость: сначала по каждой из R рассматриваемых МРЕ требуется сформировать множество (кластер)
АГ 1
Х^ =| x^ . | ее допустимых образцов - на этапе обучения диктора. И после этого в процессе речеобразования тестировать текущий сигнал x от диктора согласно правилу близости к ним
J
-1 г
Jr 1 Ъ P(x / xr ) <р0 , (1)
j = 1
в среднем в пределах кластера в некоторой метрике p(x / x^ ). При достаточной степени
малости порогового уровня р и выполнении требования (l) качество речи диктора можно
оценить на достаточно высоком уровне. И, наоборот, при нарушении требования (l) соответствующая (текущая) МРЕ должна быть забракована наблюдателем как ошибка речеоб-разования.
Отметим важную отличительную особенность правила (l): в каждый момент времени решение может быть принято в пользу либо одной, либо двух, а вообще говоря, и нескольких МРЕ из используемой диктором ФБД jXr j, либо вообще не принято - для сигналов
x нечеткой (маргинальной) структуры. И это точно соответствует практике речеобразования [l, 2]: в ней не исключаются сбои и, как их результат, брак.
В вычислительном отношении проще, однако, задаться аналогичным (l) условием тестирования МРЕ вида
Pr (x) <Po (2)
на расстояние от сигнала x до «центра массы» рассматриваемого кластера
J J А
* -1 r 1 r А *
x = x : J Ъ P(x ./x ) = min J Ъ p(x ./x .) = p . (3) r r,V r , r, j r,V ■ s T r , r, j r, r r j = 1 1 < Jr j = 1
В режиме реального времени (в процессе восприятия речи) вместо J >> 1 расстоя-
А
ний в (l) здесь вычисляется только одно расстояние р (x) = p(x / x* ) в пределах кластера
А
«j.
Х^ : до его центра x * . Здесь = - равенство по определению. Указанный центр - это обобщенный эталон данного кластера, или эталон соответствующей фонемы. А множество таких эталонов jx * j - экономный способ задания ФБД конкретного диктора, или звукового
ряда | Х^ | (строя) его разговорного языка. В информационной теории качества речи в роли расстояний между аллофонами в (3) используются величина информационного рассогласования (ВИР) по Кульбаку-Лейблеру [5].
Следуя распространенной авторегрессионной (АР) модели голосового сигнала, будем иметь следующее выражение для оптимальной решающей статистики из выражения (2) в частотной области:
2
Р
1 - X а (т) ехр (- 7тп/ / Р)
Pr (x) = F
-1
F
X f = 1
m = 1
p
1 - X ^ (m)exp (- jmnf / F) m = 1
2
-1
(4)
Здесь (т)| (т)| - векторы АР-коэффициентов тестируемого сигнала х и г-го
эталона х* соответственно, причем оба - одного порядка p>l; f - дискретная частота, F -
ее верхняя граница, равная половине частоты дискретизации голосового сигнала. Это стандартная [6] формулировка метода обеляющего фильтра и критерия минимума информационного рассогласования (МИР). Его программно-аппаратная реализация основывается на применении быстрых вычислительных процедур АР-анализа, в частности алгоритма Берга-Левинсона [7].
Выражение (4) совместно с (2) и (3) определяет алгоритм поэлементного (по каждой МРЕ) восприятия речи от некоторого диктора условным (идеальным) слушателем. Как всякое восприятие оно сопровождается двумя альтернативными вариантами решения: сигнал х признается отвечающим требованиям к качеству г-й МРЕ, или, напротив, требования не выполнены и сигнал бракуется как ошибочный. Вероятность ошибки в общем случае [2]
а = P r
Pr (Фрг
x е X r J
>м(1 + P0)}=a (5)
2
определяется в терминах -распределения с M степенями свободы, где M=n-p. При равенстве р = const будем иметь a^ = a = const для всех МРЕ из звукового строя
X j. В таком случае вероятность ошибки речеобразования (5) может служить обобщенной
оценкой качества речи диктора.
Следуя общим идеям информационной теории [2], будем рассматривать каждого диктора в роли условного источника дискретных сообщений X ^ jXr j, определенных на
R-множестве его МРЕ c ФБД jx* j. Исчерпывающей характеристикой коммуникативных
свойств такого источника может служить по К. Шеннону его скорость создания информации, или количество информации на выходе в расчете на одну МРЕ. В предположении об идеальном голосовом механизме человека-диктора и безошибочном восприятии всего набора его МРЕ потенциальным слушателем указанная величина определяется классическим
выражением для шенноновской энтропии дискретного источника сообщений вида
А R * * R
H (X) = - X P(X = xr )logP(X = xr ) = - X pr log pr . r = 1 r = 1
При этом необходимо учитывать естественное условие нормировки закона распре-
R w
деления: X P = 1. В простейшем случае равновероятных МРЕ, когда vr < R: p = 1/ R,
r = 1 r r
получим максимум энтропии H (X) = log R, [бит]. Здесь логарифм берется по основанию 2.
Ситуация, однако, резко усложняется, если учитывать проблему вариативности устной речи [2]. В общем случае сигнал на выходе речевого тракта диктора X' Ф X может су*
щественно отличаться от его эталонного варианта х в сознании диктора. Математическая
модель такого источника сообщений определяется распределением вероятностей четких МРЕ
а * — а = Р(Х' = х* ) , г = 1, Я,
V Г
а также вероятностью дополнительного, (К+1)-го состояния источника
А *
ап л= Р(Х'Ф х* Уг < Я), Я +1 у г '
в которой учтены возможные ошибки речеобразования. Это типичная [8] модель дискретного канала связи с шумами (без памяти). Исчерпывающим показателем качества такого канала может служить шенноновское количество информации на его выходе в отношении источника сообщений:
А
I ( X, X') = Н ( X ) - Н ( Х|Х').
Апостериорная энтропия источника сообщений н(XX') имеет в данном случае
смысл величины рассеяния полезной информации в процессе речеобразования, или минимальной требуемой избыточности голосового сигнала. Чем больше рассеяние, тем выше
степень искажений формируемого на выходе речевого тракта сигнала X' по сравнению с
*
его эталоном х , и тем ниже, следовательно, качество речи данного диктора. По сути, выражение (6) определяет скорость создания информации в расчете на одну МРЕ при учете действия шумов, т.е. в расчете на возможные искажения речи. Нетрудно понять, что этим строго сформулирован объективный показатель качества речи. Отталкиваясь от него, получим строго объективную оценку качества речи по конечной выборке наблюдений.
Для заданной решающей схемы (2) путем несложных вычислений будем иметь систему равенств
Я Я Я
qr = Z qrv = Zр(х' = \; х = <) = Z p(x = <) ■ р(х' = \
v = 1 v = 1 v = 1
X ' = x*) = v
= P( X = x* ) ■ P( X' = x* R
* T^ *
X = x*) = (1 -a)pr, r = 1, R,
qR+1 = Z p(X' - xV;X=xV)=
V = 1
R
= Z P(X = x* ) ■ P(X ' -
x* ) ■ P(X ' - x*
vy v V
V = 1
X ' = x*) =a , v
При этом выполняется, разумеется, условие нормировки распределения вида Z R+1 q = Z R— 1 Pr ^ 1 • Отсюда вытекает окончательный результат
I (X, X' ) = (1 -a)H (X), [бит] (6)
в отношении скорости создания информации на выходе голосового механизма человека. Отметим важную деталь: полученное выражение хорошо согласуется с известным [8] неравенством Фано вида
H (X|X') < -a log а - (1 - а) log(1 -а) + а ■ log( R -1).
И этим дается еще одно подтверждение обоснованности теоретико-информационного показателя качества речи (6). При этом вероятность ошибки речеобра-зования а определяет относительную величину требуемой избыточности (ОВТИ) голосового сигнала:
Н(Х|Х') А Н(ХХ'Ун{ху а. (7)
Ее практическая реализация сводится к оценке вероятности ошибки (5) по формуле относительной частоты
а=п / Nх 100% (8)
случайного события (Лапласа), состоящего в том, что в серии из N последовательных наблюдений над сигналом х решающее правило (2) выполнится п раз для каждой г-й МРЕ
и, соответственно, будет не выполнено в остальных т^ = N — X^ т случаях.
= -Я
Выражения (2)-(8) в совокупности определяют теоретико-информационную оценку качества речи диктора по конечному фрагменту его голосового сигнала. Ее аппаратно-программная реализация подробно описана в авторском патенте на полезную модель [9]. При этом точность и надежность полученной оценки нетрудно оценить с помощью классического неравенства Бернулли:
А
Р
т / N — а
< s}> 1 — а(1 — а)/(s2N) = Р.
Задаваясь допустимой шириной доверительного интервала s < 0,05 , для случая
а < 0,1 будем иметь доверительную вероятность Р порядка 0,99 и выше при объеме выборки N, равном 10 тысячам единиц и более. Что это значит на практике? Если учесть, что размерность вектора x составляет [2] минимум 80 отсчетов голосового сигнала при частоте дискретизации 8 кГц, объем выборки N достигает требуемого значения на интервале наблюдения длиной порядка полутора-двух минут. Это говорит о беспрецедентно высоких динамических свойствах предложенной оценки. Причем, на практике именно относительная величина (7) часто представляется предпочтительной по сравнению с абсолютной величиной теоретико-информационного показателя качества речи (6). Например, это справедливо в задачах психологического тестирования личности по принципу сопоставления двух ОВТИ из выражения (8): полученных до и после нагрузки на диктора. Задача такого рода подробно рассмотрена далее - в качестве предмета экспериментальных исследований.
Для экспериментальных исследований информационной оценки качества устной речи (6), (7) был разработан экспериментальный образец информационной системы (ИС). Он реализован в виде компьютерной программы PLD (от англ. «Phonetic Lie Detector») на платформе Java SE 1.6. Программа позволяет выполнять все операции над голосовым сигналом x согласно алгоритму обработки (2) - (4). Ее главное окно показано на рисунке 1.
Рис. 1. Главное окно программы информационной оценки качества устной речи
Здесь под «Избыточностью сигнала» понимается выборочная оценка ОВТИ согласно выражению (8). А «Пороговый уровень МИР» р < 1 определяет правую часть неравенства (2) согласно пропорциональной зависимости р^ = рК -1, где K - коэффициент про-
порциональности, равный максимальному на множестве
) *(
МРЕ ^j коэффициенту подавле-
ния голосового сигнала в r-м обеляющем фильтре из выражения (4). И, наконец, «Пороговый уровень шума, дБ» - это стандартный параметр амплитудной селекции голосового сигнала из его аддитивной смеси с фоновым шумом микрофона. В процессе экспериментальных исследований он устанавливался на уровне 3-4 СКО шума в отсутствие полезного сигнала.
Для экспериментальных исследований была выбрана группа из четырех дикторов: три мужчины разного возраста и примерно одного уровня образования и одна женщина, все без явно выраженных дефектов речи. Каждым из них сначала (на этапе настройки параметров ИС) был прочитан в среднем темпе один и тот же художественный текст - из первой главы романа А.С. Пушкина "Капитанская дочка" - объемом в одну стандартную машинописную страницу. Полученные голосовые сигналы сначала были записаны в память ПК в формате wav. Его роль выполнял современный ноутбук Acer Extensa 5620, 2 Гбайт ОЗУ, Windows 7. Кроме того, использовался комплекс специальных аппаратных и программных средств, в том числе микрофон Genius и программа Audacity 1.2. Частота дискретизации встроенного АЦП была установлена равной 8 кГц - это стандартное ее значение при обработке разговорной речи.
На подготовительном этапе была проверена работоспособность базовых функций ИС, таких как корректность процедуры загрузки и завершения работы, правильность работы с дикторами и с группами дикторов. После этого исследования выполнялись в несколько этапов:
- исследование фонетических особенностей речи контрольной группы дикторов в комфортных условиях по информационному показателю (критерию) качества речи (7);
- исследование влияния физической нагрузки на диктора на качество его речи;
- исследование влияния эмоционального напряжения диктора на качество его речи.
В состав контрольной группы были включены (с их согласия) следующие физические лица:
1) Тузалин Юрий Алексеевич, 1953 г.р., ведущий инженер ФГУП «НПП «Гамма»,
2) Вахтин Дмитрий Анатольевич, 1984 г.р., нач. отдела ФГУП «НПП «Гамма»,
3) Васильев Роман Александрович, 1987 г.р., аспирант НГЛУ,
4) Васильева Елена Николаевна, 1987 г.р., инженер ООО «ШнЭл». Для каждого из них в режиме настройки ИС сначала вычислялась предварительная оценка ОВТИ речи диктора . Продолжительность голосового сигнала здесь составляла
примерно одну минуту. И далее, уже в рабочем режиме, с использованием предварительной оценки исследовалась динамика ОВТИ в зависимости от условий его монолога. Соответствующее окно программы показано на рисунке 2.
Рис. 2. Рабочий режим программы информационной оценки качества устной речи
Полученные результаты представлены ниже в виде следующих рисунков и таблиц. В таблице 1 приведены оценки ОВТИ в зависимости от порога по десяти реализациям голосового сигнала от первого диктора (Тузалина).
Таблица 1
Оценки относительной величины требуемой избыточности для одного диктора
Номер реализации Порог МИР
0,01 0,02 0,05 0,1 0,3 0,5 0,7 1
1 80 71 49 38 40 35 31 24
2 81 69 48 37 40 33 30 25
3 83 67 45 35 42 36 31 24
4 86 70 42 36 43 35 34 26
5 83 72 43 34 41 34 33 21
6 85 63 42 34 42 37 31 21
7 84 67 44 33 42 38 35 22
8 78 66 50 40 36 32 34 26
9 81 69 43 35 43 31 34 23
10 83 65 46 37 37 38 32 21
Аналогичные результаты были получены для всех других дикторов. Хорошо видно, что предложенный показатель качества речи диктора практически инвариантен к выбору текста для чтения, времени и длительности его записи и, вместе с тем, сильно критичен по отношению к пороговому уровню МИР, а также к личности диктора. Усредненные (по множеству из десяти реализаций) оценки ОВТИ для всех четырех дикторов из нашей контрольной группы представлены в табл.. 2.
Таблица 2
Оценки относительной величины требуемой избыточности для группы дикторов
Диктор Порог МИР
0.01 0.02 0.05 0.1 0.3 0.5 0.7 1
1. Тузалин 80 71 49 38 40 35 31 24
2. Вахтин 79 68 59 43 36 31 22 30
3. Васильев 89 64 58 39 36 37 33 23
4.Васильева 86 78 60 53 28 39 29 28
Влияние физической нагрузки на качество речи дикторов - цель второго этапа экспериментальных исследований. Здесь каждый диктор сначала приседал несколько раз и только после этого читал свой текст в течение одной-двух минут. Оценки показателя качества речи всех четырех дикторов в зависимости от интенсивности нагрузки для двух значений порогового уровня МИР 0,1 и 0,7 отражены семействами кривых на рисунках 3, а) и 3, б) соответственно.
а) ^ б)
Рис. 3. Зависимость относительной величины требуемой избыточности от физической нагрузки
Здесь номера кривых отвечают номерам дикторов в контрольной группе.
Видно, что при увеличении нагрузки избыточность в общем случае возрастает, причем, сначала резко, а потом, по мере вовлечения организма диктора в режим интенсивной физической нагрузки, медленнее. У спортсменов (диктор Васильев и Васильева) процесс адаптации протекает быстрее.
На заключительном этапе каждый диктор читал в течение одного часа роман А.С. Пушкина «Евгений Онегин». Во второй половине часа каждые 5 минут дикторы проводили измерения ОВТИ при фиксированном пороге МИР 0,1. Усредненные (на множестве реализаций) результаты по всей группе дикторов отражены семейством кривых на рис. 4.
60
г' 55
т
а>
а 50 &
о 45 £ 40
О 35 40 45 50 55 60
Время, мин
Рис. 4. Оценки относительной величины требуемой избыточности в зависимости от эмоциональной нагрузки на дикторов
Здесь хорошо видна тенденция увеличения избыточности речи при длительном эмоциональном напряжении диктора. При этом динамика избыточности имеет характер колебаний - синхронно с колебаниями степени сосредоточенности диктора на конкретном тексте. Причем, у молодого диктора Васильева (кривая 3) колебания имеют большую амплитуду: до (52-41)/41х100 = 26,8% и длятся дольше, чем у диктора Тузалина (кривая 1), в силу его (Васильева) естественной (для этого возраста) недостаточной сосредоточенности.
Аналогичные выводы можно сделать по дикторам Вахтину и Васильевой: у молодого диктора Васильевой (кривая 4) колебания имеют большую амплитуду и длятся дольше, чем у диктора Вахтина (кривая 2). Отметим, что в общем случае указанные колебания затухают во времени, причем, на определенном, повышенном уровне избыточности речи диктора.
По результатам проведенных исследований можно сделать следующие выводы:
- подтверждена устойчивость предложенного информационного показателя качества речи диктора (7), (8) на разных текстах и в разное время ее записи;
- экспериментально подтверждена прямо пропорциональная зависимость ОВТИ от интенсивности физической нагрузки на диктора;
- установлена высокая чувствительность ОВТИ по отношению к эмоциональным нагрузкам на диктора в процессе его монолога.
Таким образом, в результате проведенного исследования дано экспериментальное обоснование принципа минимума требуемой избыточности в роли информационного показателя качества речи диктора, который нацелен не на сравнение речи разных дикторов между собой, а на исследование влияния разного рода факторов на качество речи конкретного диктора. По-видимому, именно по направлению психолингвистики предложенная информационная оценка качества речи может найти наиболее широкое практическое применение. Анализируя колебания ОВТИ в процессе речеобразования относительно ее значения а^ в заведомо комфортных условиях, мы можем установить как факт отклонения психологического состояния диктора от нормы, так и степень указанного отклонения, причем, с одновременной оценкой допустимых пиковых значений нагрузки на данного диктора.
Список литературы
1. Информационная система тестирования эмоционального состояния личности по голосу: Программа для ЭВМ /А.В. Савченко, В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин / Роспатент: рег. № 2013611003 от 09.01.2013.
2. Савченко В.В. Информационная теория качества речи // Изв. вузов России. Радиоэлектроника. 2011. Вып. 1. С. 17-27.
3. Белов А.С., Курлов А.В., Фирсова А.А. О различии концентрации энергии по частотным диапазонам на отрезках сигналов, соответствующих шипящим звукам русской речи и шумам // журнал «Научные ведомости БелГУ»: Серия «История. Политология. Экономика. Информатика». 2011. №13(108). Вып. 19/1. С. 186-190.
4. Белов С.П., Белов А.С. О различиях частотных свойств информационных и неинформационных звуковых сигналов речевого диапазона // журнал «Научные ведомости БелГУ»: Серия «История. Политология. Экономика. Информатика». 2008. №10(50). Вып. 8/1. С. 86-93.
5. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408с.
6. Савченко В.В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005.
Т50. №3. С.309-314.
7. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584с.
8. Файнстейн. А. Основы теории информации: Пер. с англ. М.: Изд-во иностр. лит-ры, 1960.
136 с.
9. Патент на полезную модель № 102138. Устройство для фонетического анализа и тестирования речи. / В.В. Савченко, Д.Ю. Акатьев / Роспатент: по заявке № 2010135569 от 25.08.2010. Оп. в БИ, 2011, №3.
THE ANALYSIS OF THE EMOTIONAL CONDITION OF THE ANNOUNCER ON THE VOICE ON THE BASIS OF THE PHONETIC LIE DETECTOR
V. V. SAVCHENKO R. A. VASILYEV
Nizhny Novgorod State Linguistic University
e-mail:
When taking into account the quality of oral problems multicriteriality (sounding) speech proposed criterion required minimum redundancy of the voice signal. On the basis of its software implementation and presents the results of experimental study of the phonetic lie detector test in the problem of the emotional state of the person 's voice in a comfortable and uncomfortable conditions .
Keywords: computer science, human-computer interaction, speech technology, information theory of speech quality phonetic lie detector, psycholinguistics .