Научная статья на тему 'Сравнение различных смесей гауссовых PLDA-моделей в задаче текстонезависимого распознавания диктора'

Сравнение различных смесей гауссовых PLDA-моделей в задаче текстонезависимого распознавания диктора Текст научной статьи по специальности «Математика»

CC BY
566
120
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
I-ВЕКТОР / I-VECTOR / СОВМЕСТНЫЙ ФАКТОРНЫЙ АНАЛИЗ / JOINT FACTOR ANALYSIS / СМЕСЬ PLDA-МОДЕЛЕЙ / PLDA MIXTURE / РАСПОЗНАВАНИЕ ДИКТОРА / SPEAKER VERIFICATION

Аннотация научной статьи по математике, автор научной работы — Пеховский Тимур Сахиевич, Сизов Александр Юрьевич

Исследуется актуальность использования классической смеси PLDA-моделей c распределением Гаусса в качестве априорного в пространстве i-векторов для задачи верификации диктора. Исследуются условия эксперимента, в которых это использование выгодно при существующих ограничениях размеров обучающих баз. Показано, что в рамках кроссканальной задачи использование смеси двух PLDA-моделей эффективнее, чем традиционная схема с использованием одной PLDA-модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Пеховский Тимур Сахиевич, Сизов Александр Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF VARIOUS MIXTURES OF GAUSSIAN PLDA-MODELS IN THE PROBLEM OF TEXT-INDEPENDENT SPEAKER VERIFICATION

Applicability of unsupervised mixtures of PLDA models with Gaussian priors in a i-vector space for speaker verification is studied. Conditions under which the application is advantageous are analyzed for existing training databases. A mixture of two PLDA models is shown to be more effective than a single PLDA model for a cross-channel task.

Текст научной работы на тему «Сравнение различных смесей гауссовых PLDA-моделей в задаче текстонезависимого распознавания диктора»

6. Матвеев Ю. Н., Симончик К. К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // Тр. 20-й Междунар. конф. по компьютерной графике и зрению „ГрафиКон'2010". СПб: СПбГУ ИТМО, 2010. С. 315—319.

7. He W., Hong P. The Application of Fusion Technology for Speaker Recognition // Intern. J. of Computer Science and Network Security. 2007. Vol. 7, N 12. P. 300—303.

8. Kinnunen T., Li H. An overview of text-independent speaker recognition: From features to supervectors // Speech Communication. 2010. Vol. 52, N 1. P. 12—40.

Юрий Николаевич Матвеев

Сведения об авторе д-р техн. наук; ООО „ЦРТ-инновации", Санкт-Петербург; главный научный сотрудник; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; профессор; E-mail: [email protected]

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию 22.10.12 г.

УДК 681.3

Т. С. Пеховский, А. Ю. Сизов

СРАВНЕНИЕ РАЗЛИЧНЫХ СМЕСЕЙ ГАУССОВЫХ PLDA-МОДЕЛЕЙ В ЗАДАЧЕ ТЕКСТОНЕЗАВИСИМОГО РАСПОЗНАВАНИЯ ДИКТОРА

Исследуется актуальность использования классической смеси PLDA-моделей c распределением Гаусса в качестве априорного в пространстве i-векторов для задачи верификации диктора. Исследуются условия эксперимента, в которых это использование выгодно при существующих ограничениях размеров обучающих баз. Показано, что в рамках кроссканальной задачи использование смеси двух PLDA-моделей эффективнее, чем традиционная схема с использованием одной PLDA-модели.

Ключевые слова: i-вектор, совместный факторный анализ, смесь PLDA-моделей, распознавание диктора.

Введение. В последнее десятилетие активно развиваются технологии текстонезависи-мого распознавания личностей по голосу (дикторов). В работах Рейнольдса впервые было предложено для таких задач использовать смеси гауссовых распределений (Gaussian Mixture Models, GMM) [1, 2]. В работе [2] была показана эффективность универсальной фоновой модели (Universal Background Model, UBM), также показана эффективность МАР-адаптации (Maximum A-Posteriori Probability) модели GMM-UBM при получении модели диктора.

Модель GMM-UBM обычно обучается на большой базе дикторов, с использованием критерия максимального правдоподобия и, как правило, имеет 2048 компонент. Модель диктора здесь получается путем адаптации только средних модели GMM-UBM и последующей конкатенации отдельных компонент, с формированием при этом GMM-супервектора средних — высокоразмерного вектора признаков m(s, h) для h-й сессии s-го диктора.

Работы Кенни [3—5] посвящены модели совместного факторного анализа (Joint Factor Analysis, JFA) и ее различным редуцированным версиям [6—8]. JFA — это порождающая модель, используемая с целью эффективного решения проблем междикторской и межсессионной вариативности диктора в GMM-подходе. Модель JFA можно использовать (см., например, [9]) для получения оценок верификации по критерию Неймана—Пирсона. Прогресс

современных систем верификации диктора обусловлен использованием новых низкоразмерных векторов признаков, порождаемых одной из версий JFA. В этой новой модели [10] не выполняется расщепление пространства GMM-супервектора на дикторское и канальное подпространства. Процесс обучения Г-матрицы полной изменчивости [10] аналогичен процессу обучения матрицы собственных голосов [3], за исключением того, что

— в случае матрицы собственных голосов все сессии обучающего диктора конкатенируются для последующего обучения;

— в случае Г-матрицы все сессии обучающего диктора расцениваются как произведенные различными дикторами.

Таким образом, вектор полной изменчивости w(s, h) [10] сохраняет зависимость и от канала, и от диктора и является полным низкоразмерным аналогом супервектора m(s, h). Задача расщепления пространства полной изменчивости на подпространство диктора и подпространство канала реализуется, например, с помощью линейного дискриминантного анализа (Linear Discriminate Analysis, LDA). Дальнейшее развитие текстонезависимого распознавания диктора связано большей частью с использованием векторов w(s, h) в качестве входных векторов-признаков — i-векторов.

Результаты последних конкурсов по оцениванию систем распознавания дикторов (Speaker Recognition Evaluation, SRE) Национального института стандартов и технологий (National institute of Standards and Technologies, NIST) [11] показали высокую эффективность различных методов, использующих низкоразмерные i-векторы. Среди них самыми перспективными являются методы, основанные на модели вероятностного линейного дискриминантного анализа (Probabilistic LDA, PLDA) [12, 13]. В работе [12], посвященной распознаванию лиц, было представлено точное решение процедуры обучения гауссовой PLDA-модели (G-PLDA) с использованием критерия максимального правдоподобия. В работе [13] Кенни реализовал вариационное байесовское обучение PLDA-модели для верификации диктора с использованием тяжелохвостых распределений (HT-PLDA), отметив, что ¿-распределение Стьюдента должно более адекватно описывать такие негауссовы эффекты канала, как грубые искажения речи в случае записи через удаленный микрофон. Модель HT-PLDA продемонстрировала высокую эффективность при тестировании на однородном телефонном корпусе. Дальнейшее развитие подхода PLDA показало, что такую же эффективность систем верификации можно получить при использовании G-PLDA-модели, если осуществить нормализацию длины i-вектора [14].

В настоящей работе исследуются условия, при которых актуально использование классических смесей моделей G-PLDA [12], обучаемых „без учителя" (unsupervised mixtures, U-mix) в пространстве i-векторов. U-mix позволяют осуществлять нелинейное покрытие структуры плотности данных обучающей базы, не требуя исходного знания о сегментации данных, что должно повысить эффективность системы верификации на тестовой базе, имеющей подобную структуру. По мнению авторов настоящей статьи, применение U-mix PLDA будет более актуальным в той ситуации, когда в обучающей базе априори существуют физически разнородные кластеры. Примером такой постановки задачи может являться стандартная для NIST кроссканальная задача верификации диктора, в которой обучающая база содержит данные, полученные в микрофонных и телефонных каналах.

Следует отметить, что работа [15] посвящена использованию смесей PLDA для решения кроссгендерной задачи верификации. Но, в отличие от предлагаемой нами U-mix-системы, в работе [15] обучались отдельные PLDA-системы для двух полов (компоненты смеси), обучаемые „с учителем" (supervised mixtures, S-mix), на сегментированном материале своих полов, а смесь PLDA-моделей была реализована путем мягкого байесовского комбинирования достоверностей отдельных PLDA-систем.

В настоящей работе также ставится цель сравнить эффективность систем верификации диктора, построенных на базе моделей U-mix PLDA и на базе S-mix PLDA-моделей по схеме Кенни [16].

Обучение моделей U-mix PLDA. Поскольку в работе [12] формулы обновления гиперпараметров для G-PLDA-модели представлены без вывода, детально опишем точный вывод процедуры обучения смеси на основе критерия максимального правдоподобия.

Модель G-PLDA. Каждая из компонент рассматриваемой смеси PLDA-моделей состоит из единственной гауссовой модели фактора диктора, определенного в пространстве i-векто-ров. Формальное отличие от классического факторного анализа (Factor Analysis, FA) [17] заключается в том, что обучающий s-й диктор представлен своими R(s) сессиями, что, в свою очередь, характерно для схемы обучения PLDA-модели:

Г D (s 1 ^ Г^ + 'U • • 0 V1

D( s, R( s)) V^ У ^У 0 • U V J

с( sR( s))

y(s)

V у У

Г S(s) ^

?( s, R( s))

= D(s) = |д + AiS) +e'

(s) , _(s)

(1)

У

где д — Е-мерный вектор средних; V = (Е х Qy)-матрица, столбцы которой можно трактовать как собственные голоса; и = (Е х Qx) -матрица, ее столбцы — это собственные каналы, а

шумовая (ЕхЕ)-матрица ковариации Е — общая для всех моделей в смеси. Легко заметить, что для каждой г-й сессии (1) приобретает вид:

D( s'r) = |д + [и V]

Гx(sr) ^ У( s)

V ^ У

+ s( s'r) =v + Wh( s-r) +s( s 'r).

Здесь у, х, в() <х N(0, Е) — скрытые переменные, представляющие факторы диктора, факторы канала и шум соответственно. Будем предполагать гауссов характер априорных распределений этих переменных.

Построение смеси О-РЬПЛ моделей. Начинаем с построения функции правдоподобия смеси PLDA, состоящей из М моделей, используя обучающую базу из независимых дикторов, имеющих по Я(^) сессий. Тогда логарифм функции правдоподобия на неполных данных есть:

м

L = Е ln{^mPm (D( s) | 0m )k

где пт — веса смеси, 9т = {Жт, , Е} — гиперпараметры т-й модели, а маргинальное правдоподобие рт | 9т ) относится к отдельной вероятностной модели PLDA и выражается

как

Pm (D(s) 1 0m ) = \Pm (Ds) 1 0m, Zm )P(Zm )dZm .

Здесь с вектором данных 5-го диктора 5) связывается ряд бинарных скрытых переменных

р^ е {0,1}, ^ р(т5) = 1. Тогда параметры для этой модели смеси могут быть определены

м

,(s) =

m=1

стандартным EM-алгоритмом [17] с использованием функции правдоподобия на полных дан-

ных Lc:

S M

Lc = Z Z pms) ln {nmPm (d(^ Г<? I 0m

(2)

где совместная вероятность:

Pm Q

= (2n)-R (s)F/2|S|-1/2

p (D(s)z(s)| 0 ) = p (D(s) 10 z(s))p(z(s)) =

exp{-да ))T s -'«m ))}(2n)-e/2 exp{- ± z m )Tis)}.

(3)

В формуле (2) Q = Qy + R(s)Qx, а а^ есть вектор:

¿s)=(d(s) - Am zm) -Hm).

Далее, следуя модели смеси Б А [17], для математического ожидания полной функции < Ьс > относительно апостериорного распределения Р(г\П), легко получить:

5 м < Ьс >=ЕЕУш

ln nm - 2 < z ^zm >-2inisi-

- 2 {(D(S) -Hm )T S-1(D(S) -Hm ) - 2(D(S) -Hm )T ^ Am < £' > +

+tr[AmT S-1 Am < Zm)^m)T >]}] + const.

Перейдем от схемы полного вектора z к представлению вектора h. Этот переход весьма облегчает последующие формулы обновления параметров в М-шаге EM-алгоритма и является очевидным, если рассмотреть скаляр под знаком экспоненты в формуле (3):

R( s)

< (am ) S (am ) >P(z|D) =< Z (^гп'Г ) S (£ю'Г ) >P(h|D),

r=1

где ) есть вектор:

:(s,r) = ( D(s,r)

(s=r) - W h(s'r) -H )

Тогда математическое ожидание полной функции < Ьс > относительно апостериорного распределения Р(г\П) будет иметь вид:

S M

< Lc >=ZZYm (s)

lnnm--~ln| S | -

- 1 i ) -Hm )T S-1(D(S,r) -Hm ) - 2Rf(D(s,r) -Hm )T S-1Wm < hm r) > +

+tr

R( s)

Z WmTS-1Wm < m)h

(s,r Ы s,r )T

>

r=1

+ const,

где компоненты парного вектора И и его ковариации должны браться из компонент полного вектора 2 и его ковариации [12]:

< И(''г) > ^ < г(*'г) >

< Й(5'Г)Й(5'Г)Т > ^ < 7(^) 7(^'Г)Т >

^ "ш "ш ^ ^ ^ ш ш

найденных, как будет описано далее, на Е-шаге ЕМ-алгоритма. Тогда на М-шаге, в стационарной точке для функции < Ьс >, будем иметь следующие формулы для обновления параметров:

N

1

nm

N

S M

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

УУг

y Y m M = .

i m ' Hm

S

У y?) y (d(s,r) - Wm < hm,r) >)

( s) s

yrm0 R(s)

W =

"m

y y ms ) yV^-Mm ) < ^ >r

s r

' S R ( s )

y Y(s) У < hs'r)h{s'r)T

/ , ¡m^ m "m

s r

>

-1

(4)

diag

E = -

" S M R(s) T

УУу ms ) У <(((s ,r ) - Wmhm,r) -Mm )((,r) - Wmhm,r ) -Mm ) >

S M

yyrms) R(s)

s m

Заметим, что в настоящей работе везде используется шумовая матрица ковариации Z — общая для всех анализаторов. В формуле (4) представлен ее диагональный случай. Е-шаг EM-алгоритма для смеси PLDA-моделей стандартен, так как он будет выполнен в представлении полного вектора z. На этом шаге [17] необходимо найти апостериорное распределение

и соответствующую матрицу:

< zms) >=äz) AmT 2-1(D(s) - Mm )

< z(s) z(s)T >= z(z) + < z(s) >< z(s)T >

< zm zm >_ ±±m + < zm >K- zm >,

где апостериорная матрица ковариации для обобщенного скрытого вектора z есть

?Lm) = (1 + Am 5 Am ) 1,

I — единичная матрица.

Также необходимо найти y^ (responsibilities) — апостериорное распределение для набора скрытых переменных обслуживающих смесь [17]:

Р( s)

Y ( s) = Pm im

nmPr

,(D(s)) = nm J Pm (D(s)| Z)p(z)dz

m M

M

M

Zpks) (D(s)) Jpk(D(s) | z)p(z)dz

k k k

находим точное значение маргинального правдоподобия (evidence):

Pm (D s)) = J Pm, (D( s). z )dz = J pm (D( s) | z ) p( z )dz = = (2n)-FR(s)'21Cm Г1'2 exp{{(Dw-s.-s.)}

(здесь и далее для удобства записи будем опускать 0m ).

И, таким образом, выражение для логарифма ответственностей:

ln p.s) = 1п(п. ) - ^n |Cm | - ¿(D^ - Sm fC^ - Sm ) + Const,

(5)

где матрица ковариации С_т в (5), после взятия интеграла для вектора диктора 5), состоящего из сессий, может быть представлена как:

s

Cm - 5 + Âmdm -

и и T + V V T

m m mm

V V T

m m

V V 1

m m

V V 1

mm

и U T + V V T

m m m m

V V T

m m

V V T

m m

V V T

m m

U U T + V V T

m m mm

Обращение матриц ковариации Ст и 5т представляет при точном выводе определенную трудность. Но их обращение может быть сведено к обращению отдельных блоков.

Стадия верификации. Случай и-тгх РЬПЛ. Оценка РЬБЛ для смеси имеет ту же структуру, что и оценка для отдельной РЬБЛ-модели [13]:

Score - ln-

p( a, Di\ T )

P(DX \ I)P(D2 \ I) :

где выражение для маргинального правдоподобия в числителе (случай Р^)=2) и двух — в знаменателе (случай посчитано, в отличие от [13], точно:

M

P(D(S)) -Z^mjPm (D()P(Z)dz

M

-Znm (2n)

-R ( s) F/2

Cm

i-l/2

exp{-^( D( s )-ц. )TC m!( D( s)-ц. )}

T^-l,

l( s)

и, согласно (1), представляет собой достоверность смеси РЬБЛ-моделей.

Случай $-т1х РЬБЛ. Представим реализацию Б-ш1х РЬБЛ по Кенни [16], состоящую из М отдельных РЬБЛ-моделей:

У Р(А,Б2 | т,Т)Р(т | Т) Р(А, А\ Т) ^ 1 21

Score - ln

- ln^-m-

P(D1, D2 \ I) Z P(D1 \ m, I)P(m \ I)P(D2 \ m', I)P(m' \ I)

m,m'

ZP(A,D2\ m,T)P(m \ T)

- ln-

Z ô(m'm,)P(Di\m, I)P(D2\m', I)'

m,m'

где априорные распределения для целевых дикторов и „самозванцев" (imposters) выбираются равными для каждой m-й компоненты смеси Кенни [16]:

P(m \ T) - P(m \ I) - 1/ M,

Q(mm) - P(m \ I)P(m' \ I) - 1/M2.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, это можно рассматривать как вариант байесовского комбинирования отдельных PLDA-систем на стадии верификации.

Эксперименты. Предобработка речевого сигнала. Все записи были сегментированы на участки „речь" и „пауза". Участки „пауза" затем были удалены из записей. В экспериментах использовались 39-мерные мэл-частотные кепстральные коэффициенты (mel-frequency cepstral coefficients, MFCC) [1]. MFCC-векторы состояли из 13 кепстральных коэффициентов, их первых и вторых производных, вычисляемых по 5 соседним кадрам. Использовались кадры c окном 22 мс и со сдвигом окна в 11 мс. Каждый кадр был преэмфазирован [1] и домно-жен на окно Хэмминга. Также везде применялась стандартная процедура вычитания кепст-рального среднего из кепстральных коэффициентов.

m

m

Универсальная фоновая модель (UBM). Использовалась гендернезависимая UBM, имеющая 512 компонент и полученная с помощью EM-обучения на основе критерия максимального правдоподобия на телефонных базах NIST SRE 1998—2008 годов (все языки, оба пола). Системы PLDA обучались на записях голосов 4329 мужчин и женщин. Использовалась диагональная, а не полноковариационная GMM-UBM.

Кроссканальный экстрактор i-векторов. В кроссканальной задаче необходимо использовать универсальный экстрактор i-векторов, который бы мог адекватно работать как в телефонном, так микрофонном каналах. Здесь проблемой является несбалансированность количества записей в телефонном и микрофонном каналах. Последних в несколько раз меньше в базах NIST, чем первых. В этом случае, как предложено в работе [18], используется универсальный экстрактор i-векторов, который бы подходил как для микрофонных записей речи, так и для телефонных. Он основан на отдельных оценках максимального правдоподобия двух T-матриц полной изменчивости. Математически это можно выразить для дикторо- и канало-зависимого супервектора s следующим образом:

S = S0 + TV + TV . (6)

В настоящей работе телефонная T матрица с 400 базисными столбцами обучена на 11 256 телефонных записях из NIST 2002/2003/2004/2005/2006/2008 от 1250 дикторов-мужчин (только английский язык). Микрофонная T" матрица той же размерности обучалась на 4705 микрофонных записях из NIST 2005/2006/2008 от 203 дикторов-мужчин (только английский язык), согласно [18]. Таким образом была решена проблема значительной несбалансированности наборов телефонных и микрофонных записей. После оценки T" и T конкатенируются, чтобы получить смешанную T-матрицу:

S = S 0 + (7)

где w-векторы есть интересующие нас итоговые i-векторы. Таким образом, используется кроссканальный экстрактор i-векторов размерности с 700 базисными столбцами.

Однородный экстрактор i-векторов. В кроссканальной задаче также будет использоваться обычный экстрактор i-векторов (6), но обученный только на телефонных записях, назовем его однородным экстрактором i-векторов. Такой необычный, на первый взгляд, выбор объясняется следующими причинами. Апостериорное распределение i-векторов обучающей базы экстрактора i-векторов (7), согласно JFA, всегда будет близко к его априорному N(0,1) . Таким же распределение i-векторов будет и для любой другой базы, близкой по условиям записи к обучающей (по каналу, по полу, по языку и т.д.). Но, как показали эксперименты, при существенном рассогласовании базы обучения и тестовой базы всегда наблюдается существенный сдвиг центра распределения i-векторов тестовой базы относительно нуля. Это приводит к деградации равновероятной ошибки первого и второго рода (Equal Error Rate, EER) системы, основанной на одной PLDA-модели. Но для случая обучения, например, двух PLDA моделей на двух физически явных кластерах (например, каналы в кроссканальной задаче) такое поведение однородного экстрактора будет способствовать разделению кластеров в пространстве i-векторов. Идея заключается в том, что таким образом улучшаются условия применения смеси PLDA-моделей в пространстве i-векторов, которое изначально более подходит под одну модель. Кроме того, будет использоваться однородный телефонный экстрактор i-векторов T'.

Переход в LDA-пространство. Как уже было отмечено выше, JFA-экстрактор i-векторов генерирует i-векторы, содержащие информацию как о дикторе, так и о канале. Поэтому еще одним условием, способствующим успешному применению смеси PLDA, будет переход от входных i-векторов к их проекциям, получаемым в результате LDA-преобразования. Это позволяет:

— уменьшить канальный шум;

— получить добавочную редукцию размерности входных векторов. Такая верификационная схема ТУ ^ ЬБЛ ^ РЬБЛ была успешно применена в различных работах по верификации диктора, а именно в кроссгендерных [15] и кроссканальных [16, 19] задачах. Метод ЬБЛ широко используется для редукции размерности в задачах классификации. В нашей работе ЬБЛ-преобразование редуцирует ьвекторы до 200-мерного пространства, заполненного собственными векторами, соответствующими самым большим собственным значениям следующей обобщенной задачи о собственных значениях X и собственных векторах х:

где Sb и Sw — соответственно матрицы межклассовой и внутриклассовой вариативности. После решения обобщенной задачи (8) получаем LDA-матрицу, которую применяем к i-векторам в обучающих и тестовых базах. Были построены две LDA-матрицы. В случае кроссканального экстрактора обучалась LDA-матрица размерностью 700x200 на данных обучения этого экстрактора, в случае однородного экстрактора — LDA-матрица размерностью 400x200 только на 11 256 телефонных записях, использованных для обучения однородного экстрактора.

LDA-проекции i-векторов затем подвергались процедуре нормализации, согласно [14], но только для тестовой базы (U-L-G конфигурация в терминах [14]). Эта нормализация состоит в проектировании LDA-векторов на единичную сферу.

Условия обучения. Обучались две модели S-mix G-PLDA (M=2, 3) и две U-mix G-PLDA (M=1, 2). Для модели S-mix PLDA (M=3) независимо были обучены (везде — только английский язык):

— Phone-PLDA — модель, обученная на 11 256 телефонных записях из NIST 2002/2003/2004/2005/2006/2008 от 1250 дикторов-мужчин;

— Mic-PLDA — модель, обученная на 4705 микрофонных записях из NIST 2005/2006/2008 от 203 дикторов-мужчин;

— CI-PLDA — каналонезависимая PLDA-модель, обученная на совокупном наборе данных систем Phone-PLDA и Mic-PLDA.

При обучении возникает проблема сильной несбалансированности наборов телефонных и микрофонных записей NIST. Авторы решили эту проблему, взяв из 11 256 только 5000 телефонных записей дикторов, которые были представлены в микрофонном канале, и добавив к этому набору все записи по микрофонному каналу. Так же, как и в работе [16], модель S-mix PLDA (M=3) выполнена с помощью комбинирования этих трех моделей на стадии получения оценок, a S-mix PLDA (M=2) состояла из комбинации двух систем — Phone-PLDA и Mic-PLDA. Обучение компонент проводилось согласно вариационному байесовскому выводу Кенни [13]. Модели U-mix PLDA (M=1, 2) обучались на всем смешанном наборе данных двух систем Phone-PLDA и Mic-PLDA. Везде количество столбцов матрицы собственных голосов V для всех PLDA-моделей было Qy = 200, а U=0. Везде в целях ускорения сходимости при

обучении на основании максимального правдоподобия добавлялись итерации минимизации дивергенции Кульбака—Лейблера фазы обучения по Кенни [13]. Шумовая матрица ковариа-ции Z в (4) для всех случаев имела полноковариационный вид.

Результаты тестирования для кроссканала (det3). Результаты сравнения моделей U-mix и S-mix PLDA относительно результатов основного (core-core) теста на мужских голосах базы NIST SRE 2010 для кроссканальной задачи (det3) [11] представлены в табл. 1. Для оценки эффективности систем использовались ошибка EER и новый нормализованный минимум функции стоимости обнаружения NIST (Minimum Detection Cost Function, minDCF) как метрика [11].

(8)

Таблица 1

Система М=1 М=2 М=3

8-ш1х G-PLDA Кроссканальный экстрактор — 4,31 % [0,598] 3,83 % [0,577]

И-ш1х G-PLDA Кроссканальный экстрактор 3,82 % [0,579] 3,70 % [0,535] —

И-ш1х G-PLDA Однородный экстрактор 4,06 % [0,601] 3,22 % [0,525] —

Из табл. 1 следует, во-первых, что модель Б-ш1х G-PLDA лучше всего работает при М=3 и осуществляет относительную редукцию БЕЯ системы на 11 % при М=2, а во-вторых, что модель И-ш1х G-PLDA при М=2 немного выигрывает (ЕЕЯ=3,70 %) у лучшей Б-ш1х-системы при М=3 (ЕЕК=3,83 %) даже при использовании кроссканального экстрактора. Наконец, лучшей (ЕЕЯ=3,22 %) оказалась модель Б-ш1х G-PLDA при М=2, использующая однородный экстрактор.

Результаты тестирования для телефонного канала Результаты сравнения сис-

тем верификации, полученных на неконтролируемой смеси PLDA-моделей, для однородного (телефон) по каналу условия (ёе15) представлены в табл. 2. Целью эксперимента было выяснить, можно ли наблюдать на однородном корпусе (телефон, мужчины, английский язык) структуру плотности, соответствующую выбору более чем одной модели G-PLDA. Из табл. 2 видно, что Б-ш1х G-PLDA при М=2 существенно проигрывает (ЕЕЯ=3,97 %) системе G-PLDA (ЕЕЯ=3,69 %).

Таблица 2

Система М=1 М=2

И-ш1х G-PLDA Однородный экстрактор 3,69 % [0,532] 3,97 % [0,585]

Обсуждение. Как ожидалось, идея однородного экстрактора оказалась весьма полезной для использования моделей И-ш1х PLDA. Однородный экстрактор породил на тестовой базе ёе!3 такую же двухкластерную (телефон—микрофон) структуру плотности в пространстве 1-векторов, что и в обучающем множестве. Это непосредственно следует из сравнения 2-й и 3-й строк табл. 1, видно, что в случае И-ш1х G-PLDA при М=2 во время обучения на основе максимального правдоподобия произошел захват смесью этой структуры, что положительно повлияло на эффективность этой системы (ЕЕЯ=3,22 %) и негативно — на эффективность системы на основе модели И-ш1х G-PLDA при М=1 (ЕЕЯ возрос с 3,82 до 4,06 %). Последнее свидетельствует о несоответствии структуры данных, порожденной однородным экстрактором, модели одной G-PLDA. Напротив, как следует из табл. 2, в случае однородного тестового условия (ёе15) эта структура, порожденная однородным экстрактором, соответствует одной модели G-PLDA. Можно сказать, что на текущий момент количество дикторов в доступных речевых базах недостаточно для эффективного использования смесей PLDA-моделей при М>1 в случае однородной базы данных. Таким образом, проведенные тестовые эксперименты показывают эффективность подхода моделей И-ш1х PLDA для кроссканальной задачи верификации диктора, которая превосходит по эффективности модель Б-ш1х G-PLDA [16].

Заключение. В статье предложено использовать модель И-ш1х PLDA для решения кроссканальной задачи верификации диктора. Проведенные эксперименты на данных МБТ БЯЕ 2010 позволяют сделать следующие выводы.

1. На однородных базах данных использовать более одной модели нецелесообразно, даже в пространстве LDA-векторов, так как существующие обучающие базы на данный момент не обладают достаточным количеством дикторов.

2. На кроссканальной задаче смеси PLDA моделей можно успешно применять, но в пространстве LDA-векторов и при использовании однородного экстрактора.

3. Схема однородного экстрактора в совокупности со смесью двух моделей оказывает существенную конкуренцию схеме кроссканального экстрактора с одним гауссовым анализатором в стандартной кроссканальной задаче NIST.

В будущем планируется реализовать модель U-mix G-PLDA при использовании полной байесовской структуры. Это позволит автоматически определять релевантную размерность матриц факторов диктора и канала, а также количество компонент смеси для обучающей базы.

Работа проводилась при финансовой поддержке Министерства образования и науки Российской Федерации.

список литературы

1. Reynolds D. A., Rose R. C. Robust text-independent speaker identification using Gaussian mixture speaker models // IEEE Trans. Speech Audio Process. 1995. N 3. P. 72—83.

2. Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker Verification Using Adapted Gaussian Mixture Models // Digit. Signal Process. 2000. N 10. P. 19—41.

3. Kenny P. Joint factor analysis of speaker and session variability: Theory and algorithms // Technical report CRIM-06/08-13. 2005.

4. Kenny P., Boulianne G., Ouellet P., Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition // IEEE Trans. Audio, Speech, Lang. Process. 2007. Vol. 15. P. 1435—1447.

5. Kenny P., Ouellet P., Dehak N., Gupta V., Dumouchel P. A Study of Inter-Speaker Variability in Speaker Verification // IEEE Trans. Audio, Speech and Lang. Process. 2008. Vol. 16. P. 980—988.

6. Vogt R., Sridharan S. Explicit modeling of session variability for speaker verification // Comput. Speech and Lang. 2008. Vol. 22. P. 17—38.

7. Burget L., Matejka P., Glembek O., Cernocky J. Analysis of feature extraction and channel compensation in GMM speaker recognition system // IEEE Trans. on Audio, Speech and Lang. Process. 2007. Vol. 15. P. 1979—1986.

8. Pekhovsky T., Oparin I. Eigen Channel Method for Text-Independent Russian Speaker Verification // Proc. of the XII Intern. Conf. "Speech and Comput." SpeCom'08. Moscow, Russia, 2008. P. 385—390.

9. Glembek O., Burget L., Brummer N., Kenny P. Comparison of Scoring Methods used in Speaker Recognition with Joint Factor Analysis // IEEE Int. Conf. on Acoust., Speech, and Signal Process. Taipei, Taiwan, 2009.

10. Dehak N., Kenny P., Dehak R., Dumouchel P., Ouellet P. Front-end factor analysis for speaker verification // IEEE Trans. on Audio, Speech, and Lang. Process. 2010. Vol. 19. P. 788—798.

11. [Электронный ресурс]: <http://www.itl.nist.gov/iad/mig/tests/sre>.

12. Prince S. J. D., Elder J. H. Probabilistic linear discriminant analysis for inferences about identity // Proc. 11th Intern. Conf. on Comput. Vision. Rio de Janeiro, Brazil, 2007. P. 1—8.

13. Kenny P. Bayesian speaker verification with heavy tailed priors // Proc. Odyssey Speak. and Lang. Recognit. Workshop. Brno, Czech Republic, 2010.

14. Garcia-Romero D., Espy-Wilso C. Y. Analysis of i-vector length normalization in speaker recognition systems // Proc. of Interspeech. Florence, Italy, 2011. P. 249—252.

15. Senoussaoui M., Kenny P., Brummer N., Villiers E., Dumouchel P. Mixture of PLDA Models in I-Vector Space for Gender-Independent Speaker Recognition // Proc. of Interspeech. Florence, Italy, 2011. P. 25—28.

16. Simonchik K., Pekhovsky T., Shulipa A., Afanasev A. Supervised Mixture of PLDA Models for Cross-Channel Speaker Verification // Proc. Interspeech. Portland, USA, 2012.

17. Tipping M., Bishop C. M. Mixtures of probabilistic principal component analyzers // Neural Comput. 1999. Vol. 11. P. 443—482.

18. Senoussaoui M., Kenny P., Dehak N., Dumouchel P. An i-vector extractor suitable for speaker recognition with both microphone and telephone speech // Proc. Odyssey Speak. Recognit. Workshop. Brno, Czech Republic, 2010.

19. Senoussaoui M., Kenny P., Dumouchel P., Castaldo F. Well-calibrated heavy tailed Bayesian speaker verification for microphone speech // Proc. ICASSP. Prague, Czech Republic, 2011.

Сведения об авторах

Тимур Сахиевич Пеховский

канд. физ-мат. наук; ООО „ЦРТ-инновации", Санкт-Петербург; ведущий научный сотрудник; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; доцент;

E-mail: [email protected]

Александр Юрьевич Сизов

студент; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; E-mail: [email protected]

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию

22.10.12 г.

УДК 004.934.2

А. В. Ткаченя, А. Г. Давыдов, В. В. Киселёв, М. В. Хитров

КЛАССИФИКАЦИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ДИКТОРА С ИСПОЛЬЗОВАНИЕМ МЕТОДА ОПОРНЫХ ВЕКТОРОВ

Исследована эффективность применения критерия Джини для формирования пространства признаков 8УМ-классификатора. Приведены результаты экспериментального определения оптимального набора информативных признаков и построения классификатора.

Ключевые слова: речь, классификация эмоционального состояния, критерий Джини, метод опорных векторов, автоматический выбор информативных признаков.

Введение. Исследование паралингвистических средств речевой коммуникации включает определение довольно разнообразных характеристик: эмоциональное состояние, пол и возраст диктора, стиль разговора, уровень заинтересованности, сонливость и даже наличие алкогольного опьянения.

В настоящей работе исследуется задача определения эмоционального состояния говорящего человека (диктора). При решении этой задачи возникает ряд трудностей [1]: отсутствует четкое определение эмоции, отсутствует однозначный ответ на вопрос о соотнесении акустических особенностей речи диктора с его эмоциональным состоянием. Все это приводит к различиям в формах классификации эмоций и произвольной расстановке акцентов разными группами исследователей [2].

В современных системах определения эмоционального состояния диктора можно выделить следующие основные этапы обработки [3, 4]:

1) вычисление базовых характеристик речевого сигнала (low-level descriptors, согласно терминологии [4]); оценка мощности, частоты основного тона F0 (ЧОТ), формантных частот, спектральных и кепстральных характеристик речевого сигнала и т. д.;

2) вычисление функционалов от базовых характеристик, таких как перцентили, экстремумы и их отношения, моменты высших порядков, коэффициенты регрессии и т.д.;

3) классификация объектов. Наибольшее распространение в последнее время получили классификаторы на основе смеси нормальных распределений и метода опорных векторов [5].

В настоящей работе предложено использовать статистический критерий, отражающий сходство видов распределений исследуемой характеристики при решении задачи классификации эмоциональных состояний.

И КРИТЕРИЯ ДЖИНИ

i Надоели баннеры? Вы всегда можете отключить рекламу.