НЕЙРО1НФОРМАТИКА ТА ШТЕЛЕКТУАЛЬШ СИСТЕМИ
НЕЙРОИНФОРМАТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
NEUROINFORMATICS AND INTELLIGENT SYSTEMS
УДК 681.327.12
Бiсiкало О. В.1, Грищук Т. В.2, Ковтун В. В.3
1Д-р техн. наук, професор, декан факультету комп'ютерних систем i автоматики Внницького национального технiчного
унверситету, Вiнниця, Украна
2Канд. техн. наук, доцент, доцент кафедри комп'ютерних систем управлння Внницького нацонального технiчного
унверситету, Вiнниця, Украна
3Канд. техн. наук, доцент, доцент кафедри комп'ютерних систем управлння Внницького нацонального технiчного
унверситету, Вiнниця, Украна
ОПТИМ1ЗАЦ1Я КЛАСИФ1КАТОРА АВТОМАТИЗОВАНО1 СИСТЕМИ РОЗП1ЗНАВАННЯ МОВЦЯ КРИТИЧНОГО ЗАСТОСУВАННЯ
Актуальшсть. Розглянуто питання адаптаци згортального нейромережевого класифжатора для використання у автоматизоваш системi розшзнавання мовцiв критичного застосування (АСРМКЗ). Об'ектом дослiдження е iндивiдуальнi особливост мовного процесу людини.
Мета роботи. Розроблення заходiв по видiленню з мовного сигналу шдивщуальних для мовця ознак, шдвищення !х iнформативностi в результат виконання факторного аналiзу, !х вiзуальне представлення для використання згортального нейромережевого класифжатора та оптимiзацiя його архггектури для потреб АСРМКЗ.
Метод. Запропоновано заходи по оптимiзащ! процедури класифжаци мовцiв АСРМКЗ, для чого теоретично обгрунтовано оптимальний споаб представлення iнформативних ознак i метод пiдвищення !х iнформативностi, обгрунтовано вид тополопю i заходи для шдвищення ефективност процесу розпiзнавання мовщв. Зокрема, обгрунтовано доцiльнiсть використання нормалiзованих за потужнiстю кепстральних коефiцiентiв РЫСС для опису фонограм, записаних в умовах шумного оточення, запропоновано використовувати фшьтри Габора для представлення шформаци, що аналiзуватиметься згортальною нейромережею, вибрано оптимальний метод факторного аналiзу, а саме, розрщжений метод аналiзу головних компонент, для зменшення розмiрностi вектору ознак iз збереженням його шформативност^ запропоновано удосконалену топологiю згортально! нейромережi для АСРМКЗ, у якш фiльтри Габора iнтегровано у згортальний шар, що дозволяе оптимiзувати !х параметри при навчаннi нейромережi, i на повнозв 'язному шарi використано глибоку нейромережу iз Ьой1епеек-шаром, ваги якого пiсля навчання використано як вхщш данi для контрольного ОММ/ЫММ-класифкатора.
Результати. Методи представлення та ошгашзаци iнформативних для розпiзнавання мовця ознак, методи !х вiзуального представлення та удосконалення топологи згортально! нейромережi для прийняття рiшень на !х основа
Висновки. Отриманi теоретичнi результати знайшли емпiричного пiдтвердження. Зокрема, доведено стшкють удосконалено! згортально! нейромережi до присутност шумiв оточення у вхiдних фонограмах, яка виявилася вищою за показники звичайно! згортально! нейромережi та глибоко! нейромережi. При зростаннi ВСШ>10 дБ контрольний ОММ/ЫММ-класифжатор виявився ефективнiшим за нейромережевi щодо iмовiрностi прального розшзнавання мовщв, що можна пояснити ефектившстю використано! ИВМ-модел^ але вiн е i суттево ресурсоемнiшим. Також емтрично виявлено вiкна банку фiльтрiв Габора, яга надавали найбшьш варiативну щодо шдивщуальних особливостей мовлення, шформащю.
Ключовi слова: автоматизована система розпiзнавання мовщв критичного застосування, обробка сигналiв, нейромережа, факторний аналiз.
НОМЕНКЛАТУРА WCCN - операцп внутржласово! ковар1ацшно! нор-
СЫЫ - згортальна нейронна мережа; мал1зацп,
DNN - глибока нейронна мережа; АСТМЮ - автоматизована система р°зтзнавашя
ЫММ - приховаш марковсью модеш; мовця критичного застосування;
8РСЛ - розрщжений метод главних компонент; ВСШ - В1дношення сигнал/шум;
иВМ - ушверсальна фонова модель; 1ПР - середня 1мов1рн1сть правильного ргашэишан-
VAD - детектор mobhoï акгивносгц
© Бгакало О. В., Грищук Т. В., Ковгун В. В., 2018 DOI 10.15588/1607-3274-2018-2-4
ня;
STRF [nt, k ] , STRF - спектрально-темпоральн рецеп-тивш поля;
LPC - коефщентами лшшного прогнозу;
MF [m, l ] - спектральне представлення фонограм;
MFCC [ , MFCC - мел-кепстральн коефщенти;
PLP - коефщенти перцептивного лшшного
прогнозу; PNCC[
m, l], PNCC - нормоват за потужтстю кеп-стральн коефщенти;
Zx - емтрична ковар1ац1йна матриця; Л - множина гаусових сумшей; Ф - фаза;
Xa, %b, Xt - коефшденти забування; v - дом1нуючий розрщжений головний вектор; р - нев1д'емний параметр управлшня розр^жеш-стю головного вектора;
ши, ®k - темпоральн i спектральн частоти моду-
ляцп на рiзних амплiтудних рiвнях AA ; b(i) - коефщен-ти лiнiйного прогнозу;
D - розмiрнiсть простору ознак;
Gb[x, y] - iмпульсна передатна характеристика фшьтра Габора; f0 - частота;
Fd - частота дискретизацп; F(...) - перетворення Фур'е;
F(Gb) - гаусовський сигнал, екстремальне значен-ня якого розташовано на центральнiй частой фiльтра; h[nt, k] - вжонна функцiя Хеннiнга; hl[...] - вiконна функцiя згладжування;
hm [nt, k] - нейрон m -го вектора ознак, який вщпов-дае певному фшьтру Габора, рецептивне поле якого утворюе матрицю 2Km +1 (смуги) на 2N m +1 (вдажи),
орiентовану на поточну смугу фрейму x
(n, k );
im - зображення; k - частота;
L - кшьюсть фiльтрiв у банку; l1 - штрафна норма;
m, l - номери фрейму та частотно! смуги фшьтру вщповщно;
n - кшьюсть коефщенлв; nt - момент часу;
p(x|х), GMM - сушш гаусових розподЫв;
O[nt,k] - передатш функцп нейронiв слухово! кори голосного мозку;
S - множина мовщв;
s[nt, k] - комплексна синусо!да;
Qf [m, l ]
- значення нижньо! обв^но! тсля напвше-рiодного випрямляча;
Qo [m, l ] - сигнал тсля натвперюдного випрямлення;
Qtm [m, l ] - сигналу тсля процедури часового мас-кування;
Qвх [m, l ] - результат ковзного усереднення MF [m, l ] на протязi M фреймiв;
Qвих [m, l ] - усереднена за часом потужтсть;
(x;-} - результатами спостережень;
х[...] - короткочасний спектр сигналу ВСТУП
Серед юнуючих класiв автоматизованих систем ок-реме мiсце займають так зват критичнi системи, якi функцiонують iз високою надiйнiстю i зберiгають про-гнозований ll рiвень на протязi всього життевого циклу автоматизовано! системи не залежно в^ будь-яких зовшшшх обставин. При створенi критичних систем в^дають перевагу перевiреним та знаним методам та технологiям перед новггтми розробками, якi не пройш-ли всебiчноl емтрично! перевiрки. Ресурсозатрат^ технологи, використання яких для розробки поточних автоматизованих систем е економiчно невипдним, допус-тиш при створеннi критичних систем, для яких голов-ним е надшшсть функцiонування.
Актуальна класифiкацiя критичних систем роздшяе !х за реакцiею на виникнення надзвичайних ситуацiй та за галуззю експлуатаци. За реакцiею на виникнення надзвичайних ситуацш критичт системи роздiляють на критичт системи, якi мають продовжувати виконання фун-кцiональних операцiй при виникненн вiдмов чи впливi непередбачуваних факторiв, наприклад лiтак повинен продовжувати летни за будь -яких обставин, та критичт системи, яю повиннi обов'язково безпечно завершува-ти функцiонування не залежно в^ дл оточуючих фак-торiв, наприклад, потрiбно загальмувати потяг щоб перевести його у «безпечний» стан. За галуззю експлуатаци критичнi системи роздiляють на:
- критичт системи збереження життя - це автома-тизованi системи, збо! у функцюнувант яких можуть привести до загибелi людей, суттевих пошкоджень на-вколишнього середовища - це, наприклад, автоматизо-ванi системи управлшня хiмiчним виробництвом, лгга-ками, потягами метро, атомних електростанцiй;
- критичт системи гарантованого функцюнування - щ автоматизованi системи, якi створюються iз перед-баченням гарантованого завершення виконувано! опе-раци, наприклад, системи нав^ацп, управлiння багажем у аеропортах;
- критичт системи екож^чного застосування - щ автоматизованi системи, створенi з метою уникнення значних матерiальних або репутацшних витрат, що заз-вичай забезпечуеться вчасним припиненням виконан-ня певних операцiй iнтегрованою критичною системою, наприклад, у системах роботи iз тентами у банках, iнтернет-пошуковi системи, ERP системи, системи роботи iз бiржовими операцiями тощо;
- критичт системи шформацшно! безпеки - щ авто-матизованi системи унеможливлюють втрату конферен-цшно! шформаци за будь-яких умов.
Автори проводять послiдовнi дослiдження щодо синтезу теоретичних засад та методiв для практичного впро-вадження автоматизованих систем розтзнавання мов-ця в критичт системи. Запропонований матерiал сто-суеться опташзацп роботи пiдсистеми класифжацп ав-томатизовано! системи розпiзнавання мовцiв критичного застосування (АСРМКЗ).
Об'ектом дослщження е iндивiдуальнi особливостi процесу мовотворення людини.
Предметом дослiдження - методи видшення шфор-мативних для розтзнавання особи мовця ознак iз фо-нограм мовних сигналiв, методи компактифжацп !х пред-ставлення у факторному простор^ формулювання виду подачi шформативних ознак у вiдповiдностi iз моделями слухового сприйняття людини i завадостiйкi автома-тизованi методи прийняття ршень для розпiзнавання особи мовця.
Мета дослщження - пiдвищення стiйкостi АСРМКЗ до впливу рiзних видiв шумiв у вхщних фонограмах.
1 ПОСТАНОВКА ЗАДАЧ1
Формалiзуемо постановку задачi розпiзнавання
мовщв так. Нехай £ = {,£2,...,sm} - простар образiв,
якi мае розпiзнавати АСРМКЗ, а е £ - об'ект розтз-навання. Використовуючи певнi правила сформуемо
факторний простар Р, причому функщя /(5г-): £ ^ X ставить у вщповщтсть кожнiй фонограмi iз записом мовного сигналу мовця точку /(яг-) у факторному просторi. Кожному I-му мовцевi у факторному про-сторi вщповщае множина точок, кожна з яких вiдповiдае
опрацьованiй фонограмi, утворюючи кластер С^ е X , при чому кластери рiзних мовщв мають не перетинати-ся. Вирiшувалене правило г (х): X ^ М дозволяе iз пев-ною iмовiрнiстю стверджувати, що точка /(яг-) у факторному просторi належить мовцевь Задача ав-торiв - сформувати факторний проспр р iз ч^кими границями кластерiв мовцiв i створити виршувальне правило К, яке за шформащею про мовцiв iз факторного простору максимiзуватиме iмовiрностi правильного розпiзнавання р для вшх мовцiв з множини
2 О1ЛЯД Л1ТЕРАТУРИ
Основною специфiкою АСРМКЗ е обгрунтовано висока iмовiрнiсть його правильного розтзнавання при визначених рiвнях ВСШ. Iснуючi методи пiдвищення надшност розпiзнавання мовцiв у шумному акустич-ному середовищi базуються на компенсацп вщмшнос-тей мiж фонограмами без шуму («чистими» фоногра-мами) i фонограмами iз шумом за рахунок математич-них моделей [1, 2] або ведення додаткових факторiв [35]. Перший пiдхiд передбачае адаптацiю моделi мовцiв до застосування у шумному середовищ^ а другий - на використант алгоритмiв теорп цифрово! обробки сиг-налiв для фшьтрацп шумiв iз збереженням шдив^аль-ност звучання фонограм або винайденнi стшких до шумiв та iнформативних для розтзнавання особи мов-ця факторах.
Актуальт роботи, яю можна вiднести до першого варiанту базуються на моделюваннi природно! здатност людини якiсно виконувати задачу розтзнавання мовця у шумному середовищi описуючи фiзiологiчнi аспекти слухово! системи та моделюючи когнiтивнi функцп вщповщних вiддiлiв кори головного мозку у виглядi ней-ромереж рiзноl топологи. Зокрема, дослiдження [6, 7] демонструють можливiсть застосування параметрiв прихованого шару (ваг вхщних зв'язкiв нейронiв обра-ного прихованого шару) навчено! глибоко! нейромережi в якостi факторiв для розтзнавання мовщв, i доводять !х бiльшу iнформативнiсть порiвняно iз традицшними факторами, як то, МЕСС, ЬРС, короткочасною енергiею i т. ш. Проте, цi результати отримано для значно схожих навчальних та тестувальних наборiв фонограм мовцiв i не дослiджувалися в умовах реального акустичного ото-чення, характерним для якого е присуттсть не лише перюдичних шумiв, притаманних каналам зв'язку, а i стохастичних природних чи техногенних шумiв.
Роботи, якi можна вщнести до другого пiдходу, демонструють близью уявлення щодо методiв оброблю-вання мовних сигналiв у задачах розтзнавання мови/ мовця iз подальшою вiдмiннiстю у штерпретацп отри-маних результатiв, яка виконуеться не автоматично, iз незмiнним порогом чутливоста, що знижуе ступiнь адап-тивност створюваних автоматизованих систем розтз-навання на !х основi, а отже, знижуе робастасть цих систем. Перспективним е синтез адаптивних методiв аналь зу мовних сигналiв для видшенням iндивiдуальних особ-ливостей мовлення, яю поеднують iнформативнiсть iз утверсальтстю та обчислювальною ефективнiстю.
3 МАТЕР1АЛИ I МЕТОДИ
Застосування згортального нейромережевого класи-фiкатора у АСРМКЗ вимагае iнформативного вiзуально-го представлення факторiв, що описують мовний сигнал. Очевидно, що для цього найкраще тдходить спектральне представлення, отримане на виходi банку фiльтрiв
МР [п
1/2К-1
, I ] = I к=0
,У®к
(1)
де а к = 2пк\Рл .
Видшимо з фонограми мовного сигналу множини мел-частотних кепстральних коефвденпв [8] i ко-ефiцiентiв лiнейного прогнозу [9]. Для кожного фрейму на виходi банку фшк^в (1) обрахуемо п МЕСС-ко-ефiцiентiв
МРСС[п] = Г11 \ogMp[п, I]со8 2%Г1 ((+ 0,5) ), (2)
I=1
де п РЬР-коефщенлв на осжда коефщентав лiнiйного прогнозу й(г) за рекурсш ним вiдношенням
п—1
РГР[п] = —Ь(п)+п —1(п — I )>(/ )РГР[п — /]. (3)
г=1
МЕСС та РЬР кепстральнi коефiцiенти за рахунок розташування фшк^в у банку за Мел-шкалою е стшки-
х
ми до лшшних спектральних спотворень i вщповщають базовим властивостям моделей слухового сприйняття С. Снефа, О. Птза, Р Лайона [10], але е усередненним представленням вщпов^них спектральних характеристик i не дозволяють корегування спектральних характеристик мовного сигналу на частотах, яю не входять у критичт смуги слухового сприйняття [11]. Для компен-сацп цих недолiкiв Х. Занг, М. Хейтц, И. Брюс и Л. Кат [12] сформулювали модель, яка описуе в^гук активност слухового нерву на мовний сигнал, супроводжуваний шумом, яка дозволила сформулювати метод представ-лення мовних сигналiв множиною нормалiзованих за потужнiстю кепстральних коефiцiентiв Р1ЧСС. Таке пред-ставлення дозволяе виконати компенсацiю шуму за оц-iнками середньо! у час потужностi, отримано! усеред-ненням на протязi кiлькох фреймiв короткочасно! ощн-ки спектру потужностi на виходi банку фiльтрiв (1). Оц-iнюючи змiнний у часi порiг шуму i вiднiмаючи його вiд короткочасно! ощнки спектра потужностi отримае-мо чисту мовну складову фонограми:
&их[m, l ] =
XaQвих[m - 1l] + (1 - Xa УЗвхК 11 якЩо &х[m, l]> йшх[m11
X b Qehk [m -1, l] + (1 - X b )вх [m -1, l], (4)
якщо [m, l ] < Qвих
[m -1, l ].
Зауважимо, що точнiсть обчислення коефвденлв PNCC цiлком визначаеться точтстю процедури детек-тування мовно! активност (для визначення енергп шуму пауз). Отже, тсля отримання вiдкоригованого мовного сигналу до нього застосовують щеальний лшшний на-пiвперiодний випрямляч, тсля чого мовний сигнал об-робляеться у першому каналi iз повторним застосуван-ням фiльтру (4) для визначення порогового рiвня по-тужносп тiльки для фреймiв пауз. Одночасно у другому каналi до мовного сигналу застосовуеться процедура часового маскування
Qtm Кl ] =
Q [m, l ],
якщо Q0 [m, l] > XQp [m -1, l], H-tQP[m -1, l ]
якщо Q0 [m,l] < XtQp [m -1,l]
(5)
Сформований таким чином пороговий енергетич-ний детектор мовно! активноста вибирае для формуван-ня вектора PNCC значення з першого (4) або другого (5) каналу за правилом
PNCCn [m, l ] =
maxi
(Qtm [m, l ] Qf [m, l]]"
Qf [m, l ],
" мова"
"пауза".
(6)
Наглядно операц^ для визначення векторiв факторiв за (2), (3) i (6) представлено на рис. 1.
Зауважимо, що у процеш отримання PNCC застосо-вувався банк гаматонних фшк^в [12], центральнi час-тоти яких лшшно розподiленi у частотному дiапазонi 200- 8000 Гц вiдповiдно до шкали ERB, яку використову-ють у психоакустищ для моделювання акустичних фшк^в. Перехiд вiд частотно! шкали у ERB виконуеться
за формулою ERBs = 21,41log10 (1 + f/229). До пере-ваг шкали ERB о^м того, що вона адекватно вдаворюе такi властивосп сприйняття як псевдологарифмiчне зро-стання ширини критично! смуги iз зростанням частоти i логарифмiчний закон сприйняття iнтервалiв частот, можна вiднести нечутливють до биття i iнтермодуляцi-ям мiж сигналом i фоновим шумом. Приклади MFC- та PN-спектрограм при рiзному вiдношеннi сигнал/шум наведено на рис. 2.
Фильтри Габора [13] вщносять до смугових фшк^в, якi, переважно, використовують у задачах визначення крайових ефеклв зображень, i дозволяють виявити дiа-пазон частот сигнала у визначеному промiжку x i на-прямку y. 1мпульсна передатна характеристика фiльтра Габора е добутком гаусово! функцп на гармошчну:
Gb[x, y] = K
■J2nux д/2пст y
• cos(2n/0 x+ф). (7)
В процесi фiльтрацil вiдбуваеться згортання вхiдного сигналу, в якоста якого може виступати будь -яке зобра-ження im, наприклад MFC- або PN-спектрограма, i фшьтра Gb у просторовiй областi. Процес згортання у просторовш областi при переходi до частотного простору замшюють на множення. В результат
F(im • Gb)= F(im)• F(Gb) - множення в частотнш об-ластi амплiтуди частот вхщного сигналу, близькi до частоти в^повщного синусо!дального сигналу, тдсилюють-ся, а решта - затухають.
На ефективнiсть фiльтрiв Габора критично вплива-ють значення висоти стx й ширини стy гаусово! компо-ненти (7). При обробщ зображень емпiрично виявлено, що оптимальна ч^юсть фiльтру досягаеться при
1
V2nf0
3
i ст y = — ст x, отже у подальший дослщжен-
нях як початковi використовуватимуться щ величини.
Протягом останнього десятилiття ряд фiзiологiчних експериментiв на рiзних видах ссавщв показав, що ней-рони у первиннш слуховiй корi чутливi до певних спек-трально-темпоральних структур, названих спектрально-темпоральними рецептивними полями STRF [14], якi е функцюнальними дескрипторами лiнiйноl обробки змшних акустичних спектрiв слуховою системою. От-риманi на основi результатiв цих дослщжень спектраль-но-темпоральнi ознаки увшшли до моделi STRF, яку почали використовувати у системах розтзнавання мови i мовцiв. Ряд дослiджень [14, 15] дозволили визначити множину фiльтрiв iз спектральною, темпоральною та спектрально-темпоральною модулящею, якi у першому наближенш моделюють шаблони збудження ней-ронiв для типових спектрально- темпоральних складо-вих вхiдних сигналiв. Зокрема, дослщження роботи пер-винно! слухово! кори головного мозку виявили множину одиночних пульсацш iз синусо!дально-модульовани-ми спектральними профiлями з усталеними частотами у просторах часу i логарифмiчноl частоти, яка може ефективно описувати рецептивш поля та передатш
2
x
1
1
e
Банк три кути их Мел-
ф]ЛЬТр]Е
Зтиснеккя
ПсоГ
Оберни г перпЕорення Фур'е
КофШСНТИ Л1Н1ЙНОГО
прогнозу (ИХ)
Косфшентн лшйного прогнозу (Р1Х)
Мел-вшпр альт кмфщнтн
(МЕСС)
МГСС РЬС PNOC
Факторн
Рисунок 1 - Алгоритм отримання фактор1в з фонограм функцп нейрошв слухово! кори голосного мозку 0[, к]= АЛ 8т(2лю п< п( + 2люкк + ф). 8ТЯР-обробка описуеться процедурою фшьтрацп виду 0[п{, к ] = 8ТЯР [, к]* х[п{, к ], тобто у довшьний момент часу щ i на частота к реакщя нейронiв 0[п{, к] описуеться згортанням 8ТЯР та динамiчного спектру подразника в околi моменту часу i частоти х[п{, к]. Вщповщно, 8ТЯР дiе як фшьтр, який видае пiки як реак-
данк гаыяпинкх фиьлрш
Оцшювання спектра ПОТуЖНОСП (ковгн« С?Р?ДН€)
Аснметричн« шуиоорвгшчення в часовни иаск\ъанням
Спектральне згладжуванвя у
частогннх си\тах +
Нсрмал)защя серелньо! потужносЬ у простор! «частом час»
т
Зтнснення 1(фГ
Днскретне косннусие перетворення
цiю на вхщш сигнали, що за сво!ми характеристиками наближаються до спектрально-темпоральних ознак, що описують запам'ятованi образи.
Для практично! обробки мовних сигналiв зазвичай використовуеться апроксимащя 8ТКР 2Б функщею Га-бора. Для синтезу фшьтру Габора, який моделювати-муть 8ТКР, помножимо комплексну синусо!ду на вжон-ну функцiю Хеннiнга:
8ТЯР [п, к ] = ОЬ[п{, к ] = , к ] • И[п{, к ], (8)
р-К8К 1607-3274. Радюелектронжа, шформатика, управлшия. 2018. № 2 е-ЕЗБЫ 2313-688Х. Каёю Шес^отсБ, Сошр^ег Баепсе, Сопйо1. 2018. № 2
Мел-спектр, чистий
РМ-спектр, чистий
со х
СО
^ 15
га
5
0.5
га
20
Мел-спектр, ВСШ=0дБ
РЫ-спектр, ВСШ=0 дБ
0.5
Час, с
Рисунок 2 - Приклади в1зуал1защя Мел- та РЫ-спектр1в без/з шумом
де комплексну синусо!ду, з темпоральною частотою модуляцп юп i спектральною частотою модуляцп ю^,
представлено як ¿Щ, к] = е'юпп+гюкк , а вжонну функцiю
Хеннiнга - як
Ащ, k ]=
' 1 '
2
V V
1 - СОБ-
2ппt
ЛУ ! (
//
V 2 V
1 - СОБ
2пк
Щ+1
де па-
//
раметри Wп i Wk визначаються як 1.75 цикли вiдповiдно!
частоти модуляцi!: W = 175
^, Wk = 1,75-^. Для
юп, юк
чисто темпоральних або спектральних фiльтрiв (8) дае несюнченну допомiжну функцiю, отже, обмежимося 40 частотними каналами або 99 часовими фреймами, що вщповщае максимальнiй довжинi iнших фiльтрiв у вщпо-вдаих вимiрах.
За рахунок налаштовуваних параметрiв спектрально! та темпорально! частоти модуляцп функцп Габора матимуть рiзну iнтенсивнiсть i нахил в залежност вiд кiлькостi коливань у вх^ному сигналi. Банк фшк^в Га-
бора, використаний авторами, метить 59 фiльтрiв, на-лаштованих на рiзнi темпоральнi та спектральнi частоти модуляцп (темпоральш частоти модуляцi! юп , Гц: 0; 1,9; 3,9; 6,2; 9,9; 15,7; 25; спектральш частоти модуляцп Юк, циклш/октаву: -0,25; -0,1224; -0,06; -0,0293; 0; 0,0293; 0,06; 0,1224; 0,25), яю вiзуалiзовано на рис. 3.
При фшьтрацп РЫ-спектру створеним банком фшк^в Габора (див. приклад на рис. 4) фшьтри iз висо-кою частотою модуляцi! (вузькi фiльтри) фшьтрують швидкозмiнювану частину спектра, а фшьтри iз низь-кою модуляцiйною частотою (широю фiльтри) фiльтру-ють низькочастотну область мовного сигналу. Комплекс вузьких та широких фшь^в, що вiдповiдають рiзним спектральним частотам модуляцi!, генеруе ознаки, яю описують спектральну динамiку вх^ного сигналу.
Описаний вище математичний апарат видшення з фонограм факторiв та !х представлення пiсля фiльтрацi! Габора е досить ресурсоемним, отже, важливою задачею е здшснення факторного аналiзу отриманих з фiльтрiв ознак для тдвищення !х iнформативностi i змен-шення кiлькостi обчислень. Зазвичай у системах розтз-навання мови/мовця застосовують метод главних ком -
и1
"О рз Ы сг я о 3
ы
4
н
"О Рз С
"в к
о
я
о я
Ш К
В
Частотна смуга
"О Рз
ы сг я о 3 2
ё
у;
3 £
"и I
ы> 8
V 3
С
3
к»
с
3 я-
о о
и)
с я
я ы я
н
"О Рз
с
ц * >
о М ё р В № Я
¿КЗНЗДБВБ
Частотна смуга
Частотна смуга
4} к
о
я
о я
С по кг р ал ь на частота модуляци, пер1 од/канал
о о
о о
1Л М I*)
о о
о о
о о
(*1 СП Ю СП
■е- -о
5' о
5 е. "2 ы
и' я н-1 а
£ щ
о £
Я
3
н О
о о
—
о
м
г А
с-
Е
Л и)
¡2
О
о
йз СТ1
Ж. ю
с
р
£ 113
- '
1—| (Л
С
ш
о
I I III III •
| ( ^ £ ^ Ф I I
I 1 £ ^ = I I
I * в <1 \
л а 43 В
га о -
а со а
а м а о й Р > Г4 с;
£ 3 43 из р о
» § к О из Н О О ^
т
■-< N сл ^
со га 1-1 о
а р
й' о
а 0 3 о О! а 4
со со а р о а к га О 43
й' р н а N а ¡г а н к
¡г о о 43
н 3 о м О из
№ со га я о 0
а З1 а
га Ч 43
а о а га
р 43 о а а
Р о
га
а= а а а о
а а м £
¡г № О к га н
о СО а о
из а »
а р ^ 0 р
« из О ^
р К а р 3 р 4
я « и о
43 Р К
из
Я СО ® 2 нЗ
§ Й 'З
* й
° э
И ж
о
ж: О
£ Ш
и ш »
а ^
р 01
^ I
» А
8 § 43 ^
2 из
р ^
р
К.
сл ТЗ
о
2 Й га 2 ш о
ЕЗ О!
у,
8
м га
Н
+
с: 3
х
м
я
+
с;
¡г
Р
«
о
а
¡г
Р
а
а
га
со
а
р
о
а
га
из
а
Р
л
га
а
а
м
р О!
о
а
М
н +
I
тэ
1Л
^
1Л тэ
Р5
У,
3
ч
М
н +
с:
I
тэ
1Л
^
1Л тэ
» м
14 В к «с
СО
43 -
со р
к
я И' к
о со о
43
0
1
Й
Р £
•I
о »
о
н р
со
►6-
К «
К
с Й
-£1 о
8
ж тз И '-3
0
н 43
р
►е-а о.
к
о 43
к
р
О!
^
со р
т СО К
И о
СО Р
р а
о
►е- и Ъ ^ н ^
I
а 43 н сл К
^ X ^
!> ^ о
^ ^ из
(—) из
У «
га со
N 3
о га
" К
| I I
СО о И К 43 ч
о В
т о
Н Й
№ а
о Р
е в
со 43
£ с
и в
Й » В|
§ § % р о
43
а
3 ^ а ^
а= а а
»
о а
•I
а=
2 ^
а га
Н из
а ^
Ё У
» Й
м 4
Р
а № а о
со р
43
01 а н со О Д
а
а'
»
а о
о 8 й 8
а № о
СО
а ®
о а
о а;
а
о О! И Й
ж ■
1 '
3 из Р м 0
£ 3 а 4 ТЭ р а »
д а /----N ►6- а.
Й'
о < а со а
м со 43 0 1 В га
н Р 4--^ а
+ из а II ^ а м
с; т ч 00 Т у со а а а Р
о йа » а
^ < < о
ю со а н
II 3 » р а
тэ р а
1 тэ со 1Л
1Л 43 ^
Р 1Л а 43 га
1Л с. тэ » о
тэ н р
со
а
о £ О
Д
И
О
Й ©
О
43
Н
К «
> $
Й н И Й
м «
н £ Ь4 Й о к о н м
ж.
К
Отже, для подальшого використання обмежимося лише ознаками, яким вщповщають ненульов! значення у роз-р1дженому головному векторь
У створенш АСРМКЗ МБС- та РЫ-спектрограми, от-римаш при анал1з1 вхщних фонограм, тсля проходжен-ня банку фшьтр1в Габора та оптишзацп за допомогою 8РСЛ використовуються в якост вхщних даних для гли-бокого нейромережевого класифжатора (див. рис. 5), у тополопю якого введено вузьке горло, параметри якого тсля навчання використовуються у ИММ/ОММ-сис-тем1 розтзнавання мовця, яку буде описанш згодом.
Маючи в!зуальш зображення МРС- та РЫ-спектро-грам очевидним е можлив1сть застосування для розтз-навання мовця згортально! нейромережь Першим (вх1дним) шаром згортально! нейромереж! е згорталь-ний шар, який виконуе процедуру фшьтрацп вх1дного зображення використовуючи фшьтр (ядро згортання). Анал1з роботи згортального шару дозволяе передбачи-ти можливють штеграцп 2Б фшьтр!в Габора у тополопю згортально! нейромереж!, замшивши ядра згортання фшьтрами Габора ¿з вщпов!дними часовими [ час-тотними характеристиками. Модифжована таким чином згортальна нейромережа, зображена на рис. 6, викори-стовуе коефщенти фшьтр!в Габора як параметри ядра згортання [ виконуе !х оптишзащю тд час навчання, що робить таку нейромережу потенцшно бшьш ефектив-ною за звичайш СЫЫ або БЫЫ нейромереж!, де перед-фшьтращя Габора викнуеться ¿з незмшними параметрами, адже винесена за меж! класифжатора.
Автори передбачають, що описана модифжащя згортального шару забезпечуеться застосуванням лшшних функцш активацп нейрошв шару заметь сигмо!дних та встановленням параметру перекривання ядер р1вним нулю, що робить згортальний шар передатною функ-щею фшьтр!в рецептивних пол1в. Розм1ри рецептивних псшв для отримання однакових ¿з фшьтрами Габора ча-стотно-часових параметр1в встановлюемо р1вними 2Кт +1 (смуг) на 2Мт +1 (вщлтв) для в1дпов1дного фшьтру т. Коефщенти фшьтра Габора штегруються у вх1дш ваги нейромереж! Wm згщно вщношення
(
Нт [, к ] = 1т
Мт
Кт
\
Е Е °Ьт (-1,-1 )• х(( +', к + А
'=-Мт }=-Кт
= °Ьт [П, к] х[П, к]
(14)
Ваги зв'язюв Wm виконують фшьтращю у рецептивному пол!, де шдекси коефщешгв фшьтр!в обернет шдексам ваг як по вертикал! так ! по горизонтал! вщпов-щно р1вняння (14).
Визначним критер1ем для створювано! системи е надшшсть розтзнавання мовщв, яку можна суттево тдвищити використавши поряд ¿з нейромережевою кла-сифжащею шший ефективний метод прийняття ршень для ствставлення отриманих результата, як це показано на рис. 5.
Рисунок 5 - Архитектура АСРМКЗ ¡з глобоким нейромережевим класифжатором 1 можливютю ИММ/ОММ анал1зу
Рисунок 6 - Архитектура модифжованого згортального нейромережевого класифжатора GbCNN АСРМКЗ
У сучасних системах розтзнавання мовця викорис-товують метод апроксимацп щiльностi iмовiрностi в простер ознак GMM i метод HMM [17]. Гаусова сумiш е зваженою сумою M щiльностi ГмовГрностГ, яка опи-
M
суеться вГдношенням p(x|X)=Z pjbj (x), де х - D-ви-
i=1
мiрний вектор випадкових величин, bt (x) - функцп щшьносп розподiлу складових моделi, Pi - ваги компо-нентiв сумiшi. Остаточно модель гаусово! сумiшi опи-
суеться у виглядi вектора X;- = {{,Zi,Pi}, i = 1,...,M. У нашому випадку, кожному i -му мовцевi вГдповГдае унiкальна модель X;-. Практично процес знаходження
оптимальних параметрiв X;- вирiшуеться алгоритмом ощнювання-максимГзацп [17], робота якого аналопчна алгоритму Баумана-Велча для оцшюванню параметрiв прихованих марковських моделей [17]. Так якщо вГдо-мий початковий вектор ознак X;- i обчислений за певни-ми правилами вектор X;-, то за умови, що
p(x|Xi)> p(x|Хi), вектор Xi вважаеться базовим для повторно! ггерацп обчислень, якi повторюються поки збе-рiгаеться позитивна динамжа покращення параметрiв моделi гаусово! сумiшi i-го мовця. Розширюючи цi мiркування на процес розпiзнавання мовця, задачу GMM-HMM класифшацп можна сформулювати так.
Нехай множину мовцiв S = {{, S2, • • •, sn } описано мно-
жиною гаусових сумiшей Л = {Х1,X2,.,Xn}, тодi задача класифжацп полягае у знаходженнi моделi мовця iз найбiльшим значенням апостерюрно! iмовiрностi для визначено! парольно! фрази:
с г>( \V) P(x| Х k )pr (X k )
S = argmaxPr^X цл) = argmax-!—j-^r-.
1<k<n 1<k<n Pr(x)
Цей ви-iв (Pr(X k )= % ),
раз за умови рiвноiмовiрноl появи мовщв однакового значення Pr(x) для вих моделей та за умови
суеться вгдношенням
незалежностi процедур розпiзнавання можна переписа-ти так: S = arg max Z log p(xi |Xk ), де p(xi |Xk ) - е гаусо-
1<k<n i=1
вою сумiшшю, iз описаними вище характеристиками.
У сучасних системах розтзнавання мовця викорис-товують метод апроксимацп щшьносп iмовiрностi в просторi ознак GMM i метод HMM [17]. Гаусова сумш е зваженою сумою M щiльностi iмовiрностi, яка опи-
M
p(x|X)=Zpibi(x), де х - D -ви-i=1
мiрний вектор випадкових величин, bt (x) - функцп щшьност розподiлу складових моделi, pi - ваги компо-нентiв сумiшi. Остаточно модель гаусово! сумiшi опи-
суеться у виглядi вектора X;- = {{,Zi,Pi}, i = 1,...,M. У нашому випадку, кожному i -му мовцевi вiдповiдае унiкальна модель X;-. Практично процес знаходження оптимальних параметрiв X;- виршуеться алгоритмом ощнювання-максимГзацп [17], робота якого аналопчна алгоритму Баумана-Велча для оцшюванню параметрiв прихованих марковських моделей [17]. Так якщо вГдо-мий початковий вектор ознак X;- i обчислений за певни-
ми правилами вектор X;-, то за умови, що
p(x|Xi)> p(x|Xi), вектор Xi вважаеться базовим для повторно! ггерацп обчислень, яю повторюються поки збе-рГгаеться позитивна динамiка покращення параметрiв моделi гаусово! сумГшГ i -го мовця. Розширюючи щ мiркування на процес розтзнавання мовця, задачу GMM-HMM класифшацп можна сформулювати так.
Нехай множину мовщв S = {{, S2, • • •, sn } описано мно-
жиною гаусових сумшей Л = {Xl,X2,...,Xn}, тсд задача класифжацп полягае у знаходжент моделГ мовця Гз найбшьшим значенням апостерюрно! ГмовГрностГ для визначено! парольно! фрази:
с г>( \V) p( X k )pr(X k )
S = argmaxPr(Xk\X^ argmax--p--. Цей ви-
1<k <n 1<k <n Px\x)
* )= %),
раз за умови piBHOiMOBipHOl появи мовщв
однакового значення Pr(x) для Bcix моделей та за умови незалежност процедур розтзнавання можна переписа-
ти так: S = argmax^logp(к), де p(xt|А,k) - е гаусо-
1<k <n г=1
вою сумiшшю, iз описаними вище характеристиками. 4ЕКСПЕРИМЕНТИ
У наведеному матеpiалi автори обгрунтували ряд удосконалень АСРМКЗ, як то, використання фактоpiв на основi PN-представлення мовних сигналiв для опису шдив^альност мовлення; використання банку фшк^в Габора у складi АСРМКЗ; застосування SPCA для анал-iзу фактоpiв опису iндивiдуальностi мовлення; мож-ливiсть iнтегpацil фiльтpiв Габора у тополопю згорталь-но1 нейpомеpежi; застосування GMM/HMM класифь кацi1 на основi ознак bottleneck-шару навченого глибо-кого нейромережевого класифжатора у складi АСРМКЗ. Далi приведемо поставку емпipичних дослщжень адек-ватностi запропонованих удосконалень та оцшювання ефекту вiд 1х впровадження.
В якостi бази фонограм для навчання та тестування створено1 iз застосуванням вищеописаних удосконалень АСРМКЗ використано базу запимв iз безкоштовно1 бази даних NOIZEUS [2] - спецiалiзовано1 бази даних Школи iнжинipингу та комп 'ютерних наук Еpiка Джонсона при Ушверситеп Техасу в Далласу США, яка використовуеть-ся для дослщження алгоpитмiв покращення звуку i скла-даеться з 30 речень англшсько! розмовно1 мови, вимов-лених трьома чоловжами та трьома жшками (по 5 на кожного диктора, частота дискретизацп записiв складае 25 кГц, але задля додавання шуму була зменшена до 8 кГц) та запишв типових побутових та техногенних шу^в. В ходi експерименту АСРМКЗ навчали як фо-нограмами без додавання шумiв, так i фонограмами iз додаванням шуму. Навчальна вибipка мiстила 594 фо-нограми, де до чистого сигналу додавався штучний шум з piвнями шум/сигнал 0 дБ, 5 дБ, 10 дБ, 15 дБ вщповщно. Навчання створено! системи проводилося на фоногра-мах всiх чотирьох титв вiдповiдно до piвня ВСШ, за умови, що серед навчально1 вибipки для кожного iз мовцiв була хоча б одна фонограма iз ВСШ = 0 дБ. Фонограми навчально1 вибipки використовувалися як вхiднi данi для синтезу залежних вщ статi мовця UBM моделей, повних матриць ваpiативностi, моделей. Для детектування штер-валiв мовно1 активностi у фонограмах застосовувався двохканальний VAD алгоритм [18]. 1нтервали мовно1 ак-
тивност тривалютю 3 секунди розбивалися на фрейми тривал1стю 30 мс i3 15 мс зсувом, i3 даних яких екстрагу-валися 19 MFCC та PNCC коефщенпв, !х енергiя, перша i друга ix похщш. До кожно1 чисто! фонограми (i3 рiвнем ВСШ=0) навчально! вибiрки шдшшувався запис акус-тичних шумiв, вид та рiвень ВСШ яких обирався випад-ково i3 мовно! бази. В результатi на одну чисту фоногра-му припадало десять i3 рiвнем ВСШ 0, 5, 10 або 15 дБ.
Системи г'-векгс^в створено! АСРМКЗ базуються на залежних вщ статi мовця UBM моделях iз 1024 сушшами, навчених на мовному матерiалi бази NOIZEUS, i матри-цях повно! варiативностi iз 500 факторами, до яких засто-совувалися операцп внутршасово! коварiацiйноl норма-лiзацil WCCN [18] i нормалiзацп довжини i-векторiв [19].
Для реалiзацil повнозв'язно! DNN iз чотирма прихова-ними шарами, серед яких третш - bottleneck-шар, мютив 25 нейронiв, був використаний фреймворк Caffe [19]. За-гальна кшьюсть керованих параметрiв нейромережi ста-новила близько 3,5 -106. Для прискорення навчання ней-ромережi початковi !! параметри отримано за допомо-гою переднавчання iз використанням обмежених машин Больцмана [19], а подальше навчання вщбувалося за алгоритмом зворотного розповсюдження помилки iз коеф -щентом швидкостi навчання рiвним 0,008 i використанням значення перехресно! ентропп в якостi функцп втрат. Цей же класифiкатор в подальшому iнтегрувався у по-внозв' язний шар згортальних нейромереж.
При сиш^ CNN на згортальному шарi утворювало-ся 120 фiльтрiв, кожен з яких накривав 9 частотних смуг i 15 послiдовниx вiдлiкiв вхщних зображень. При ство-ренiй згортально! нейромережi iз iнтегрованими фiльтрами Габора GCNN розмiри ядер фiльтрiв у часовому просторi знаходитися у межах вщ 7 до 99 вдатв, а для частотного простору - вщ 7 до 40 смуг 5 РЕЗУЛЬТАТИ
У таблицi 1 наведено набори iнформативниx ознак, яю далi подавалися на класифжатори для прийняття рiшень. Набори 1 i 2 утворенi значеннями вщповщного виду кепстральних коефiцiентiв без додатково! обробки, у наборах 3 i 4 MF- та PN-кепстральнi коефвденти фiльтрувалися банком фiльтрiв Габора, яю накривали частотний дiапазон 0-8000 Гц та шддавалися лога-рифмiчнiй компресп LC. Набори 5 i 6 утворювалися ана-логiчно наборам 3 i 4, але замiсть LC-компресп викори-стовувалася нелiнiйнай компресiя енергл PNC, а у наборах 7 i 8 - розрщжений метод главних компонент SPCA. Вм набори представляли собою як набори векторiв так i спектрограм для подальшого передавання на вxiднi
Таблиця 1 - Базовi набори шформативних ознак для розпiзнавання мовцiв
№ п/п Синтезована шформативна ознака Вид банку фшьтр1в Вщшмання енергл пауз Вид компресп Фшьтращя Габора
1 MFCC Мел - - -
2 PNCC Гаматон + - -
3 MFC-Gb Мел - LC +
4 PNC-Gb Гаматон + LC +
5 MFC-Gb Мел - PNC +
6 PNC-Gb Гаматон + ONC +
7 MFC-Gb Мел - SPCA +
8 PNC-Gb Гаматон + SPCA +
Спектральна частота модуля цп, перюд/канал
К) 25
^ 3
~ у
S X
в °
^ о
I-.
Й ^
^ &
я и к
а
и
о
W l^fl
г
a g
S g
g О
Li ^
К' о
tc vi
Г
I if I
So 1
S —j
5
w ^
S
к Й S №
S й в о
О ®
к
р
я s
о
-ä
51 из
s ^
3. О н
w С:
M
>н Cd
у Cû
M ТЗ
^ ÏÏ
Э s
5 »
й §
м о,
g ^
Я s
о 2
^ р
» К
^ S
№ 5
ж И
S. «
I
et
о g1^
g 5
a « S »
X g
S 3 p
« я
И ^
s g
° H
¡s
в. §
M et
№ Д
s »
H
M S » M ^ M
0
»
T3
s
g
s
ai
о §
»
a о M
s
M о ' , M
H et » Se И T3 8 О
О >6 2 а
m ^
» M
й S
s ^
Cd S
О ,9
►6-S'
№
t. Ü У Cd Cd i—|
S' И
ai К о
s ^
y, »
>-■ И
M »
¡a l"ö
CD p.
из
S ai
П M > 2:
I g
» Cd
St T3 О
»
Й s
et et
чо ai к
Д
И
О
S ©
о
н
S «
> $
S
H И Й
M «
H g
tJ4
s
о S о
H
M
s
S
6 ОБГОВОРЕННЯ
Результата експериментав, наведет на рис. 8, показали, що запропонована авторами концепщя штеграцп фiльтрiв Габора у згортальний шар CNN дозволяе тдви-щити як кiлькiснi показники ефективност роботи АСРМКЗ так i тдвищити !! стiйнiсть до зростання ВСШ, що досягаеться притаманнiй CNN адаптивност до мшли-востi вxiдниx даних, яка, проте, недостатньо компенсуеть-ся при високих значеннях ВСШ, що цшком виправдовуе застосування контрольного класифжатора, не зважаю-чи на зростання ресурсоемност логово! системи.
Як видно з результапв, наведених на рис. 8, iз зрос-танням рiвня ВСШ зростае i ефективнiсть HMM/HMM класифжацп, що можна пояснити ефектившстю робо-тою UBM-моделi. Також можна вщзначити, що набори ознак 7 i 8 демонструють найвищу шформатившсть, яка зберiгаеться iз зростанням ВСШ, що доводить доцшьшсть i адекватшсть запропоновано! процедури факторного аналiзу i застосування фшьтрацп Габора для представлення шформативних ознак.
Використання PNC-ознак також виявляеться доцшь-ним при зростанш ВСШ, що обумовлено закладеному у метод розрахунюв нормованих за потужшстю кепст-ральних коефiцiентiв заxодiв для компенсацп шумiв. За-галом подавання зображень PN-спектрограм на вxiд CNN виявилося ефективнiшим з MFC- спектрограми iз зростанням ВСШ.
Використання розрiдженого методу главних компо -нент дозволило зменшити час на навчання основного i контрольного класифiкаторiв на 15-17% в залежност вiд сшввщношення «сигнал»/«пауза» у вxiдниx фоног-рамах на користь першого класу.
Також наведет на рис. 7 результата доводять бшьшу iнформативнiсть низькочастотно! област сигналу, що дозволяе припустити доцшьшсть введення додаткових факторiв, якi описують iндивiдуальнi особливостi мов-ного процесу у низькочастотнш областi мовного сигналу, наприклад, характеристик перюду/частоти основного тону.
ВИСНОВКИ
У роботi запропоновано заходи до тдвищення стiйкостi АСРМКЗ до впливу шумiв у вxiдниx фонограмах.
До науково! новизни отриманих результапв можна вiднести те, що вперше запропоновано орiентований на розпiзнавання мовця метод штеграцп фшь^в Габора, яю iмiтують роботу слухово! системи людини на осжда нормалiзованиx за потужшстю кепстральних коефiцiентiв, у вxiдний шар згортально! нейронно! мережi, що дозволило автоматизовано вартовати чутливiстю представлення шформативних для розшзнавання мовця ознак змiню-ючи параметри фшк^в Габора на етапi навчання ней-ромережi. Удосконалено нейромережевий класифiкатор АСРМКЗ шляхом введення bottleneck-шару у повнозв'-язний сегмент згортально! нейронно! мережу що дозволило використовувати його параметри пiсля навчання в якост вxiдниx даних для контрольного GMM/HMM-кла-сифiкатора. Удосконалено спосiб представлення шформативних для розшзнавання мовця ознак у факторному простер за рахунок застосування розрщженого методу
аналiзу головних компонент, що дозволяе зменшити дов-жину вектора iнфоpмативних ознак у 2-3 рази iз збере-женням його шформативностт
Практична цiннiсть отриманих результатав полягае у ствоpеннi програмного забезпечення АСРМКЗ, яке ре-алiзуе запpопонованi науковi результати i дозволяе пе-pевipити 1х адекватнiсть у тому чи^ за даними спещал-iзовано1 бази даних Школи шжишрингу та комп 'ютер-них наук Ерша Джонсона при Ушверситет Техасу NOIZEUS.
Проведет дослщження виявили, що при зростанш ВСШ>10 дБ контрольний GMM/HMM-класифiкатоp ви-явився ефективнiшим за нейpомеpежевi щодо iмовip-ностi прального розшзнавання мовщв, що можна пояс-нити ефектившстю використаних UBM-моделей, але вш е i суттево ресурсоемшшим. Отже, можливим напря-мом подальших дослiджень може стати пiдвищення об-числювально1 ефективностi GMM/HMM-класифiкатоpа АСРМКЗ.
ПОДЯКИ
Роботу виконано в рамках кафедральнш науково-дослiднiй роботи № 46К4 «Методи моделювання та оп-тимiзацi! складних систем на основi штелектуальних тех-нологiй» на кафедpi комп 'ютерних систем упpавлiння Вiнницького нацюнального технiчного унiвеpситету за пiдтpимки колективу кафедри i споpiднено1 кафедри автоматики та iнфоpмацiйно-вимipювально! технiки ВНТУ
СПИСОК ЛГТЕРАТУРИ
1. Kalinli O. Noise adaptive training using a vector Taylor series approach for noise robust automatic speech recognition / O. Kalinli, M. L. Seltzer, A. Acero // [Electronic resource]. -Access mode: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/Ozlem_ICASSP09_final.pdf
2. Ковтун В. В. Оцшювання надiйностi автоматизованих систем розшзнавання мовщв критичного застосування / В. В. Ков -тун, М. М. Биков, // Вюник Вшницького полггехшчного шсти-туту, Вшниця. - 2017. - № 2. - С. 70-76.
3. Kim C. Feature extraction for robust speech recognition based on maximizing the sharpness of the power distribution and on power flooring / C. Kim, R. M. Stern // [Electronic resource]. - Access mode: http://citeseerx.ist.psu.edu/viewdoc/ download?doi= 10.1.1.184.9018&rep=rep1&type=pdf
4. Normalized amplitude modulation features for large vocabulary noise-robust speech recognition / [V. Mitra, H. Franco, M. Graciarena, A. Mandal] // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 25-30 March 2012 : proceedings. - Kyoto, Japan: IEEE, 2012. - P. 41174120. DOI: 10.1109/ICASSP.2012.6288824.
5. Speech Processing, Transmission and Quality Aspects (STQ). [Electronic resource]. - Access mode: http://www.etsi.org/deliver/ etsi_es/201 100_201 199/201 108/01 .01 .03_60/ es_201108v010103p.pdf
6. Graves A. Speech recognition with deep recurrent neural networks / A. Graves, A. R. Mohamed, G. Hinton // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 26-31 May 2013 : proceedings. - Vancouver, BC, Canada : IEEE, 2013. - P. 6645-6649. DOI: 10.1109/ICASSP.2013.6638947
7. Mohamed A. Acoustic modeling using deep belief networks / A. Mohamed, G. Dahl, G. Hinton // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 31 January 2011 : proceedings. - IEEE, 2011. - P. 14-22. DOI: 10.1109/ TASL.2011.2109382
8. Davis S. Comparison of parametric representation of monosyllabic word recognition in continuously spoken sentences / S. Davis, P. Mermelstein // [Electronic resource]. - Access mode: http:// www.cs.northwestern.edu/~pardo/courses/eecs352/papers/ Davis1980-MFCC.pdf
9. Hermansky H. Perceptual Properties of Current Speech Recognition Technology / H. Hermansky, J. Cohen, R. Stern // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 23 July 2013 : proceedings. - IEEE, 2013. -P. 1968-1985. DOI: 10.1109/JPROC.2013.2252316.
10. Virtanen T. Techniques for Noise Robustness in Automatic Speech Recognition / T. Virtanen, R. Singh, B. Raj // John Wiley & Sons, Ltd, Chichester, UK. - 2012. DOI: 10.1002/9781118392683.ch1.
11. Stern R. Hearing is Believing. Biologically inspired methods for robust automatic speech recognition // R. Stern, N. Morgan // [Electronic resource]. - Access mode: https:// pdfs.semanticscholar.org/d4a9/ a6aa42dcb2011e45a99b0174da6a47777b7a.pdf
12. Kim C. Power-normalized cepstralcoefficients (PNCC) for robust speech recognitions / C. Kim, R. Stern // [Electronic resource]. -Access mode: http://www.cs.cmu.edu/~robust/Papers/ OnlinePNCC_V25.pdf
13. Movellan J. Tutorial on Gabor Filters. [Electronic resource] / J. Movellan. - Access mode: http://mplab.ucsd.edu/tutorials/ gabor.pdf
14. Mesgarani N. Speech Processing with a Cortical Representation of Audio / N. Mesgarani, S. Shamma // [Electronic resource]. -
Access mode: https://pdfs.semanticscholar.org/f1d8/ f93cdb64390b3a65f930cee4346c30bd86e4.pdf
15. Morgan N. Using spectro-temporal features to improve AFE feature extraction for automatic speech recognition / N. Morgan, S. Ravuri // [Electronic resource]. - Access mode: https:// pdfs.semanticscholar.org/c7c5/ 04087f2107f0ea9a3cedeeaf5cc0c48c0c92.pdf
16. Berthet Q. Optimal Detection of Sparse Principal Components in High Dimension / Q. Berthet, P. Rigollet / [Electronic resource]. -Access mode: https://arxiv.org/pdP1202.5070.pdf
17. Оптимiзацiя алфавпу шформативних ознак для автоматизовано! системи розшзнавання мовщв критичного застосування / [А. О. Береза, М. М. Биков, А. Д. Гафурова, В. В. Ковтун ] // Вюник Хмельницького нацюнального ушверситегу, серiя: Техшчш науки, Хмельницький. - 2017. - №3 (249). - С. 222-228.
18. Mak M. W. A study of voice activity detection techniques for NIST speaker recognition evaluations / M. W. Mak, H. B. Yu // [Electronic resource]. - Access mode: https:// pdfs.semanticscholar.org/541f/ 9cfacdac000aadd57cd33b6d86dc96bc3308.pdf
19. Research of neural network classifier in speaker recognition module for automated system of critical use / [Mykola M. Bykov, Viacheslav V. Kovtun, Andrzej Smolarz et al] // SPIE 10445, Photonics Applications in Astronomy, Communications, Industry, and High Energy Physics Experiments 2017, 1044521; D0I:10.1117/12.2280930.
Стаття надшшла в редакщю 31.12.2017.
Шсля доробки 22.01.2018.
Бисикало О. В.1, Грищук Т. В.2, Ковтун В. В.3
'Д-р техн. наук, профессор, декан факультета компьютерных систем и автоматики Винницкого национального технического университета, Винница, Украина
2Канд. техн. наук, доцент, доцент кафедры компьютерных систем управления Винницкого национального технического университета, Винница, Украина
3Канд. техн. наук, доцент, доцент кафедры компьютерных систем управления Винницкого национального технического университета, Винница, Украина
ОПТИМИЗАЦИЯ КЛАССИФИКАТОРА АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ДИКТОРА КРИТИЧЕСКОГО ПРИМЕНЕНИЯ
Актуальность. Рассмотрены вопросы адаптации сверточного нейросетевого классификатора для использования в автоматизированные системы распознавания диктора критического применения (АСРДКП). Объектом исследования является индивидуальные особенности речевого процесса человека.
Цель работы. Разработка средств выделения из речевого сигнала индивидуальных для диктора признаков, повышение их информативности в результате выполнения факторного анализа, их визуальное представление для использования сверточного нейросетевого классификатора и оптимизация его архитектуры для нужд АСРДКП.
Метод. Предложены меры по оптимизации процедуры классификации диктора АСРДКП, для чего теоретически обоснован оптимальный способ представления информативных признаков и метод повышения их информативности, обосновано топологию и меры по повышению эффективности процесса распознавания диктора. В частности, обоснована целесообразность использования нормализованных по мощности кепстральных коэффициентов РЫСС для описания фонограмм, записанных в условиях шумного окружения, предложено использовать фильтры Габора для представления информации, которая будет анализироваться сверточной нейросетью, выбран оптимальный метод факторного анализа, а именно, разреженный метод анализа главных компонент, для уменьшения размерности вектора признаков с сохранением его информативности, предложено усовершенствованную топологию сверточной нейросети для АСРДКП, в которой фильтры Габора интегрированы в сверточный слой, что позволяет оптимизировать их параметры в процессе обучения нейросети, и в полносвязном слое использована глубокую нейросеть с ЬоШепеск-слоем, веса которого после обучения выступают в качестве входных данных для контрольного ОММ / ИММ-классификатора.
Результаты. Методы представления и оптимизации информативных для распознавания диктора признаков, методы их визуального представления и усовершенствование топологии сверточной нейросети для принятия решений на их основе.
Выводы. Полученные теоретические результаты нашли эмпирическое подтверждение. В частности, доказано устойчивость усовершенствованной сверточной нейросети к присутствию шумов во входных фонограммах, которая оказалась выше показателей обычной сверточной нейросети и глубокой нейросети. При росте ОСШ > 10 дБ контрольный ОММ / ИММ-классификатор оказался эффективнее нейросетевого, что можно объяснить эффективностью использованных иВМ-моделей, но он является существенно более ресурсозатратным. Также эмпирически определены параметры окон банка фильтров Габора предоставляющих наиболее вариативную относительно индивидуальных особенностей речи информацию.
Ключевые слова: автоматизированная система распознавания диктора критического применения, обработка сигналов, нейро-сеть, факторный анализ.
Bisikalo O. V.1, Grischuk T. V.2, Kovtun V. V.3
'Dr.Sc., Professor, Dean of Faculty of Computer Systems and Automation, Vinnytsia National Technical University, Vinnytsia, Ukraine 2Ph.D., Associate Professor of Computer Control Systems Department, Vinnitsia National Technical University, Vinnitsa, Ukraine 3Ph.D., Associate Professor of Computer Control Systems Department, Vinnitsia National Technical University, Vinnitsa, Ukraine THE AUTOMATIC SPEAKER RECOGNITION SYSTEM OF CRITICAL USE CLASSIFIER OPTIMIZATION Context. The questions of adapting the convolution neural network classifier use in automatic speaker recognition system of critical use (ASRSCU) are considered. The research object is the individual features of the human speech process.
Objective. Development of means for separating individual features from the speaker's speech signal, increasing their informativeness as a result of the factor analysis, their visual representation for the use of the convolution neural network classifier, and optimizing its architecture for the needs of ASRSCU.
Method. Measures are proposed to optimize the speaker recognition procedure of the ASRSCU, for which the optimal way of informative features representation and the method of increasing their informativeness are theoretically justified, the topology and measures for increasing of the speaker recognition process efficiency are justified. In particular, it is justified the use of power normalized cepstral coefficients (PNCC) for the description of phonograms recorded in noisy environment conditions. We propose to use Gabor filters to represent information that will be analyzed by a convolution neural network, an optimal method of factor analysis (a sparse main components analyzing method) to reduce of the features vector length while preserving its informativeness, an improved topology of the convolution neural network in which the Gabor filters are integrated in to the convolution layer, which allows them to optimize their parameters during the neural network training process, and in a fully connected layer a deep neural network with a bottleneck layer is used, whose weights after training are uses as inputs for the GMM/HMM control classifier.
Results. Methods of representation and optimization of the speaker's individual features, methods for their visual presentation and improvement of the topology of a convolution neural network for making speaker recognition on their basis.
Conclusions. The obtained theoretical results have found empirical confirmation. In particular, the stability of an improved convolution neural network to the noisy input phonograms proved to be higher than the results of an ordinary convolution neural network and a deep neural network. With an SNR increase up to 10 dB, the GMM/HMM classifier is more efficient than the neural network, which can be explained by the efficiency of the used UBM models, but it is much more resource-intensive. Also, the parameters of the Gabor filter bank frames that provide the most variable individual features from the speech signal for speaker recognition are determined empirically. Keywords: automated speaker recognition system of critical use, signal processing, neural network, feature analysis.
REFERENCES
1. Kalinli O., Seltzer M. L., Acero A. Noise adaptive training using a vector Taylor series approach for noise robust automatic speech recognition, [Electronic resource], Access mode: https:// www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ Ozlem_ICASSP09_final.pdf
2. Kovtun V. V., Bykov M. M. Otsiniuvannia nadiinosti avtomatyzovanykh system rozpiznavannia movtsiv krytychnoho zastosuvannia, Visnyk Vinnytskoho politekhnichnoho instytutu, Vinnytsia, 2017, No. 2, pp. 70-76.
3. Kim C., Stern R. M. Feature extraction for robust speech recognition
based on maximizing the sharpness of the power distribution and on power flooring, [Electronic resource]. Access mode: http:// citeseerx.ist.psu.edu/viewdoc/ download?doi= 10.1.1.184.9018&rep=rep1&type=pdf
4. Mitra V., Franco H., Graciarena M., Mandal A. Normalized amplitude modulation features for large vocabulary noise-robust speech recognition, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 25-30 March 2012 : proceedings. Kyoto, Japan, IEEE, 2012, pp. 4117-4120. DOI: 10.1109/ICASSP.2012.6288824.
5. Speech Processing, Transmission and Quality Aspects (STQ), [Electronic resource]. Access mode: http://www.etsi.org/deliver/ etsi_es/201 1 0 0_201 199/201 108/01 .01 .03_60/ es_201108v010103p.pdf
6. Graves A., Mohamed A. R., Hinton G. Speech recognition with deep recurrent neural networks, IEEE International Conference on Acousticss, Speech and Signal Processing (ICASSP), 26-31 May 2013, proceedings, Vancouver, BC, Canada, IEEE, 2013, pp. 6645-6649. DOI: 10.1109/ICASSP.2013.6638947
7. Mohamed A., Dahl G., Hinton G. Acoustic modeling using deep belief networks, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 31 January 2011, proceedings, IEEE, 2011, pp. 14-22. DOI: 10.1109/ TASL.2011.2109382
8. Davis S., Mermelstein P. Comparison of parametric representation of monosyllabic word recognition in continuously spoken sentences, [Electronic resource], Access mode: http:// www.cs.northwestern.edu/~pardo/courses/eecs352/papers/ Davis1980-MFCC.pdf
9. Hermansky H., Cohen J., Stern R. Perceptual Properties of Current
Speech Recognition Technology, IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP), 23 July 2013 : proceedings, IEEE, 2013, pp. 1968-1985. DOI: 10.1109/ JPROC.2013.2252316.
10. Virtanen T., Singh R., Raj B. Techniques for Noise Robustness in Automatic Speech Recognition, John Wiley & Sons, Ltd, Chichester, UK, 2012. DOI: 10.1002/9781118392683.ch1.
11. Stern R., Morgan N. Hearing is Believing. Biologically inspired methods for robust automatic speech recognition, [Electronic resource]. Access mode: https://pdfs.semanticscholar.org/d4a9/ a6aa42dcb2011e45a99b0174da6a47777b7a.pdf
12. Kim C., Stern R. Power-normalized cepstralcoefficients (PNCC) for robust speech recognitions, [Electronic resource]. Access mode: http://www.cs.cmu.edu/~robust/Papers/OnlinePNCC_V25.pdf
13. Movellan J. Tutorial on Gabor Filters. [Electronic resource]. Access mode: http://mplab.ucsd.edu/tutorials/gabor.pdf
14. Mesgarani N., Shamma S. Speech Processing with a Cortical Representation of Audio, [Electronic resource]. Access mode: https://pdfs.semanticscholar.org/f1d8/ f93cdb64390b3a65f930cee4346c30bd86e4.pdf
15. Morgan N., Ravuri S. Using spectro-temporal features to improve AFE feature extraction for automatic speech recognition, [Electronic resource]. Access mode: https:// pdfs.semanticscholar.org/c7c5/ 04087f2107f0ea9a3cedeeaf5cc0c48c0c92.pdf
16. Berthet Q., Rigollet P. Optimal Detection of Sparse Principal Components in High Dimension, [Electronic resource]. Access mode: https://arxiv.org/pdf/1202.5070.pdf
17. Bereza A. O., Bykov M. M., Hafurova A. D., Kovtun V. V. Optymizatsiia alfavitu informatyvnykh oznak dlia avtomatyzovanoi systemy rozpiznavannia movtsiv krytychnoho zastosuvannia, Visnyk Khmelnytskoho natsionalnoho universytetu, seriia: Tekhnichni nauky, Khmelnytskyi, 2017, No. 3(249), pp. 222-228.
18. Mak M. W., Yu H. B. A study of voice activity detection techniques for NIST speaker recognition evaluations, [Electronic resource]. Access mode: https://pdfs.semanticscholar.org/541f/ 9cfacdac000aadd57cd33b6d86dc96bc3308.pdf
19.Mykola M. Bykov, Viacheslav V. Kovtun, Andrzej Smolarz, Mukhtar Junisbekov, Aliya Targeusizova, Maksabek Satymbekov Research of neural network classifier in speaker recognition module for automated system of critical use, SPIE 10445, Photonics Applications in Astronomy, Communications, Industry, and High Energy Physics Experiments 2017, 1044521; DOI: 10.1117/ 12.2280930.