Научная статья на тему 'Модель обработки потоковых данных для распознавания отдельных единиц жестового языка'

Модель обработки потоковых данных для распознавания отдельных единиц жестового языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
166
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЬ / ПОТОКОВЫЕ ДАННЫЕ / РАСПОЗНАВАНИЕ / ЖЕСТОВЫЙ ЯЗЫК / СВЕРТОЧНАЯ НЕЙРОННАЯ СЕТЬ / КОНТУР / MODEL / DATA STREAM / RECOGNITION / SIGN LANGUAGE / CONVOLUTIONAL NEURAL NETWORK / CONTOUR

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сиряк Р. В., Скарга-бандурова И. С.

В статье рассмотрена задача распознавания жестов рук, полученных с вебкамеры. Предложена модель обработки потоковых данных видеоизображения в виде 10-слойной сверточной нейронной сети. По результатам оценки качества, полученная точность на тестовом множестве составила 96%, значение функции потери 0.02. Результаты проверки показали, что модель устойчива к относительно широким углам вращения рук и малозависима от освещения. Ил.: 3. Библиогр.: 10 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сиряк Р. В., Скарга-бандурова И. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A model for processing stream data for the recognition of individual units of the sign language

The paper deals with the problem of recognizing the single hand gestures received from a webcam. The model for processing of stream data and recognition of gestures from video images in the form of a 10-layer convolutional neural network is proposed. As a result of the model quality evaluation, the accuracy obtained on the test set was 96%, the value of the loss function 0.02. The results of the test showed that the model is resistant to relatively wide angles of hand rotation and is independent of light, due to the use of contours. Figs.: 3. Refs.: 10 titles.

Текст научной работы на тему «Модель обработки потоковых данных для распознавания отдельных единиц жестового языка»

УДК 004.932.2 DOI: 10.20998/2411-0558.2018.42.15

Р. В. С1РЯК, здобув. СНУ iM. В. Даля, Северодонецьк,

I. С. СКАРГА-БАНДУРОВА, д-р техн. наук, доц., зав. каф., СНУ

iM. В. Даля, Северодонецьк

МОДЕЛЬ ОБРОБКИ ПОТОКОВИХ ДАНИХ ДЛЯ

РОЗП1ЗНАВАННЯ ОКРЕМИХ ОДИНИЦЬ ЖЕСТОВО1 МОВИ

У статп розглянута задача розтзнавання окремих жеспв рук, отриманих з вебкамери. Запропоновано модель обробки потокових даних та розтзнавання жеспв на вщеозображеннях у вигляд1 10-шарово! згортково! нейронно! мереж1. За результатами оцшки якост1 модел1, отримана точшсть на тестовш множит склала 96%, значения функцп втрати - 0.02. Результати перев1рки показали, що модель е стшкою до вщносно широких кут1в обертання рук i е незалежною в1д освгглення, завдяки використанню контур1в. 1л.: 3. Б1блюгр.: 10 назв.

Ключовi слова: модель; потоков! дат; розтзнавання; жестова мова; згорткова нейронна мережа; контур.

Постановка проблеми та анал1з останн1х досл1джень i публжацш. Останш роки, завдяки розвитку обчислювальних технологш, з'явилися нов! можливосп для реал!зац!! рашше важкоздшснюваних проекпв по розпiзиаваиию образ!в. На даний момент, для розпiзиаваиия в!зуальних образiв иайбiльше використання отримали згортков! нейроны мережi (Convolutional Neuron Networks, CNN), рекурентш иейроииi мережi (Recurrent Neuron Networks, RNN), мережi з довгою короткостроковою пам'яттю (Long Short-Term Memory, LSTM), !х комбiиуваиия та р1зш модифшаци. Проте до недавнього часу для задач автоматичного розтзнавання мови жеспв використовувався далеко не весь потенщал, який е сьогодш широко доступним.

Завдання розтзнаванням жестiв пов'язаш з великою рiзноманiтнiстю проблем, що виникають кожного разу, коли необхщно розпiзнати об'ект, такий як оклюз1я, змши умов освiтлення, неоднорiднiсть та змши фону. Оскшьки, в даному випадку, задача полягае не тшьки в тому, щоб знайти цшьове зображення у будь який момент часу та вщокремити його вщ фону, а також проаналiзувати динамiчнi функцп простору-часу, вiдстежити початок i кiнець жесту в потощ наступних ^др!в.

Залежно вщ пщход!в i цiлей завдання розпiзнавання жестiв можуть виршуватися р!зними методами. Так, в робот [1] CNN використовуеться для вилучення ознак, а Randomized Decision Forest Classifier для сегментаци зображення. В [2] використано моделi багатошарового та

© Р.В. С1ряк, 1.С. Скарга-Бандурова, 2018

багатомодального глибокого навчання. Комбшуючи даш RGBD з даними Upper-Body Skeletal Motion, CNN була устшно навчена 20 знакам ггалшсько! мови жеспв. Слщ, однак, зауважити, що дана техшка не призначена для використання поза примщенням. Автори [3] використовували CNN разом з Microsoft Kinect для розтзнавання мови жеспв американсько! англшсько! мови. Отримана точнiсть алфавiтних i числових знакiв склала вiдповiдно 82,5% та 97%. В робот [4] для розтзнавання жеспв була використана 3D CNN, в якiй витягувалися як просторов^ так i часовi ознаки, фiксуючи iнформацiю про рух i кодуючи 11 в сусщшх кадрах. Автори [5] поеднали у сво'ш роботi 3D CNN i мультипотокову LSTM-RNN для визначення жеспв та 1х класифшацп. В результат тако! комбшаци стало легше обробляти змши рухiв. Значних успiхiв здобули автори [6], використовуючи для розтзнавання ггалшсько! мови жестiв CNN i Microsoft Kinect. Автори дослiджували п'ять рiзних архiтектур глибокого навчання i прийшли до висновку, що двонаправлене повторення i часова згортка можуть ютотно полiпшити розпiзнавання жестiв. Майже вс дослiдники повiдомляють про отримання високих показниюв точностi на рiвнi вiд 77,5% [7] до 97% [3, 5, 8]. На вщмшу вщ бiльшостi реалiзованих проектiв, загальною метою нашого проекту е розробка методу комп'ютерного бачення, здатного розтзнавати жести укра'шсько! мови за допомогою смартфонiв, щоб використовувати жести для взаемоди з додатком. Враховуючи вищевикладене, варто вiдзначити, що на даний момент, ушверсального пiдходу, який працюе з високою швидкiстю i точнютю розпiзнавання при будь-яких умовах, i може бути використовуваним в смартфонах не юнуе. Автори останньо! публшаци, присвячено! розпiзнаванню жестiв за допомогою смартфотв [8], наголошують на необхщносп пiдвищення точностi процесу локаци. Вiзуальнi засоби, що використовують вiдеокамери смартфотв дають високу точнiсть розпiзнавання, проте сильно залежать вщ змiни освгглення. Застосування кольорових мiток допомагае усунути цю проблему, але е неприродним i незручним для повсякденного життя. Використання спецiально обладнаних рукавичок допомагае з високою точнютю визначити ознаки руки, але також е незручним засобом взаемоди з комп'ютером, i, до того ж, досить дорогим. Нарешт^ тривимiрнi сенсори, бувши абсолютно незалежними вщ змши освгглення, дозволяють легко знаходити ключовi ознаки i локаци руки, але дають досить низью показники розпiзнавання.

Метою статт е представлення розроблено! моделi для обробки потокових даних та розтзнавання жеспв на вщеозображеннях, як основи для створення системи розтзнаватння жестово! мови за допомогою

смартфошв, здатно! ефективно оперувати в рГзних середовищах вщносно освгтлення та купв обертання рук.

Основна частина. Модель пропоновано! згортково! нейронно! мережi надано на рис. 1.

Дана мережа мютить 10 шарiв. До трьох згорткових шарiв застосовуються вщповщно 16, 32 i 64 згортальних ядра з встановленим режимом valid. Функщею активаци е Rectified Linear Unit (ReLU)

f (x) = max(0, x). (1)

За кожним згортковим шаром ще шар max-pooling розмГром 2 х 2 з кроком в один пiксель. Пюля чого, данi в шарi flatten перетворюються з 2D-представлення в одновимГрний вектор, i в кшщ проходять через два повнозв'язних шари dense. Другий повнозв'язний шар з функщею softmax, що перетворюе вектор дшсних чисел в вектор ймовiрностей, е вихщним i мютить softmax-класифiкатор з трьома класами. Мережа навчалася з використанням категорийно! функци втрат ентропи.

Для вирiшення завдання розтзнавання окремих жестiв створено власний набГр зображень рухГв рук, що був використаний для навчання та перевiрки тестових наборГв. Набiр зображень, отримано зГ звичайно! веб-камери, що зшмала кожен окремий жест з перюдичнютю 3 мс. У створюваному наборГ руки мали колГр шири европеоща.

Свгтло розаяне електричне з тдстроюванням положення камери пщ найменший контраст мГж дшянками свгтлих i темних дшянок шири. Робота була виконана на двоядерному процесорГ i3-7100.

Технолопя розтзнавання жеслв мютить три основних етапи: (1) сегментащя руки, (2) витяг ознак з отриманого регюну, (3) класифшащя жеслв.

На першому етат отримаш зображення розмГром 200x200 ткселГв переводилися в чорно-бглий формат i пщдавалися впливу фшьтра Гаусова розмиття для видалення шуму [9]. Для реалГзацп даного фшьтра використано функщю GaussianBlur бГблютеки OpenCV [10]. Пюля цього до них застосовувався алгоритм адаптивно! порогово! обробки для видшення контурГв.

В даному випадку використовувалася ще одна функщя бГблютеки OpenCV adaptiveThreshold.

В результату було отримано однотонш зображення розмГрносп 200 х 200 х 1, що несуть шформащю про руку, яка демонструе один з жестових знаюв.

conv2d_l Conv2D input: (None, 1. 200, 200)

output: (None. 16, 198. 198)

max_po oliiig2 ti l MaxP ooling2D input: (None. 16. 19S, 198)

output: (None, 16, 99, 99)

couv2d_2 Com 2D input: (None. 16. 99. 99)

output: (None. 32. 97. 97)

max_pooliiig2d 2 MaxPooling2D input: (None, 32, 97, 97)

output: (None, 32, 4S, 48)

com 2d 3 Com 2D input: (None. 32, 48, 48)

output: (None. 64, 46, 46)

max_pooling2d 3 MaxPooling2D input: (None, 64, 46, 46)

output: (None, 64, 23, 23)

dropoutl Dropout input: (None, 64, 23, 23)

output: (None, 64, 23, 23)

flatteul Flatten input: (None. 64, 23, 23)

output: (None, 33856)

densel Dense 11] put: (None. 33856)

output: (None, 192)

dropout_2 Dropout input: (None, 192)

output: (None, 192)

dense_2 Dense input: (None, 192)

output: (None. 3)

PHC. 1. Mogenb 3ropTKOBOÏ HeMpoHHoi Mepe^i gna po3ni3HaBaHHa OKpeMHx

ogHH^b ^ecTOBOÏ MOBH

Етап 2, витяг ознак, проводився за допомогою розроблено'1 згортково! нейронно'1 мережi (рис. 1). У процес навчання нейронна мережа визначала особливосп, характерш для кожного класу. Iмовiрнiсть приналежносп даних до класу реалiзуeться функщею активацп softmax, що перетворюе вихщний сигнал останнього шару в розподш iмовiрностi мiж 0 i 1. Розмiр вектора, що надходить у softmax, дорiвнюe кiлькостi класiв, представлених у моделi та зв'язок мiж функцieю й розподiлом iмовiрностi рухiв жестiв, сформульованих як лiнiйна функщя

г = ЖТ ■ х + Ь, (2)

де ЖТ позначае 2D-фiльтр; х е ЯПх1 вхiдна характеристика; 2 е ЯСх1 -змiнна, що описуе розподш; С - кшькють титв (класiв) рухiв жестiв.

Значення /-го виходу в softmax визначаеться за формулою

в2*

У> = n z,' (3)

S,=ieJ

де Zi - це i-й елемент z, а y = [y y2, ..., yc]T - це вихiд рiвня softmax класифiкатора.

На етапi класифшацп, для запоб^ання перенавчання використовувалась функцiя dropout. Також, для зниження ймовiрностi перенавчання, штучного збшьшення даних i забезпечення iнварiантностi класифiкатора до трансформацiй було застосовано Data Augmentation. Через функцш Keras fit_generator генерувалися додатковi даш з вихiдного набору за допомогою афшних перетворень обертання, зрушення i змши масштабу вихiдних зображень.

В якосп метода оптимiзацiï обрано оптимiзацiï adaptive moment estimation (adam). Adam використовуе як середнi значення градieнтiв, так i другi iмпульси градieнтiв, що запобiгаe потраплянню в локальний мЫмум. Нижче надано формулу, в якш mt вираховуе перший iмпульс, а vt - другий:

m =ßimt-i + (i-ßikt,

2 (4)

Vt =ß2Vt-i + (i -ß2)gt .

Результати. Для перевiрки якостi навчання використовувалася метрика accuracy, тобто, вщношення кшькосп правильно передбачених значень до загальноï кiлькостi всiх вiдповiдей. В якосп функцГï втрати використовувалася категорiальна перехресна ентропiя, тобто вираховувалася логарифмiчна втрата на кiлька представлених клаав.

Якщо передбачеш моделлю значення дорiвнюють q, в той час як справжш значення дорiвнюють p, то категорiальна перехресна ентропiя буде виглядати як

q) = - Z p(x) log (q(x)). (5)

На рис. 2 показано змшу показника accuracy на навчальнш i валiдацiйнiй вибiрках протягом 50-и епох. На рис. 3 показано змша значення функцп втрат за той же перюд.

100 ■ 0'« •

I 0 90 ■ «

0 3S • 0 30 ■

Рис. 2. Точнють моделi для тренувального та тестового наборiв

06 оь

04

V.

о 03 02 0 1 00

Рис. 3. Графш функцп втрат для для тренувального та тестового наборiв

Враховуючи той факт, що дослщження проводилися на двоядерному i3-7100 процесорi з використанням просто! веб-камери отримано високий стутнь вiрних прогнозiв. В результат роботи мережi досягнуто точнють на тестовш множинi в 96%, а значення функцп втрати - 0.02.

model loss

О 10 20 30 40 50

epoch

Висновки. Розроблена модель вщповщае основним принципам побудови згорткових нейронних мереж i дозволяе вщстежувати i розтзнавати окремi жести у вщеопотощ з високою якютю. Ii точнють розпiзнавання з власним набором даних не прша, шж у вщомих. Разом з тим, на вщмшу вщ юнуючих, завдяки використанню контур!в, модель е стшкою до вщносно широких купв обертання рук i незалежною вщ освiтлення. При цьому, для ефективно! роботи достатньо стандартно! веб-камери. Серед недолшв моделi варто вiдзначити, що вона е не ефективною на неоднорщному змшеному фон!, i жести рук людей, як! не брали участь у створенш набору даних, можуть бути пршими. У наступному ми плануемо збшьшити кшькють та види втзнаваних жеспв, та маемо нам!р полшшити запропоновану мережу. Для розтзнавання складшших жеспв до CNN буде доданий рекурентний блок. Плануеться розробити також засоби для полшшення якосп розтзнавання в умовах р!знорщного фону.

Список лiтератури:

1. Tompson J. Real-time continuous pose recovery of human hands using convolutional networks / J. Tompson, M. Stein, Y. LeCun, K. Perlin // ACM Transactions on Graphics (ToG). -2014. - Vol. 33 (5). - Р. 169-173.

2. Neverova N. Multi-scale deep learning for gesture detection and localization / N. Neverova, C. Wolf, G.W. Taylor, F. Nebout // Computer Vision - ECCV 2014 Workshops. ECCV. Lecture Notes in Computer Science. - 2014. - Vol. 8925. - P. 474-490.

3. Bheda V. Using deep convolutional networks for gesture recognition in american sign language / V. Bheda, D. Radpour // CoRR, abs/1710.06836. - 2017. - P. 1-5.

4. Ji S. 3D convolutional neural networks for human action recognition / S. Ji, W. Xu, M. Yang, K. Yu // IEEE transactions on pattern analysis and machine intelligence. - 2013. -

Vol. 35 (1). - Р. 221-231.

5. Nishida N. Multimodal gesture recognition using multi-stream recurrent neural network / N. Nishida, H. Nakayama // Image and Video Technology. PSIVT 2015. Lecture Notes in Computer Science. - 2015. - Vol. 9431. - Р. 682-694.

6. Pigou L. Sign language recognition using convolutional neural networks / L. Pigou, S. Dieleman, P.-J. Kindermans, B. Schrauwen // Computer Vision - ECCV 2014 Workshops. ECCV 2014. Lecture Notes in Computer Science. - 2014. - Vol. 8925. - Р. 572-578.

7. Molchanov P. Hand gesture recognition with 3D convolutional neural networks / P. Molchanov, S. Gupta, K. Kim, J. Kautz // 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). - 2015. - Р. 1-7.

8. Alashhab S. Hand gesture detection with convolutional neural networks / S. Alashhab, A.-J. Gallego, MA. Lozano //Advances in Intelligent Systems and Computing - 2018. -Р. 45-52.

9. Сиряк Р. В. Технологии идентификации и распознавания жестов / Р. В. Сиряк // Вюник Схщноукрашського нацюнального ушверситету В. Даля. - 2017. - № 8 (238). -С. 79-85.

10. Open Source Computer Vision: Library [Електронний ресурс]. - Режим доступу: www URL: https://opencv.org/ (accesed 23.10.2018).

References:

1. Tompson, J., Stein, M., LeCun, Y. and Perlin, K. (2014), "Real-Time Continuous Pose Recovery of Human Hands Using Convolutional Networks", ACM Transactions on Graphics (ToG), Vol. 33 (5), pp. 169.

2. Neverova, N., Wolf, C., Taylor, G.W. and Nebout, F. (2014), "Multi-Scale Deep Learning for Gesture Detection and Localization", In: Agapito L., Bronstein M., Rother C. (eds)

Computer Vision - ECCV 2014 Workshops. ECCV. Lecture Notes in Computer Science, Vol. 8925, pp. 474-490.

3. Bheda, V. and Radpour, D. (2017), "Using Deep Convolutional Networks for Gesture Recognition in American Sign Language", In: CoRR, abs/1710.06836, pp. 1-5.

4. Ji, S., Xu, W., Yang, M. and Yu, K. (2013), "3D Convolutional Neural Networks for Human Action Recognition", IEEE transactions on pattern analysis and machine intelligence, Vol. 35 (1), pp. 221-231.

5. Nishida, N. and Nakayama, H. (2015), "Multimodal Gesture Recognition Using Multi-Stream Recurrent Neural Network", In: Brâunl T., McCane B., Rivera M., Yu X. (eds) Image and Video Technology. PSIVT 2015. Lecture Notes in Computer Science, Vol 9431, pp. 682694.

6. Pigou, L., Dieleman, S., Kindermans, P.-J., and Schrauwen, B. (2014), "Sign Language Recognition Using Convolutional Neural Networks", In: Agapito L., Bronstein M., Rother C. (eds) Computer Vision - ECCV 2014 Workshops. ECCV 2014. Lecture Notes in Computer Science, Vol 8925, pp. 572-578.

7. Molchanov, P., Gupta, S., Kim, K., and Kautz, J. (2015), "Hand Gesture Recognition with 3D Convolutional Neural Networks", 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 1-7.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Alashhab, S., Gallego, A.-J., and Lozano, M.Â. (2018), "Hand Gesture Detection with Convolutional Neural Networks", Advances in Intelligent Systems and Computing, pp. 45-52.

9. Siryak, R.V. (2017), "Gesture Identification and Recognition Techniques", Herald of Volodymyr DahlEast Ukrainian National University, no. 8 (238), pp. 79-85.

10. Open Source Computer Vision Library, available at: https://opencv.org/ (accessed 23 October 2018).

Статтю представив д. т.н., проф. Нац1оналъного техтчного утверситету "Харювсъкий полШехтчний тститут" А.Е. Филатова

Надшшла (received) 16.11.2018

Siryak Rostislav, Ph.D. student

Volodymyr Dahl East Ukrainian National University

59-a Central Avenue, Severodonetsk, Luhansk region, Ukraine, 93400

tel./phone: (064) 522-89-97, e-mail: [email protected]

ORCID ID: 0000-0002-6775-1218

Skarga-Bandurova Inna, D.Sci.Tech., Professor

Volodymyr Dahl East Ukrainian National University

59-a Central Avenue, Severodonetsk, Luhansk region, Ukraine, 93400

tel./phone: (064) 522-89-97, e-mail: [email protected]

ORCID ID: 0000-0003-3458-8730

УДК 004.932.2

Модель обробки потокових даних для розтзнавання окремих одиниць жестовоТ мови / Оряк Р.В., Скарга-Бандурова 1.С. // В1сник НТУ "ХП1". Сер1я: 1нформатика та моделювання. - Харк1в: НТУ "ХП1". - 2018. - № 42 (1318). - С. 73 - 81.

У статп розглянута задача розтзнавання жеспв рук, отриманих з вебкамери. Запропоновано модель обробки потокових даних на вщеозображеннях у вигляд1 10-шарово! згортково! нейронно! мереж1. За результатами оцшки якосп, отримана точшсть на тестовш множит склала 96%, значення функцп втрати 0.02. Результати перев1рки показали, що модель е стшкою до вщносно широких купв обертання рук i е незалежною ввд освгглення, завдяки використанню контур1в. 1л.: 3. Б1блюгр.: 10 назв.

Ключовi слова: модель, потоков! дат; розтзнавання; жестова мова; згорткова нейронна мережа; контур.

УДК 004.932.2

Модель обработки потоковых данных для распознавания отдельных единиц жестового языка / Сиряк Р.В., Скарга-Бандурова И.С. // Вестник НТУ "ХПИ". Серия: Информатика и моделирование. - Харьков: НТУ "ХПИ". - 2018. - № 42 (1318). -С. 73 - 81.

В статье рассмотрена задача распознавания жестов рук, полученных с вебкамеры. Предложена модель обработки потоковых данных видеоизображения в виде 10-слойной сверточной нейронной сети. По результатам оценки качества, полученная точность на тестовом множестве составила 96%, значение функции потери 0.02. Результаты проверки показали, что модель устойчива к относительно широким углам вращения рук и малозависима от освещения. Ил.: 3. Библиогр.: 10 назв.

Ключевые слова: модель; потоковые данные; распознавание; жестовый язык; сверточная нейронная сеть; контур.

UDC 004.932.2

A model for processing stream data for the recognition of individual units of the sign language / Siryak R.V., Skarga-Bandurova I.S. // Herald of the National Technical University "KhPI". Series of "Informatics and Modeling". - Kharkov: NTU "KhPI". - 2018. -№ 42 (1318). - P. 73 - 81.

The paper deals with the problem of recognizing the single hand gestures received from a webcam. The model for processing of stream data and recognition of gestures from video images in the form of a 10-layer convolutional neural network is proposed. As a result of the model quality evaluation, the accuracy obtained on the test set was 96%, the value of the loss function 0.02. The results of the test showed that the model is resistant to relatively wide angles of hand rotation and is independent of light, due to the use of contours. Figs.: 3. Refs.: 10 titles.

Keywords: model; data stream; recognition; sign language; convolutional neural network; contour.

i Надоели баннеры? Вы всегда можете отключить рекламу.