Список используемой литературы:
1.https://kodeks-sib.ru/blog/kakuyu_rol_igraet_iskusstvnnyij_intellekt_v_stroitelstve
© Гурбанов Ы., Бяшимов П., Эркаева А., Атаев Д., 2024
УДК 004
Долин А.А.
магистрант 2 курса, гр. ИИПм-22-1 Тюменский индустриальный университет
г. Тюмень, РФ
НЕЙРОСЕТЕВАЯ КОНЦЕПЦИЯ РАСПОЗНАВАНИЯ ЭЛЕМЕНТОВ РУССКОЙ ДАКТИЛЬНОЙ АЗБУКИ
Аннотация
В статье рассматривается возможность создания первичной концепции распознавания элементов дактильной азбуки на базе сверточных нейросетей в условиях информационной неопределенности.
Цель исследования: разработка базовой версии концептуальной модели нейросетевой обработки элементов русской дактильной азбуки.
Метод исследования: функционал модели YOLOv8 для распознавания элементов дактильной азбуки на основе созданного датасета.
Результаты. При обработке 289 тестовых изображений (390 жестов) корректно были идентифицированы 320 жестов, что составляет 82 %. В дальнейшем планируется расширение количества распознаваемых элементов дактильной азбуки путем расширения датасета и усложнения текущих элементов обучающей выборки.
Ключевые слова:
изображение, дактильная азбука, нейронная сеть, глубокое обучение, распознавание.
NEURAL NETWORK CONCEPT OF RECOGNIZING ELEMENTS OF THE RUSSIAN DACTYL ALPHABET
Abstract
The article considers the possibility of creating a primary concept of recognizing the elements of the dactyl alphabet on the basis of convolutional neural networks under conditions of information uncertainty.
Research objective: development of the basic version of the conceptual model of neural network processing of Russian dactyl alphabet elements.
Research method: the functional of the YOLOv8 model for recognizing the elements of the dactyl alphabet on the basis of the created dataset.
Results. When processing 289 test images (390 gestures), 320 gestures were correctly identified, which is 82%. In the future it is planned to expand the number of recognized elements of the dactyl alphabet by expanding the dataset and increasing the complexity of the current elements of the training sample.
Keywords:
Image, dactyl alphabet, neural network, deep learning, recognition.
Для современного развития информационных технологий присущи различные способы обмена информации в прямой и в неявной формах. Для людей с ограниченными возможностями, в частности, с нарушением слуха возникает необходимость разработки новых методических подходов для удобства различных уровней коммуникаций.
Для классической формы использования дактильной азбуки характерны следующие недостатки: отсутствие полноценной возможности распознавания речи по движению губ, отсутствие слуховых возможностей восприятия окружающего мира, неэффективная форма коммуникации людей с разным уровнем образования и т.д. [1-3].
В соответствии с индустрией 4.0 возникает необходимость разработки новых методических подходов с целью максимизации восприятия разнородной информации людьми с ограниченными возможностями посредством технологий искусственного интеллекта [4-6].
В настоящей работе рассмотрена возможность создания первичной концепции распознавания элементов дактильной азбуки на базе сверточных нейросетей в условиях информационной неопределенности.
С точки зрения лингвистики и особенностей обработки естественного языка система общения людей с ограниченными возможностями имеет сложную структуру в грамматике, формах представления жестов, лексики и т.д. [7, 8].
Поскольку дактильная речь калькирует лингвистическую структуру словесного языка, то обучающая выборка для эффективной работы нейронных сетей должна включать в себя различные вариации жестов, являющихся эквивалентами отдельных букв [9, 10].
Для русской дактильной азбуки база данных отсутствует, поэтому было решено создать собственный набор данных, каждый элемент которого представляет собой фотографический образ руки, сложенной в соответствующем жесте (жестах) в формате .jpg.
Особенность формируемого набора: отсутствие букв «Д», «Ё», «З», «Й», «К», «Ц», «Щ», «Ъ», «Ь»; причина - жесты используют движения. Идентификация жестов для соответствующих букв выходит за рамки данного исследования.
Базовый набор включает в себя информацию для распознавания жестов относительно следующих букв «В», «Е», «И», «П», «Р», «Т». В дальнейшем планируется расширение набора.
Для получения фотографических данных с жестами дактильной азбуки было использовано 25 видеопотоков с различной степенью яркости, контрастности и насыщенности, на которых представлены группы людей, воспроизводящие наборы жестов. В течение каждого видеоряда последовательно фиксировались буквы дактильного алфавита с различной удаленностью руки и ее положения относительно границ каждого видеокадра (рис. 1).
Для получения изображений из видеоряда использовалось программное обеспечение «Free Video to JPG Converter», которое автоматически извлекает определенные кадры из каждого видео и сохраняет их в формате. jpg. После извлечения всех изображений исключаются кадры, на которых представлен переход от одной буквы к другой. В результате было получено 1445 изображений жестов.
Для увеличения количества изображений в обучающей выборке можно использовать технологию аугментации данных - отображение изображений по горизонтали (позволит нейронной сети распознавать жесты дактиля независимо от ведущей руки), изменение контрастности [11, 12].
Рисунок 1 - Примеры исходных изображений
YOLOv8 (You Only Look Once) - это последняя итерация семейства моделей обнаружения графических объектов, которая объединяет процедуры идентификации и определения местоположения обрабатываемых фото- и видеообразов.
Вместо методического подхода скользящего окна к идентификации графических образов, семейство моделей YOLO прогнозирует степень соответствия обрабатываемого изображения относительно заявленного класса данных с определенной вероятностью за одну итерацию.
YOLOv8 использует сверточную нейронную сеть, которую можно разделить на две основные части: «позвоночник» (backbone) и «голову» (head).
«Позвоночник» - это модифицированная версия архитектуры CSPDarknet53. Эта архитектура состоит из 53 сверточных слоев и использует частичные межэтапные соединения для улучшения информационного потока между различными слоями.
«Голова» YOLOv8 состоит из нескольких сверточных слоев, за которыми следует ряд полносвязных. Эти слои отвечают за прогнозирование ограничивающих прямоугольников (bounding boxes), оценки объектности (objectness scores) и вероятности классов для объектов, обнаруженных на изображении (рис. 2).
Head
Рисунок 2 - Архитектура YOLOv8
YOLOv8 использует комплексную стратегию обучения для оптимизации своей работы. Одной из примечательных особенностей является использование нескольких разрешений для обучения, что позволяет модели обучаться на изображениях разного масштаба.
Кроме того, модель использует технику мозаичного дополнения данных, объединяя несколько изображений в один обучающий вход. Такой подход повышает способность модели к обобщению в различных сценариях и улучшает ее устойчивость.
Для обучения модели необходимо провести аннотирование данных - добавление тэгов в сырые данные, чтобы показать модели машинного обучения целевые атрибуты (ответы), которые она должна предсказывать. Для данной задачи было выделено 6 классов:
- Класс 0: буква «В» («красный цвет»);
- Класс 1: буква «Е» («синий цвет»);
- Класс 2: буква «И» («желтый цвет»);
- Класс 3: буква «П» («зеленый цвет»);
- Класс 4: буква «Р» («оранжевый цвет»);
- Класс 5: буква «Т» («фиолетовый цвет»).
На каждый класс в среднем приходится около 230 изображений, это достаточно для обучения модели (рис. 3). Метки каждого изображения находятся в текстовых файлах, содержащих номер класса и нормализованные Xmin, ymin, width, height.
Рисунок 3 - Пример разметки изображения датасета
Генеральная совокупность данных была поделена на обучающую (70 %) и тестовую (30 %) выборки, используя нормальную рандомизацию.
Для обучения модели YOLOv8 была выбрана версия YOLOv8s (Small), основываясь на компромиссе между точностью и вычислительной эффективностью. Результаты обучения представлены на рис. 4-5, табл. 1.
Рисунок 4 - Метрики обучения модели
Рисунок 5 - Результаты обучения модели
Результаты проверки модели на тестовом наборе данных
Таблица 1
Класс Кол-во изображений Кол-во элементов распознавания Точность распознавания
В 289 47 85 %
Е 289 52 81 %
Класс Кол-во изображений Кол-во элементов распознавания Точность распознавания
И 289 60 83 %
П 289 46 79 %
Р 289 57 81 %
Т 289 58 80 %
Итого 289 320 82 %
В результате при обработке 289 тестовых изображений (390 жестов) корректно были идентифицированы 320 жестов, что составляет 82 %. В дальнейшем планируется расширение количества распознаваемых элементов дактильной азбуки путем расширения датасета и усложнения текущих элементов обучающей выборки.
Список использованной литературы:
1. Шерстянникова Е.А., Марченко М.А. Особенности современного русского жестового языка // Красноярск: Федеральное государственное бюджетное образовательное учреждение высшего образования "Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева". 2021. С. 174-176.
2. Королькова О.О. Вариативность исполнения жестов в русском жестовом языке (на материале видеословаря русского жестового языка) // В мире научных открытий. 2013. № 11-6(47). С. 187-193.
3. Долин А.А. Распознавание языка жестов с использованием технологий искусственного интеллекта // Проблемы и перспективы осуществления междисциплинарных исследований: Сборник статей Международной научно-практической конференции. Уфа: ООО "Аэтерна". 2023. С. 18-24.
4. Гриф М.Г., Королькова О.О., Мануева Ю.С. Машинный перевод русского жестового языка глухих // Информатика: проблемы, методы, технологии: Материалы XX Международной научно-методической конференции: Воронеж. 2020. С. 1591-1597.
5. Жуковская В.А., Пятаева А.В. Рекуррентная нейронная сеть для распознавания жестов русского языка с учетом языкового диалекта Сибирского региона // Труды Международной конференции по компьютерной графике и зрению "Графикон". 2022. № 32. С. 538-547.
6. Мартынов Д.А., Ворона Л.И. Применение перцептрона для распознавания дактилем русского жестового языка // DSPA: Вопросы применения цифровой обработки сигналов. 2020. Т. 10, № 2. С. 37-46.
7. Семенова В.О., Лепинских А.Н. Разработка устройства синхронного перевода языка жестов в звуковой формат на основе нейронных сетей // Наука и инновации XXI века: Сборник статей по материалам VIII Всероссийской конференции молодых ученых. Сургут: Сургутский государственный университет. 2022. С. 129-132.
8. Катанов Ю.Е. Анализ и синтез информационных систем (обработка разнородных данных, геология): учебное пособие / Тюмень, 2020. 159 с.
9. Окунев С.В. Рассмотрение способов формирования наборов данных для обучения нейронных сетей // Вестник науки и образования. 2020. № 2-3(80). С. 16-19.
10. Катанов Ю.Е. Компьютерные технологии: учебное пособие / Том Часть 1 Геология, геофизика, гидрогеология. Тюмень, 2020. 183 с.
11. Катанов Ю.Е. Основы теории управления: учебное пособие / Тюмень, 2019. 171 с.
12. Моисеева Е.Д. Аугментация изображений // Российская наука: тенденции и возможности: сборник научных статей. Том Часть 4. Москва: Издательство "Перо". 2020. С. 129-132.
© Долин А.А., 2024