УДК 629.7.052
ПОСТРОЕНИЕ КАРТЫ ГЛУБИНЫ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКОЙ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ
В. А. Селихов
В данной статье осуществляется формирование информации о глубине или пространстве на основе монокулярных изображений бортовых камер БПЛА (один кадр - одно изображение). Некоторые методы использовались для логически схожих пространственных задач с различной степенью успеха, однако, в данном исследовании используется иной подход: формирование граничной окантовки как задача стилевого переноса. В данной статье осуществляется адаптирование двух современных методик переноса стиля для решения задач вычисления глубины. Первая методика была адаптирована с помощью подхода Pix2Pix, использующего обучение без учителя. Вторая - посредством применения циклической генеративно-состязательная сети (cyclic generative adversarial network - cycle GAN). В дополнение к этим двум подходам также был реализован базовый алгоритм, который использовался для получения карты глубины в крытых помещениях (масштабируемая глубокая сеть). На основе данных идей была разработана новая усовершенствованная методология построения карты глубины. Эти нейронные сети были обучены на визуальных образах изображений БПЛА и парных картах глубин, созданных с помощью высокоточной среды имитации БПЛА и окружающей среды Microsoft AirSim. Производительность каждой сети тестировалась с помощью специального набора входных данных в конце процесса обучения, а эффективность была оценена тремя показателями. Хотя исследуемая сеть не смогла превзойти другие подходы, кроме cycle GANs, предполагается, что данный подход может показывать существенные результаты после модификации в дальнейших исследованиях.
Ключевые слова: БПЛА, карта глубин, искусственные нейронные сети, ИНС, сверточная нейронная сеть, СНС, Microsoft AirSim, Pix2Pix, CycleGAN, функция потерь, обучение нейронных сетей, масштабируемая глубокая сеть, машинное обучение, глубокое обучение.
Последние достижения в области БПЛА технологий привели к распространению транспортных средств среди людей, использующих БПЛА как хобби и в высокодоходных коммерческих целях. Несмотря на то, что эти машины способны фиксировать изображения с относительно недорогих бортовых камер, высокая стоимость специализированных датчиков ограничивает спектр задач, которые способны решать БПЛА. Извлечение и обработка информации из визуальных изображений обеспечивают эффективное решение некоторых задач с использованием камер относительно недорогой стоимости. В данной статье исследуется одна из задач такого рода, как определение (вычисление) расстояния или глубины, обеспечивающее надежное отображение 3D-сцены по разумной цене. Сформированная информация может использоваться для решения различных задач, таких как:
- метод одновременной локализации и построения карты (Simultaneous Localization and Mapping - SLAM);
262
- преодоление препятствий;
- создание ЭБ-карт.
Предыдущие исследования.
В предыдущих исследованиях использовался целый спектр подходов. В некоторых успешных исследованиях использовалась информация о стереоизображениях [1, 2]. Исследовались техники в некоторой степени схожие на технику данной статьи. В исследованиях использовались масштабируемые сети Маркова (Марковское случайное поле) для моделирования отношений между объектами и глубиной [Э]. В некоторых методиках использовалась классификация изображений, осуществляющая формирование карты глубины [4]. Сегментация использовалась для генерации некоторых данных, использующихся в создание карты глубины [5] или сокрытии точек/линий [6]. Недавние исследования описывали использование глубоких сверточных нейронных сетей для осуществления оценки глубины [7, 8]. Хотя подход, использующий масштабирующую глубокую сеть, как известно, был успешным, обучающаяся выборка, представляющая из себя внутренние изображения, существенно отличается от обучающихся выборок данного исследования. Было обнаружено, что тот подход показывает невысокую точность и производительность на обучающей выборке данного исследования, скорее всего это связано с неупорядочностью геометрии наружных сцен. В другом подходе используются остаточные сети для анализа функции сопоставления с выборкой исходной сцены вместе с обратной потерей Хубера, результаты показали, что для хорошей производительности требуется небольшое количество обучающих выборок [9]. В данном исследовании используется стилевая передача как картографическое решение, основанное на предыдущих исследованиях, в частности в области адаптации [10, 11]. Вывод конечного результата для нового подхода, описываемого в данной статье, был получен, основываясь на передаче ключевых характеристик [12]. Методика, использующая обучение без учителя, и основанная на принципе потерь признаков была описана в [1Э]. Т.к. в данной методике отсутствует человеческий контроль, то она уязвима проблеме снижения точности. Нейросетевые технологии также использовались для оценок, основанных на нескольких изображениях, в частности изображений стереокамер [14, 15]. Несмотря на то, что данные подходы являются эффективными и полезными, что можно увидеть в сравнение изображений, они все равно требуют более дорогой аппаратуры.
Техническое решение.
Данное исследование было начато с аналитики точности и производительности существующих подходов, использующих перенос стиля для создания карты глубины, а затем была осуществлена модификация данных подходов для увеличения их эффективности. Кроме того, было осуществлено внедрение в качестве основного алгоритма существующего метода, использующего глубокое обучение и свёрточные нейронные сети, для генерации карты глубин. В конечном счете, был разработан новый подход, основанный на переносе признаков. В общей сложности, было реализовано
четыре метода, способных формировать карту глубины с разной точностью и производительностью: Pix2Pix, Cycle GAN, масштабируемая глубокая сеть и новый стилевой передатчик, основанный на свёрточной нейронной сети.
Обучающие выборки. Все сети были обучены с помощью данных, сгенерированных Microsoft AirSim. Сложная среда симуляции окружения БПЛА была специально разработана для формирования изображений, использующихся для глубокого обучения [16]. Microsoft AirSim - это оборудование, моделирующие циклический симулятор, формирующий необработанные изображения и карты глубин имитированных фотореалистичных сред. Окружение использовалось для сбора обучающих данных. Пример настройки эмулятора и сформированные изображения показаны на рис. 13. Симулятор сгенерировал 1963 пары изображений. Изображения формировались случайным образом для уменьшения временного сходства, и были разделены на три категории: обучающие данные, данные проверки, и данные, предназначенные для тестирования. 70% - обучающие данные, 20% - проверочные, 10% - для тестирования.
Рис. 1. Пример использования AirSim
Рис. 2. Пример использования AirSim
264
Рис. 3. Пример использования AirSim
Pix2Pix. Восходящий подход в преобразовании типа «изображение-изображение» реализуется посредством генеративных аддитивных сетей (Generative Additive Networks - GANs), стремящихся сформировать реалистичный выход. Pix2Pix - это условная GAN-сеть, не являющаяся конкретным приложением. Сеть является условной, потому что, вместо обучения отображения случайного вектора шума Z на выходное изображение Y, она обучает отображению входного изображения X и случайного вектора шума Z на выходное изображение Y. Добавленное входное значение позволяет успешно осуществлять преобразование типа «изображение-изображение» [10]. Данная сеть обучается функцией потерь:
argminmaxLcGAN(G,D)+1i]_(G) (1)
G D
где G - это генератор; D - дискриминатор; LcGAN -
LcGAN =Ex,y:Pdata(x,y) [logD(x,y)]+ (2) +Ex,y:Pdata(x),z:Pz(z)[lo§( 1 - D(x,G(x,z))]
и ^ii- гиперпараметр.
CycleGAN. Расширение Pix2Pix является сетью CycleGAN, которая обучается не только сопоставлению входного изображения X выходному Y, но также восстановлению входного изображения X по выходному Y. CycleGAN принимает на вход два набора изображений с различными характеристиками и не требует наличия парных изображений. Если обучающие данные не представлены в парах, то существует неопределенность целевой функции, которая выступает посредником в задачи циклической трансляции. Например, если взять предыдущие входы и выходы (X и Y), то в целевой функции будет потеряна согласованность циклов, основанная на результатах преобразования X ® Y ® X . Поэтому данная сеть обучается функцией потерь:
Lgan(G,Dy X, Y) +Lgan(F,Dx , Y,X) + lLcyc(G,F), (3)
где LGAN(G,DY,X,Y) вычисляется по следующей формуле:
Lgan(G,Dy,X,Y) = Ey:Pdata(y)[logDY(Y)]+ (4)
+Ex: Pdata(x) [log( 1-DY (G(x)]
+
(6)
Ьеус(°'р)=Ех:Рс1сИа(х}Р(0(х))-А 1] + +Еу:Рс1ага(у0(Р(У}}-у\ 1]
(7)
Репозиторий, описывающий обе сети приведен в работе [18].
Масштабируемая глубокая сеть. Масштабируемая глубокая нейронная сеть состоит из сверточных слоев и полносвязных слоев, позволяющих получать как приближенную карту глубин, так и точную [8]. Архитектура нейронной сети состоит из двух отдельных ветвей. Первой ветви на вход подается исходное изображение, далее оно проходит через ряд сверточных слоев и 2x2 слоев объединения. После пяти сверточных слоев, данные изображений сглаживаются и подаются на вход двум полносвязным слоям. Выходные данные этой ветви преобразуются в изображение размером примерно в четверть высоты и ширины от исходного изображения. В данной сети используется объединение с максимальной степенью и небольшой пространственный размер, необходимые для создания более глобальной аппроксимации карты глубины в период обучения нейронной сети.
Вторая ветвь сети принимает на вход оригинал изображения сцены и применяет к нему 63 9x9 сверточных фильтров, а на втором шаге обрабатываемые данные проходят через 2x2 слоя максимального заполнения. Выходное значение слоя имеет ту же пространственную размерность, что и выходное значение первого слоя. К выходному значению первого слоя применяется операция конкатенации для получения глубины с тензором размером 64. Вторая ветвь содержит еще два 5x5 сверточных слоя перед получением окончательного изображения глубин. Данный подход объединяет приближенную карту глубин с объектами исходного изображения, позволяя сети создавать более детальные карты глубин в конце второй ветви.
Функция потерь для этой сети основана на разности значений логарифма, которая делает потеря инвариантом к масштабу глубины [17]. Учи/ч
тывая настоящее значение глубины у, и приближенное у, для / е {1,..., п}, где п - количество пикселей, функция потери определяется следующими формулами:
(8)
Использование логарифмов может привести к отсутствию устойчивости, если входное значение равно нулю, а в исследуемом наборе пикселей есть нулевые значения. Для решения данной проблемы к значениям глубины прибавляется некоторое фиксированное значение перед вычислением их логарифма и значения функции потери. Кроме того, в данной модели используется другая функция потерь, основанную на di = yi — yi, необходимую для исследования зависимости наличия логарифма на производительность, вне зависимости является ли потеря инвариантом по шкале. Кроме того, обучающая выборка имеет относительно маленький размер для обучения с учителем, поэтому были добавлены фильтры для приближенного результата полносвязного слоя для минимизации учащенной операции подгонки.
Стилевая передача на основе CNN. В дополнении к вышеописанным подходам также был разработан новый подход отображения глубины. Данная методика основана на передаче стилей с использованием CNN [12]. Главной особенностью подхода является то, что сеть обучается не на основе потерь «пиксель-на-пиксель», т.к. это в большинстве случаев приводит к чрезмерно размытым образам, но сеть должна быть настроена таким образом, чтобы сохранялись персептивные особенности изображений. Для того чтобы, определить эти особенности, автокодируемая сеть вначале была обучена на картах глубин, таким образом, чтобы представления уменьшались до минимального размера на среднем слое. Данные минимальные характеристики берутся для представления наиболее важных характеристик, которые необходимо сохранять. Очевидно, что данные характеристики содержат всю информацию, необходимую для формирования карт глубин. Автокодируемая сеть использует прогрессивные сверточные слои для уменьшения двухмерного размера изображения при увеличении глубины фильтра. После слоев кодирования дешифратор увеличивает размер изображения транспонированием свертки. Изначально дешифраторы увеличивают размер промежуточного изображения до размера исходного изображения. Однако данные действия приводят к значительному эффекту «клетчатости» в конечном изображении. Проблема была решена путем преобразования изображения в два двумерных образа оригинального изображения с последующей операцией прогрессивной свертки, заканчивающей генерацию конечного изображения. Т.к. выходное изображение получается в оттенках серого, на выходе находится только один канал трижды продублированный для возможности обратного преобразования в RGB изображение.
Автоматический кодировщик изначально обучался только на функции потери L2 относительно исходного изображения карты глубины. Также он может эффективно восстанавливать изображение с меньшими потерями после обучения такого рода, анализом общей производительности было установлено, что сеть передачи не является высокопроизводительной
267
и точной. Было выявлено, что передаточная сеть не может восстанавливать те же особенности из RGB изображений, как из карт глубин. Затем автоматический кодировщик был переобучен с использованием более сложной функции потери.
LT =LL2 +1aLfeatures , (10)
где LL2 - потеря L2; - гиперпараметр; Lfeatures определяется формулой:
Lfeatures = L2(f (X) - f (Y)), (11)
где f(X) и f(Y) - признаки, закодированные из визуального изображения и карты глубины соответственно. Это значительно способствует увеличению производительности сети передачи, хотя дополнительное увеличение производительности может быть обеспечено модификацией архитектуры сети и перенастройкой параметров обучения. Как только автоматический шифратор будет обучен, вторая сеть с идентичной шифратору архитектурой будет настроена в качестве сети передачи. Слои дешифратора передаточной сети инициализируются весовой матрицей автошифратора. Сеть передачи обучается с помощью визуальных изображений, выходными значениями являются карты глубин.
Рис. 4. Архитектура сети передачи стилей, основанной на CNN.
Функция потерь является составной функцией потерь:
Li=Lj 2+X*Lf; 1 L 2 f (12)
гдеLL2 определяется формулой:
LL2 = L2YeY (13)
Ye определяется по формуле:
Ye=L2(featwese(X)-featwes(Y)),
k - гиперпараметр.
Эксперимент
После того как каждая сеть прошла обучение, тестовое множество входных значений подается на каждую сеть и оценивается выходное значение со средним значением абсолютной ошибки (АО), среднеквадратичной ошибки (СКО) и среднеквадратичной логарифмической ошибки (СКЛО). Величина АО влияет на среднюю ошибку пикселей, в то время как СКО оказывает большее влияния на значительные ошибки передачи стилей. Метрика СКЛО является инвариантной в отношении масштаба и эквивалентной логарифму отношения. СКЛО зависит от отличия истинного значения глубины и предсказанного. Данная метрика должна зависеть от близлежащих объектов, т.к. корректировка глубины ближних слоев является более важной, чем корректировка дальних слоев. Все ошибки представляют собой средние значения настоящей и сгенерированной сетью
глубины (и З^огк). Пусть п - общее количество пикселей тестируемого множества, З)^ и З^^ок - настоящее значение глубины и сгенерированное системой для ¿-го пикселя. АО вычисляется следующим образом:
АО=— X ni=1
1 n
d[/ -d
real network
(15)
СКО определяется следующим образом:
1 nJ('
ni=l]l[
СКО =1 X\/( ^L-^twork ) (16)
СКЛО:
СКЛО=
\
1X (log(^-^ogT256-dnet4,ork))2
n i=1
(17)
Результаты тестирования каждой категории сети представлены в табл.1-2.
Таблица 1
Результаты тестирования каждой сети
Сеть АО СКО СКЛО
Р1х2Р1х 15.7 676.5 0.357
СусШЛК 22.6 1165.7 0.348
Масштабируемая глубокая сеть 15.9 659.9 0.399
Сеть передачи стилей 22.4 1080.5 0.434
Таблица 2
Результаты тестирования Суе1вСЛМ сети с корректировкой весой
X ® У ® X У ® X ® У АО СКО СКЛО
Веса Л Веса В
1 1 37.6 2219.6 0.484
5 5 23.7 1310.4 0.489
10 10 22.6 1165.7 0.348
20 20 23.9 1315.7 0.450
5 10 24.4 1367.5 0.450
1 5 28.1 1660.6 0.479
Результаты
Тестируемые изображения были выбраны потому что, они содержат много городских объектов: дороги, инфраструктура, деревья прочая растительность.
Р1х2Р1х был запущен без изменений исходной конфигурации [10], и показал хорошие результаты. Данная сеть показала минимальные АО и близкие к минимальным значения СКО и СКЛО.
Суе1еОЛК был запущен без изменений исходной конфигурации [11] и показал меньшее значение СКЛО, однако ожидалось, что он сможет улучшить СКО и АО. Было выдвинуто предположение, что слишком большие весовые матрицы могут привести к неверному обучению сети, поэтому была осуществлена корректировка весов. Предположение по улучшению производительности не оправдалось.
Для масштабируемой глубокой сети функция потерь была исследована проблема отсутствия устойчивости. В ранних подходах потеря была основана на разности между логарифмами значений пикселей, но анализ показывает, что обученные данным образом сети имеют невысокую точность и эффективность. Одной из причин является то, что используемый набор данных нормализуется, и в отдаленных местах появляются нулевые значения и это приводит к существенным потерям. Результаты проверки показали, что сеть генерирует приближенные и затемненные карты глубин, а недостаточно точные оценки карт.
Когда функция потерь использует разницу между значениями пикселов, производительность существенно улучшается (табл. 3). В результате данная модификация функции потерь использовалась в масштабируемой глубокой сети.
Таблица 3
Результаты тестирования каждой сети
Тип функции потерь АО СКО СКЛО
Логарифмическая разность 42.2 3246.7 0.632
Разность 15.9 659.9 0.399
Одной из проблем использования масштабируемой глубокой сети является небольшой размер набора данных. На рис. 5 показано что, потери обучающего набора намного меньше, чем проверочного набора (однако присутствует логарифмическое масштабирование по оси у). Для уменьшения влияния переобучения после сверточных слоев была добавлена фильтрация с вероятностью сохранения активации 0.5. Зеленые и черные линии на рис. 5 показывают влияние фильтрации на потери. Потери на этапе обучения больше, чем потери на этапе проверки. Для решения данной проблемы требуется большой набор данных. AirSim является современным и мощным инструментом, формирующим наборы данных, необходимые для обучения систем восприятия и анализа изображений БПЛА, осуществляющих обучение без учителя.
CNN, осуществляющая передачу стилей была обучена с помощью алгоритма Адама для оптимизации. Начальная скорость оптимизации была установлена в 10-3, на этапе обучения конфигурационные параметры были установлены в значения по умолчанию. На более поздних этапах, когда потери стали увеличиваться, скорость обучения была увеличена. Этапы, на которые был разделен процесс обучения, ограничивались пятью изображениями. Это было обусловлено ограничением выделения памяти GPU, на котором происходил процесс обучения. Основными гиперпараметрами, исследованными в данной работе, были условия формирования матрицы весов. Значение функции потерь было на порядок выше, чем L2 потери в начале обучения, поэтому относительное соотношение потерь на обоих этапах является почти эквивалентным. Настройка конфигурации осуществлялась до добавления составной функции потерь в обучающий модуль автоматического кодировщика. Условия формирования матрицы весов также выбирались через гиперпараметры. Значение условия было установлено равным 0.1 для конечного обучения. Автоматический кодировщик был обучен на 50 эпохах, а сеть передачи более чем на 100 эпохах. Конечная производительность исследуемой сети не превзошла производительность основной сети по каждой из метрик. Скорее всего, это связано с соответствующим представлением центрального слоя автоматического кодировщика, не осуществляющего извлечение как из RGB изображения, так и из карты глубины. Однако точность и качество CNN сети переноса стилей превосходят и Pix2Pix, и основной алгоритм. Кроме того, в CycleGAN формы объектов являются более определенными, но сами точки могут быть весьма нечеткими. Предполагается, что новый метод может как сохранять особенности представления объектов, так и точно отображать средние значения на карте. В дальнейшем производительность архитектуры может быть увеличена. Сгенерированные сетями карты глубин представлены рис. 5-16.
Рис. 5. Оригинальная карта глубины
Рис. 6. Pix2Pix
Рис. 7. CycleGЛN.
Рис. 8. Масштабируемая глубокая сеть.
272
Рис. 9. Сеть переноса стилей СМК
Рис. 10. Сгенерированные сетями карты глубин при Л = 1, В = 1.
Рис. 11. Сгенерированные сетями карты глубин при Л = 5, В = 5.
Рис. 12. Сгенерированные сетями карты глубин при Л = 10, В
273
Рис. 13. Сгенерированные сетями карты глубин при Л = 20, В = 20.
Рис. 14. Сгенерированные сетями карты глубин при Л = 5, В = 10.
Рис. 15. Сгенерированные сетями карты глубин приЛ = 1, В = 5.
Рис. 16. Сгенерированные сетями карты глубин приЛ
274
= 5, В
= 1
Заключение
Исходя из вышеописанного, можно сделать вывод, что основной алгоритм и масштабируемая глубокая сеть превзошли все методы в производительности по каждой из метрик. Анализ выходных карт показал, что сформированные изображения являются достаточно расплывчатыми. Но т.к. методики смогли уменьшить средние значения ошибок, они являются перспективными для дальнейших исследований. Методика, основанная на CycleGAN, способна четко сохранять особенности изображений, однако средние значения ошибок часто достигают высоких значений. Они были уменьшены внедрением комплексной и адаптированной функции потерь в этап обучения. Дальнейшая модификация система может обеспечить увеличение производительности.
Список литературы
1. Heo Y. S., Lee K. M., and Lee S. U. Joint depth map and color consistency estimation for stereo images with different illuminations and cameras. IEEE // Transactions on Pattern Analysis and Machine Intelligence, 2013. 35.
2. Block-based vanishing line and vanishing point detection for 3d scene reconstruction. In 2006 / Y. M. Tsai, Y. L. Chang, L. G. Chen // International Symposium on Intelligent Signal Processing and Communications. 2006.
3. Ashutosh Saxena, Sung H Chung, and Andrew Y Ng. 3-d depth reconstruction from a single still image. // International journal of computer vision. 2008. (1).
4. Battiato Sebastiano, Curti Salvatore, La Cascia Marco, Tortora Marcello, Scordato Emiliano. Depth map generation by image classification. // Proc. SPIE 5302, Three-Dimensional Image Capture and Applications VI. 2004.
5. Depth map generation for 2d-to-3d conversion by short-term motion assisted color segmentation. / Y. L. Chang, C. Y. Fang, L. F. Ding, S. E. Chen, L. G. Chen // International Conference on Signal Processing Proceedings, ICSP. 2007.
6. 3d stereoscopic image pairs by depth-map generation. In Proceedings of the 3D Data Processing, Visualization, and Transmission / S. Battiato, A. Capra, S Curti, M La Cascia // 2Nd International Symposium. 2004.
7. Deep convolutional neural fields for depth estimation from a single image / F. Liu, C. Shen, G. Lin // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.
8. Eigen D., Puhrsch C., Fergus R. Depth map prediction from a single image using a multi-scale deep network. // Advances in neural information processing systems. 2014.
9. Deeper depth prediction with fully convolutional residual networks. / I. Laina, C. Rupprecht, V.Belagiannis, F. Tombari, N. Navab // 3D Vision (3DV) Fourth International Conference on. IEEE. 2016. P. 239-248.
10. Isola P, Zhu J-Y, Zhou Tinghui, Efros A. A. Image-to-image translation with conditional adversarial networks. // CoRR. 2016.
11. Zhu J-Y, Park T., Isola P., Efros. A. A. Unpaired image-to-image translation using cycle-consistent adversarial networks. // arXiv preprint arXiv:1703.10593. 2017.
12. Johnson J., Alahi A., and Li F-F. Perceptual losses for real-time style transfer and super-resolution. // CoRR. 2016.
13. Garg R., Vijay Kumar B. G., Reid I. D. Unsupervised CNN for single view depth estimation: Geometry to the rescue. // CoRR. 2016.
14. Zbontar J., LeCun Y. Stereo matching by training a convolutional neural network to compare image patches. // CoRR. 2015.
15. Efficient deep learning for stereo matching. / W. Luo, A. G. Schwing, R. Urtasun // The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 2016.
16. Shah S., Dey D., Lovett C., Kapoor A. // Airsim: High-fidelity visual and physical simulation for autonomous vehicles. 2017.
17. Eigen D., Puhrsch C., Fergus R. Depth map prediction from a single image using a multi-scale deep network. // Advances in Neural Information Processing Systems 2014. 27.
18. CycleGAN and pix2pix in PyTorch [Электронный ресурс] URL: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix. (дата обращения: 10.06.2018)
Селихов Владимир Александрович, инженер, selikhovladimiragmail. com, Россия, Москва, Национальный исследовательский ядерный университет «МИФИ»
THE DEPTH MAP GENERATION BASED ON THE DEEP CONVOLUTIONAL NEURAL
NETWORK
V.A. Selikhov
In this article, information is being generated on the depth or space based on monocular images of UAVairborne cameras (one frame is one image). Some methods were used for logically similar spatial problems with varying degrees of success, however, this study uses a different approach: the formation of boundary edging as a problem of style transfer. This article is an adaptation of two modern methods of transfer of style for the decision of tasks of calculation of depth. The first technique was adapted using the Pix2Pix approach, which uses teacher-less learning. The second - through the use of cyclic generative-adversarial network (cyclic generic adversarial network - cycle GAN). In addition to these two approaches, a basic algorithm was also implemented, which was used to obtain a depth map in covered areas (scalable deep network). On the basis of these ideas, a new improved methodology for building a depth map was developed. These neural networks were trained on the visual images of the images of the UAV and the paired maps of the deep, created using high-precision environment of the simulated UAVs and environment Microsoft AirSim. The performance of each network was tested using a specific set of inputs at the end of the training process, and the performance was evaluated by three indicators. Although the network studied was not able to surpass other approaches than cycle GANs, it is assumed that this approach can show significant results after modification in further research.
276
Key words: UAV, depth map, artificial neural networks, ANN, convoluted neural network, SNA, Microsoft AirSim, Pix2Pix, CycleGAN, loss function, neural network training, Multi-Scale Deep Network, machine learning, deep learning.
Selikhov Vladimir Alexandrovich, engineer, selikhovladimiragmail. com, Russia, Moscow, National Research Nuclear University MEPhI (Moscow Engineering Physics Institute)
УДК 004.052.34
МЕТОДИКА ОЦЕНКИ КАЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ АЛГОРИТМА ВЕРИФИКАЦИИ БИОМЕТРИЧЕСКОЙ СИСТЕМЫ
ДОСТУПА
С.В. Бибиков, А.Г. Певнева, Э.М. Халиков
Предложена методика оценки качественных показателей алгоритма функционирования биометрической системы верификации диктора с целью оценки функциональной безопасности системы доступа. Методика разработана на основании положений теории помехоустойчивости радиотехнических систем.
Ключевые слова: биометрическая система доступа, верификация диктора, оценка ошибки доступа, функциональная безопасность.
Информационные системы, предназначенные для структурированного хранения информации, с целью удобного доступа и представления, не несут в себе непосредственной угрозы жизни и здоровью людей. Опасность возникает при реализации алгоритмов принятия решений в системе искусственного интеллекта (СИИ). СИИ решает задачу распознавания объекта в какой-либо постановке - задачу идентификации, задачу верификации и т.д. Очевидно, что ошибочный вывод в итоге процесса распознавания повлечет за собой принятие ошибочного решения, последствия которого могут быть непредсказуемы.
В общем, такие системы можно считать системами управления и контроля. К этим системам понятие функциональной безопасности имеет прямое отношение [1]. Контроль или мониторинг может рассматриваться как сбор данных с выдачей управляющего воздействия только в случае обнаружения критического состояния, следовательно, считается частным случаем системы управления. Критическим состоянием здесь считается обнаружение нераспознанных контуров в видеопотоке в системе наблюдения, или наличие нераспознанных компонент в смеси речевых сигналов.