Научная статья на тему 'СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ 3D-РЕКОНС ТРУКЦИИ ОБЪЕКТОВ РЕАЛЬНОГО МИРА'

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ 3D-РЕКОНС ТРУКЦИИ ОБЪЕКТОВ РЕАЛЬНОГО МИРА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
83
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗБ-реконструкция / методы искусственного интеллекта / 3D-reconstruction / artificial intelligence methods

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шестопалов Роман Павлович, Заславский Марк Маркович, Лисс Анна Александровна

В статье представлены результаты сравнительного анализа моделей искусственного интеллекта для трехмерной реконструкции протяженных объектов реального мира. При выборе публикаций для сравнительного анализа особое внимание уделено тем, в которых описаны методы, применимые к крупным объектам в открытом пространстве. Дополнительное условие наложено на источники входных данных для моделей искусственного интеллекта модели, для которых проводилось сравнение, в качестве входных данных использовали только наборы из RGB-фотографий объектов в открытом пространстве. Благодаря применению моделей и методов искусственного интеллекта авторам рассмотренных при анализе публикаций удалось достичь роста скорости реконструкции объектов на несколько порядков в сравнении с классическими методами реконструкции, такими как метод диспаратности, стереопар или структурирования света. Помимо этого, для проведения сравнительного анализа использованы критерии: средняя пороговая точность, пиковое отношение сигнала к шуму, время обучения. Предпочтение предлагается отдать методу "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", требующему при схожем качестве реконструированной модели значительно меньшего времени, чем иные рассматриваемые аналоги, для восстановления объекта в виртуальном пространстве.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шестопалов Роман Павлович, Заславский Марк Маркович, Лисс Анна Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARATIVE ANALYSIS OF ARTIFICIAL INTELLIGENCE MODELS FOR 3D RECONSTRUCTION OF REAL WORLD OBJECTS

The article presents the results of a comparative analysis of artificial intelligence models and methods for three-dimensional reconstruction of extended objects in the real world. When selecting publications for comparative analysis, special attention was paid to those that describe methods applicable to large objects in open space. An additional condition was imposed on the sources of input data for artificial intelligence models the models for which the comparison was carried out used only sets of RGB photographs of objects in open space as input data. Thanks to the use of artificial intelligence models and methods, the authors of the publications reviewed in the analysis managed to achieve an increase in the speed of object reconstruction by several orders of magnitude in comparison with classical reconstruction methods, such as the disparity method, stereo pairs or light structuring. In addition, the following criteria were used to conduct a comparative analysis: average threshold accuracy, peak signal-to-noise ratio, training time. It is proposed to give preference to the «Instant Neural Graphics Primitives with a Multiresolution Hash Encoding» method, which, with similar quality of the reconstructed model, requires significantly less time than other analogues under consideration to restore an object in virtual space.

Текст научной работы на тему «СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ 3D-РЕКОНС ТРУКЦИИ ОБЪЕКТОВ РЕАЛЬНОГО МИРА»

УДК 004.89

DOI: 10.24412/2071-6168-2024-5-267-268

СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ 3D-РЕКОНС ТРУКЦИИ ОБЪЕКТОВ РЕАЛЬНОГО МИРА

Р.П. Шестопалов, М.М. Заславский, А.А. Лисс

В статье представлены результаты сравнительного анализа моделей искусственного интеллекта для трехмерной реконструкции протяженных объектов реального мира. При выборе публикаций для сравнительного анализа особое внимание уделено тем, в которых описаны методы, применимые к крупным объектам в открытом пространстве. Дополнительное условие наложено на источники входных данных для моделей искусственного интеллекта - модели, для которых проводилось сравнение, в качестве входных данных использовали только наборы из RGB-фотографий объектов в открытом пространстве. Благодаря применению моделей и методов искусственного интеллекта авторам рассмотренных при анализе публикаций удалось достичь роста скорости реконструкции объектов на несколько порядков в сравнении с классическими методами реконструкции, такими как метод диспарат-ности, стереопар или структурирования света. Помимо этого, для проведения сравнительного анализа использованы критерии: средняя пороговая точность, пиковое отношение сигнала к шуму, время обучения. Предпочтение предлагается отдать методу "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding ", требующему при схожем качестве реконструированной модели значительно меньшего времени, чем иные рассматриваемые аналоги, для восстановления объекта в виртуальном пространстве.

Ключевые слова: 30-реконструкция, методы искусственного интеллекта

В последние годы растет интерес к методам и практическим приложениям, позволяющим создавать цифровые модели различных объектов [1]. Такие технологии находят применение в архитектуре, строительстве, картографии, медицине, кинематографе и многих других областях [2]. Развитие цифрового моделирования в архитектурно-строительной отрасли связано с появлением новых методов и технических средств для получения исходной информации, включая фото- и видеоматериалы, полученные с помощью различных видов съемки, включая традиционную (ручную и аэрокосмическую) и новую, такую как съемка с беспилотных летательных аппаратов.

Развитие информационных технологий в архитектурно-строительной отрасли требует сочетания возможностей традиционных методов сбора исходной информации об объекте, таких как фотосъемка, и компьютерных методов обработки фотографической информации для создания информационных моделей объектов в виде трехмерных пространственных моделей архитектурных объектов, строительных конструкций и их инфраструктуры, а также топологических связей между ними.

Научно-технологическое направление, которое позволяет решать подобные задачи, называется цифровой фотограмметрией. Фотограмметрия позволяет определять форму, размер, пространственное положение и другие характеристики физических объектов с помощью фотографий и технологий их обработки. Это помогает проводить дистанционные исследования объектов для создания графического представления полученных данных и их последующего анализа [3-5].

Проблема исследования: для создания качественной трёхмерной реконструированной модели требуется большое количество четких фотографий с разных углов и расстояний и высоким процентом перекрытия друг друга (приблизительно 80%). Кроме того, процесс обработки изображений является сложным с точки зрения применяемых алгоритмов, количества вычислительных операций, объема требуемой памяти и специализированного программного обеспечения [6].

Объектом исследования выступает процесс фотограмметрии с использованием RGB-фотографий без использования дополнительных сенсоров.

Предметом исследования являются алгоритмы и методы извлечения информации о глубине из изображений, а также методы объединения этой информации в 3D-модель.

Целью исследования является изучение существующих моделей определения глубины кадров исследуемого объекта и моделей создания разреженных и плотных облаков точек для ускорения подготовки 3D-модели к последующему анализу реконструируемого объекта с целью принятия решения о последующих действиях в его жизненном цикле. Использование модели подразумевается на портативных персональных компьютерах без доступа к сети Интернет.

Задача определения глубины на RGB фотографии заключается в получении информации о расстоянии от оператора до объектов на изображении. Существует несколько методов определения глубины на основе RGB изображения: классические: метод диспаратности [7, 8], метод стереопар [9, 10], методы структурирования света [11]. И неклассические, например, методы искусственного интеллекта [12-15].

Критерии отбора методов. В работе выбраны современные реализации алгоритмов построения карты глубины кадра и алгоритмов реконструкции 3D-объектов на основе моделей и методов искусственного интеллекта, опубликованные в период с 2018 года по настоящее время. В рассматриваемых научных работах представлены модели и методы, дающие возможность максимизировать качество получаемой 3D-модели при минимизации временных затрат построения модели объекта реального мира. Работы отбирались по используемым входным данным и области применения представленным методов. Ограничением на входные данные является факт обработки исключительно RGB-фотографий, а применимости - работы с протяженными объектами реального мира. Кроме того, в качестве критерия отбора выбирались модели, представленные в рамках международных научно-практических конференций, посвященных вопросам применения методов и моделей искусственного интеллекта в фотограмметрии.

Обзор методов 3Б-реконструкции объектов. По итогам отбора научных статей выбрано 5 методов искусственного интеллекта, которые соответствуют вышеописанным критериям. Во всех 5 рассматриваемых работах авторы используют в качестве входных данных RGB-фотографии снятые на монокамеру, а для обучения моделей использовались наборы данных, в которых запечатлены крупные объекты реального мира.

High Quality Monocular Depth Estimation via Transfer Learning. В данной работе предложена сверточ-ная нейронная сеть для оценки глубинных карт по единичным RGB-изображениям [13]. В ней показано, что применение инициализированного значимыми весами кодировщика, позволяет получить лучшие карты глубин кадра, чем при использовании методов, которые полагаются либо на дорогие по вычислительным ресурсам и объемам памяти многоступенчатые сети оценки глубины кадра, либо требующие проектирования и комбинирования нескольких слоев кодирования признаков. Представленный авторами метод демонстрирует высокую эффективность на наборе данных NYU Depth v2 [16], KITTI [17] и предложенном авторами наборе данных Unreal-1K [13] (1000 снимков и соответствующих карт глубин созданных на основе 32 виртуальных сцен в Unreal Engine). Целью данного метода является создание карт глубины, которые более точно отображают объекты и их границы, чем рассматриваемые авторами методы.

Набор данных NYU-Depth V2 состоит из видеозаписей различных сцен в помещении и снаружи зданий, записанных камерой RGB и датчиком глубины от Microsoft Kinect [16]. Отличительной особенностью данного набора данных является большое количество глянцевых поверхностей, что усложняет работу алгоритмов реконструкции 3D-моделей.

Датасет состоит из:

- 1449 плотно размеченных пар сопоставленных RGB-изображений и карт глубины;

- 464 сцен из трех городов: Нью-Йорк, Беркли и Кембридж;

- 407024 неразмеченных кадров;

- Каждый объект размечен своим классом и уникальным идентификатором (cup1, cup2, cup3, ...).

Поддерживаемые задачи:

- Расчет глубины кадра. Оценка глубины — это задача аппроксимации воспринимаемой глубины данного изображения. Другими словами, речь идет об измерении расстояния от каждого пикселя изображения до камеры.

- Семантическая сегментация. Семантическая сегментация — это задача сопоставления каждого пикселя изображения с меткой класса.

Набор данных KITTI [17] содержит для расчета глубины более 93 тысяч карт глубины с соответствующими необработанными сканами LiDaR и RGB-изображениями, сопоставленными с «необработанными данными» набора данных KITTI. Учитывая большой объем обучающих данных, этот набор данных позволяет обучать сложные модели глубокого обучения для задач прогнозирования глубины одного изображения. Кроме того, авторы предоставляют вручную отобранные изображения с неразмеченными картами глубины, которые служат эталоном для решения данной задачи.

Оценочные характеристики модели:

- Средняя относительная ошибка(ге1): ^Хр Ур% V —;

- Среднеквадратичная ошибка (rms): JiEp(yp — %)2;

- Средняя (1од10) ошибка: log10(y\ |р) — logwfp V;

- Пороговая относительная точность (5;): доля ур такая, что maxíf-, —) = S < thr,дляthr =

\Ур Ур/

1.25,1.252,1.253;

- где ур - это пиксель в карте глубины изображения у, ~fp - это пиксель в предсказанной карте глубины изображения f и п - общее количество пикселей для каждой карты глубины. Результаты экспериментов отображены в табл. 1.

Таблица 1

Сравнение характеристик моделей___

Результаты экспериментов 52t <5зТ rel| rmsj log 101

Диапазон 0.769-0.846 0.950-0.974 0.988-0.994 0.123-0.158 0.465-0.641 0.051-0.055

Медиана 0.819 0.960 0.991 0.127 0.573 0.053

Значение авторов 0.846 0.974 0.994 0.123 0.465 0.053

RC-MVSNet: Unsupervised Multi-View Stereo with Neural Rendering. В работе RC-MVSNet авторами рассматриваются существующие методы трехмерной реконструкции протяженных объектов, основанные на предположении, что соответствующие друг другу пиксели на кадрах, полученных с разных точек съемки объекта, имеют схожие фотометрические характеристики: освещенность и яркость изучаемых поверхностей [12]. Однако многоракурсные изображения в реальных условиях съемки содержат не идеально матовые и затененные поверхности. В этой работе предлагается новый подход с нейронным рендерингом (RC-MVSNet) для решения таких неоднозначных вопросов соответствия между точками съемки. В частности, авторы вводят функцию потери согласованности рендеринга глубины для ограничения геометрических особых точек, расположенных близко к поверхности объекта для устранения затенений.

Кроме того, авторами введена функция потери синтеза эталонной точки обзора объекта для создания согласованного наблюдения для глянцевых поверхностей. Эксперименты на наборах данных DTU [18] и Tanks&Temples [19] демонстрируют, что подход RC-MVSNet достигает наивысшей производительности среди необученных MVS-фреймворков [20-22] и конкурентоспособен по сравнению со многими обученными методами.

Набор данных DTU состоит из 124 различных сцен, 80 из которых использовались при оценке статьи [18]. Остальные 44 состоят в основном из сцен, которые были повернуты и отсканированы четыре раза с интервалом 90 градусов, что позволяет создавать модели на 360 градусов.

Сцены включают в себя широкий спектр объектов, что позволяет решить проблему MVS. В то же время в набор данных также входят сцены с очень похожими объектами, например: модели домов, позволяющие исследовать внутриклассовую изменчивость. Каждая сцена была снята с 49 или 64 позиций, что соответствует количеству изображений RGB в каждой сцене или сканировании. Разрешение изображения составляет 1600 x 1200. Положения камеры и внутренние параметры камеры были найдены с высокой точностью с помощью набора инструментов ка-

либровки Matlab, который также является набором инструментов, необходимым для получения этих параметров. Все сцены были записаны в количестве 49 или 64 с семью различными условиями освещения: от направленного до рассеянного.

Набор данных Tanks and Temples [19] — это бенчмарк для 3D-реконструкции на основе изображений. Эталонные последовательности были получены за пределами лаборатории, в реалистичных условиях.

Наземные данные были получены с помощью промышленного лазерного сканера. Тест включает в себя как сцены на открытом воздухе, так и в помещении. В качестве входных данных предоставляются видеопоследовательности высокого разрешения, что поддерживает разработку новых конвейеров, которые используют преимущества видеовхода для повышения точности реконструкции.

Оценочные характеристики модели:

Точность с пороговыми значениями в сантиметрах отражена в табл. 2.

Таблица 2

Сравнение пороговых точностей моделей__

Результаты экспериментов <2 см t <4 см t <8 см t

Диапазон 0.317-0.730 0.384-0.795 0.402-0.863

Медиана 0.535 0.645 0.734

Значение авторов 0.730 0.795 0.863

Авторы используют официальные показатели ошибок в датасете DTU для оценки точности (Accuracy), которая вычисляется как расстояние от точек восстановленной модели до эталонного структурированного разреженного облака точек, что показывает соответствие исходного объекта и построенной модели, и полноту (Completeness), которая измеряется как расстояние от эталонного плотного облака точек до восстановленного результата, что указывает на долю восстановленной части во всем облаке точек. Общий показатель (Overall) — это среднее значение точности и полноты, которое отражает общее качество реконструкции. Результаты экспериментов отображены в табл. 3.

Таблица 3

Сравнение характеристик моделей__

Результаты экспериментов Acc .i Comp Overall .i

Диапазон 0.296-0.881 0.262-1.040 0.289-0.977

Медиана 0.396 0.395 0.356

Значение авторов 0.396 0.295 0.345

SimpleRecon: 3D Reconstruction Without 3D Convolutions. В работах [12-14] для реконструкции изображений используются трехмерные сверточные слои, которые объединяют в себе предсказание глубины кадра и реконструкцию поверхности объекта. Хотя эти методы демонстрируют одни лучше показателей качества реконструкции, они полагаются на дорогостоящие сверточные 3D-слои, что ограничивает их применение в средах с ограниченными ресурсами. В работе [15] авторы обратились к иному способу реконструкции и продемонстрировали, как фокусировка на высоком качестве прогнозирования глубины с несколькими изображениями приводит к высокоточным 3Б-реконструкциям используя готовый метод слияния карт глубин.

Авторами предлагается многоракурсный оценщик глубины с двумя основными преимуществами. Первым из них является сверточная нейронная сеть 2D-CNN, которая использует априорную информация изображений вместе с функцией геометрических потерь и функцией потерь объема элемента плоской развертки. Вторым преимуществом авторы обозначили интеграцию ключевых кадров и геометрических метаданных в функции расчета затрат объема окружения, что позволяет получить обоснованную оценку глубины поверхности. Данный метод позволяет проводить реконструкцию с малыми затратами памяти в режиме реального времени.

Набор данных ScanNetV2 [23] - это набор видеоданных RGB-D, содержащий 2,5 миллиона точек обзора в более чем 1500 сканер-копиях окружения, аннотированный положениями в пространстве 3D-камеры, реконструкциями поверхности и семантической сегментацией на уровне каждой точки обзора.

Авторы продемонстрировали, что использование этих данных помогает достичь высокой производительности при решении нескольких задач понимания трехмерных сцен, включая классификацию трехмерных объектов, семантическую маркировку вокселей и поиск моделей САПР.

Оценочные характеристики модели. Геометрические близость к эталонной модели и завершенность. Близость к эталонной модели измеряют как среднюю ошибку от предсказанной точки до истинной. Завершенность измерения ошибки в противоположное направление и фаска как среднее значение точности и завершенности.

Авторы [15] определили пороговые значения ошибок от предсказанной до истинной точки и рассчитывают точность и полноту, вычислив соотношение совпадений «точка-точка» на расстоянии < 5 см. Поскольку легко максимизировать либо точность (предсказывая лишь несколько, но точных точек), либо полноту (путем чрезмерного завершения реконструкций с зашумленной поверхностью), авторами обнаружено, что наиболее надежным показателем является F-мера, определяемая по точности и полноте. Результаты экспериментов отображены в табл. 4.

Сравнение характеристик моделей

Таблица 4

Результаты экспериментов Comp. 1 Acc. i Chamferi Prec. t Recallt F-Scoret

Диапазон 4.31 - 14.29 6.09 - 16.19 5.77 - 15.24 0.346 - 0.767 0.293 - 0.658 0.314 - 0.703

Медиана 10.45 7.59 9.25 0.525 0.567 0.532

Значение авторов 5.53 6.09 5.81 0.686 0.658 0.671

Unsupervised Monocular Depth Learning in Dynamic Scenes. Авторы представляют метод совместного обучения оценке глубины, собственного движения наблюдателя (камеры) и плотного трехмерного поля перемещения объектов относительно сцены, где единственным источником наблюдения является монокулярная фотометрическая последовательность изображений [12].

В данной работе показано, что задачу трехмерной реконструкции можно структурировать с помощью введения в систему следующих предварительных знаний о перемещении камеры в 3D-пространстве: большая часть изучаемого пространства пустая и статичная, поэтому трехмерные поля перемещения объектов разрежены, и эти поля перемещения имеют тенденцию быть кусочно-постоянными для твердых движущихся объектов. Данных предварительных знаний достаточно для обучения монокулярных моделей прогнозирования глубины, которые превосходят точность, достигнутую в предыдущих моделях, работающих с динамическими сценами, включая методы, требующие семантического ввода данных об окружении.

Набор данных CityScapes [24] фокусируется на семантическом понимании городских уличных сцен. Характеристики датасета:

- 50 городов Германии

- Снимки сделаны в разные времена года

- Большое количество динамических объектов

- 5000 размеченных изображений с точными аннотациями

- 20000 размеченных изображений с грубыми аннотациями

Набор данных Waymo [25] - открытый набор данных, помогающий сообществу в исследовании широкого спектра аспектов восприятия машин и технологий автономного вождения. В данном датасете содержатся двадца-тисекундные отрезки поездок автономного такси Waymo. Эти участки дорог являются протяженными, что подходит под изначальные условия поиска методов. Данные записываются с помощью камер и лидаров, расположенных вдоль всего автомобиля.

Данный датасет состоит из двух поднаборов данных — набора данных восприятия с данными датчиков высокого разрешения и метками для 2030 сегментов и набора данных движения с траекториями объектов и соответствующими 3D-картами для 103 354 сегментов.

Оценочные характеристики модели

- Средняя относительная ошибка(ге1);

- Среднеквадратичная ошибка (rmse);

- Пороговая относительная точность (5^.

Результаты экспериментов отображены в табл. 5.

Таблица 5

Сравнение характеристик моделей_

Результаты экспериментов Abs Rel 1 Sq Rel I RMSE I RMSE log I S1 T S2 T S3 T

Диапазон 0.127-0.441 1.33 - 6.04 5.44 - 7.28 0.190 - 0.398 0.730 - 0.846 0.887 - 0.952 0.944 - 0.982

Медиана 0.136 1.54 6.97 0.200 0.822 0.945 0.981

Значение авторов 0.119 1.29 6.98 0.190 0.846 0.952 0.982

Instant Neural Graphics Primitives with a Multiresolution Hash Encoding. В данной работе авторы используют новый тип нейронной сети - нейронное поле излучения (NeRF). NeRF - это нейронная сеть, которая может реконструировать сложные трехмерные сцены на основе неполного набора двухмерных изображений. На основе этих двухмерных изображений визуализируются фотореалистичные трехмерные изображения с новых точек обзора, а для заполнения пробелов в данных автоматически генерируются синтетические данные [26].

Примитивы нейронной графики, полученные с помощью NeRF и параметризованные полностью связанными нейронными сетями, могут оказаться дорогостоящими по времени и памяти в обучении и применении [27]. Авторы сократили эти затраты с помощью новой универсальной кодировки входных данных, которая позволяет использовать меньшую сеть без ущерба для качества, тем самым значительно уменьшая количество операций с числами с плавающей запятой и количество операций доступа к памяти: используемая нейронная сеть дополняется многоуровневой хеш-таблицей с разными размерами обучаемых векторов признаков, значения которых оптимизируются посредством стохастического градиентного спуска.

Многоуровневая структура таблицы позволяет сети устранять неоднозначность коллизий хэшей, создавая простую архитектуру, которую легко распараллелить на современных графических процессорах. В данной статье описано использование параллелизма путем реализации всей системы с использованием полностью объединенных ядер CUDA с упором на минимизацию потери пропускной способности и вычислительных операций.

Сравнение методов. Для проведения сравнительного анализа описанных методов выбраны следующие

критерии:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Средняя пороговая точность. Данный критерий показывает отношение совпавших предсказанных пикселей на карте глубины с эталонной картой. С помощью данного критерия можно оценить качество восстановленной модели исключая маленькие отклонения, не превышающий заданный авторами порог (обычно несколько сантиметров).

- Пиковое отношение сигнала к шуму. Данный критерий показывает отношение максимального возможного значения пикселя к средней относительной ошибке. Данный критерий позволяет количественно оценить производительность кодеров путем измерения качества восстановления сжатого изображения по сравнению с исходным изображением

- Время обучения. Данный параметр показывает время обучения моделей на оборудовании авторов с заданным набором данных.

- Наборы данных. Эталонные фотографии, 3Б-модели и карты глубин, которые использовались для обучения моделей.

Общие характеристики оборудования, на котором проведено обучение моделей в сравниваемых методах указаны в табл. 6.

Сравнительная таблица исследуемых методов представлена в табл. 7.

Несмотря на самую низкую относительную ошибку метода High Quality Monocular Depth Estimation via Transfer Learning, данный показатель распространяется лишь на 1 карту глубины кадра, что не дает представления о возможной суммарной ошибке при накоплении достаточного количества данных карт для объединения их в 3D-

модель объекта. Данный метод, как и SimpleRecon: 3D Reconstruction Without 3D Convolutions, строит свою модель с помощью обучения с учителем, что выдвигает строгие требования к набору данных для обучения.

Методы RC-MVSNet: Unsupervised Multi-View Stereo with Neural Rendering и Unsupervised Monocular Depth Learning in Dynamic Scenes обучают модели без учителя, что позволяет использовать широкий спектр наборов данных, однако данным методам требуются высопроизводительные графические процессоры с большим объемом памяти.

Таблица 6

Сравнение использованных в экспериментах видеокарт

Модель Количество ядер CUDA, шт. Мощность при работе с числами с плавающей точкой, ТБЬОР8 Объем памяти, Gb Тип памяти Пропускная способность памяти, GB/s

GTX Titan Xp 3840 12.15 12 GDDR5X 547

RTX 3090 10496 35.6 24 GDDR6X 936

A100 PCIe 40GB 6912 19.5 40 HBM2e 1555

V100 PCIe 32GB 5120 14.1 32 HBM 897

Сравнение характе

Методы Средняя пороговая точность Пиковое отношение сигнала к шуму, дБ Время обучения, час Оборудование Наборы данных

High Quality Monocular Depth Estimation via Transfer Learning 0.938 0.465 10-20 GTX Titan Xp NYU Depth V2 KITTI

RC-MVSNet: Unsupervised Multi-View Stereo with Neural Rendering 0.794 3.39 15 4x RTX 3090 DTU Tanks and Temples

SimpleRecon: 3D Reconstruction Without 3D Convolutions 0.827 5.81 36 2x A100 40Gb ScanNetV2

Unsupervised Monocular Depth Learning in Dynamic Scenes 0.909 6.98 N/A NVIDIA V100 CityScapes KITTI Waymo

Instant Neural Graphics Primitives with a Multiresolution Hash Encoding 0.969 3.91 0.07 RTX 3090 N/A

ристик моделей

Таблица 7

В методе Instant Neural Graphics Primitives with a Multiresolution Hash Encoding сочетаются и высокая средняя пороговая точность, и низкая средняя относительная ошибка. Вместе с этим время обучения модели на несколько порядков превосходит все представленные в данной работе методы. Таких результатов авторам данного метода удалось добиться благодаря оптимизации работы на современных видеокартах Nvidia поколений Pascal, Turing, Ampere и Ada Lovelace.

Заключение. В рамках данной работы проведен сравнительный анализ пяти современных моделей искусственного интеллекта для трехмерной реконструкции объектов реального мира. Для проведения данного анализа определены критерии, относящиеся к качеству реконструируемых моделей: средняя пороговая точность и пиковое отношение сигнала к шуму, а также критерии, относящиеся ко времени обучения модели: используемое оборудование и наборы данных. Для корректного сравнения рассматриваемых методов предложены такие метрики, как средняя пороговая точность, пиковое отношение сигнала к шуму, время обучения, оборудование и наборы данных. В сравнительном анализе для более корректного сравнения вместо среднеквадратичной ошибки используется производное пиковое отношение сигнала к шуму. Благодаря новой метрике появилась возможность сравнить исследуемые методы независимо от битности входящих фотографий и получаемых трехмерных моделей. Все представленные модели обладают достаточным качеством реконструкции, однако для большинства из них требуется значительное количество вычислительных ресурсов: высокопроизводительные графические процессоры, большие объемы видеопамяти и многие часы обучения моделей.

Среди них выделяется метод Instant Neural Graphics Primitives with a Multiresolution Hash Encoding, который при схожем качестве реконструированной модели требует значительно меньше времени для восстановления объекта в виртуальном пространстве. В дальнейших работах на базе данного метода будет разработан усовершенствованный метод 3Б-реконструкции протяженных объектов с оценкой качества генерируемой модели.

Список литературы

1. Шестопалова О.Л., Шестопалов Р.П. Об интеграции BIM-технологии информационного моделирования зданий с методами фотограмметрии при построении цифровых моделей объектов в архитектурно-строительной отрасли. // Известия Тульского государственного университета. Технические науки. 2022. Вып. 8. С. 138-143.

2. Шестопалов Р.П., Заславский М.М. Сравнительный анализ алгоритмов сбора данных для трехмерной реконструкции // Научно-технический семинар кафедры МОЭВМ. 2022. С. 16-21.

3. ГОСТ Р 51833-2001 «Фотограмметрия. Термины и определения»: утвержден Постановлением Госстандарта России от 10 декабря 2001 г. № 523-ст: введен в действие с 01 июля 2002. М.: Стандартинформ, 2020. [Электронный ресурс] URL: https://docs.cntd.ru/document/1200028874 (дата обращения: 02.12.2023).

4. Фотограмметрия. [Электронный ресурс] URL: https://geostart.ru/post/293 (дата обращения: 02.12.2023).

5. Wolfgang Kresse Status of iso standards for photogrammetry and remote sensing: — Eurocow Neubrandenburg, Germany, 2010. [Электронный ресурс] URL:: https://www.isprs.org/proceedings/xxxviii/eurocow2010/eurocow2010 files/papers/24.pdf (дата обращения: 27.01.2024).

6. Despoina Paschalidou, Ali Osman Ulusoy, Carolin Schmitt, Luc van Gool, Andreas Geiger. RayNet: Learning Volumetric 3D Reconstruction with Ray Potentials. // 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA, 2018. [Электронный ресурс] URL: https://ieeexplore.ieee.org/document/8578508 (дата обращения: 02.12.2023).

7. Волкович А.Н. Параллельная реализация многокритериального метода построения карт диспаратности // Объединенный институт проблем информатики НАН Беларуси, 2012. [Электронный ресурс] URL: https://hpc-education.unn.ru/files/conference hpc/2012/files/77.pdf (дата обращения: 04.12.2023).

8. Волкович А.Н. Многокритериальный метод построения карты диспаратности и его реализация средствами GPGPU // Объединенный институт проблем информатики НАН Беларуси, 2013. [Электронный ресурс] URL: https://hpc-education.unn.ru/files/conference hpc/2013/files/15.pdf (дата обращения: 04.12.2023).

9. Чафонова В.Г., Газеева И.В. Методы формирования изображений стереопары с заданным значением параллакса. // Научно-технический вестник информационных технологий, механики и оптики. 2014. № 6 (94). [Электронный ресурс] URL: https://cyberleninka.ru/article/n/metody-formirovaniya-izobrazheniy-stereopary-s-zadannym-znacheniem-parallaksa (дата обращения: 04.12.2023).

10. Волкович А.Н., Жук Д.В., Тузиков А.В. Восстановление трехмерных моделей объектов по стереоизображениям с учетом распараллеливания // Научно-технический вестник информационных технологий, механики и оптики. 2008. № 58. [Электронный ресурс] URL: https://cyberleninka.ru/article/n/vosstanovlenie-trehmernyh-modeley-obektov-po-stereoizobrazheniyam-s-uchetom-rasparallelivaniya (дата обращения: 04.12.2023).

11. Конов С.Г., Хохоликов А.А., Гололобова А.А. Применение структурированного света для фотограмметрического метода измерений поверхностей сложной формы // Измерительная техника, 2015. № 7, С.21-23.

12. Di Chang, Aljaz Bozic, Tong Zhang, Qingsong Yan, Yingcong Chen, Sabine Süsstrunk, Matthias Nießner. RC-MVSNet: Unsupervised Multi-View Stereo with Neural Rendering // ECCV, 2022. [Электронный ресурс] URL: https://arxiv.org/abs/2203.03949 (дата обращения: 04.12.2023).

13. Ibraheem Alhashim, Peter Wonka. High Quality Monocular Depth Estimation via Transfer Learning. // arXiv:1812.11941, 2018. [Электронный ресурс] URL: https://arxiv.org/abs/1812.11941 (дата обращения: 04.12.2023).

14. Victor Basu. Monocular depth estimation. // Keras, 2021. [Электронный ресурс] URL: https://keras.io/examples/vision/depth estimation/ (дата обращения: 04.12.2023).

15. Mohamed Sayed, John Gibson, Jamie Watson, Victor Prisacariu, Michael Firman, Clement Godard. SimpleRecon: 3D Reconstruction Without 3D Convolutions. // ECCV, 2022. [Электронный ресурс] URL: https://nianticlabs.github.io/simplerecon/resources/SimpleRecon.pdf (дата обращения: 04.02.2024).

16. Nathan Silberman. NYU-Depth V2. 2013. [Электронный ресурс] URL: https://cs.nyu.edu/~silberman/datasets/nyu depth v2.html (дата обращения: 03.03.2024).

17. Geiger A., Lenz P., Stiller C., Urtasun R. KITTI. 2012 [Электронный ресурс] URL: https://www.cvlibs.net/datasets/kitti (дата обращения: 03.03.2024).

18. Rasmus Jensen, Anders Dahl, George Vogiatzis, Engin Tola, Henrik Aanaes. Large Scale Multi-view Stere-opsis Evaluation // CVPR. 2014. [Электронный ресурс] URL: https://roboimagedata.compute.dtu.dk/7page id=36 (дата обращения: 03.03.2024).

19. Arno Knapitsch, Jaesik Park, Qian-Yi Zhou, Vladlen Koltun. Tanks and Temples: Benchmarking Large-Scale Scene Reconstruction. ACM Transactions on Graphics. №36. 2017.

20. Khot T., Agrawal S., Tulsiani S., Mertz C., Lucey S., Hebert M. Learning unsupervised multi-view stereopsis via robust photometric consistency. arXiv preprint arXiv:1905.02706, 2019,

21. Wang Z., Bovik A.C., Sheikh H.R., Simoncelli E.P. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing 13(4), 2004. P. 600-612.

22. Xu H., Zhou Z., Qiao Y., Kang W., Wu Q. Self-supervised multi-view stereo via effective co-segmentation and data-augmentation. In: Proceedings of the AAAI Conference on Artificial Intelligence, 2021. Vol. 2. P. 6.

23. Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Nie-ner, Matthias. ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes // Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. 2017.

24. Heidi Schuster. The CityScapes Dataset. // 2020. [Электронный ресурс] URL: https://www.cityscapes-dataset.com (дата обращения: 03.03.2024).

26. Что такое NeRF? [Электронный ресурс] URL: https://aws.amazon.com/ru/what-is/neural-radiance-fields (дата обращения: 03.03.2024).

27. Thomas Müller, Alex Evans, Christoph Schied, Alexander Keller. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding // 2022. [Электронный ресурс] URL: https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf (дата обращения: 03.03.2024).

Шестопалов Роман Павлович, ассистент, roman. shestopalov@moevm. info, Россия, Санкт-Петербург, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина),

Заславский Марк Маркович, заместитель заведующего кафедрой, mmzaslavskii@etu. ru, Россия, Санкт-Петербург, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина),

Лисс Анна Александровна, заведующий кафедрой, [email protected], Россия, Санкт-Петербург, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)

COMPARATIVE ANALYSIS OF ARTIFICIAL INTELLIGENCE MODELS FOR 3D RECONSTRUCTION OF REAL WORLD

OBJECTS

R.P. Shestopalov, M.M. Zaslavkiy, A.A. Liss

The article presents the results of a comparative analysis of artificial intelligence models and methods for three-dimensional reconstruction of extended objects in the real world. When selecting publications for comparative analysis, special attention was paid to those that describe methods applicable to large objects in open space. An additional condition was imposed on the sources of input data for artificial intelligence models - the models for which the comparison was carried out used only sets of RGB photographs of objects in open space as input data. Thanks to the use of artificial intelligence models and methods, the authors of the publications reviewed in the analysis managed to achieve an increase in the speed of object reconstruction by several orders of magnitude in comparison with classical reconstruction methods, such as the disparity method, stereo pairs or light structuring. In addition, the following criteria were used to conduct a comparative analysis: average threshold accuracy, peak signal-to-noise ratio, training time. It is proposed to give preference to the «Instant Neural Graphics Primitives with a Multiresolution Hash Encoding» method, which, with similar quality of the reconstructed model, requires significantly less time than other analogues under consideration to restore an object in virtual space.

Key words: 3D-reconstruction, artificial intelligence methods.

Shestopalov Roman Pavlovich, assistant, [email protected], Russia, St. Petersburg, St. Petersburg State Electrotechnical University «LETI» named after. V.I. Ulyanova (Lenin),

Zaslavskiy Mark Markovich, deputy head of the department, mmzaslavskii@etu. ru, Russia, St. Petersburg, St. Petersburg State Electrotechnical University «LETI» named after. V.I. Ulyanova (Lenin),

Liss Anna Aleksandrovna, head of the department, [email protected], Russia, St. Petersburg, St. Petersburg State Electrotechnical University «LETI» named after. V.I. Ulyanova (Lenin)

УДК 519.2:330

Б01: 10.24412/2071-6168-2024-5-273-274

МОДЕЛЬ ПРОГНОЗИРОВАНИЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО ИНДЕКСА ПРОВИНЦИЙ

ВЬЕТНАМА

Нгуен Тхи Тху Зунг, Л.В. Черненькая

В настоящее время прогнозирование флуктуаций социально-экономического развития регионов имеет важное практическое значение, поскольку позволяет не только оценить направления социально-экономического развития регионов, но и является основой для выработки правильной политики социально-экономического развития. В частности, применение математических моделей для прогнозирования социально-экономических проблем весьма поощряется и требует разработки методов повышения результативности прогнозирования. Модель прогнозирования, основанная на интуиционистской нечеткой системе вывода, является интеллектуальным и передовым методом прогнозирования, который в настоящее время представляет большой интерес и доказал, что приносит хорошие результаты прогнозирования. В данной статье предложенная модель прогнозирования на основе интуиционистской нечеткой системы выводов, преобразованной в TSK, применяется для прогнозирования индекса социально-экономического развития 63 провинций Вьетнама. Результаты прогнозирования оцениваются и сравниваются с другими методами прогнозирования, показывая, что предложенная модель имеет более точные результаты прогнозирования.

Ключевые слова: многофакторное прогнозирование, интуиционистская нечеткая система выводов, прогнозирование индекса социально-экономического развития, модель прогнозирования.

Задача прогнозирования индекса социально-экономического развития провинций Вьетнама на основе интуиционистской нечеткой системы вывода TSK с весами главных компонент с комбинацией интуиционистского нечеткого метода кластеризации С-средних определяется следующим образом [1-14]:

- Цели: Прогнозирование индекса социально-экономического развития 63 провинций Вьетнама в 2020 году. В частности, использовать социально-экономические данные и статистику индекса социально-экономического развития провинций в 2019 году для обучения.

- Входные данные: По данным Главного статистического управления Вьетнама, критерии оценки социально-экономического развития регионов включают 20 основных критериев, разделенных на 120 подкритериев. Исходные данные включают данные о социально-экономическом развитии 63 провинций Вьетнама в соответствии со 120 показателями на 2019 и 2020 годы и данные об индексе социально-экономического развития на 2019 год.

i Надоели баннеры? Вы всегда можете отключить рекламу.