ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА 2024 Управление, вычислительная техника и информатика № 68
Tomsk: State University Journal of Control and Computer Science
Научная статья УДК 519.7
doi: 10.17223/19988605/68/8
Сегментация дефектов дорожного полотна на основе нейросетевого ансамбля Ирина Александровна Канаева1, Владимир Григорьевич Спицын2
12Национальный исследовательский Томский политехнический университет, Томск, Россия 2Национальный исследовательский Томский государственный университет, Томск, Россия
Аннотация. Своевременная диагностика качества дорожного покрытия и обнаружение дефектов являются немаловажным этапом обеспечения безопасности на дороге. Цель данной работы - разработка набора данных и нейросетевой модели для сегментации разрушений на изображениях автомобильных дорог. Собран и аннотирован на уровне пикселей набор данных SegmRDD, содержащий 4 420 изображений с дефектами трех классов: «трещины», «сетка трещин», «выбоины». Набор данных сбалансирован и охватывает дорожную обстановку пяти стран, включая Россию. Разработан ансамбль на основе трех независимо обученных нейросетевых моделей YOLOv8, U-Net, Mask R-CNN и оригинального алгоритма объединения результатов, позволяющий получить агрегированный показатель полноты и точности Fi, равный 70%.
Ключевые слова: семантическая сегментация; обнаружение дефектов покрытия; сверточные нейронные сети; нейросетевой ансамбль.
Для цитирования: Канаева И.А., Спицын В.Г. Сегментация дефектов дорожного полотна на основе нейросетевого ансамбля // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2024. № 68. С. 75-85. 10.17223/19988605/68/8
Original article
doi: 10.17223/19988605/68/8
Road damage defects segmentation based on convolutional neural network ensemble
Irina A. Kanaeva1, Vladimir G. Spitsyn2
12 National Research Tomsk Polytechnic University, Tomsk, Russian Federation 2 National Research Tomsk State University, Tomsk, Russian Federation
Abstract. Early monitoring road conditions and defect detection are an important step in ensuring road safety. The work presents a new road damage segmentation dataset SegmRDD. It contains 4420 images with defects of three classes "cracks", "alligator crack", "potholes" well annotated at the pixel level. The dataset is balanced and covers the roads of five countries, including Russia. Developed ensemble model based on three parallel-trained neural network models YOLOv8, U-Net, Mask R-CNN with combining results, and achieved an Fl-score of 70% for all defects.
Keywords: semantic segmentation; road damage detection; convolutional neural networks; neural network ensemble.
For citation: Kanaeva, I.A., Spitsyn, V.G. (2024) Road damage defects segmentation based on convolutional neural network ensemble. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaja tehnika i informa-tika - Tomsk State University Journal of Control and Computer Science. 68. pp. 75-85. doi: 10.17223/19988605/68/8
© И.А. Канаева, В.Г. Спицын, 2024
Введение
На начало 2024 г. протяженность дорог в России составляет более 1,6 млн км. Высокая интенсивность трафика и сложные погодные условия часто приводят к деформации и частичному разрушению асфальтобетонных покрытий. Для своевременного мониторинга состояния дорог и оценки качества дорожного покрытия используются передвижные дорожные лаборатории, оснащенные системой видеокамер, гироинерциальной системой позиционирования, приемником GPS, системой измерения ровности и расстояния, а также другими датчиками. С помощью системы видеокамер осуществляется видеосъемка на всей протяженности обследуемого участка. В настоящий момент дальнейшая обработка данных, полученных в ходе диагностики, практически полностью не автоматизирована. Специалист вручную отмечает на видео все необходимые для анализа объекты, такие как линии разметки, кромка дорожного полотна, дефекты дорожного покрытия. Трудоемкость процесса выделения дефектов, а также бурное развитие современных методов компьютерного зрения позволяют судить об актуальности автоматизации процесса обнаружения дефектов.
За последнее десятилетие учеными из разных стран предпринят ряд попыток разработать метод анализа качества дорожного покрытия по изображению или видеозаписи камеры на основе технологий обработки изображений для более эффективной диагностики дорожного покрытия. Исторически вначале исследовались изображения, полученные непосредственно сверху, над дорогой, и использовались методы фильтрации для отделения трещин от основной текстуры покрытия [1, 2].
Обширные исследования проводились в области построения различных классификаторов для определения того, содержит ли фрагмент покрытия дороги определенный тип разрушения. Для этого применялись различные методы машинного обучения: нейронные сети [3], машины опорных векторов [4], градиентный бустинг [5], деревья решений [6], вероятностные генеративные модели [7].
Успехи в разработке эффективных архитектур глубоких сверточных нейронных сетей (СНС) в 2016 г. привлекли внимание ученых, и была продемонстрирована возможность их успешного применения к данной задаче [8, 9]. В 2018 г. на соревновании Road Damage Detection Challenge был предоставлен в открытом доступе набор данных для детектирования дефектов покрытия RDD2018, который описан в работе японского ученого H. Maeda и соавт. [10] и используется для обучения глубоких СНС. Данное событие подняло интерес к детектированию различных дефектов по общему изображению, снятому из машины. Лучшее решение задачи детекции 4-х классов на расширенном наборе данных RDD2022 достигло оценки Fi = 77% и основано на ансамбле из моделей YOLOv5, YOLOv7, Faster R-CNN и SWIN трансформер [11].
Переходом от задачи выделения дефектов ограничивающей рамкой к выделению пиксельной маски разрушения является работа исследователей из Новой Зеландии [12], которые вручную аннотировали по 143 изображения из четырех наборов данных, включая RDD2018, для сегментации выбоин на дороге. В результате авторы обучили по полученным данным модель Mask R-CNN и получили высокую точность на тестовом наборе.
На данный момент задача детектирования дефектов по изображениям из разных стран с различными ракурсами съемки является наиболее актуальной. Однако постепенно происходит переход от детекции к сегментации дефектов. Так, в конце 2023 г. китайскими исследователями был продемонстрирован первый бенчмарк в области интеллектуальной дорожной инспекции UDTIRI [13]. Бенчмарк представляет собой хорошо аннотированный на уровне пикселей набор данных из 1 000 изображений выбоин, который можно использовать для обучения и оценки сетей обнаружения объектов, семантической сегментации и сегментации экземпляров. Еще одним перспективным направлением в сфере дорожной инспекции является обработка 3D-изображений, полученных с помощью лазерного сканирования или съемки стереопары [14].
Анализ имеющихся публично открытых наборов данных показал, что сегодня не существует единой выборки для решения задачи сегментации основных типов дефектов покрытия (трещин и выбоин). Цель данной работы - разработка набора данных и нейросетевой модели для сегментации дефектов дорожного полотна на изображениях автомобильных дорог. Получены следующие результаты:
представлен набор данных SegmRDD, содержащий 4 420 изображений автомобильных дорог с дефектами трех классов: трещинами, сеткой трещин и выбоинами. Набор данных сбалансирован и охватывает дорожную обстановку Бразилии, Канады, Чехии, Японии и России. Разработанный ансамбль на основе трех независимо обученных нейросетевых моделей YOLOv8, U-Net, Mask R-CNN и оригинального алгоритма объединения результатов позволил получить точность сегментации по агрегированному критерию качества F1, равную 70%.
1. Накопленный опыт мониторинга состояния дорожного покрытия 1.1. Статистический анализ дорожно-транспортных происшествий в России
Выбоина - это местное разрушение дорожного покрытия, имеющее вид углубления с резко очерченными краями. Одной из причин образования выбоин является развитие одиночных трещин или сетки трещин. Выбоины на дороге способны привести к авариям и повреждениям автомобилей, так как они могут вызывать внезапные рывки в управлении автомобилем, особенно на высоких скоростях. По статистике Госавтоинспекции, в дорожно-транспортных происшествиях (ДТП) в России за 2022 г. погибли свыше 14 тыс. человек и пострадали более 160 тыс. Более 75% всех ДТП происходит в городах, при этом основной или сопутствующей причиной каждого третьего происшествия является неудовлетворительное состояние дорог и улиц. В результате наличия данного отягчающего фактора только в 2022 г. погибли свыше 4 тыс. человек (рис. 1).
Рис. 1. Статистика ДТП в России по причине неудовлетворительного состояния улиц и дорог Fig. 1. Russian road accident statistics due to poor road quality surfaces
С 2019 г. в Российской Федерации реализуется национальный проект «Безопасные качественные дороги», цель которого - повышение качества дорог и улучшение доступности инфраструктуры, Реализация данного проекта позволила значительно сократить общую смертность на дорогах: -17% в 2022 г. относительно 2019 г., а показатель смертности на 100 тыс. населения составил 9,8. Данная статистика еще раз подчеркивает важность своевременной диагностики и выявления дефектов дорожного покрытия.
Трещины покрытия дороги не отображены в ГОСТ Р 50597-2017 как вид дефекта, так как сами по себе не несут опасности для участников движения. Однако важность обнаружения именно трещин на ранних стадиях подтверждается тем, что они служат «первоосновой» более сложных дефектов и требуют меньших затрат на ремонт.
1.2. Классификация существующих методов детектирования дефектов
Наиболее распространенным способом выявления дефектов является подход на основе анализа изображений автомобильных дорог благодаря невысоким затратам по получению таких данных и широкому спектру различных технологий компьютерного зрения. Обновленная классификация
накопленного опыта в области методов обнаружения дефектов покрытия по изображению представлена в табл. 1 [15].
Таблица 1
Классификация накопленного опыта
Класс выделяемых повреждений Тип ракурса Тип решаемой задачи Сложность применяемой модели
1. Трещины (одиночные, сетка трещин). 2. Разрушения (ямы, выбоины, проломы). 3. Износ дорожной разметки. 4. Выпотевание вяжущего 1. Вид сверху. 2. Вид водителя. 3. Общий вид. 4. Вид камеры заднего вида 1. Классификация. 2. Детектирование. 3. Сегментация 1. Обработка изображений. 2. Машинное обучение. 3. Глубокое обучение
По типу ракурса исторически наиболее развито направление обработки изображений, полученных непосредственно сверху над поверхностью автомобильной дороги. Однако сам процесс получения таких изображений сопряжен с трудностями размещения камер для полного охвата проезжей части, освещения поверхности и высокого разрешения картинки, часто это сопряжено с невысокой скоростью езды и загрязнением камеры. Расположение камеры спереди транспортного средства позволяет получать полную информацию о дорожной ситуации, однако дорожное полотно удалено и часто перекрыто капотом в нижней части изображения.
Рис. 2. Способы расположения камеры на дорожной лаборатории для ракурсов вида:
a - общий, b - водителя, c - сверху, d - камеры заднего вида Fig. 2. Representation of the camera placement used by vehicle platform for different views: a) street view, b) wide view, c) top-down view, d) rear camera view
На рис. 2 схематично представлены использующиеся способы расположения камер для регистрации дорожного покрытия.
1.3 Существующие наборы данных
Несмотря на многообразие представленных методов детектирования дефектов автомобильных дорог, в настоящее время количество общедоступных наборов данных для сегментации дефектов невелико. Так как исторически вначале развивались подходы, основанные на применении фильтров для выделения трещин на покрытии, исследователи создавали наборы изображений, снятые непосредственно над покрытием, сверху. Во многих публикациях используются собственные закрытые наборы данных, что затрудняет воспроизводимость и сопоставимость показанных в работах результатов. В табл. 2 представлено сравнение наиболее популярных и открытых наборов данных для решения задач выделения дефектов дорожного полотна.
Таблица 2
Свободно-доступные наборы данных для обнаружения дефектов дорожного покрытия
Наименование и место сбора Количество, штук Размер, пиксель Тип ракурса Классы дефектов
Классификация
FHWA/LTPP [9] (США и Канада) 1 056 2 048 х 3 072 Вид сверху 2 (неповрежденная дорога, трещина)
Окончание табл. 2
Наименование и место сбора Количество, штук Размер, пиксель Тип ракурса Классы дефектов
Детектирование
GAPs v2 [16] (Германия) 2 468 1 920 х 1 080 Вид сверху 6 (неповрежденная дорога, трещина, заплатка, заплатка с пропиткой, выбоина, открытый шов покрытия)
Pavement Image Datasets (PID) [17] (США) 7 237 640 х 640 Вид водителя и полученный вид сверху 10 (8 типов трещин, выбоины, выкрашивания)
CQU-BPDD [18] (Китай) 60 059 1 200 х 900 Вид сверху 6 (неповрежденная дорога, 5 типов трещин)
RDD2018 [10] (Япония) 9 053 600 х 600 Вид водителя 8 (5 типов трещин, выбоины, износ разметки пешеходного перехода, износ разметки линий)
RDD2019 [19] (Япония) 13 135 600 х 600 Вид водителя 9 (те же в КСБ2018 + ревизионный люк)
RDD2020 [20] (Япония, Индия, Чехия) 26 620 600 х 600, 720 х 720 Вид водителя 4 (продольная трещина, поперечная трещина, сетка трещин, выбоина)
RDD2022 [21] (Япония, Индия, Чехия, Норвегия, США, Китай) 47 420 512 х 512, 600 х 600, 720 х 720, 3 650 х 2 044 Вид водителя, вид сверху, общий вид 4 (продольная трещина, поперечная трещина, сетка трещин, выбоина)
SVRDD [22] (Китай) 8 000 (6 000-1 000-1 000) 1 024 х 1 024 Общий вид 7 (продольная трещина, поперечная трещина, сетка трещин, выбоина, продольная заплатка, поперечная заплатка и ревизионный люк)
Сегментация
CRACKTree200 [1] (Китай) 206 800 х 600 Вид сверху 2 (неповрежденная дорога, трещина)
CFD [23] (Китай) 118 480 х 320 Вид сверху 2 (неповрежденная дорога, трещина)
EdmCrack600 [24] (Канада) 600 1 920х1 080 Вид камеры заднего вида 2 (фон, трещина)
DNIT [25] (Бразилия) 2 235 1 024 х 640, 1 024 х 630 Вид водителя 4 (трещина, выбоина, полоса движения, фон)
Farzad Road Damage [26] (Интернет) 780(720-60) 640 х 640 Различный 2 (фон, выбоина)
UDTIRI [13] (Интернет) 1 000 (600-100-300) Различный Различный 2 (фон, выбоина)
Ввиду различных топологий дефектов, в частности диагональных трещин, прямоугольная область выделения может захватывать множество лишней информации, что вносит трудности в определение площади поврежденного покрытия. Для целей оценки качества автомобильной дороги наилучшим вариантом является выделение дефектов с помощью пиксельной маски, однако создание такого набора данных является трудозатратным.
2. Создание набора данных для задачи сегментации дефектов
Итоговый набор данных SegmRDD для обнаружения дефектов основан на разметке четырех свободно распространяемых наборов данных и двух новых, собранных авторами:
1. DNIT - исходная аннотация на уровне пикселей была переведена в полигональные сегмента-ционные маски, класс Crack был разделен на классы «трещины» и «сетка трещин»; применен фильтр Гаусса к полосе встречного движения для маскировки неразмеченных дефектов.
2. EdmCrack600 - разметка трещин переведена в полигональные сегментационные маски, размечены дополнительно встречающиеся выбоины.
3. UDTIRI - отобраны изображения, содержащие только класс «выбоины».
4. RDD2020 - отобраны изображения из коллекций Japan и Czech, произведена разметка на уровне пикселей для трех классов дефектов.
5. RusRDD - размечены изображения российских дорог.
6. SynRDD - синтетические изображения для классов «трещины» и «выбоины», генерация которых описана в работе[15].
На рис. 3 представлены распределения классов в выборках, описанных выше.
у 3500
g 3000 о.
| 2500
| 2000
* 1500 о
а юоо
Е 500 п
DN1T EdmCiack 600 UDTIR1 RDD2020 RusRDD SynRDD итого SegmRDD
Трещина 665 1382 55 82 658 490 3332
■ Сетка трещин 3139 0 31 114 53 0 3337
■ Выбоина 1567 25 577 463 253 450 3335
^изображении 2235 600 362 320 203 700 4420
^экземпляров 5371 1407 663 659 964 940 10004
Рис. 3. Распределение классов в разработанном наборе данных для сегментации дефектов SegmRDD Fig. 3. Statistic of the number of damage instances included in the presented segmentation dataset SegmRDD
Полученный набор данных состоит из 4 420 изображений дорог из пяти стран: Бразилии, Канады, Чехии, Японии, России. Коллекция RDD2020 включает в себя также дорожную обстановку Индии, которая ввиду значительных отличий по сравнению с российскими дорогами не рассматривалась. В работе авторов положительно оценивается применимость японской модели RDD2020 для других стран только в случае использования модели как базовой и обязательного дополнения изображениями из самой страны применения. Авторы рекомендуют смешивать коллекции дефектов покрытия разных стран для увеличения количества данных, предотвращения переобучения нейросетевых моделей и увеличения их обобщаемости.
Благодаря включению изображений SynRDD со сгенерированными трещинами и выбоинами полученный набор данных сбалансирован и имеет примерно по 3 330 экземпляров дефектов каждого класса.
3. Исследование и разработка нейросетевых моделей обнаружения дефектов 3.1. Модель детектирования дефектов
В 2024 г. китайские ученые представили открытый набор данных общего вида SVRDD для детектирования таких видов разрушений, как продольная трещина, поперечная трещина, сетка трещин, выбоина, продольная заплатка, поперечная заплатка и ревизионный люк. Набор данных содержит 8 000 изображений 1 024 х 1 024 пикселей.
Модель YOLO является одноступенчатой архитектурой, которая обрабатывает изображение в исходном масштабе за один проход, рассматривая задачу детектирования как задачу регрессии ограничивающих рамок и классов объектов. Архитектура YOLO подразделяется на СНС для вычисления признаков изображения, называемую backbone, подсеть для обработки признаков neck и head - объединение частей, отвечающих за предсказание ограничивающей рамки. В [27] показано, что модель YOLOv8 позволяет достигать самых современных результатов в различных тестах обнаружения объектов и семантической сегментации (YOLOv8-seg) при сохранении высокой скорости и эффективности. Авторы фреймворка представили пять конфигураций модели YOLOv8, по-разному опти-
мизированных для улучшения скорости и точности и предварительно обученных на наборе данных COCO.
Для обучения нейросетевой модели YOLOv8 все изображения были масштабированы до размера входа сети 640 х 640 пикселей. Для ускорения обучения и улучшения точности модели часто применяют передачу обучения (transfer learning), заключающуюся в адаптации существующей обученной нейронной сети в разрабатываемую архитектуру. Для повышения производительности модели во время обучения YOLOv8 использует мозаичную аугментацию: объединяет четыре изображения в одно для изучения контекстов объектов в разных местах и на разном фоне. Обучение нейросети производилось в течение 90 эпох с помощью метода AdamW с начальной скоростью обучения 0,0001 и конечной 0,01, размер пакета равен 16. Оценка результатов лучшей модели YOLOv8s на проверочной и тестовой выборках по 1 000 изображений представлена в табл. 3.
Таблица 3
Точность детектирования YOLOv8s на выборке SVRDD
Класс Валидационная выборка, (%) Тестовая выборка, (%)
P R mAPa,5 mAP0,5:0,95 P R mAP0,5 mAP0,5:0,95
Все 0,755 0,621 0,693 0,435 0,760 0,617 0,690 0,433
Продольная трещина 0,717 0,638 0,686 0,444 0,697 0,630 0,664 0,438
Поперечная трещина 0,714 0,541 0,628 0,354 0,710 0,573 0,627 0,358
Сетка трещин 0,744 0,716 0,737 0,479 0,745 0,725 0,763 0,485
Выбоина 0,667 0,461 0,553 0,322 0,745 0,452 0,552 0,308
Ревизионный люк 0,853 0,715 0,796 0,498 0,849 0,657 0,766 0,481
Продольная заплатка 0,810 0,716 0,774 0,532 0,804 0,706 0,766 0,539
Поперечная заплатка 0,782 0,559 0,677 0,418 0,768 0,576 0,689 0,420
Полученные результаты Fi = 0,681 сопоставимы с полученными лучшими результатами в [22] путем обучения нейросетей YOLOv5 (Fi = 0,709; mAPo,s-.o,95 = 0,417) и YOLOX (Fi = 0,691; mAPo.s 0,95 = = 0,420) и превосходят их по метрике mAP0,5 0,95, обеспечивающей более полную оценку, так как данная метрика учитывает более широкий диапазон пороговых значений IoU, фиксируя как высокое, так и низкое перекрытие между предсказанными и реальными объектами.
Применение обученной модели к данным российских дорог показало точность 33%, что подтверждает необходимость разработки комплексного решения на основе нейросетевого ансамбля.
3.2. Модель сегментации дефектов
Анализ существующих датасетов показал, что использование накопленного массива данных для детектирования дефектов позволит уменьшить дисперсию модели сегментации. Обучение разных моделей на различных наборах данных и агрегация результатов часто работают лучше в сравнении с отдельной нейросетевой моделью [28]. Для построения нейросетевого ансамбля параллельным методом первым шагом является выбор сетей-компонентов. Для этого решено было использовать три современные нейросети: YOLOv8 для детектирования дефектов, U-Net для семантической сегментации и Mask R-CNN для инстанс-сегментации дефектов трех типов.
В состав ансамбля входит ранее описанная модель детекции YOLOv8, обученная на наборе данных SVRDD для выделения ограничивающих рамок семи классов, модель U-Net и Mask R-CNN для сегментации классов трещин, сетки трещин и выбоин, обученные на SegmRDD.
Модель U-Net соответствует представленной в работе [15], в качестве кодирующей части сети использовались начальные слои ResNet50, предобученной на наборе данных ImageNet.
Для обучения СНС Mask R-CNN использовалась технология переноса обучения с помощью предварительно обученной модели ResNet101 на наборе данных MS-COCO. На вход СНС подаются RGB-изображения размера 1 024 х 1 024, а в качестве масштабов анкоров используются следующие значения: 0,33; 0,5; 1; 2; 3. Обучение производилось на протяжении 40 эпох по 400 итераций с применением мини-масок размером 56 х 56 пикселей для оптимизации используемой памяти компьютера.
Вторым этапом создания ансамбля является разработка алгоритма объединения результатов предсказаний моделей, основные моменты которого включают:
1. Независимое получение предсказаний моделей с пороговой точностью более 20%.
2. Отсеивание дефектов класса «канализационный люк» или «заплатка».
3. Применение морфологической операции открытие над результатом U-Net, что позволяет удалить маленькие объекты.
4. Перебор всех экземпляров класса «трещины» Mask R-CNN и объединение с сегментацион-ными масками U-Net в соответствующем классе.
5. Объединение результатов в классах «выбоины» и «сетка трещин».
В результате работы нейросетевой ансамбль повышает точность сегментации (табл. 4).
Таблица 4
Точность нейросетевого ансамбля на тестовой выборке SegmRDD
YOLOv8 Mask R-CNN U-Net Ансамбль
Класс Fi mAPo,5 Fi mAP0,5 Fi mAP0,5 F1 mAP0,5
(box) (box) (mask) (mask) (mask) (mask) (mask) (mask)
Все 0,329 0,254 0,559 0,515 0,631 0,607 0,701 0,668
Трещина 0,255 0,163 0,377 0,292 0,632 0,609 0,652 0,612
Сетка трещин 0,328 0,264 0,611 0,600 0,691 0,663 0,701 0,685
Выбоина 0,403 0,335 0,688 0,652 0,570 0,550 0,750 0,707
Таким образом, использование трех независимо обученных нейросетевых моделей и оригинального алгоритма объединения результатов моделей позволило создать ансамбль с точностью сегментации по агрегированному критерию качества равному 70%. Примеры результатов сегментации на тестовых изображениях из набора данных дефектов SegmRDD приведены на рис. 4.
d e f
Рис. 4. Примеры результатов сегментации на тестовых изображениях из набора данных дефектов SegmRDD по выборкам: a - RDD2020, b и с - RusRDD, d - UDTIRI, e - DNIT, f - EdmCrack600 Fig. 4. Examples of segmentation results on test images from the SegmRDD dataset by sets: a) RDD2020, b-с) RusRDD, d) UDTIRI, e) DNIT, f) EdmCrack600
Ввиду наличия в наборе данных SegmRDD образцов с разными типами ракурса к дорожному покрытию (вид водителя, вид сверху и т.д.), случаются ложные срабатывания в областях, не принадлежащих дороге. Также наблюдаются трудности в сегментации выбоин с нетипичным мусором. Так как в обучающем наборе данных присутствуют экземпляры выбоин с лужами и гравием, то в целом модель хорошо справляется с погодными проявлениями на дорожном покрытии.
Заключение
В работе проведен анализ актуальности темы автоматизации процесса дефектовки дорожного покрытия, приведена классификация накопленного опыта в обнаружении дефектов, выполнен обзор существующих открытых наборов данных, рассмотрены современные архитектуры СНС.
Представлен созданный сбалансированный мультинациональный набор данных SegmRDD, содержащий 4 420 изображений автомобильных дорог с дефектами трех классов: «трещины», «сетка трещин», «выбоины».
Разработан новый алгоритм для решения задач обнаружения, выделения и сегментации дефектов дорожного покрытия на основе ансамбля глубоких СНС, обеспечивающий высокие показатели полноты и точности (Fi = 70%).
Список источников
1. Zou C., Cao Y., Li Q., Mao Q., Wang S. CrackTree: Automatic crack detection from pavement images // Pattern Recognition
Letters. 2012. № 3 (33). P. 227-238. doi: 10.1016/j.patrec.2011.11.004
2. Salman M., Mathavan S., Kamal K., Rahman M. Pavement crack detection using the Gabor filter // Proc. IEEE Conference
on Intelligent Transportation Systems (ITSC 2013). 6-9 October. Hague, Netherlands. 2013. P. 2039-2044. doi: 10.1109/ITSC.2013.6728529
3. Shatnawi N. Automatic pavement cracks detection using image processing techniques and neural network // International Journal
of Advanced Computer Science and Applications. 2018. № 9 (9). P. 399-402. doi: 10.14569/IJACSA.2018.090950
4. Varadharajan S., Jose S., Sharma K., Wander L., Mertz C. Vision for road inspection // Proc. IEEE Winter Conference on Appli-
cations of Computer Vision. 2014. P. 115-122. doi: 10.1109/WACV.2014.6836111
5. Chatterjee S., Saeedfar P., Tofangchi S., Kolbe L. Intelligent Road maintenance: a machine learning approach for surface defect
detection // Proc. Twenty-Sixth European Conference on Information Systems (ECIS2018). Portsmouth, UK. 2018. P. 1-16.
6. Cubero-Fernandez A., Rodriguez-Lozano F.J., Villatoro R., Olivares J., Palomares J.M. Efficient pavement crack detection and
classification // EURASIP Journal on Image and Video Processing. 2017. № 39 (2017). P. 1-11. doi: 10.1186/s13640-017-0187-0
7. Ai D., Jiang G., Siew-Kei L., Li C. Automatic pixel-level pavement crack detection using information of multi-scale neighbor-
hoods // IEEE Access. 2018. № 6. P. 24452-24463. doi: 10.1109/ACCESS.2018.2829347
8. Zhang L., Yang F., Zhang Y.D., Zhu Y.J. Road crack detection using deep convolutional neural network // Proc. IEEE
International Conference on Image Processing (ICIP 2016). 25-28 September. Phoenix, USA. 2016. P. 3708-3712. doi: 10.1109/ICIP.2016.7533052.
9. Gopalakrishnan K., Khaitan S.K., Choudhary A., Agrawal A. Deep convolutional neural networks with transfer learning for com-
puter vision-based data-driven pavement distress detection // Construction and Building Materials. 2017. № 157 (September). P. 322-330. doi: 10.1016/j.conbuildmat.2017.09.110
10. Maeda H., Sekimoto Y., Seto T., Kashiyama T., Omata H. Road damage detection and classification using deep neural networks with smartphone images // Computer-Aided Civil and Infrastructure Engineering. 2018. № 12 (33). P. 1127-1141. doi: 10.1111/mice.12387
11. Arya D., Maeda H., Sekimoto Y. From global challenges to local solutions: A review of cross-country collaborations and winning strategies in road damage detection // Advanced Engineering Informatics. 2024. № 60. Art. 102388. doi: 10.1016/j.aei.2024.102388
12. Dhiman A., Klette R. Pothole detection using computer vision and learning // IEEE Transactions on Intelligent Transportation Systems. 2020. № 21 (8). P. 3536-3550. doi: 10.1109/TITS.2019.2931297
13. Guo S., Li L., Feng Y., Zhou D., Zhang D., Chen C., Su S., Zhu X., Chen Q., Fan R. UDTIRI: An online open-source intelligent road inspection benchmark suite // IEEE Transactions on Intelligent Transportation Systems. 2024. № 1. P. 1-12. doi: 10.1109/TITS.2024.3351209
14. Fan R., Ozgunalp U., Hosking B., Liu M., Pitas I. Pothole detection based on disparity transformation and road surface modeling // IEEE Transactions on Image Processing. 2020. № 29. P. 897-908. doi: 10.1109/TIP.2019.2933750
15. Канаева И.А., Иванова Ю.А., Спицын В.Г. Сегментация дефектов дорожного покрытия на основе формирования синтетических выборок с помощью глубоких генеративно-состязательных сверточных сетей // Компьютерная оптика. 2021. Т. 45, № 6. С. 907-916. doi: 10.18287/2412-6179-CO-844
16. Strieker R., Eisenbach M., Sesselmann M., Debes K., Gross H.-M. Improving visual road condition assessment by extensive experiments on the extended GAPs dataset // Proc. International Joint Conference on Neural Networks (IJCNN 2019). 14-19 July. Budapest, Hungary. IEEE, 2019. P. 1-8. doi: 10.1109/IJCNN.2019.8852257
17. Majidifard H., Jin P., Adu-Gyamfi Y., Buttlar W.G. Pavement Image Datasets: A new benchmark dataset to classify and densify pavement distresses // Transportation Research Record: Journal of the Transportation Research Board. 2020. № 2 (2674). P. 328339. doi: 10.1177/0361198120907283
18. Tang W., Huang S., Zhao Q., Li R., Huangfu L. An iteratively optimized patch label inference network for automatic pavement distress detection // IEEE Transactions on Intelligent Transportation Systems. 2022. V. 23 (7). P. 8652-8661. doi: 10.1109/ TITS.2021.3084809.
19. Maeda H., Kashiyama T., Sekimoto Y., Seto Y., Omata H. Generative adversarial network for road damage detection // Computer-Aided Civil and Infrastructure Engineering. 2021. № 36. P. 47-60. doi: 10.1111/mice.12561
20. Arya D., Maeda H., Ghosh S.K., Toshniwal D., Sekimoto Y. RDD2022: A multi-national image dataset for automatic Road Damage Detection Background and Summary. URL: https://arxiv.org/abs/2209.08538 (accessed: 22.06.2024).
21. Arya D., Maeda H., Ghosh S.K., Toshniwal D., Mraz A., Kashiyama T., Sekimoto Y. Transfer learning-based Road Damage Detection for multiple countries. URL: http://arxiv.org/abs/2008.13101 (accessed: 22.06.2024).
22. Ren M., Zhang X., Zhi X., Wei Y., Feng Z. An annotated street view image dataset for automated road damage detection // Scientific Data. 2024. № 1 (11). Art. 407. doi: 10.1038/s41597-024-03263-7
23. Shi Y., Cui L., Qi Z., Meng F., Chen Z. Automatic road crack detection using random structured forests // IEEE Transactions on Intelligent Transportation Systems. 2016. № 12 (17). P. 3434-3445. doi: 10.1109/TITS.2016.2552248
24. Mei Q., Gul M. A cost effective solution for pavement crack inspection using cameras and deep neural networks // Construction and Building Materials. 2020. № 256 (November). Art. 119397. doi: 10.1016/j.conbuildmat.2020.119397
25. Passos B.T., Cassaniga M.J., Fernandes A.M.R., Medeiros K.B., Comunello E. Cracks and potholes in road images. URL: https://biankatpas.github.io/Cracks-and-Potholes-in-Road-Images-Dataset (accessed: 20.05.2024).
26. Farzad. Pothole Segmentation YOLOv8 Dataset. URL: https://universe.roboflow.com/farzad/pothole_segmentation_yolov8 (accessed: 25.03.2024)
27. Jocher G., Chaurasia A., Qiu J. Ultralytics YOLO (Version 8.0.0). URL: https://github.com/ultralytics/ultralytics (accessed: 22.06.2024).
28. Харченко И.К., Боровской И.Г., Шельмина Е.А. Использование ансамбля сверточных нейронных сетей для распознавания дорожных знаков // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2022. № 61. С. 88-96. doi: 10.17223/19988605/61/9
References
1. Zou, C., Cao, Y., Li, Q., Mao, Q. & Wang, S. (2012) CrackTree: Automatic crack detection from pavement images. Pattern
Recognition Letters. 33(3). pp. 227-238. DOI: 10.1016/j.patrec.2011.11.004
2. Salman, M., Mathavan, S., Kamal, K. & Rahman, M. (2013) Pavement crack detection using the Gabor filter. Proceedings IEEE
Conference on Intelligent Transportation Systems (ITSC 2013). October 6-9. Hague. Netherlands. pp. 2039-2044. DOI: 10.1109/ITSC.2013.6728529
3. Shatnawi, N. (2018) Automatic Pavement Cracks Detection using Image Processing Techniques and Neural Network. Interna-
tional Journal of Advanced Computer Science and Applications. 9(9). pp. 399-402. DOI: 10.14569/IJACSA.2018.090950
4. Varadharajan, S., Jose, S., Sharma, K., Wander, L. & Mertz, C. (2014) Vision for road inspection. Proceedings IEEE Winter
Conference on Applications of Computer Vision, pp. 115-122. DOI: 10.1109/WACV.2014.6836111
5. Chatterjee, S., Saeedfar, P., Tofangchi, S. & Kolbe, L. (2018) Intelligent Road maintenance: a machine learning approach for surface
defect detection. Proceedings Twenty-Sixth European Conference on Information Systems (ECIS2018). Portsmouth. UK. pp. 1-16.
6. Cubero-Fernandez, A., Rodriguez-Lozano, F.J., Villatoro, R., Olivares, J. & Palomares, J.M. (2017) Efficient pavement crack
detection and classification. EURASIP Journal on Image and Video Processing. 39. pp. 1-11. DOI: 10.1186/s13640-017-0187-0
7. Ai, D., Jiang, G., Siew-Kei, L. & Li, C. (2018) Automatic pixel-level pavement crack detection using information of multi-scale
neighborhoods. IEEE Access. 6. pp. 24452-24463. DOI: 10.1109/ACCESS.2018.2829347
8. Zhang, L., Yang, F., Zhang, Y.D. & Zhu, Y.J. (2016) Road crack detection using deep convolutional neural network. Proceedings
IEEE International Conference on Image Processing (ICIP 2016). September 25-28. Phoenix. USA. pp. 3708-3712. DOI: 10.1109/ICIP.2016.7533052
9. Gopalakrishnan, K., Khaitan, S.K., Choudhary, A. & Agrawal, A. (2017) Deep convolutional neural networks with transfer learning
for computer vision-based data-driven pavement distress detection. Construction and Building Materials. 157. pp. 322-330. DOI: 10.1016/j.conbuildmat.2017.09.110
10. Maeda, H., Sekimoto, Y., Seto, T., Kashiyama, T. & Omata, H. (2018) Road damage detection and classification using deep neural networks with smartphone images. Computer-Aided Civil and Infrastructure Engineering. 33(12). pp. 1127-1141. DOI: 10.1111/mice.12387
11. Arya, D., Maeda, H. & Sekimoto, Y. (2024) From global challenges to local solutions: A review of cross-country collaborations and winning strategies in road damage detection. Advanced Engineering Informatics. 60. Art. 102388. DOI: 10.1016/j.aei.2024.102388
12. Dhiman, A. & Klette, R. (2020) Pothole detection using computer vision and learning. IEEE Transactions on Intelligent Transportation Systems. 8(21). pp. 3536-3550. DOI: 10.1109/TITS.2019.2931297
13. Guo, S., Li, L., Feng, Y., Zhou, D., Zhang, D., Chen, C., Su, S., Zhu, X., Chen, Q. & Fan, R. (2024) UDTIRI: An online open-source intelligent road inspection benchmark suite. IEEE Transactions on Intelligent Transportation Systems. 1. pp. 1-12. DOI: 10.1109/TITS.2024.3351209
14. Fan, R., Ozgunalp, U., Hosking, B., Liu, M. & Pitas, I. (2020) Pothole detection based on disparity transformation and road surface modeling. IEEE Transactions on Image Processing. 29. pp. 897-908. DOI: 10.1109/TIP.2019.2933750
15. Kanaeva, I.A., Ivanova, Yu.A. & Spitsyn, V.G. (2021) Segmentatsiya defektov dorozhnogo pokrytiya na osnove formirovaniya sinteticheskikh vyborok s pomoshch'yu glubokikh generativno-sostyazatel'nykh svertochnykh setey [Deep convolutional generative adversarial network-based synthesis of datasets for road pavement distress segmentation]. Komp'yuternaya optika. 45(6). pp. 907-916. DOI: 10.18287/2412-6179-C0-844
16. Stricker, R., Eisenbach, M., Sesselmann, M., Debes, K. & Gross, H.M. (2019) Improving visual road condition assessment by extensive experiments on the extended GAPs dataset. Proceedings International Joint Conference on Neural Networks (IJCNN 2019). July 14-19. Budapest. Hungary. pp. 1-8. DOI: 10.1109/IJCNN.2019.8852257
17. Majidifard, H., Jin, P., Adu-Gyamfi, Y. & Buttlar, W.G. (2020) Pavement Image Datasets: A new benchmark dataset to classify and densify pavement distresses. Transportation Research Record: Journal of the Transportation Research Board. 2674(2). pp. 328-339. DOI: 10.1177/0361198120907283
18. Tang, W., Huang, S., Zhao, Q., Li, R. & Huangfu, L. (2022) An iteratively optimized patch label inference network for automatic pavement distress detection. IEEE Transactions on Intelligent Transportation Systems. 23(7). pp. 8652-8661. DOI: 10.1109/TITS.2021.3084809
19. Maeda, H., Kashiyama, T., Sekimoto, Y., Seto, Y. & Omata, H. (2021) Generative adversarial network for road damage detection. Computer-Aided Civil and Infrastructure Engineering. 36. pp. 47-60. DOI: 10.1111/mice.12561
20. Arya, D., Maeda, H., Ghosh, S.K., Toshniwal, D. & Sekimoto, Y. (n.d.) RDD2022: A multi-national image dataset for automatic Road Damage Detection Background and Summary. URL: https://arxiv.org/abs/2209.08538 (Accessed: 22nd June 2024).
21. Arya, D., Maeda, H., Ghosh, S.K., Toshniwal, D., Mraz, A., Kashiyama, T. & Sekimoto, Y. (n.d.) Transfer learning-based Road Damage Detection for multiple countries. [Online] Available from: http://arxiv.org/abs/2008.13101 (Accessed: 22nd June 2024).
22. Ren, M., Zhang, X., Zhi, X., Wei, Y. & Feng, Z. (2024) An annotated street view image dataset for automated road damage detection. Scientific Data. 11(1). Art. 407. DOI: 10.1038/s41597-024-03263-7
23. Shi, Y., Cui, L., Qi, Z., Meng, F. & Chen, Z. (2016) Automatic road crack detection using random structured forests. IEEE Transactions on Intelligent Transportation Systems. 17(12). pp. 3434-3445. DOI: 10.1109/TITS.2016.2552248
24. Mei, Q. & Gul, M. (2020) A cost effective solution for pavement crack inspection using cameras and deep neural networks. Construction and Building Materials. 256. pp. 119397-119397. DOI: 10.1016/j.conbuildmat.2020.119397
25. Passos, B.T., Cassaniga, M.J., Fernandes, A.M.R., Medeiros, K.B. & Comunello, E. (n.d.) Cracks and potholes in road images. [Online] Available from: https://biankatpas.github.io/Cracks-and-Potholes-in-Road-Images-Dataset. (Accessed: 20th May 2024).
26. Farzad. (n.d.) Pothole Segmentation YOLOv8 Dataset. [Online] Available from: https://universe.roboflow.com/farzad/pothole_ segmentation_yolov8 (Accessed: 25th March 2024).
27. Jocher, G., Chaurasia, A. & Qiu, J. (2023) Ultralytics YOLO (Version 8.0.0). [Online] Available from: https://github.com/ ultralytics/ultralytics (Accessed: 22nd June 2024).
28. Kharchenko, I.K., Borovskoy, I.G. & Shelmina, E.A. (2022) Usage of convolutional neural network ensemble for traffic sign recognition. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 61. pp. 88-96. DOI: 10.17223/19988605/61/9
Информация об авторах:
Канаева Ирина Александровна - аспирант отделения информационных технологий Инженерной школы информационных технологий и робототехники Национального исследовательского Томского политехнического университета (Томск, Россия). E-mail: [email protected]
Спицын Владимир Григорьевич - доктор технических наук, профессор отделения информационных технологий Инженерной школы информационных технологий и робототехники Национального исследовательского Томского политехнического университета (Томск, Россия); профессор Национального исследовательского Томского государственного университета (Томск, Россия). E-mail: [email protected]
Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.
Information about the authors:
Kanaeva Irina A. (Post-graduate Student, National Research Tomsk Polytechnic University, Tomsk, Russian Federation). E-mail: [email protected]
Spitsyn Vladimir G. (Doctor of Technical Sciences, Professor, National Research Tomsk Polytechnic University, Tomsk, Russian Federation; National Research Tomsk State University, Tomsk, Russian Federation). E-mail: [email protected]
Contribution of the authors: the authors contributed equally to this article. The authors declare no conflicts of interests.
Поступила в редакцию 01.06.2024; принята к публикации 03.09.2024 Received 01.06.2024; accepted for publication 03.09.2024