ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2024 Управление, вычислительная техника и информатика № 68
Tomsk State University Journal of Control and Computer Science
Научная статья УДК 004.896
doi: 10.17223/19988605/68/9
Применение нейросетевых алгоритмов для детектирования человека
на видеоряде в шахте
Владислав Васильевич Петровский
Национальный исследовательский Томский политехнический университет, Томск, Россия,
petrovskiy. vlad. 98@gmail. com
Аннотация. Рассматривается задача применения нейросетевых алгоритмов для детектирования человека на видеоряде в шахте. Производится анализ сверточных нейронных сетей Faster R-CNN, YOLOv5 и YOLOv8 со сборками n, m, x (Nano, Medium и Extra Large) и SSG для детектирования объектов на видеоряде с классами «шахтер», «лицо», «голова с каской», «каска».
Ключевые слова: детектирование; СНН, Faster R-CNN; YOLO, SSG.
Для цитирования: Петровский В.В. Применение нейросетевых алгоритмов для детектирования человека на видеоряде в шахте // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2024. № 68. С. 86-91. doi: 10.17223/19988605/68/9
Original article
doi: 10.17223/19988605/68/9
Application of neural network algorithms for detecting a person in a video sequence in a mine
Vladislav V. Petrovskiy
National Research Tomsk Polytechnic University, Tomsk, Russian Federation, petrovskiy.vlad. 98@gmail. com
Abstract. The problem of using neural network algorithms to detect a person in a video sequence in a mine is considered. Convolutional neural networks are analyzed: Faster R-CNN, YOLOv5 and YOLOv8 with n, m, x (Nano, Medium and Extra Large) and SSG assemblies for detecting objects in video with classes: miner, face, head with a helmet, helmet.
Keywords: detection; СММ, Faster R-CNN, YOLO, SSG.
For citation: Petrovskiy, V.V. (2024) Application of neural network algorithms for detecting a person in a video sequence in a mine. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaja tehnika i informa-tika - Tomsk State University Journal of Control and Computer Science. 68. pp. 86-91. doi: 10.17223/19988605/68/9
Введение
Существует несколько типов шахт в зависимости от способа добычи: открытые и глубинные. Если в открытых шахтах добыча происходит на поверхности, то в глубинных - подземно на значительной глубине. Для этого используются вертикальные или наклонные шахты, а также горизонтальные разработки. Помимо этого, для транспортировки материалов и рабочих в шахтах используются подземные железные дороги, конвейеры, дизельные вагонетки и т.д.
© В.В. Петровский, 2024
Общий процесс работы в шахте связан с высокими рисками для здоровья человека. Поэтому в большинстве случаев шахты оборудуются:
- источником пресной воды; она может использоваться как для употребления человеком, так и для очистки горной породы и предотвращения скопления пыли;
- источниками света; обычно используется несколько источников: светодиодные лампы на стенах шахты и шахтерские каски с фонариком;
- вентиляцией по всей длине шахты;
- обогревательными трубами.
При работе горнодобывающего оборудования нередко происходят несчастные случаи попадания человека под транспорт или подвижный прибор. Решение подобной проблемы было найдено в применении искусственного интеллекта в мониторинге безопасности. Используя камеры видеонаблюдения и сверточные нейронные сети (СНН) для детектирования объектов, можно минимизировать риски аварийных и опасных ситуаций. Камера будет транслировать видео на нейронную сеть, которая покадрово обрабатывает изображение и детектирует человека в области действия оборудования. Информация о возникновении человека в опасной зоне передается как на экран рубки к наблюдателю, так и в «триггер» через микроконтроллер в оборудование / транспорт для немедленного отключения.
Одними из наиболее популярных СНН [1], которые обладают высокой эффективностью в распознавании объектов на видеоряде за миллисекунды, являются: Faster R-CNN (Region-Based Convolu-tional Neural Network) [2], YOLOv5 и v8 (You Only Look Once version 5 and 8) [3, 4] и SSD (Single Shot Detector) [5].
В [6] сравниваются производительность и точность архитектуры Faster R-CNN с предыдущими моделями R-CNN, Fast R-CNN, что показано в табл. 1.
Таблица 1
Производительность и точность архитектур R-CNN, Fast R-CNN и Faster R-CNN
R-CNN Fast R-CNN Faster R-CNN
Test time per image 50 seconds 2 seconds 0,2 seconds
Speed-up 1x 25x 250x
mAP (VOC 2007) 66,0% 66,9% 66,9%
Для обучения моделей использовалось 2 000 размеченных изображений из датасета PASCAL VOC 2007 [7] разного разрешения.
Из результатов видно, что версия Faster R-CNN имеет высокие показатели по скорости и точности распознавания объекта по метрике mAP (оценки среднего нахождения области под кривой точности -отзыва) на изображении по сравнению с предыдущими версиями.
Авторы [8] сравнивают зависимости количества параметров (parameters; рис. 1, а) и производительности графического процессора NVIDIA Latency A100 TensorRT FP16 (рис. 1, b) от точности распознавания объектов (COCO mAP 50-95%) на следующих версиях этой архитектуры: YOLO v5, v6, v7 и v8 в соответствии с их сборкой: Nano (n), Small (s), Medium (m), Large (l) и Extra Large (x).
5550
S
Si K
I
о
as -
30 -
0 20 5 <И Б0 _LO ТЕ tO 311
Parameters (M) Latency A100 TensorRT FP1S (maJimg)
а b
Рис. 1. Влияние параметров и производительности на точность у разных версий YOLO Fig. 1. Impact of parameters and performance on accuracy for different versions of YOLO
При обучении архитектур использовался датасет COCO [9] из 2 000 размеченных изображений в разрешении 640 х 640 пикселей.
Все варианты YOLO-v8 обеспечивают лучшую пропускную способность при одинаковом количестве параметров, что указывает на аппаратно-эффективные архитектурные реформы.
В [10] сравнивается производительность тестовых данных в Faster R-CNN и SSD на метриках: точность (precision), полнота (Recall), показатель f1 (f1 score) и средний IoU (mean IoU) выходного двоичного изображения модели, что показано в табл. 2.
Таблица 2
Сравнение производительности на тестовых данных в Faster R-CNN и SSD
Model Precision Recall f1 score Mean IoU Inference Time of 1 152 x 1 152 Image in Seconds
Faster R-CNN 0,65 0,68 0,66 0,85 0,23
SSD 0,66 0,68 0,67 0,84 0,21
При обучении было использовано 450 размеченных изображений в разрешении 1 152 х 1 152 пикселя из датасета, сделанных вручную из изображений полей, снятых на камеру дрона.
Как видно из опыта, точность, полнота, показатель f1 и среднее значение IoU обеих моделей были одинаковыми, но модель SSD была немного быстрее в исполнении, чем Faster R-CNN.
Faster R-CNN, YOLOv5 и YOLOv8 со сборками n, m, x (Nano, Medium и Extra Large) и SSG + VGG16 для детектирования человека на видеоряде в шахте
Использование таких датасетов, как COCO и PASCAL VOC 2007, не приведет к качественным результатам, так как из-за малой освещенности и разной высоты от пола до потолка шахты человек может находиться в разных положениях, - это сказывается на дальности и качестве детектирования.
Исходные данные
Для данной работы был собран датасет из видеорядов и снимков рабочей зоны угольной шахты. Протяженность рядов в среднем занимает от 10 до 15 с. Была проведена раскадровка, в результате чего в общей сумме получено 500 снимков (рис 2, a). Затем для каждого снимка c помощью программы Label Studio были размечены рамки классов формата txt (рис. 2, b).
a
ji OiOd393d-196.txt - Блокнот Файл Правка Формат Вид Справка
|1 0.5038461538461538 0.34551282051282056 0.4230769230769229 0.10641025641025643 1 0.3384615384615385 0.4544871794871795 8.10769230769230774 0.15 1 0.676923076923077 0.45897435897435895 8.11282051282051278 0.13589743589743591 0 0.5025641025641027 0.43141025641025643 0.4923076923076924 0.2705128205128205
Ь
Рис. 2. Пример данных из датасета Fig. 2. Example of data from a dataset
Всего было выбрано 4 класса:
- Face (лицо) - RGB: 255, 60, 60;
- Helmet (голова с каской) - RGB:255, 160, 150;
- Miner (шахтер) - RGB: 255, 110, 30;
- Helmes (каска) - RGB: 255, 150, 60.
Из 350 снимков и их разметок в датасете 450 идут на обучение, 50 - на валидацию. Для теста принимается видеоряд процесса работы шахтера в узком пространстве.
Обучение и валидация
Для обучения и тестирования нейронных сетей был использован графический процессор c поддержкой CUDA Toolkit 11.8. Результаты обучения и валидации представлены в табл. 3.
Таблица 3
Обучение СНН на 100 циклах
Precision Recall Train box loss Train class loss Val. box loss Val. class loss mAP 50 mAP 50-95 Studying time, sec
Faster R-CNN 0,901 0,836 0,747 0,523 1,545 0,786 0,893 0,531 10 251
SSD + VGG16 0,854 0,747 0,711 0,482 1,412 0,872 0,885 0,502 8 432
YOLOv5n 0,857 0,722 0,908 0,589 1,721 0,911 0,814 0,404 343
YOLOv5m 0,828 0,741 0,667 0,407 1,753 0,933 0,829 0,414 852
YOLOv5x 0,875 0,774 0,555 0,364 1,718 0,901 0,844 0,428 29 547
YOLOv8n 0,807 0,792 0,829 0,521 1,804 0,927 0,805 0,395 355
YOLOv8m 0,813 0,763 0,570 0,354 1,851 0,975 0,803 0,393 952
YOLOv8x 0,830 0,793 0,382 0,287 1,704 0,875 0,829 0,431 31 733
Результаты проведенных экспериментов показывают высокую точность и надежность обучения Faster R-CNN, на что потребовалось большое время обучения.
Детектор SSD с моделью VVG16 показал средние результаты и имеет похожее время обучения с Faster R-CNN. Модели YOLO версий 5 и 8 со сборками Nano и Medium имеют неплохие показатели точности и полноты обучения, а их скорость обучения намного выше, чем у других архитектур. YOLOv5 и YOLOv8 со сборкой Extreme Large показывают лучшие результаты по сравнению с другими сборками моделей YOLO, однако их время обучения слишком большое: 29 547 и 31 733 с соответственно.
Тесты
Для отрисовки рамок на видеоряде используется библиотека OpenCV python (рис. 3).
Рис. 3. Пример выделения объектов при тестировании моделей СНН с применением библиотеки OpenCV python Fig. 3. Example of object selection when testing SNN models using the OpenCV python library
Результаты тестов средней производительности (Average FPS) и среднего времени предсказания (Average time) при изменении доверительного порога представлены в табл. 4.
Таблица 4
Влияние доверительного порога на производительность и время предсказания за кадр
Precision Precision Precision Precision
> 0,001 > 0,50 > 0,75 > 0,90
Faster R-CNN 17,929 FPS, 52 ms 18,293 FPS, 47 ms 21,274 FPS, 43 ms 21,221 FPS, 41 ms
SSD + VGG16 25,562 FPS, 52 ms 28,252 FPS, 47 ms 32,503 FPS, 43 ms 33,015 FPS, 41 ms
YOLOv5n 30,926 FPS, 36 ms 57,583 FPS, 21 ms 62,289 FPS, 19 ms 61,121 FPS, 19 ms
YOLOv5m 34,108 FPS, 31 ms 43,409 FPS, 26 ms 52,989 FPS, 21 ms 54,270 FPS, 20 ms
YOLOv5x 37,256 FPS, 34 ms 45,346 FPS, 25 ms 53,232 FPS, 21 ms 53,643 FPS, 21 ms
YOLOv8n 28,942 FPS, 38 ms 39,105 FPS, 30 ms 58,965 FPS, 21 ms 60,228 FPS, 20 ms
YOLOv8m 32,531 FPS, 33 ms 45,131 FPS, 25 ms 51,297 FPS, 22 ms 53,262 FPS, 20 ms
YOLOv8x 35,352 FPS, 34 ms 52,634 FPS, 23 ms 53,297 FPS, 21 ms 55,262 FPS, 19 ms
Тесты показывают, что при доверительном пороге в 0,001 (> 0,1%) производительность наименьшая на всех моделях. Это связано с увеличенной нагрузкой на процессор при отрисовке рамок классов, которые в большинстве случаев несут некорректную информацию. При пороге выше
0.90.(> 90%) время на предсказание и отрисовку рамок в кадр лучше остальных, однако детектирование объектов происходит только на близком расстоянии от камеры слежения.
В ходе тестирования доверительными порогами детектирования выбраны значения 0,5 и 0,75 (> 50% и > 75%). При данных порогах модели достаточно уверены в своих предсказаниях, но не слишком строги, что позволяет улавливать большинство верных рамок объектов и не нагружать процессор. Лучшие результаты на этих доверительных порогах показала архитектура YOLOv5n.
Заключение
Проведен анализ эффективности сверточных нейронных сетей для распознавания человека в шахте. По результатам обучения и тестирования моделей можно сделать следующие выводы:
- для обеспечения малых вычислительных затрат и высокой скорости обработки входящей информации с видеоряда предпочтительнее выбирать архитектуры YOLO со сборкой Nano;
- если важна точность распознавания человека или объекта, стоит воспользоваться архитектурами Faster R-CNN, SSD + СНН VGG16, YOLOv5, v8 со сборкой Extreme Large;
- во избежание ложных предсказаний (или отсутствия самих предсказаний) при работе с СНН рекомендуется использовать доверительный порог в интервале от 50 до 90%.
Список источников
1. Snehal J. Top Object Detection Models in 2024. URL: https://www.hitechbpo.com/blog/top-object-detection-models.php (ac-
cessed: 27.05.2024).
2. Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks // arXiv.
2016. 6 Jan. doi: 1506.01497v3. URL: https://arxiv.org/pdf/1506.01497 (accessed: 27.05.2024).
3. Исчерпывающее руководство по Ultralytics YOLOv5 // Ultralytics YOLO Docs. URL: https://.ultralytics.com/ru/yolov5/ (дата
обращения: 27.05.2024).
4. YOLOv8 // Ultralytics YOLO Docs. URL: https://docs.ultralytics.com/ru/models/yolov8/ (дата обращения: 27.05.2024).
5. Liu W., Anguelov D., Dumitru E., Szegedy C., Reed S., Fu C.-Y., Berg A. SSD: Single Shot MultiBox Detector // arXiv. 2016.
29 Dec. doi: 1512.02325. URL: https://arxiv.org/pdf/1512.02325 (accessed: 27.05.2024).
6. Umam A. 1. Introduction to How Faster R-CNN, Fast R-CNN and R-CNN Works. 2017. 31 March. URL: https://www.youtube.
com/watch?app=desktop&v=v5bFVbQvFRk (accessed: 28.05.2024).
7. PASCAL VOC 2007 : dataset // Paperswithcode.com. URL: https://paperswithcode.com/dataset/pascal-voc-2007 (accessed:
30.05.2024).
8. Ultralytics YOLOv8 // Github. URL: https://github.com/ultralytics/ultralytics (accessed: 28.05.2024).
9. MS COCO (Microsoft Common Objects in Context) : dataset // Paperswithcode.com. URL: https://paperswithcode.com/
dataset/coco (accessed: 30.05.2024).
10. Sivakumar A.N.V., Li J., Scott S., Psota E., Jhala A.J. Comparison of object detection and patch-based classification deep learning models on mid to late-season weed detection in UAV imagery // J. Biological Systems Engineering. V. 3. P. 2-22. doi: 10.3390/rs12132136
References
1. Snehal, J. (2024) Top Object Detection Models in 2024. [Online] Available from: https://www.hitechbpo.com/blog/top-object-
detection-models.php (Accessed: 27th May 2024).
2. Ren, S., He, K., Girshick, R. & Sun, J. (2016) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks. arXiv. 6th January. DOI: 1506.01497v3
3. Ultralytics.com. (n.d.) Ischerpyvayushchee rukovodstvo po Ultralytics YOLOv5 [A comprehensive guide to Ultralytics YOLOv5].
[Online] Available from: https://docs.ultralytics.com/ru/yolov5/ (Accessed: 27th May 2024).
4. Ultralytics.com. (n.d.). YOLOv8. Ultralytics YOLO Docs. [Online] Available from: https://docs.ultralytics.com/ru/models/yolov8/
(Accessed: 27th May 2024).
5. Liu, W., Anguelov, D., Dumitru, E., Szegedy, C., Reed, S., Fu, C-Y. & Berg, A. (2016) SSD: Single Shot MultiBox Detector.
arXiv. 29th December. DOI: 1512.02325
6. Umam, A. (2017) Introduction to How Faster R-CNN, Fast R-CNN and R-CNN Works. 31st May. [Online] Available from:
https://www.youtube.com/watch?app=desktop&v=v5bFVbQvFRk (Accessed: 27th May 2024).
7. Paperswithcode.com. (2007) PASCAL VOC 2007: dataset. [Online] Available from: https://paperswithcode.com/dataset/pascal-
voc-2007 (Accessed: 29th May 2024).
8. Github.com. (n.d.) Ultralytics YOLOv8. [Online] Available from: https://github.com/ultralytics/ultralytics (Accessed: 29th May
2024).
9. Paperswithcode.com. (n.d.) MS COCO (Microsoft Common Objects in Context). Dataset. [Online] Available from:
https://paperswithcode.com/dataset/coco (Accessed: 29th May 2024).
10. Sivakumar, A.N.V., Li, J., Scott, S., Psota, E. & Jhala, A.J. (2020) Comparison of object detection and patch-based classification deep learning models on mid to late-season weed detection in UAV imagery. Journal of Biological Systems Engineering. 3. pp. 2-22. DOI: 10.3390/rs12132136
Информация об авторе:
Петровский Владислав Васильевич - аспирант отделения информационных технологий Инженерной школы информационных технологий и робототехники Национального исследовательского Томского политехнический университета (Томск, Россия). E-mail: [email protected]
Автор заявляет об отсутствии конфликта интересов.
Information about the author:
Petrovskiy Vladislav V. (Post-graduate Student, Information Technology Department, School of Information Technology and Robotics Engineering, National Research Tomsk Polytechnic University, Tomsk, Russian Federation). E-mail: [email protected]
The author declares no conflicts of interests.
Поступила в редакцию 06.06.2024; принята к публикации 03.09.2024 Received 06.06.2024; accepted for publication 03.09.2024