Научная статья на тему 'ОПТИМИЗАЦИЯ АРХИТЕКТУР СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ СЕГМЕНТАЦИИ МЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ КОМПЬЮТЕРНОЙ ТОМОГРАФИИ'

ОПТИМИЗАЦИЯ АРХИТЕКТУР СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ СЕГМЕНТАЦИИ МЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ КОМПЬЮТЕРНОЙ ТОМОГРАФИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
оптимизация архитектуры / свёрточные нейронные сети / сегментация / медицинские изображения / компьютерная томография / глубокое обучение / снижение затрат / architecture optimization / neural networks / segmentation / medical images / computed tomography / deep learning / reducing costs

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Макаревич К. С., Лиманова Н. И.

В статье исследуются методы оптимизации архитектур свёрточных нейронных сетей (CNN) для задач сегментации медицинских изображений, полученных с помощью компьютерной томографии (КТ). Рассматриваются подходы к снижению вычислительной сложности моделей, улучшению их точности и устойчивости. Проведено сравнительное тестирование стандартных и оптимизированных архитектур на реальных медицинских данных. Результаты показывают, что предложенные изменения позволяют достичь высокого качества сегментации (Dice Coefficient> 90%) при снижении потребляемых ресурсов. Работа направлена на создание эффективных инструментов анализа КТ-изображений для использования в клинической практике.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Макаревич К. С., Лиманова Н. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OPTIMIZATION OF CONVOLUTIONAL NEURAL NETWORK ARCHITECTURES FOR SEGMENTATION OF MEDICAL COMPUTER TOMOGRAPHY IMAGES

The article investigates methods for optimizing convolutional neural network (CNN) architectures for segmentation of medical images obtained using computed tomography (CT). Approaches to reducing the computational complexity of models, improving their accuracy and stability are considered. Comparative testing of standard and optimized architectures on real medical data was conducted. The results show that the proposed changes allow achieving high segmentation quality (Dice Coefficient > 90%) while reducing resource consumption. The work is aimed at creating effective tools for CT image analysis for use in clinical practice.

Текст научной работы на тему «ОПТИМИЗАЦИЯ АРХИТЕКТУР СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ СЕГМЕНТАЦИИ МЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ КОМПЬЮТЕРНОЙ ТОМОГРАФИИ»

УДК 004 Макаревич К.С., Лиманова Н.И.

Макаревич К.С.

студент, кафедра информационных систем и технологий Поволжский государственный университет телекоммуникаций и информатики (г. Самара, Россия)

Научный руководитель: Лиманова Н.И.

д.т.н., профессор, зав. кафедрой информационных систем и технологий Поволжский государственный университет телекоммуникаций и информатики (г. Самара, Россия)

ОПТИМИЗАЦИЯ АРХИТЕКТУР СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ СЕГМЕНТАЦИИ МЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ КОМПЬЮТЕРНОЙ ТОМОГРАФИИ

Аннотация: в статье исследуются методы оптимизации архитектур свёрточных нейронных сетей (CNN) для задач сегментации медицинских изображений, полученных с помощью компьютерной томографии (КТ). Рассматриваются подходы к снижению вычислительной сложности моделей, улучшению их точности и устойчивости. Проведено сравнительное тестирование стандартных и оптимизированных архитектур на реальных медицинских данных. Результаты показывают, что предложенные изменения позволяют достичь высокого качества сегментации (Dice Coefficient 90%) при снижении потребляемых ресурсов. Работа направлена на создание эффективных инструментов анализа КТ-изображений для использования в клинической практике.

Ключевые слова: оптимизация архитектуры, свёрточные нейронные сети, сегментация, медицинские изображения, компьютерная томография, глубокое обучение, снижение затрат.

Анализ медицинских изображений, полученных с помощью компьютерной томографии (КТ), является ключевым этапом в диагностике множества заболеваний, включая онкологические, лёгочные и сердечнососудистые патологии. Однако ручная обработка таких данных требует значительных временных и профессиональных затрат, что увеличивает риск диагностических ошибок и задержек в лечении. В связи с этим автоматизация анализа КТ-снимков становится всё более актуальной задачей.

Свёрточные нейронные сети (CNN) зарекомендовали себя как эффективный инструмент для обработки изображений, особенно в задачах классификации и сегментации. Тем не менее, их практическое применение в медицинской визуализации сталкивается с рядом вызовов. Во-первых, большинство стандартных архитектур требуют значительных вычислительных ресурсов, что ограничивает их использование в учреждениях с ограниченной технической базой. Во-вторых, качество обучения моделей напрямую зависит от объёма и разнообразия размеченных данных, которые зачастую трудно собрать в достаточном количестве.

Настоящая работа посвящена исследованию существующих архитектур CNN, применяемых для задач сегментации КТ-изображений, с целью выявления их преимуществ и ограничений. Особое внимание уделяется анализу методов оптимизации архитектур, направленных на снижение вычислительной сложности, улучшение точности и повышение устойчивости моделей к шумам и вариативности данных. Исследование таких подходов позволит получить более полное представление о возможностях и ограничениях современных технологий в области автоматизации анализа медицинских изображений. Это, в свою очередь, может способствовать выбору оптимальных решений для их применения в медицинской практике.

Сегментация медицинских изображений с использованием свёрточных нейронных сетей (CNN) стала одной из самых популярных и эффективных методик в последние годы. Среди множества существующих архитектур, наиболее часто используемыми для этих задач являются U-Net, UNet++, DeepLab

и MobileNet-UNet. Каждая из этих архитектур имеет свои особенности, которые делают её подходящей для различных условий, однако также имеются ограничения, которые могут повлиять на её эффективность в реальных условиях.

U-Net была одной из первых архитектур, предложенных специально для медицинской сегментации. Её основная особенность заключается в симметричной структуре, где сжимающая и расширяющая части сети соединены пропускными слоями. Это позволяет эффективно восстанавливать пространственную информацию при увеличении разрешения выходных карт, что особенно важно для медицинских изображений, где нужно точно выделять анатомические структуры. Однако одной из проблем этой архитектуры является её вычислительная сложность, которая растёт с увеличением размера входных изображений. Несмотря на это, U-Net остаётся одной из самых популярных и эффективных архитектур для задач сегментации, особенно когда необходимо работать с ограниченными вычислительными ресурсами.

UNet++ представляет собой модификацию оригинальной U-Net, в которой добавлены дополнительные пропускные соединения между уровнями сети. Это позволяет улучшить обработку границ объектов, обеспечивая более детализированную сегментацию. Эти улучшения позволяют сети точнее разделять сложные структуры на изображениях, что важно при работе с медицинскими данными, где часто встречаются микроскопические патологии. Однако увеличение количества соединений и слоёв приводит к увеличению времени обучения и потребности в большем объёме данных для достижения оптимальных результатов. Эти дополнительные вычислительные затраты могут стать серьёзным ограничением в условиях, где вычислительные мощности и доступ к данным ограничены.

DeepLab, в свою очередь, использует более сложные подходы к обработке изображений, такие как пространственная пирамида свёрток (Atrous Spatial Pyramid Pooling). Это позволяет модели работать с объектами различных масштабов, улучшая качество сегментации при анализе изображений с разнообразными текстурами и объектами. Однако архитектура требует большого

объёма данных для обучения, а её вычислительная сложность значительно возрастает по мере увеличения размера изображений. Это делает DeepLab более подходящей для использования в крупных медицинских учреждениях, где есть доступ к мощным вычислительным ресурсам, но она, может быть, не столь эффективна в менее оснащённых клиниках.

В то же время архитектура MobileNet-UNet сочетает в себе преимущества лёгких и компактных моделей, таких как MobileNet, с возможностями U-Net для сегментации. Это делает её оптимальной для использования в условиях с ограниченными вычислительными ресурсами, например, на мобильных устройствах или в малых медицинских учреждениях. MobileNet-UNet демонстрирует хорошие результаты в задачах сегментации при меньших вычислительных затратах, что позволяет повысить доступность технологии для широкой аудитории. Однако снижение вычислительной сложности влечёт за собой определённые компромиссы в точности, особенно на сложных изображениях с высоким уровнем детализации.

Модель VGG (Visual Geometry Group) была разработана в 2014 году и стала одной из наиболее известных архитектур свёрточных нейронных сетей. Её основная концепция заключается в последовательном применении свёрточных слоёв с небольшими ядрами 3x3, что позволяет эффективно улавливать пространственные особенности изображений. Простота и гибкость архитектуры делают VGG особенно привлекательной для различных задач обработки изображений, включая анализ медицинских данных, таких как снимки компьютерной томографии (КТ). Одной из ключевых особенностей модели является её способность детально анализировать изображения, сохраняя высокую точность. В сравнении с более сложными архитектурами, такими как ResNet или DenseNet, VGG отличается линейной структурой и меньшим количеством гиперпараметров. Это упрощает обучение модели, снижая вероятность переобучения на небольших наборах данных, что часто бывает важно при работе с медицинскими изображениями.

Одним из главных преимуществ VGG является возможность использования предварительно обученных весов. Обучение на крупных наборах данных, таких как ImageNet, позволяет перенести знания модели на специфические задачи, включая классификацию и сегментацию КТ-снимков. В задачах анализа лёгких это помогает выявлять патологии, такие как опухоли, воспаления или фиброзы, с высокой точностью даже при ограниченном количестве размеченных данных.

Ещё одно преимущество модели VGG - её универсальность. Архитектура легко адаптируется к различным задачам, от классификации до сегментации. В случае анализа КТ лёгких это может включать идентификацию здоровой и поражённой ткани, а также выделение патологических участков для последующего анализа.

Несмотря на свои достоинства, VGG имеет и определённые недостатки. Среди них - относительно высокая вычислительная стоимость и объём памяти, требуемый для хранения весов. Эти проблемы могут быть частично решены с помощью оптимизации модели, такой как уменьшение глубины сети для специфических задач или использование современных методов сжатия параметров. Итогом является то, что VGG представляет собой надёжное решение для анализа КТ-снимков лёгких, особенно в условиях ограниченных вычислительных ресурсов. Её сбалансированность между простотой и эффективностью делает её отличным выбором для исследования и практического применения.

Таким образом, каждая из рассмотренных архитектур имеет свои сильные и слабые стороны. Выбор модели зависит от специфики задачи, объёма доступных данных и вычислительных мощностей. В рамках данного исследования будет проанализировано, какая из этих архитектур демонстрирует наилучшие результаты при сегментации КТ-изображений, а также какие методы оптимизации могут быть применены для повышения их эффективности в реальных медицинских условиях.

Comparison of CNN Models for CT Scan Analysis

CJ

IB Accuracy

fralnine Time (mln) ^m Computational Ces;

DeepLab Models

График 1. Сравнение пяти моделей нейронных сетей.

На графике показано сравнение пяти моделей нейронных сетей — и-№1:, Ц№1++, БеерЬаЬ, МоЬИеКе^Ц^ и VGG — по трем основным параметрам: точности, времени обучения и вычислительной стоимости. Эти показатели играют ключевую роль при выборе архитектуры для анализа медицинских изображений, таких как снимки компьютерной томографии (КТ) лёгких, где важен баланс между производительностью, затратами ресурсов и качеством классификации.

Точность моделей варьируется в пределах от 88% до 95%. Наивысшую точность демонстрирует модель DeepLab, достигая значения 95%. Это делает её отличным инструментом для задач, требующих максимальной точности в выявлении патологий. UNet++ немного уступает, показывая результат 94%. Модель VGG достигает 93%, что лишь незначительно отстаёт от лидеров, но значительно превосходит MobileNet-UNet, чья точность составляет всего 88%. Эти показатели подчеркивают, что VGG сохраняет высокий уровень точности, сопоставимый с более сложными архитектурами, при этом её использование может быть более оправданным благодаря другим преимуществам.

Время обучения также является важным фактором, особенно при необходимости быстрого развертывания моделей. MobileNet-UNet обучается

быстрее всех, занимая всего 30 минут. VGG, хотя и уступает по этому показателю, завершает обучение за 70 минут, что существенно меньше, чем требуется для UNet++ (85 минут) или DeepLab (120 минут). Это делает VGG компромиссным вариантом между скоростью обучения и точностью. Ц-№1:, демонстрирующая средние результаты по точности, обучается за 60 минут, что сопоставимо с VGG, но её результаты в точности немного ниже.

Ещё одним важным параметром является вычислительная стоимость, отражающая ресурсоёмкость модели. MobileNet-ЦNet снова показывает лучший результат с наименьшими затратами ресурсов, тогда как DeepLab является самой требовательной моделью. VGG занимает среднее положение: её вычислительная стоимость составляет 140 условных единиц, что меньше, чем у UNet++ (180) и DeepLab (220), но больше, чем у МоЫ1е№^Ц^ (100). Эти данные свидетельствуют о том, что VGG является более экономичной моделью в сравнении с конкурентами с аналогичной точностью, такими как UNet++ и БеерЬаЬ.

Таким образом, анализ показывает, что, несмотря на более высокую точность DeepLab и UNet++, VGG является сбалансированным решением для задач анализа медицинских изображений. Она сочетает высокую точность с умеренным временем обучения и приемлемой вычислительной стоимостью. Это делает её подходящей для применения в клинической практике, особенно в условиях ограниченных ресурсов.

СПИСОК ЛИТЕРАТУРЫ:

1. Демин И. С., Белов Ю. С., Чухраев И. В. Обучение сверточной нейронной сети на базе архитектуры U-Net с использованием минимальных ресурсов // Электромагнитные волны и электронные системы. - 2019. - Т. 24. - №. 7. - С. 24-29;

2. Емельянов А. В. Анализ методов семантической сегментации изображений на основе нейронных сетей // Математические методы в технике и технологиях-ММТТ. - 2019. - Т. 12. - С. 195-201;

3. Gupta D. Image segmentation keras: Implementation of segnet, fcn, unet, pspnet and other models in keras // arXiv preprint arXiv:2307.13215. - 2023

Makarevich K.S., Limanova N.I.

Makarevich K.S.

Volga Region State University of Telecommunications and Informatics (Samara, Russia)

Scientific advisor: Limanova N.I.

Volga Region State University of Telecommunications and Informatics (Samara, Russia)

OPTIMIZATION OF CONVOLUTIONAL NEURAL NETWORK ARCHITECTURES FOR SEGMENTATION OF MEDICAL COMPUTER TOMOGRAPHY IMAGES

Abstract: the article investigates methods for optimizing convolutional neural network (CNN) architectures for segmentation of medical images obtained using computed tomography (CT). Approaches to reducing the computational complexity of models, improving their accuracy and stability are considered. Comparative testing of standard and optimized architectures on real medical data was conducted. The results show that the proposed changes allow achieving high segmentation quality (Dice Coefficient > 90%) while reducing resource consumption. The work is aimed at creating effective tools for CT image analysis for use in clinical practice.

Keywords: architecture optimization, neural networks, segmentation, medical images, computed tomography, deep learning, reducing costs.

i Надоели баннеры? Вы всегда можете отключить рекламу.