Детектирование аномалий на медицинских снимках

Качан Евгений Анатольевич; Щегрикович Дмитрий Васильевич

ДЕТЕКТИРОВАНИЕ АНОМАЛИЙ НА МЕДИЦИНСКИХ

СНИМКАХ 1 2 Качан Е.А. , Щегрикович Д.В. Email: [email protected]

1Качан Евгений Анатольевич - студент;

2Щегрикович Дмитрий Васильевич - кандидат физико-математических наук, доцент, кафедра интеллектуальных систем, Белорусский государственный университет, г. Минск, Республика Беларусь

Аннотация: данная работа посвящена исследованию методов детектирования аномалий на слаборазмеченных медицинских изображениях. Для этих целей сравниваются различные методы классификации предобработанных изображений на основе признакового описания и различные архитектуры свёрточных нейронных сетей. На примере задачи детектирования раковых узелков на мультиспиральной компьютерной томографии (КТ) органов грудной клетки нейронными сетями было достигнуто качество классификации в 0,69 площади под кривой ошибок, методами на основе признакового описания - 0,70.

Ключевые слова: компьютерная томография, нейронные сети, логистическая регрессия, случайный лес.

ANOMALY DETECTION ON MEDICAL IMAGES

12 Kachan Yа.A. , Shchehrykovich D.V.

1Kachan Yauheni Anatolevich - Student;

2Shchegrikovich Dzmitry Vasilevich - Candidate of Physico-Mathematical Sciences,

Associate Professor, INTELLIGENT SYSTEMS DEPARTMENT, BELARUSIANSTATE UNIVERSITY, MINSK, REPUBLIC OF BELARUS

Abstract: the following work presents research on methods of anomaly detection on non-annotated medical images. For these purposes, various methods of pre-processed image classification based on images features and different architectures of convolutional neural networks are compared. Experimental results of cancer nodules detection on computed tomography (CT) scans of a chest demonstrate the high performance of the proposed approaches on patient-level diagnosis. Methods based on neural networks achieve ROC AUC score of 0.69 and those based on images features achieves ROC A UC score of 0.70. Keywords: computed Tomography, neural networks, logistic regression, random forest.

УДК 004.93

Введение. В 2017 году в мире было зарегистрировано более 125,7 млн амбулаторных посещений врачей [1]. Необходимость в длительной концентрации, индивидуальном подходе к каждому пациенту, воздействие больших нагрузок приводит к снижению внимания, повышая риск принятия жизнеугрожающих решений.

Возможным решением для снижения нагрузки на врачей является использование скрининговых систем, которые в автоматическом режиме обнаруживают аномалии на медицинских снимках. Некоторые из исследований показали улучшение эффективности принятия врачебных решений за счёт использования таких систем [2].

Одна из главных проблем при разработке подобных скрининговых систем - набор данных. Данные с необходимым описанием болезней найти не всегда предоставляется возможным либо данных крайне мало, а для разметки имеющихся

придётся собирать консилиум из нескольких врачей, что является достаточно долгим и затратным процессом [3].

Одним из способов преодоления проблемы является использование слаборазмеченных данных - данных, в которых такая информация об аномалиях как размер, форма и местоположение частично либо полностью отсутствует, а известен только тип аномалии (диагноз пациента).

Целью данной работы является исследование методов детектирования аномалий на медицинских изображениях на примере детектирования узелков рака на изображениях компьютерной томографии органов грудной клетки.

Сегментация изображений. Поиск и выделение границ органов (сегментация) на изображениях имеет большое значение в медицинской диагностике. Точно выделенные границы предоставляют больше априорной информации, на основании которой врачи могут увереннее ставить диагноз.

В качестве исходных данных использовались КТ исследования легких пациентов, входящих в группу риска. Выборка состояла из 1400 пациентов. Во время одного КТ исследования, в среднем, производилось 180 сканов (рисунок 1 а). Доля пациентов с диагнозом рака легких составляла 0,27.

(а) (б) (в)

Рис. 1. Пример сегментации КТ скана легких: (а) исходный скан, (б) скан после бинаризации, (в)

отсегментированный скан

Исходные изображения были сделаны на различном оборудовании, поэтому на этапе предобработки сканы приводились к единому формату (одному масштабу и расстоянию между соседними сканами в 1 мм).

Сегментация состояла из четырех шагов:

Шаг 1. Бинаризация изображения. Все пиксели с интенсивностью превышающей пороговое значение в -320 Ни [4] заменяются значением 1, а пиксели с меньшей интенсивностью заменяются на 0 (рисунок 1 б);

Шаг 2. Связано-составляющий анализ [5]. Определение множества меток, к которым принадлежит воздух вокруг пациента;

Шаг 3. Определение наиболее плотных связанных компонент для каждого скана;

Шаг 4. Удаление наибольших воздушных карманов находящихся внутри тела и наиболее плотных компонент (таких как кости).

Результат сегментации КТ скана легких можно видеть на рисунке 1 в.

Классификация изображений. Задачу детектирования аномалий на изображениях можно свести к задаче классификации изображений на нормальные и аномальные. Наиболее широко используемыми в задаче классификации являются методы на основе решающего дерева и линейные модели:

• Логистическая регрессия

Логистическая регрессия - линейный классификатор, позволяющий оценивать апостериорную вероятность принадлежности объекта к классу [6].

\к= 1

где '' 1. "1>' '2 *'''>' 'т} - вектор признаков объекта, w ■. ^)■■ 2

параметры классификатора (вектор весов), . И'С| - порог принятия решения.

• Метод ближайших соседей

Метод ближайших соседей - метод классификации, основанный на вычислении расстояний (оценок сходства) между объектами. Объект относится к тому классу, к которому принадлежат ближайшие к нему объекты обучающей выборки [6].

• Случайный лес

Случайный лес - композиция некоррелируемых деревьев решений, где каждое дерево строится на основе случайного подпространства признаков и/или обучающей выборки. Алгоритм построения случайного леса состоящего из -О деревьев:

1. Для каждого

1.1. Из обучающего множества выбирается случайная подвыборка объектов и признаков X ^

Г,

1.2. По выборке X^ строится решающее дерево ^-¿ 2. Итоговый классификатор получается путем усреднения все деревьев:

(2)

• Нейронные сети

Один из недостатков методов рассмотренных выше - необходимость извлекать признаки из объектов «вручную», причем качество классификации напрямую зависит от удачности выбора признаков. В системах глубокого обучения, таких как свёрточные нейронные сети, процесс извлечения и отбора признаков возлагается на саму модель, что, в итоге, позволяет повысить качество классификации [7].

Искусственная нейронная сеть - математическая модель, моделирующая некоторые функции естественной нейронной сети:

у(хк)=ЛХ (3)

где ( - нелинейная активационная функция, : ^^ * * I ~~ веса

нейронной сети, Ф~ \ >Ф2 '''* - нелинейные базисные функции.

Оценка качества детектирования аномалий. В качестве признакового описания отсегментированных изображений были выбраны текстурные признаки Гарлика [8]. Метрика качества моделей классификации - площадь под кривой ошибок ^ОС-АиС), которая, в будущем, позволит выбрать оптимальный порог принятия решений в зависимости от цены ошибок I и II рода. Результаты классификации приведены в таблицах 1, 2:

Таблица 1. Значение метрики качества для различных методов классификации на основе признакового описания

Метод классификации ROC-AUC

по всем сканам при усреднении по сканам пациента

Ближайшие соседи 0,51 0,55

Логистическая регрессия 0,67 0,70

Случайный лес 0,54 0,59

Таблица 2. Значение метрики качества для разных архитектур нейронных сетей

Архитектура нейронной сети ROC-AUC

по всем сканам при усреднении по сканам пациента

УОО-11 [9] 0,52 0,53

УОО-19 0,55 0,58

КеБКе134 [10] 0,57 0,61

ЯеБ^бО 0,66 0,69

ТпсерйопКеБпе^З [11] 0,54 0,59

Один из способов интерпретации предсказаний свёрточной нейронной сети -визуализация карт активаций классов [12], который позволяет выделить области наиболее значимые для классификации изображений (рисунок 2).

Г.

Рис. 2. Исходное изображение с картой активаций классов. В выделенных областях вероятность нахождения аномалий выше порога

Из рисунка 2 видно, что таким способом можно найти области с высокой вероятностью расположения аномалий, что позволит обратить пристальное внимание врачей на наиболее подозрительные участки.

Заключение

1. Среди методов классификации медицинских изображений на основе признакового описания извлекаемого «вручную» лучший результат показала логистическая регрессия - площадь под кривой ошибок 0,70;

2. Методы на основе свёрточных нейронных сетей хорошо интерпретируются с помощью карт активаций классов, что крайне важно в медицинских системах, и при этом не уступают в качестве - площадь под кривой ошибок 0,69 для архитектуры ЯеБ№150;

3. Скорость работы методов классификации на основе признакового описания,

главным образом определяется быстротой извлечения признаков из исходных

изображений, следовательно, эти методы можно применять для быстрого анализа

изображений на наличие аномалий.

Список литературы /References

1. FastStats - Hospital Utilization // Centers for Disease Control and Prevention. [Electronic resource]. URL: https://www.cdc.gov/nchs/fastats/hospital.htm/ (date of access: 08.05.2018).

2. Rubin G.D. et al. Pulmonary nodules on multi-detector row CT scans: performance comparison of radiologists and computer-aided detection // Radiology, 2005. № 234. P. 274-283.

3. Armato S.G. et al. The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on CT scans // Medical physics, 2011. № 38. P. 915-931.

4. Schneider U., Pedroni E., Lomax A. The calibration of CT Hounsfield units for radiotherapy treatment planning // Physics in Medicine & Biology, 1996. № 41. P. 111.

5. Suzuki S. et al. Topological structural analysis of digitized binary images by border following // Computer vision, graphics, and image processing, 1985. № 30. P. 32-46.

6. Friedman J., Hastie T., Tibshirani R. The elements of statistical learning. New York: Springer series in statistics, 2001.

7. Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems, 2012. 10971105 р.

8. Haralick R.M. et al. Textural features for image classification // IEEE Transactions on systems, man, and cybernetics. 1973. №6. P. 610-621

9. Zhang X. et al. Accelerating very deep convolutional networks for classification and detection // IEEE transactions on pattern analysis and machine intelligence, 2016. № 38. P. 1943-1955.

10. He K. et al. Deep residual learning for image recognition // Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference, 2016. P. 770-778.

11. Szegedy C. et al. Rethinking the inception architecture for computer vision // Computer Vision and Pattern Recognition (CVPR). 2016 IEEE Conference, 2016. P. 2818-2826.

12. Zhou B. et al. Learning deep features for discriminative localization // Computer Vision and Pattern Recognition (CVPR). 2016 IEEE Conference, 2016. P. 2921-2929.

Детектирование аномалий на медицинских снимках Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Качан Евгений Анатольевич, Щегрикович Дмитрий Васильевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Качан Евгений Анатольевич, Щегрикович Дмитрий Васильевич

Текст научной работы на тему «Детектирование аномалий на медицинских снимках»