Метод классификации сосудов глазного дна, основанный на применении самоорганизующихся карт Кохонена

Малафеев А.М.; Куприянов А.В.; Ильясова Н.Ю.

Метод классификации сосудов глазного дна, основанный на применении самоорганизующихся

А.М. Малафеев, АВ.Куприянов, Н.Ю. Ильясова

МЕТОД КЛАССИФИКАЦИИ СОСУДОВ ГЛАЗНОГО ДНА, ОСНОВАННЫЙ НА ПРИМЕНЕНИИ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА

А.М. Малафеев, А.В.Куприянов, Н.Ю. Ильясова Институт систем обработки изображений РАН Самарский государственный аэрокосмический университет им. С.П. Королева

Аннотация

В статье рассматривается метод диагностики ранних стадий заболеваний глазного дна по диагностическим признакам сосудов. Метод основан на применении самоорганизующихся карт Кохонена. Представлены экспериментальные исследования метода на синтезированных и рассчитанных по натурным изображениям признаках. Приводится сравнение разработанного метода с уже существующими.

Введение

Предметом исследования данной работы является построение системы классификации на основе разработанных ранее диагностических признаков [1] сосудов глазного дна и области диска зрительного нерва. Основной сложностью применения системы на практике является то, что когда врач ставит диагноз для обучения системы, то он классифицирует глазное дно целиком, хотя на одном изображении глазного дна могут быть как сосуды уже подвергшиеся патологическим изменениям, так и нормальные или находящиеся на ранних стадиях развития патологии. Таким образом, в обучающей выборке существуют заведомо ошибочно проклассифицированные сосуды.

Задача построения классификатора, способного обеспечить необходимое качество распознавания в условиях априорной неопределенности является чрезвычайно сложной [2], а часто и невозможной. В общем случае, решение подобной задачи заключается в том, чтобы по заданной выборке пар «объект-ответ» восстановить функциональную зависимость между объектами и ответами, то есть построить алгоритм, способный выдавать адекватные ответы на предъявляемые объекты. Когда множество допустимых ответов конечно, решается задача классификации или распознавания образов. Когда множество допустимых ответов бесконечно (например, является множеством действительных чисел или векторов), решается задача восстановления регрессии. Когда объекты соответствуют моментам времени, а ответы характеризуют будущее поведение процесса или явления, решается задачах прогнозирования.

Для построения системы классификации, основанной на построении модели восстанавливаемой зависимости в виде параметрического семейства алгоритмов, с помощью численной оптимизации в семействе выбирается алгоритм, допускающий наименьшее число ошибок на заданной обучающей выборке, то есть осуществляется построение модели для используемой выборки. Большинство систем классификации, основанных на построении модели восстанавливаемой зависимости в виде параметрического семейства алгоритмов, таких, как персептрон Розенблатта, классификатор по А"-ближайшим соседям и классификатор по расстоянию Махалонобиса не способны справится с этой задачей, без предварительного анализа и обработ-

ки входных данных [3]. Поэтому в работе предлагается метод классификации, основанный на применении самоорганизующихся карт Кохонена.

Принцип классификации заключается в использовании алгоритма обучения сети Кохонена для перевода векторов признаков, которые были заданы в исходном многомерном пространстве, в новое двумерном пространство. Сеть использует неконтролируемое обучение и обучающее множество состоит лишь из значений входных переменных.

Модель сети была предложена Тойво Кохоне-ном в начале 1980-х гг. Она использует неконтролируемое обучение, при этом обучающее множество состоит лишь из значений входных переменных.

Сеть Кохонена имеет всего два слоя: входной и выходной, ее называют самоорганизованной картой. Элементы карты располагаются в некотором пространстве - как правило, двумерном [4].

Сеть распознает кластеры в обучающих данных и распределяет данные по соответствующим кластерам. Если в процессе обучения сеть встречается с набором данных, непохожим ни на один из известных образцов, новый набор данных образует новый кластер. Таким образом, если в исходных данных содержатся априорная информации о принадлежности к классам, то сеть способна решать задачи классификации.

Алгоритм классификации, основанный на применении сети Кохонена

Принцип классификации, основанный на применении сетей Кохонена, заключается в том, что вектора, которые были сходны в многомерном пространстве признаков, должны быть сходны и в двумерном пространстве карты.

Для обучения сети используется дифференциальный метод обучения Хебба, состоящий из двух этапов. На первом этапе происходит обучение сети Кохонена. В результате получается карта Кохонена, каждый элемент которой отвечает за группу векторов из исходного пространства признаков. Таким образом, получается отображение из многомерного пространства признаков на двумерное пространст-вокарты (рис. 1).

На рис. 2 черным цветом показаны ячейки карты, которые не были задействованы при данной обучающей выборке, серым цветом показаны элементы, которые имеют один или несколько прообразов в пространстве признаков.

2007

Компьютерная оптика, том 31, №1

На следующем этапе осуществляется кластеризация карты Кохонена, для определения отображения пространства признаков. Алгоритм кластеризации работает следующим образом: на вход сети Кохонена последовательно подаются вектора признаков из обучающей выборки. Для каждого вектора на выходе сети получаются двумерные координаты на карте Кохонена, и фиксируется, к какому классу принадлежат полученные координаты. После того как эта процедура закончена, методом простого голосования, определяется принадлежность элементов карты к классам. Пример карты Кохонена после кластеризации представлен на рис. 2.

Рис. 1. Карта Кохонена после первого этапа обучения

Рис. 2. Карта Кохонена после кластеризации

В общем случае на карте после кластеризации могут существовать «пробелы», которые не имеют ни одного прообраза из обучающей выборки. На рис. 2 такие элементы изображены черным цветов. Поэтому для работы алгоритма классификации на реальных данных после построения карты Кохонена производится дополнительный анализ - классификация по 4 ближайшим соседям.

Исследование качества распознавания классификаторов

В теории обучаемых систем качество обучения или обобщающую способность алгоритмов принято характеризовать вероятностью ошибки. Вероятность ошибки - это гипотетическая величина, которую невозможно вычислить, а иногда даже и адекватно оценить, например, в случае малых выборок.

Обобщающая способность алгоритма [4] определяется как вероятность ошибки найденного алгоритма, либо как частота его ошибок на неизвестной контрольной выборке, также случайной, независимой и одинаково распределенной. Для получения оценки

обобщающей способности классификатора может быть использована процедура скользящего контроля [5].

Оценка скользящего контроля определяется как средняя по всем разбиениям исходной выборки частота ошибок на контроле. Фактически, скользящий контроль непосредственно измеряет обобщающую способность метода обучения на заданной конечной выборке [5]. Если генерируется случайное подмножество разбиений с контрольной выборкой фиксированной длины, то используют термин «бут-стреп»-оценка [6].

В работе [7] делается важный вывод, что скользящий контроль характеризует обобщающую способность метода не хуже, чем вероятность ошибки и даёт несмещённую оценку вероятности ошибки в том случае, когда он используется для проверки качества по окончании обучения.

Исследования качества разработанного классификатора будем проводить методом скользящего контроля с использованием комбинаторных функционалов качества Воронцова, разработанные на основе статистической теории Вапника-Червоненкиса.

Методом обучения называется отображение ц, которое произвольной конечной обучающей выборке X' ставит в соответствие определенный алгоритм а = ц(X'). Говорят также, что метод ц

строит алгоритм а по обучающей выборке X'.

Частота ошибок алгоритма а на произвольной выборке X' есть: 1 р

у(а, Xр) = -£ I (х,., а( х,)), Р 7=1

где I (х, у) - индикатор ошибки, принимающий значение 1, если ответ у является ошибочным для объекта х, и 0 в противном случае.

1. Функционал полного скользящего контроля:

О (ц, X') = N ¿у(ц( XI), XI).

N п=1

2. Функционал среднего отклонения частоты ошибок на контроле от частоты ошибок на обучении:

1 N

£ (ц, X') = N £

п=1

у(ц( XI), ^) -гу(ц(XI), XI) ,

() 17 > 0, б й где (г). =< для любого действительного2 .

+ [0, г < 0.

Экспериментальное исследование на модельных и натурных изображениях

Исследование разработанного алгоритма проводились на выборках диагностических признаков сосудов глазного дна, предложенных в работе [8]. Каждый вектор из выборки в результате анализа априорной информации отнесен к одному из двух классов: норма или патология.

Метод классификации сосудов глазного дна, основанный на применении самоорганизующихся ... А.М. Малафеев, АВ.Куприянов, Н.Ю. Ильясова

S °'4

В< 0,3

I 0,2

О

xalonobis

perceptron

---K-neignoours

чч

-- — ___

......

500

700 900 1100

размер тестовой выборки

Рис. 3. Зависимости функционала полного скользящего контроля от размера обучающей выборки

§ 0,30 10,25 % 0,20 10,15 I 0,10 &0,05 О

halonobis m ceptron

........SOj

реп

4

— —__

500 700 900 1100

размер тестовой выборки

Рис. 4. Зависимости функционала среднего отклонения частоты ошибок на контроле от частоты ошибок на обучении от размера тестовой выборки

- mahalonobis SOFM perceptron

500 700 900 1100

размер тестовой выборки

Рис. 5. Зависимости функционала полного скользящего контроля и от размера обучающей выборки

В 0,40 g 0,35 jjf 0,30 s 0,25

I 0,20

I 0,15 I 0,10 & 0,05 О

--mahalonobis ........SOFM -perceptron

--К-П zignoo 1rs

_—

—— —■ —

500

700 900 1100

размер тестовой выборки

Рис. 6. Зависимости функционала среднего отклонения частоты ошибок на контроле от частоты ошибок на обучении от размера обучающей выборки

В рамках исследований проводилась серия вычислительных экспериментов для вычисления значения функционалов качества при различных размерах обучающей выборки от 500 до 1100 элементов, рассчитанной по 250 изображениям глазного дна.

Исследования показали, что при обучающей выборке достаточного размера (более 700 элементов), представленный в работе классификатор, основанный на использовании самоорганизующихся карт Кохонена, обеспечивает погрешность распо-знования меньше 10% что, является достаточным для построения экспертной оценки патологии.

Заключение

В результате исследований был разработан метод классификации диагностических признаков сосудов глазного дна, основанный на применении самоорганизующихся карт Кохонена, позволивший значительно улучшить качество распознования. Были проведены исследования, которые показали обоснованность выбора данного метода.

Была спроектирована и реализована компьютерная система, предназначенная проведения сравнительного анализа различных систем классификации. Внутренние модули системы могут быть использованы в качестве составной части компьютерной системы диагностики глазного дна. Первым шагом интеграции стала возможность проведения исследования на результатах трассировки сосудов, получаемых от системы диагностики глазного дна. Настоящее развитие работы связано с преобразованием системы классификации таким образом, чтобы разрабатываемая система могла выдавать количественные характеристики патологии, а не только экспертное заключение о том, принадлежит сосуд к классу нормы или патологии.

Внедрение этой системы в медицинскую практику в дальнейшем расширит возможности существующих медицинских методик и позволяет автоматизировать диагностику.

Благодарность

Работа выполнена при поддержке российско-американской программы «Фундаментальные исследования и высшее образование» (грант CRDF RUX0-014-SA-06) и программы Президиума РАН «Фундаментальные науки - медицине», гранта РФФИ № 06-07-08006-офи, гранта РФФИ № 07-08-96611.

Литература

1. Ильясова Н.Ю., Куприянов А.В., Ананьин M.A., Гав-рилова Н.А. Измерение биомеханических характеристик сосудов для ранней диагностики сосудистой патологии глазного дна // Компьютерная оптика, 2005. - №25. - С.165-170.

2. Фукунага К. Введение в статистическую теорию распознавания образов. - М.: Наука, 1979. - 270 с.

3. Vapnik V., Levin E., Cun Y. L. Measuring the VC-dimension of a learning machine // Neural Comput. 1994. V. 6. P. 851-876.

4. Mohamad H. Hassoun. Fundamentals of Artificial Neural Networks // The MIT Press, 1995. ISBN 0-262-08239-X.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979.

6. Воронцов К. В. Комбинаторные оценки качества обучения по прецедентам // Доклады РАН, 2004. Т. 394. [http://www.ccas.ru/frc/papers/voron04qualdan.pdf].

7. Воронцов К. В. О комбинаторном подходе к оценке качества обучения алгоритмов // Математические методы распознавания образов: 11-ая Всеросс. конф: Тез. докл. Пущино, 2003. С. 47-49.

8. Branchevsky S.L., Durasov A.B., Ilyasova N.Yu., Ustinov A.V. Methods for estimating geometric parameters of retinal vessels using diagnostic images of fundus // Proceedings SPIE, Vol.3348. P. 316-325. (1998).

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Малафеев А. М., Куприянов А. В., Ильясова Н. Ю.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Малафеев А. М., Куприянов А. В., Ильясова Н. Ю.

Текст научной работы на тему «Метод классификации сосудов глазного дна, основанный на применении самоорганизующихся карт Кохонена»