УДК 681.3
ПОСТРОЕНИЕ МОДЕЛЕЙ ПОСТАНОВКИ ДИАГНОЗА ЗАБОЛЕВАНИЙ МОЛОЧНЫХ ЖЕЛЕЗ С ПРИМЕНЕНИЕМ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ И НЕЙРОННЫХ СЕТЕЙ
Ю.Е. Сумина, И.Я. Львович
В статье приведены разработанные модели для принятия решений постановки диагноза заболеваний молочных желез с целью повышения эффективности процесса диагностики данных патологических состояний
Ключевые слова: молочные железы, кластерный анализ, классификация, дискриминантный анализ, нейронная
сеть
На сегодняшний день проблема постановки диагноза заболеваний молочных желез стоит достаточно остро, поскольку рак молочной железы (МЖ) занимает одно из первых мест в списке распространенных опухолевых заболеваний. Известно, что рак молочной железы встречается в 3-5 раз чаще на фоне доброкачественных заболеваний молочных желез и в 3040 раз чаще при узловых формах мастопатии с явлениями пролиферации эпителия молочных желез.
Процесс постановки диагноза заболеваний МЖ в современных условиях невозможен без привлечения математического моделирования. Регистрируемая в ходе диагностики информация является избыточной, поскольку разные показатели отражают одни и те же механизмы функционирования оцениваемой системы организма. Исходя из характера медико-
биологических данных, целесообразно проводить автоматическую классификацию в пространстве первичных признаков.
При этом одним из важнейших направлений является статистическое моделирование.
Для организации наблюдаемых данных в наглядные структуры применяют один из методов статистического моделирования - кластерный анализ. Фактически, кластерный анализ является «набором» алгоритмов «распределения объектов по кластерам».
Наиболее распространенную группу эвристических методов кластеризации составляют методы, основывающиеся на иерархической агломеративной процедуре. Перед началом кластеризации все объекты считаются отдельными кластерами, т.е. имеется р = п кластеров, каждый из которых включает по одному элементу. На первом шаге алгоритма определяют-
Сумина Юлия Евгеньевна - ВГТУ, аспирант, тел. (473) 246-76-99
Львович Игорь Яковлевич - ВГТУ, д-р техн. наук, профессор, тел. (473) 246-76-99
ся два наиболее близких или сходных объекта, которые объединяются в один кластер, общее количество которых сокращается на 1. Итеративный процесс повторяется, пока на последнем (р - 1)-м шаге все классы не объединятся. На каждом последующем шаге рассчитываются расстояния от образованного кластера до каждого из оставшихся кластеров.
Одним из методов для определения расстояния между произвольной парой кластеров {X!}, ! = 1,...^ и {У^, j = 1,...к2 является метод Уорда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.
В качестве меры сходства между объектами внутри класса, описанными количественными интегральными показателями, целесообразно использовать Евклидово расстояние:
Г4 2
й(ю} , юк) = ^ - ¥1к) ,
где Уу (У1к) - значение 1-го показателя для у-го (£-го) объекта.
Данная мера применяется при однородных по смысловой нагрузке и одинаково важных показателях.
В пространстве интегральных показателей задача построения решающих правил для вероятностной идентификации нового объекта с одним из выделенных классов сводится к построению системы дискриминантных классифицирующих функций.
Дискриминантные функции {2У} представляют собой линейные комбинации интегральных показателей {Уу}:
ч
= %0у + %}УУ) ,
У =1
где - значение дискриминантной функции
для у-го класса;
%1У - коэффициенты у-й дискриминантной функции.
Коэффициенты % подбираются так, чтобы средние значения дискриминантных функций для различных классов как можно дальше отстояли друг от друга.
Для расчета коэффициентов дискриминантных функций нужен статистический критерий, оценивающий различия между группами. Очевидно, что классификация переменных будет осуществляться тем лучше, чем меньше рассеяние точек относительно центроида внутри группы и чем больше расстояние между центроидами групп. Один из методов поиска наилучшей дискриминации данных заключается в нахождении таких дискриминантных функций 2У, которые были бы основаны на максимуме отношения межгрупповой вариации к внутригрупповой.
Для нахождения оптимального числа переменных можно воспользоваться критериями, оценивающими остаточную дискриминантную способность, под которой понимается способность различать группы с помощью переменных, не включенных в модель. Это может быть, Л-статистика, вычисляемая по формуле:
Л
П
1
i—k+11 + Xj
где k - число функций;
X - собственное значение матрицы коэффициентов функции.
Если остаточная дискриминация мала, то выполненный анализ достиг своей цели.
В общем случае необходимо рассчитать p линейных дискриминантных функций, равное количеству анализируемых популяций, после чего с использованием коэффициентов giv и постоянной g0v можно провести классификацию любого пациента. Для этого необходимо подставить значения переменных вектора х в дискриминантные уравнения для каждой k-й
группы и рассчитать значения оценок отклика, k = 1, 2,..., p. Вектор х классифицируется как принадлежащий тому классу k, для которого величина Zv имеет максимальное значение.
Разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно называется дискриминантным анализом.
Дискриминантный анализ тесно связан со статистическими процедурами. Эти процедуры
можно разделить на методы интерпретации межгрупповых различий — дискриминации и методы классификации наблюдений по группам.
Методы классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими и зависят от значений переменных таким образом, что появляется возможность отнести каждый объект к одной из групп.
Оценка состояния больных с заболеваниями молочной железы на основе статистических данных проводилась с использованием архивной базы Воронежского областного клиникодиагностического центра.
Для определения диагностической ценности и прогностической значимости наиболее часто встречающихся клинических и инструментальных признаков мастопатии, фиброаденомы и ПМС использовался метод экспертного оценивания, в конечном итоге позволяющий исключить ряд исследований, несущих малое или несущественное количество информации в процессе диагностики. В качестве понятия «признак» взят результат клинического, лабораторного или инструментального исследования пациенток с мастопатией, фиброаденомой и ПМС. Этот результат представляет собой информацию, полученную в процессе обследования и наблюдения за больным. Диагностическую ценность признаков измеряли количеством информации, которую, по мнению эксперта, вносит данный признак или комплекс признаков в диагностику состояния, выраженную в баллах по значимости каждого признака для различных стадий заболеваний (1 - наименее значимый признак, 5 - наиболее информативный показатель). Известно, что комбинация нескольких параметров значительно повышает возможность постановки точного диагноза, однако не всегда диагностическая ценность клинического или инструментального теста зависит от частоты его проявления при данном заболевании. На основании полученных в процессе обследования пациенток данных была создана система, состоящая из клинических, бимануальное и инструментальных классификационных признаков мастопатии, фиброаденомы, ПМС и использованная для компьютерной обработки.
Выделение типологических групп по состоянию развития заболевания молочных желёз проводилось с использованием иерархического алгометрического кластерного анализа.
Формирование классов осуществлялось с использованием метода Уорда. В качестве меры близости применялось расстояние Евклида. Результаты классификации пациентов приведены на рис. 1.
Кластеризация проводилась по 61 пациентке с различными диагнозами.
Как видно из дендрограммы, неправиль-
ный диагноз был поставлен 1 пациентке. Таким образом, ошибка прогнозирования составила 1,8 %.
На рис. 2 представлена характеристика каждого кластера относительно уровня значимости признаков заболеваний молочной железы.
2 1 1
3 гИ-п _1 гк П* 1 Тг?1 ҐҐГі П [ГГ?! Я^Ъ ГІТі г\і г^Гп ҐГ ^ ^
ЩСЛ ООО СП Г' ГМкГ, СОкГіОч^нІГікГі[---тГІ--0'^Г,ОГ----|001Г^Оі гчспч:
"|ГЧ^- Г
-н^-нсп осп спа г
£3£
Э [--.-н О01 (ЧОі гчспю^- ОО'ОСПГЧ^нП^^н^ООО^н-н'ОООСЛ
■ ■■■■
нн нннн нннн н н н н н н нннн нннн нннн нннн н н н н н н нннн нннн нннн нннн нннн н н н н н н нннн нннн нннн
ІІІІІІІІІІІ&ІШІІІІІІІІІІІІ&ІІІІ&ІІІІІІІІІІІІІІІІ&ІІІІІІІІІІІІІІІІІІІІІІІІІ
ккиксскиссккссккисскнкккккккккссккссккисскисскиисскисскиссккссккисскииссиисс
Рис. 1. Дендрограмма иерархической классификации пациенток по заболеваниям молочной железы, где 1- мастопатия, 2- фиброаденома, 3- ПМС
Фиброаденома"а" Мастопатия '°" ПМС
Рис. 2. Показатели признаков заболеваний МЖ в кластерных группах, где х}- болезненность при пальпации, х2 - наличие узла (узлов), х3 - утолщение слоя железистой ткани, мм, Х4 - дуктэктазия, х5 - отношение диаметров образования (горизонтальное к вертикальному), Хб-четкость контуров образования, х7- гомогенная структура образ, х8 -наличие латеральных теней, х9- наличие гиперэхогенной капсулы, хю - наличие кальцинатов, хц- обобщенный показатель
развития заболеваний МЖ И^.
Обобщенный показатель развития гинекологических заболеваний ^об) оценивается следующим образом:
У1= -17,023+0,008*х!+0,265*х2+3,298*х3--1,193*х4-0,784*х5-0,556*хб-0,689*х7--0,157*х8+1,018*х9-4,041*хю+0,659*хп,
36
^б = 2 ^Х1, l=1
где Wi - диагностическая ценность признаков,
1, если ! - й признак присутствует у пациентки;
0, если ! - й признак отсутствует у пациентки.
Экспериментальным путем было установлено, что при Rоб > 10 у пациенток наблюдаются заболевание молочной железы (мастопатия, фиброаденома и ПМС).
Результаты классификации пациентов на основе кластерного анализа в зависимости от различных показателей позволили выделить заболевания молочной железы в отдельные группы. По результатам классификации был проведен дискриминантный анализ.
Дискриминантный анализ - это метод многомерной статистики, применяемый для решения задач классификации (распознавания образов) и позволяет отнести объект с определенными наборами признаков (симптомов) к одному из известных классов.
Информативность симптомов, содержащихся в матрице наблюдений, оценивается по Б-критерию Фишера:
F = -
где Sв - межгрупповая дисперсия симптомов;
S'W - внутригрупповая дисперсия симптома.
Для проверки статистической значимости использовалось понятие остаточной дискриминантной способности (способность переменных различать классы до определения функции, если исключить информацию, полученную с помощью ранее вычисленных функций). Для этого использовалась Л-статистика Уилкса.
Л-статистика Уилкса может принимать значения в диапазоне [0; 1], причем при Л = 0 имеем высокую дискриминацию, то есть классы хорошо различаются, соответственно Л = 1 говорит о низкой дискриминации.
Математические модели дискриминантной функции для каждого заболевания имеют следующий вид:
У2= -26,70-0,698*х! -0,099*х2+0,991*х3-0,512*х4+2,839*х5+3,862*х6+0,710*х7+ +4,088*х8+4,048*х9-2,383*х10+0,535*х„,
У3= -2,615+0,0736*Х1+0,0778* х2+0,171* Х3+0,112* Х4-0,028*Х5-0,07* Хб-0,141* Х7--0,078* х8+0,061* Х9-0,536 *хю+0,084* х„,
где У1 - мастопатия, У2 - фиброаденома, У3 -ПМС; хг болезненность при пальпации, х2 -наличие узла (узлов), х3 - утолщение слоя железистой ткани, мм, х4 - дуктэктазия, х.5- отношение диаметров образования (горизонтальное к вертикальному), хб-четкость контуров образования, Х7- гомогенная структура образ, х8 -наличие латеральных теней, х9- наличие гипе-рэхогенной капсулы, х10 - наличие кальцинатов, х11- обобщенный показатель развития заболеваний МЖ Rоб.
Значение критерия Уилкса Л=0,0019 стремится к нулю, что говорит о хорошем различии между классами.
На основе полученных дискриминантных функций принадлежности были протестированы 17 пациенток. Из всех пациентов, для которых была применена данная методика постановки диагноза, лишь одной пациентке был поставлен неправильный диагноз. Таким образом, достоверность постановки диагноза по дискриминантным функциям составила 94,12 %, а именно, - 85,7 %, 100 % и 100 % -для мастопатии, фиброаденомы и ПМС соответственно.
Нейросети в области здравоохранения успешно применяются для поддержки принятия решений при диагностике и лечении заболеваний, распознавании злокачественных образований, прогнозировании течения болезней и последствий оперативных вмешательств и других целей. Часто стадии болезни может соответствовать достаточно сложная комбинация изменений наблюдаемых признаков. Применение нейросетевой модели в подобных случаях доказывает свою эффективность.
Для решения задачи классификации и прогнозирования на базе нейронной сети разработана экспертная система постановки диагноза заболеваний МЖ. Для повышения эффективности работы модели было использовано экспертное оценивание при отборе наблюдений для реализации входной матрицы признаков. В результате предложена пол-
S
носвязная двухслойная сеть с 36 входами и 3 выходами, соответствующими классам заболевания. Сеть имеет один скрытый слой, состоящий из 10 нейронов. Обучение сети осуществлялось при помощи 64 обучающих векторов. Функция активации нейронной сети представляет собой сигмоидальный преобразо-
1
ватель и имеет вид /у1 (Д) =--.
1 + е
Сеть реализована с помощью нейропакета №игоРго, представлена на рис. 3. Сеть обучилась за 4000 циклов.
Каждому входному сигналу нейронной сети соответствует значимость (выражена в относительных единицах) для принятия се-
тью правильного решения (таблица)- степень зависимости выходного поля от этого сигнала. Наиболее значимые признаки представлены в таблице. Параметр значимость тем больше, чем больший вклад вносит конкретный входной сигнал при классификации выходного поля.
На основе полученной математической модели был проведен опрос. Из 17 пациенток, для которых была применена данная методика (8 - с заболеванием мастопатия, 6 - с фиброаденомой, 3 - с предменструальным синдромом), 16 пациенткам был поставлен правильный диагноз, что соответствует достоверности постановки диагноза 97 %.
У1
У 2
У3
Рис. 3. Нейронная сеть, реализующая экспертную систему Значимость входных сигналов
Атрибут Значимость, отн. ед.
Гинекологические заболевания 0,692
Эндокринные нарушения 0,727
Боли в МЖ 0,599
Болезненность при пальпации 0,580
Наличие узлов 0,553
Дольчатость ткани 0,571
Плотная консистенция 0,620
Фиброзные изменения 0,604
Дуктэктазия 0,980
Наличие анэхогенного образования 0,571
Четкость контуров образования 0,489
Наличие гиперэхогенной капсулы 0,634
Наличие участков затемнения 0,876
Расширение млечных протоков 0,893
Сеть была протестирована с различным набором характеристик и выяснилось, что выведение из исходного набора каких-либо показателей приводит к увеличению ошибки классификации.
Таким образом, разработанная нейросеть адекватно прогнозирует новые наблюдения.
Как видно, по результатам проведенных анализов наиболее достоверной методикой для постановки диагноза мастопатии и фиброаденомы является нейросетевое моделирование.
Литература
1. Нейтадт Э.Л. Патология молочной железы. /
Э.Л. Нейтадт, О.А. Воробьева. - СПб.: Фолиант, 2003. -
208 с.
2. Огнерубов Н.А. Мастопатия: возможности консервативной терапии. / Н.А. Огнерубов. - Воронеж, 2001. -136 с.
3. Советов Б.Я. Моделирование систем / Б.Я. Советов, С.А. Яковлев. - М.: Высш. шк., 2005. -295 с.
4. Запорожцева Ю.Е. Современное состояние проблем заболеваний молочных желез / Ю.Е. Запорожцева, И.Я. Львович, Е.И. Новикова // Интеллектуальные информационные системы: тр. всеросс. конф. Воронеж: ВГТУ, 2009. С. 277-278.
5. Запорожцева Ю.Е. Анализ современных методов диагностики мастопатии / Ю.Е. Запорожцева, И.Я. Львович, Е. И. Новикова // Управление процессами диагностики и лечения: Межвузовский сборник научных трудов. Воронеж: ВГТУ, 2008. С. 34-37.
Воронежский государственный технический университет
CONSTRUCTION OF MODELS DIAGNOSIS BREAST DISEASES USING STATISTICAL
MODELING AND NEURAL NETWORKS
Yu.E. Sumina, !^а. Lvovich
The article presents developed models for making the diagnosis of breast diseases in order to improve the effectiveness of diagnostic data of pathological conditions
Key words: mammary glands, cluster analysis, classification, discriminant analysis, neuronnaya network