УДК 004.658.6 Дата подачи статьи: 11.04.16
DOI: 10.15827/0236-235X.115.208-212
СИСТЕМА ДИАГНОСТИКИ И ОЦЕНКИ РИСКА ОСТЕОПОРОТИЧЕСКОГО ПЕРЕЛОМА НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Г.А. Дмитриев, д.т.н., профессор; Аль-Факих Али Салех Али,, аспирант, [email protected] (Тверской государственный технический университет, наб. Аф. Никитина, 22, г. Тверь, 1 70026, Россия)
Использование информационных технологий в медицине при диагностике различного рода заболеваний требует совершенствования методов хранения и обработки данных. Для оценки риска остеопоротического перелома используется вычислительная модель, основанная на использовании схемы байесовского вывода. Задача прогнозирования рассматривается как задача классификации, то есть как задача нахождения апостериорной вероятности принадлежности пациента к одному из двух классов исходной классификации. Фактор, определяющий возможность остеопороти-ческого перелома, является многомерной случайной величиной, оценка характеристик которой требует хранения и обработки больших объемов информации. В статье описываются состав и архитектура программного комплекса для диагностики остеопороза и оценки риска остеопоротического перелома. Комплекс включает в себя информационную и вычислительную компоненты. Вычислительная компонента содержит методы интеллектуального анализа данных, направленного на обнаружение закономерностей и тенденций, а также на выявление взаимосвязей существующих в многомерных массивах клинических данных. Информационная компонента содержит модели выборочных данных в виде многомерных кубов, которые формируются на базе OLAP-технологий и таблиц сопряженности. Объединение информационной и вычислительной компонент образует единую модель системы. Выходные данные информационной компоненты используются в качестве входа для вычислительной компоненты, которая служит для вывода суждений в условиях неопределенности и неполной информации. Ее основу составляют методы исчисления вероятностей, байесовы и нейронные сети. Рассмотрены вопросы использования служб Analysis Services: SQL Server Data Tools (SSDT) и SQL Server Management Studio в качестве платформы для создания и анализа многомерных моделей на основе технологий Data Mining.
Ключевые слова: информационная система, медицинская диагностика, остеопороз, байесовские сети.
Одним из самых распространенных хронических прогрессирующих метаболических заболеваний костной системы, которое характеризуется нарушением микроархитектоники костной ткани и усилением хрупкости по причине нарушения метаболизма костной ткани с преобладанием катаболизма над процессами костеобразования, является остеопороз [1-3]. Это социально-значимая патология, связанная не только с широкой распространенностью у населения старше 50 лет, но и с высокой частотой его тяжелых осложнений, среди которых наиболее неблагоприятными в прогностическом плане являются остеопоротические переломы (ОП). Ранняя диагностика заболевания и определение риска перелома позволяют выявлять лиц, имеющих высокий риск ОП, и выбрать наиболее подходящий препарат и стратегию лечения.
Развитие остеопороза прямо связано со снижением костной массы в единице объема и, соответственно, минеральной плотности костной ткани (МПКТ), определяющей прочность кости и ее устойчивость к чрезмерному физическому воздействию. МПКТ является важнейшим фактором, определяющим риск ОП. Для оценки МПКТ используется такой показатель, как Т-критерий:
T =
У - my
где yt - значение МПКТ у i-го инди-
вида; ту - среднее значение МПКТ в популяции; <5у - стандартное отклонение. Т-критерий означает
количество стандартных отклонений выше или ниже среднего показателя пика костной массы. Т-критерий уменьшается при снижении костной массы и возрастает при ее увеличении. МПКТ определяется в абсолютных единицах как значение числа стандартных отклонений между МПКТ пациента и возрастной нормой для здоровых людей такого же возраста и пола.
Связь между низкой костной массой и повышенным риском переломов позволяет проводить инструментальную диагностику остеопороза и выявлять риск перелома, основываясь на МПКТ [ 1, 2]. Низкая МПКТ довольно эффективно может быть оценена с помощью целого ряда технологий, однако, как было показано, например, в [2, 3], МПКТ не в состоянии идентифицировать всех пациентов, у которых в будущем произойдет перелом. Это лишь один из факторов риска перелома, а для его более точной оценки необходимо использовать и другие, хорошо измеряемые факторы, которые давали бы дополнительную к МПКТ информацию. Кроме того, массовый скрининг на остеопороз, выполняемый путем измерения плотности костной ткани, из-за высокой стоимости исследования не является эффективным. Для выявления больных с высоким риском ОП или для предварительного скрининга тех, кому может потребоваться измерение плотности костной ткани, были разработаны такие методики, как «Вопросник для самооценки остеопороза», «Индекс риска остеопороза» [3-5].
а
У
В последнее время широкое применение нашел способ оценки риска перелома, получивший название FRAX (Fracture risk assessment tool) [6, 7]. Алгоритм FRAX дает обобщенную оценку риска перелома на основе имеющихся у пациента клинических факторов риска в сочетании (или без) с данными денситометрии. При прогнозировании десятилетней вероятности перелома по методике FRAX используются следующие клинические факторы риска: возраст, пол, индекс массы тела, предшествующий перелом, перелом бедра у родителей, семейный анамнез переломов, курение, прием глю-кокортикоидов, ревматоидный артрит, вторичный остеопороз, злоупотребление алкоголем. Кроме того, может быть добавлен показатель минеральной плотности кости шейки бедра.
Тем не менее, инструмент FRAX, как и перечисленные выше, имеет определенные ограничения. Многие из факторов риска, используемых в инструменте FRAX, такие как курение сигарет, потребление алкоголя, прием глюкокортикоидов, перенесенные ранее переломы, оказывают дозоза-висимое влияние на риск перелома. Для этих факторов в инструменте FRAX используют относительные риски, основанные на усредненном влиянии фактора, что снижает достоверность выводов. Также эти инструменты не содержат целый ряд других показателей костной ткани, которые дают ценную информацию о риске перелома [8]. К ним относятся биохимические показатели метаболизма костной ткани, количественные показатели оценки кости с помощью ультразвукового метода и компьютерной томографии, а также измерения МПК в других областях скелета, уровни биохимических маркеров метаболизма костной ткани, риск падений, предшествующее медикаментозное лечение и ряд других. Указанные выше недостатки делают актуальными разработки новых методов и информационных технологий оценки риска ОП, позволяющие проводить диагностику на основе мониторинговых исследований, учитывающих как общую тенденцию, так и местную специфику.
Модель оценки риска ОП
В системе используется модель оценки риска ОП, основанная на использовании схемы байесовского вывода [8-11]. Байесовский вывод - один из методов статистического вывода, в котором для уточнения вероятностных оценок на истинность гипотез при поступлении свидетельств используется формула Байеса:
* y IX, X 2,..., X,) = , "<'X X ......X-Iy- > - * * > ,
Z"(X,.X,......X, ly)x"(y>
j=,
где случайная величина Y = (yi, y2) описывает состояние пациента - наличие или отсутствие перелома. Набор факторов риска определяет n-мерную случайную величину X с компонентами (Xi, ..., Xn).
Как уже было отмечено, развитие ОП прямо связано со снижением МПКТ, определяющей прочность кости. Кроме факторов риска переломов, связанных с чрезмерной потерей костной массы (Х1), существуют факторы, не связанные с этим состоянием (Х2). На основе проведенного анализа были отобраны факторы, определяющие риск ОП. С учетом разделения факторов на связанные (XI) и не связанные (Х2) с чрезмерной потерей костной массы механизм их воздействия на частоту переломов Y можно представить в виде орграфа (рис. 1).
В изображенной на рисунке 1 байесовской сети вершины представляют собой случайные величины, а дуги - вероятностные зависимости, которые определяются через таблицы условных вероятностей. Таблица условных вероятностей каждой вершины содержит вероятности состояний этой вершины при условии состояний ее родителей.
Задачу оценки риска перелома будем рассматривать как задачу нахождения апостериорной вероятности принадлежности пациента к одному из классов классификации - >>1 или >>2. Апостериорная вероятность того, что пациент принадлежит к классу >1 (то есть существует вероятность перелома), имеет вид р(у | X) = /(^Р(Х 1 ^ .
е р( у]) р( х|у)
1=1
Байесовская сеть строится на основе как экспертных оценок, так и статистических данных. Эти данные использовались и для установления взаимосвязей между случайными элементами, и для получения оценок условных вероятностей.
В общем случае вид плотности распределения и его параметры не известны, поэтому используются данные случайных независимых выборок. На основе этих данных строятся таблицы априорных вероятностей для вершины графа Y и условных вероятностей для вершин Х1 и Х2:
Y p(y¡) p(Xi\yi) P(X2|yi)
yi p(yi) p(Xi|yi) P(X2|yi)
У2 Р(У2) p(Xi|y2) P(X2y2)
Законы распределения случайных величин p(X\) иp(X2) вычислялись на основе дискретной логики модели множественного выбора: х* = xXj +е ; х** = ^рjx2j +s, где x* и x* - значения латентных переменных; x\j, x2j - наблюдаемые значения факторных переменных. Используя p(X\) и p(X2) в качестве априорных вероятностей, находим их апостериорные значения p(X\X\\, X\2, ...,X\h) иp(X2|X\,X22, ...,X2g). Окончательно модель для вычисления вероятности ОП имеет вид
p(y|(X\X\\, X\2, ..., X\h), (X2IX21, X22, ..., X2g)).
Модель основана на анализе многомерной системы дискретных случайных величин (многомерной дискретной случайной величины) с неизвестным законом распределения. Закон распределения такой случайной величины задается в виде многомерной таблицы, в ячейках которой расположены вероятности совместного проявления событий. На основании этой таблицы могут быть вычислены все условные и маржинальные вероятности. Для оценки вероятностей неизвестного многомерного закона распределения на основе выборочных данных использовались таблицы сопряженности, имеющие структуру, аналогичную многомерной таблице, задающей закон распределения случайной величины. В качестве оценок вероятностей в таблице сопряженности использовались эмпирические частоты совместного проявления событий. Последующая обработка данных проводилась на основе логарифмической модели и методов измерения связей многовходовых таблиц сопряженности.
Организация вычислений
в системе диагностики и оценки риска ОП
Система состоит из совокупности модулей, обеспечивающих хранение данных и их обработку. Данные анамнеза представляются в виде совокупности векторов (x\, x2, ..., x„), содержащих значения различных количественных и качественных признаков по каждому пациенту. Массивы данных о состоянии M пациентов проходят предварительную обработку, которая заключается в их группировке и бинаризации. В результате этой обработки формируется таблица (см. таблицу), содержащая исходные амнестические данные по каждому пациенту для анализа.
На основе исходной таблицы (см. таблицу) формируется многовходовая таблица сопряженности в виде многомерного куба. Это позволяет применить технологию OLAP (online analytical processing) для аналитической обработки информации в различных срезах. Результатом обработки многомерных кубов являются, в частности, оценки вероятностей многомерного распределения. На основе этих данных и алгоритмов настройки байесовской сети вычисляются параметры модели оценки риска ОП. Обученная таким образом модель сохраняется в
библиотеке моделей и используется для оценки риска ОП для пациента в процессе дифференциальной диагностики.
Массив данных Data array
В качестве инструмента разработки системы диагностики и оценки риска ОП была использована СУБД MS SQL Server, поскольку на ее базе имеется возможность хранить данные в виде многомерных кубов, создавать модели Data Mining (интеллектуального анализа данных) и применять их для поддержки принятия решений [12]. Среда MS SQL Server включает подсистему службы Analysis Service, которая содержит алгоритмы интеллектуального анализа данных и средства создания запросов к данным. Обширная библиотека алгоритмов службы Analysis Service содержит алгоритмы классификации, дерева принятия решений, регрессионного анализа, логистической регрессии, кластеризации, анализа взаимосвязей между различными атрибутами в наборе данных, анализа временных рядов нейронных сетей. Кроме того, в библиотеку алгоритмов можно включать собственные алгоритмы и связывать их с данными. Эта возможность была использована при создании программного комплекса для диагностики остеопороза и оценки риска ОП. Для этого разработанные на основе методов исчисления вероятностей и байесовых сетей алгоритмы, кратко описанные выше, были добавлены в экземпляр сервера в качестве новой функции интеллектуального анализа данных. Регистрация алгоритмов производилась путем добавления необходимых метаданных в INI-файл экземпляра службы Analysis Services.
Логическая архитектура программного комплекса для диагностики остеопороза и оценки риска ОП на платформе MS SQL Server приведена на рисунке 2.
Программный комплекс состоит из трех компонент: набора моделей интеллектуального анализа данных, структур интеллектуального анализа данных и клиентского приложения.
Модели интеллектуального анализа данных создаются на основе алгоритмов из библиотеки экземпляра службы Analysis Service. Для создания модели сначала описывается ее структура, а затем
Бина рная матрица
1 2 3 4 5 6 7 8
Пол Куре- Алко- Пере- Арт- Диа- Осте- Зре-
ние голь ломы рит бет2 опороз2 ние
1 1 0 0 0 1 1 0 \
2 1 0 0 0 1 0 0 0
3 1 0 0 0 1 0 0 0
4 \ 0 \ 0 0 1 0
5 1 0 0 0 1 0 0 0
6 1 0 0 0 1 1 0 0
7 \ \ \ 0 0 1 0
8 1 \ 0 0 1 1 0 \
9 1 \ 0 0 0 1 1 \
Экземпляр службы Analysis Service
1 G G G
Структуры интеллектуального анализа данных
Объекты OLAP
Объекты модуля поддержки
Объекты интеллектуального анализа данных
№ 3
iL
G G G G
Модели интеллектуального анализа данных
Метаданные
Алгоритмы анализа данных
Обученные модели анализа данных
3 3
T
Клиентское приложение (надстройка интеллектуального анализа данных MS Excel)
Рис. 2. Архитектура диагностической системы Fig. 2. Diagnostics system architecture
определяются ее параметры на основе имеющихся данных. Этот процесс называется обучением. После обучения модель интеллектуального анализа данных содержит метаданные о модели, ссылку на алгоритм, который использовался для анализа данных, и результат анализа. Метаданные определяют имя модели и сервер, где она хранится, а также описание модели, включая данные, которые использовались для построения модели с привязкой к структуре интеллектуального анализа данных. Сама модель представляется стандартной структурой независимо от применяемого алгоритма и содержит свое полное описание. Обученная модель используется для вывода закономерностей и взаимосвязей, формирования прогнозов при получении новых данных и хранится в библиотеке моделей экземпляра службы Analysis Service. Источником данных как для обучения, так и для обученных моделей являются структуры интеллектуального анализа данных.
Структура интеллектуального анализа данных является хранилищем данных, на основе которых строятся модели интеллектуального анализа. Несколько моделей могут использовать одну и ту же структуру интеллектуального анализа данных. Структура и модель интеллектуального анализа данных являются отдельными объектами службы Analysis Service. В структуре интеллектуального анализа данных хранятся сведения, определяющие источник данных. Процесс создания структуры данных включает построение модели на основе OLAP, привязку модели к БД, загрузку в нее данных и присвоение разрешений на доступ к данным. Многомерные кубы являются базовыми объектами запросов. Администрирование БД осуществляется
с помощью среды SQL Server Management Studio. С ее помощью можно вносить изменения в БД.
Пользовательский интерфейс системы диагностики (рис. 2) реализован в среде MS Excel, выполняющей роль клиентского приложения. Использование надстроек интеллектуального анализа для пакета Excel позволяет проводить интеллектуальный анализ данных средствами Microsoft SQL Server. Чтобы использовать средства интеллектуального анализа таблиц для Excel, необходимо создать соединение с экземпляром служб Analysis Services. Это соединение обеспечивает доступ к алгоритмам интеллектуального анализа данных и БД. При подключении к БД служб Analysis Services посредством клиентского приложения происходит подключение к многомерному кубу внутри этой БД.
Описанный подход в медицинской практике для поддержки принятия решений на стадии анализа медицинских данных позволяет использовать технологию клиент-сервер при формировании БД, необходимых для разработки моделей заболевания. Клиент интеллектуального анализа данных для Excel поддерживает активное соединение с сервером, обеспечивая масштабируемость системы. Таким образом, модель интеллектуального анализа может быть размещена как на локальном компьютере, так и на удаленных серверах БД. Это важно для организации работ по компьютерной диагностике остеопороза и прогнозированию ОП в медицинских учреждениях, поскольку источниками данных могут быть как отдельные медицинские учреждения, так и группы подобных учреждений, диагностические центры. Данные также могут поступать из других источников в ходе проведения мониторинговых исследований, например, из БД Министерства здравоохранения, Всемирной организации здравоохранения, Фонда медицинского страхования и т.п. На основе рассмотренной архитектуры можно реализовывать различные варианты системы диагностики - локальные, региональные и т.д., используя единую технологию их создания.
Литература
1. Cadarette S.M. et al. Development and validation of the Osteoporosis Risk Assessment Instrument to facilítate selection of women for bone densitometry. CMA Journ., 2000, vol. 162, no. 9, pp. 1289-1294.
2. Cadarette S.M. et al. Evaluation of decision rules for referring women for bone densitometry by dual-energy x-ray absorptiometry. Journ. AMA, 200\, vol. 286, no. \, pp. 57-63.
3. Cosman F., de Beur S.J., LeBoff M.S. et al. Clinician's guide to prevention and treatment of osteoporosis. Osteoporos Int., 20\4, vol. 25, no. 8, pp. 2359-238\.
4. Mихайлов Е.Е., Беневоленская Л.И. Эпидемиология остеопороза и переломов: руководство по остеопорозу. М.: Бином. Лаборатория знаний, 2003. С. \0-55.
5. Richy F. et al. Validation and comparative evaluation of the osteoporosis self-assessment tool (OST) in a Caucasian population from Belgium. QJM, 2004, vol. 97, no. \, pp. 39-46.
6. Канис Дж.А., Оден А., Йохансон Г., Боргстром Ф., Стром О., Макклоски И.В. FRAX - новый инструмент для оценки риска перелома: применение в клинической практике и пороговые уровни для вмешательства // Остеопороз и остеопатии. 2012. № 2. С. 38-44.
7. Лесняк О.М. Новая парадигма в диагностике и лечении остеопороза: прогнозирование 10-летнего абсолютного риска перелома (калькулятор FRAX) // Остеопороз и остеопатии, 2012. № 1. С. 23-28.
8. Рассел С., Норвиг П. Искусственный интеллект: современный подход. М.: Вильямс, 2006. 1408 с.
9. Терехов С.А. Введение в байесовы сети // Нейроинфор-матика-2003: науч. сессия МИФИ-2003. V Всерос. науч.-технич. конф. М.: Изд-во МИФИ, 2003. Ч. 1. С. 149-187.
10. Прокопчина С.В., Ветров А.Н., Нестеров А.О. Управление инвестиционными рисками строительных организаций на основе байесовских информационных технологий // Программные продукты и системы. 2014. № 1 (105). С. 212-216.
11. Еремеев А.П., Хазиев Р.Р., Зуева М.В., Цапенко И.В. Прототип диагностической системы поддержки принятия решений на основе интеграции байесовских сетей доверия и метода Демпстера-Шефера // Программные продукты и системы. 2013. № 1 (101). С. 11-16.
12. Службы Analysis Services. URL: https://msdn.mi-crosoft. com/ru-ru/library/ms174949(v=sql .120).aspx (дата обращения: 10.04.2016).
13. Шилин Д.Е., Шилин А.Д., Адамян Л.В. Существует ли у населения России связь между риском переломов по шкале FRAX (ВОЗ 2008) и потреблением кальция? // Остеопороз и остеопатии. 2010. № 1. С. 53-54.
DOI: 10.15827/0236-235X. 115.208-212 Received 11.04.16
THE ARCHITECTURE OF THE SYSTEM FOR OSTEOPOROTIC FRACTURE DIAGNOSTICS
AND RISK ASSESSMENT
lDmitriev G.A., Dr.Sc. (Engineering), Professor; lAl-Fakih Ali Saleh Ali, Postgraduate Student, [email protected] 1Tver State Technical University, Nikitin Quay 22, Tver, 170026, Russian Federation
Abstract. The use of information technologies in medicine for diadnosis of various diseases needs improvements in data storage and processing. To assess the osteoporotic fracture risk the specialists use a computational model based on the Bayesian inference scheme. A prediction task is considered as a classification task, i.e. a task of finding the posterior probability of patient belonging to one of two original classification classes. The factor that determines the possibility of osteoporotic fracture is a multidimensional random variable. To evaluate its performance it is required to store and process large information volumes. The complex includes informational and computational components. The computational component contains methods of data mining aimed at detecting patterns and trends, as well as at identifying existing relationships in multidimensional arrays of clinical data. The informational component contains sample data models in the form of multidimensional cubes that are formed on the base of OLAP-technologies and contingency tables. Information and computer components are combined into a single system model. Data output of the information component is used as input for the computer component, which is used to display the statements under conditions of uncertainty and incomplete information. It is based on probability calculation methods and Bayesian networks. The article examines the use of Microsoft SQL Server Analysis Services as a platform to create and analyze multivariate models based on Data Mining technology.
Keywords: informational system, medical diagnostics, osteoporosis, Bayesian networks.
References
1. Cadarette S.M. Development and validation of the Osteoporosis Risk Assessment Instrument to facilitate selection of women for bone densitometry. Canadian Medical Association Journ. 2000, no. 162 (9), pp. 1289-1294.
2. Cdarette S.M. Evaluation of decision rules for referring women for bone densitometry by dual-energy x-ray absorptiometry. Journ. of the American Medical Association. 2001, vol. 286, no. 1, pp. 57-63.
3. Cosman F., de Beur S.J., LeBoff M.S. Clinician's Guide to Prevention and Treatment of Osteoporosis. Osteoporosis international. 2014, vol. 25, no. 8.
4. Mikhaylov E.E., Benevolenskaya L.I. Epidemiologiya osteoporoza i perelomov. Rukovodstvo po osteoporozu [Epidemiology of Osteoporosis and Fractures. Guidelines of Osteoporosis]. Moscow, Binom, Laboratoriya znany Publ., 2003.
5. Richy F. Validation and comparative evaluation of the osteoporosis self-assessment tool (OST) in a Caucasian population from Belgium. QJM. 2004, vol. 97, no. 1, pp. 39-46.
6. Kanis J.A., McCloskey E.V., Johansson H., Oden A., Ström O., Borgstrom F. FRAX - a new tool for the assessment of fracture risk: application in clinical practice and thresholds for intervention. Osteoporoz i osteopatii [Osteoporosis and Osteopathy]. 2012, no. 2, pp. 38-44.
7. Lesnyak O.M. The new paradigm in diagnosis and treatment of osteoporosis: prediction of a 10-year absolute risk of fracture (calculator frax). Osteoporoz i osteopatii [Osteoporosis and Osteopathy]. 2012, no. 1, pp. 23-28.
8. Rassel S., Norvig P. Iskusstvenny intellekt: sovremenny podkhod [Artificial Intelligence: Modern Approach]. Vilyams Publ., 2006, 1408 p.
9. Terekhov S.A. Introduction to Bayesian networks. Neyroinformatika-2003. Nauchnaya sessiya MIFI-2003. V Vseross. nauch.-tekhnich. konf. [Proc. 5th All-Russian Science and Technical Conf. "Neuroinformatics-2003". Scientific Session of MIFI]. Moscow, MIFI Publ., 2003, p. 1.
10. Prokopchina S.V., Vetrov A.N., Nesterov A.O. Investment risks management for construction organizations based on Bayesian information technologies. Programmnyeprodukty i sistemy [Software & Systems]. 2014, no. 1 (105), pp. 212-216 (in Russ.).
11. Eremeev A.P., Khaziev R.R., Zueva M.V., Tsapenko I.V. Prototype of the diagnostic decision support system on the basis of integration bayesian belief networks and the Dempster-Shafer method. Programmnye produkty i sistemy [Software & Systems]. 2013, no. 1 (103), pp. 11-16 (in Russ.).
12. Analysis Services. Available at: https://msdn.microsoft.com/ru-ru/library/ms174949(v=sql.120).aspx (accessed Aprel 10, 2016).
13. Shilin D.E., Shilin A.D., Adamyan L.V. Is there a link between a risk of fracture according to FRAX scale (VOZ 2008) and calcium consumption among the population of Russia? Osteoporoz i osteopatii [Osteoporosis and Osteopathy]. 2010, no. 1, pp. 53-54 (in Russ.).