УДК 519.25:004.93 Дата подачи статьи: 05.04.16
Б01: 10.15827/0236-235Х.114.172-178
МЕТОДЫ И СРЕДСТВА АНАЛИЗА ИНФОРМАТИВНОСТИ ПРИЗНАКОВ ПРИ ОБРАБОТКЕ МЕДИЦИНСКИХ ДАННЫХ
В.В. Быкова, д.ф.-м..н., профессор, Ъукуа1еп@т-са1-ги
(Сибирский Федеральный университет, просп.. Свободный, 79, г. Красноярск,, 660041, Россия); А.В. Катаева, инженер-программист, [email protected]
(Краевая клиническая больница, ул. Партизана Железняка, 3а, г. Красноярск, 660022, Россия)
Многие современные лечебные учреждения располагают информационными системами для хранения различных медицинских данных о здоровье пациентов, которые используются врачами для распознавания (диагностики) патологических процессов. Однако при анализе медицинских данных, обнаружении закономерностей в этих данных и их извлечении приходится сталкиваться с проблемой размерности. Размерность хранимых данных, определяемая числом различных признаков, описывающих состояние здоровья пациента, весьма велика и порой достигает нескольких десятков и сотен показателей. Поэтому проблема снижения размерности признакового пространства и выделения наиболее информативных признаков весьма актуальна для медицинских информационных систем. В статье сформулирована задача отбора информативных признаков как задача комбинаторной оптимизации, вычислительная сложность которой составляет O (2п), где п - исходное число исследуемых признаков. Приведено обобщение данной задачи с учетом возможности конструирования новых признаков на основе исходных. Представлен краткий обзор базовых методов сокращения признакового пространства, таких как метод главных компонент и метод экстремальной группировки признаков. Подробно рассмотрены и исследованы статистические методы оценки информативности признаков, используемые в медицинской диагностике: метод накопленных частот, метод Шеннона и метод Кульбака. Применение данных методов продемонстрировано на примере диагностики заболевания почек. Описан разработанный комплекс программ InformSigns, в котором реализованы все указанные статистические методы. InformSigns предоставляет врачу удобный интерфейс для оценки информативности признаков, описывающих состояние здоровья пациентов. Данный комплекс может быть встроен в специализированные медицинские информационные системы для диагностики различных патологических процессов.
Ключевые слова: анализ медицинских данных, методы отбора и конструирования признаков, оценка информативности признаков, программное обеспечение для здравоохранения.
Применение современных информационных технологий в медицине способствует накоплению огромных объемов медицинских данных, хранимых и обрабатываемых с помощью медицинских информационных систем (МИС). Эти данные содержат в себе медицинские знания, которые можно извлекать и использовать для принятия решений, например, при распознавании (диагностике) патологических процессов. При анализе медицинских данных, обнаружении закономерностей в этих данных и их извлечении приходится сталкиваться с проблемой размерности. Размерность хранимых данных, определяемая числом различных признаков, описывающих состояние здоровья пациента, весьма велика и порой достигает нескольких десятков и сотен показателей. Поэтому проблема снижения размерности признакового пространства и выделения наиболее информативных признаков весьма актуальна для МИС.
Существует несколько обстоятельств, обусловливающих возможность перехода от большего числа исходных показателей состояния пациента к существенно меньшему числу наиболее информативных признаков. Это прежде всего дублирование информации вследствие наличия связей между признаками, низкая информативность отдельных признаков, взвешенное суммирование некоторых признаков и конструирование обобщенных призна-
ков. Информативность признака является понятием относительным. Одна и та же система признаков может быть информативной для решения одной задачи распознавания и неинформативной для другой. Так, при дифференциальной диагностике заболевания почек диагностически значимыми будут одни признаки, а при диагностике бронхиальной астмы другие. Признаком (Feature) принято называть некоторый показатель или определенную характеристику объекта произвольной природы. Набор признаков рассматриваемого множества объектов называется признаковым пространством, а совокупность значений признаков, относящихся к одному объекту, - признаковым описанием этого объекта [1-3]. В задачах медицинской диагностики объектами являются пациенты, а в качестве признаков выступают показатели состояния их здоровья.
Различают следующие типы признаков. Количественные признаки - это признаки, измеренные в некоторой числовой шкале. Качественные (порядковые, балльные) признаки используются для выражения терминов и понятий, не имеющих числовых значений (например тяжесть заболевания), измеряются в порядковых шкалах. Номинальные признаки - это признаки, измеренные в шкале наименований (например группа крови, пол). При анализе таких признаков каждую отметку номи-
нальной шкалы считают отдельным самостоятельным признаком, принимающим одно из двух значений: 1 («да») или 0 («нет») [1, 2]. Количественное выражение качественных и номинальных признаков в анализе данных часто называют шкалированием [4]. После шкалирования к качественным и номинальным признакам можно применять различные методы численного анализа, включая статистические.
В работе рассматриваются методы снижения размерности признакового пространства, а также статистические методы анализа информативности признаков при обработке медицинских данных на примере дифференциальной диагностики заболевания почек. Считается, что изначально признаки могут быть разнотипными, однако на этапе анализа их информативности они уже отшкалиро-ваны и представлены в количественном виде.
Постановка задачи сокращения признакового пространства и обзор существующих методов решения
Пусть Q - множество объектов, X = {х1, х2, ..., xn} - конечное множество количественных признаков этих объектов. Для всякого объекта ю е Q известно его признаковое описание {х1(ю), х2(ю), ..., хп(ю)} - n-мерный вектор, причем i-я координата этого вектора равна значению i-го признака. Совокупность признаковых описаний объектов из заданной выборки объектов A с Q задана в виде матрицы размера |A|xn, называемой таблицей «объект - признак». Пусть I(Z) - мера информативности подмножества признаков Z с X, определенная на A. Требуется среди всех различных подмножеств множества X выбрать некоторое такое подмножество Z* с X, что
I (Z*) = max{I (Z)}. (1)
Z с X
В теории распознавания образов поставленная задача называется FEATURES SELECTION (селекция признаков) [3-5]. Задача FEATURES SELECTION является вычислительно сложной, поскольку при X = п перебор всех различных подмножеств Z с X требует O (2n) времени.
Задача FEATURES SELECTION может быть обобщена путем определения преобразования Z = F(X), позволяющего из X формировать новое пространство признаков Z, |Z| < X|. В такой постановке задача называется задачей FEATURES EXTRACTION (извлечение или конструирование признаков) [3]. При решении FEATURES EXTRACTION формируются новые признаки на основе уже имеющихся в X. Самое простое преобразование Z=F(X) - это линейное преобразование.
Тот или иной вариант конкретизации FEATURES SELECTION или FEATURES EXTRACTION заключается в задании меры информативности, а для FEATURES EXTRACTION и класса допусти-
мых преобразований Z = F(X), что приводит к конкретному методу решения.
Основными способами решения задачи FEATURES EXTRACTION являются методы факторного анализа и метод экстремальной группировки признаков. Факторный анализ позволяет выделить обобщенные признаки (факторы), каждый из которых представляет сразу несколько исходных признаков. Один из методов факторного анализа - метод главных компонент [5, 6]. Суть его состоит в поиске линейных комбинаций признаков из X и в конструировании на их основе меньшего по мощности пространства признаков Z с X, информативность которого равнозначна информативности X в целом. Как показывает практика, использование метода главных компонент оказывается наиболее результативным, когда все признаки х1, х2, ... , xn е Xоднотипны и измерены в одних и тех же единицах. В противном случае полученные линейные комбинации исходных признаков трудно интерпретируемы.
В методе экстремальной группировки по матрице «объект - признак» выборки A вычисляется корреляционная матрица и множество X разбивается на группы так, чтобы внутри одной группы признаки были сильно скоррелированы, а между группами наблюдалась относительно слабая корреляция. Далее осуществляется замена каждой группы признаков одним равнодействующим признаком. Недостатком данного метода является невозможность определения оптимального числа групп [5].
В том случае, когда требуется лишь оценить значимость отдельных независимых признаков на основе заданной меры информативности, широко используются статистические методы: метод накопленных частот, метод Шеннона и метод Кульбака [4, 6]. Выбор этих методов обусловлен следующими причинами: данные методы основаны на достаточно простых алгоритмах вычисления меры информативности, результаты применения этих методов легко интерпретируются. Именно эти особенности существенны для различных категорий пользователей МИС, большинство из которых не являются специалистами в области анализа данных и IT-технологий. Кроме того, данные методы составляют математический базис многих алгоритмов решения задачи FEATURES SELECTION, направленных на сокращение полного перебора всех различных подмножеств Z с X в (1). Разработан целый спектр таких алгоритмов [7]. Наиболее известный из них алгоритм AdDel, который сводится к последовательному выполнению процедур добавления (Addition) наиболее информативных и исключения (Deletion) наименее информативных признаков. Помимо этих алгоритмов, возможен также выбор наиболее значимых признаков экспертами-медиками на основе вычисленных оценок информативности признаков.
Следует заметить, что оценка информативности признаков всегда зависит от того, что от чего нужно отличать, то есть от списка распознаваемых образов [4]. Чаще всего эти образы задаются разбиением выборки A на две обучающие выборки - A1 и A2. В данном случае FEATURES SELECTION сводится к решению следующей частной задачи: для заданных обучающих выборок Ai, A2 и меры информативности I(x) требуется вычислить I(x) для каждого признака х е X и указать те признаки, которые в наибольшей степени, согласно I(x), объясняют различие между Ai и A2. Рассмотрим особенности решения этой задачи методом накопленных частот (МНЧ), методами Шеннона и Кульбака.
Метод накопленных частот
Суть МНЧ заключается в следующем. Пусть имеются два набора значений признака х е X, принадлежащие двум матрицам «объект - признак» обучающих выборок Ai и A 2. Далее не будем делать различия между выборками и соответствующими им матрицами «объект - признак». По двум наборам значений признака x строятся эмпирические распределения и подсчитываются накопленные частоты как суммы частот от начального до текущего интервала распределения. Мерой информативности признака х служит модуль максимальной разности накопленных частот:
I(х) = max {M, -M2, I}, (2)
где Mi j - накопленная частота для j-го интервала выборки Ai; M2j - накопленная частота для j-го интервала выборки A2; (g+1) - число интервалов.
Продемонстрируем алгоритм вычисления меры информативности (2) на примере дифференциальной диагностики заболевания почек. Рассмотрим следующее множество исходных признаков:
X = {Возраст пациента, Длина почки,
Ширина почки, Толщина почки, (3)
Толщина паренхимы, Скорость кровотока,
Ускорение артериального потока}.
Пусть заданы обучающие выборки Ai и A 2, отражающие результаты измерения этих параметров для двух состояний - «Здоровая почка» и «Имеются множественные кисты» соответственно. Результаты этих измерений взяты из работы [8] и представлены в таблице 1. Детальное описание расчетов покажем на примере признака x = «Возраст пациента».
Построим эмпирические распределения признака х по каждой выборке. Для этого вычислим минимальное и максимальное значения этого признака и размах для всех данных таблицы 1: =21
, xmax" =74 , xmax- xmin= =53.
Зададим количество интервалов распределения так, чтобы размах значений признака примерно нацело делился на число q. В данном случае q = 5.
Теперь найдем величину Д интервала распределения по формуле
х - х 53
д = _тах-mm = _= Щ6.
q 5
(4)
Вычислим границы каждого j-го интервала:
d]= xmln+j•Д, j=0, 1, q. (5)
Для построения эмпирического распределения признака х по выборке Ак (к = 1, 2) необходимо найти количество тк j попаданий значения данного признака в каждый интервал исходя из соотношения dj - 1 < х < Далее накопленную частоту Мк j для j-го интервала вычисляем следующим образом:
Mki =Zmki, k = 1, 2.
(6)
Для исходных данных из таблицы 1 результаты всех вычислений по формулам (4)-(6) приведены в таблице 2.
Таблица 1
Исходные данные для расчета меры информативности
Table 1
Initial data for calculating informativeness
-is s ^ а -н 1 ^ со Возраст пациента Длина почки, мм Ширина почки, мм Толщина почки, мм Толщина паренхимы, мм Скорость кровотока, см/с Ускорение артериального потока, см/с2
Ai 62 i27 52 43 i4 i3,3 i40
Ai 43 i03 44 49 i5 i6,3 29i
Ai 58 i03 58 46 i7 i6,5 i43
Ai 37 ii2 53 5i i8 i8,2 i89
Ai 2i i26 62 45 i4 i8,5 ii6
Ai 74 ii5 57 49 i6 i9,i 85
Ai 62 i03 66 45 i6 i9,2 65
Ai 43 i04 54 46 i4 i9,3 629
Ai 34 ii0 52 42 i9 i9,3 i52
Ai 68 ii2 52 42 i7 i9,4 258
A2 46 ii2 68 88 i8 2,3 459
A2 58 i29 67 58 i8 i2,5 i5i
A2 69 ii5 69 44 i4 i3,2 23i
A2 69 i26 59 49 i3 i4,i 282
A2 54 98 67 4i 24 i4,3 352
A2 67 iii 59 47 i8 i4,6 242
A2 70 i08 58 37 ii i4,6 i39
A2 67 i29 64 58 i7 i5,2 382
A2 55 i25 59 48 i8 i5,4 330
A2 65 iii 54 5i i3 i5,4 257
Подставляя значения последнего столбца таблицы 2 в формулу (2), получаем окончательный результат: мера информативности исследуемого признака х = «Возраст пациента» равна 3 и отвечает диапазону возраста 52,8 < х < 63,4.
i = 0
Таблица 2
Результаты расчета по МНЧ информативности признака x = «Возраст пациента»
Table 2
The calculation results for the cumulative frequency method x = "Age of the patient"
Выборка Выборка А2
1 di j Ш1 j M1j d2 j m2 j M2j M j - M2 j\
0 21,0 1 1 46,0 1 0 0
1 31,6 0 1 50,8 0 0 0
2 42,2 2 3 55,6 2 0 0
3 52,8 2 5 60,4 1 1 1
4 63,4 3 8 65,2 1 3 3
5 74,0 2 10 70,0 4 1 1
Меры информативности всех признаков исходного множества (3), вычисленные по МНЧ, приведены в таблице 3. Таким образом, согласно заданным обучающим выборкам А1, A2 и мере информативности (2), наиболее значимыми признаками для дифференциальной диагностики заболевания почек являются «Длина почки», «Возраст пациента», «Ускорение артериального потока».
Таблица 3
Значения мер информативности всех признаков по МНЧ
Table 3
The values of informativeness of all features
Признак Информативность
Возраст пациента 3
Длина почки 5
Ширина почки 2
Толщина почки 2
Толщина паренхимы 2
Скорость кровотока 2
Ускорение артериального потока 4
Метод Шеннона
В методе Шеннона в качестве меры информативности признака х рассматривается средневзвешенное количество информации, которое свойственно анализируемому признаку. Информативность признака х вычисляется по формуле
Я 2
I(X) = 1+ £(Р Рк • )). (7)
I = 1 к = 1
Обозначения, используемые в формуле (7): q -количество градаций признака; к = 1, 2 - номер обучающей выборки; - вероятность попадания значения признака в /-ю градацию:
2
£ тп
P =:
N
(8)
где Шг к - частота появления значения признака в /-й градации для выборки ^4к; N - общее число признаковых описаний объектов, входящих в А1 и ^42;
к - вероятность появления значения признака в /-й градации:
т..
Pik = -
,k = 1, 2.
(9)
Результаты вычислений по формулам (7)-(9) для исходных данных из таблицы 1 и признака х = «Возраст пациента» представлены в таблице 4. Подставляя значения последнего столбца таблицы 4 в формулу (7), получаем I(x) = 0,9.
Таблица 4
Результаты расчета по методу Шеннона меры информативности признака x = «Возраст пациента»
Table 4
The calculation results of the x = "Age of the patient" according to Shannon's method
mi 1 mi 2 Pi Pi 1 Pi 2 mi i + mi 2 2 P 'S Pik • lo§2( Pik ) k = 1
1 0 0,05 1 0 1 0
1 0 0,05 1 0 1 0
1 0 0,05 1 0 1 0
2 0 0,10 1 0 2 0
0 1 0,05 0 1 1 0
0 1 0,05 0 1 1 0
0 1 0,05 0 1 1 0
1 1 0,10 0,5 0,5 2 - 0,1
2 0 0,1 1 0 2 0
0 1 0,05 0 1 1 0
0 2 0,1 0 1 2 0
1 0 0,05 1 0 1 0
0 2 0,1 0 1 2 0
0 1 0,05 0 1 1 0
1 0 0,05 1 0 1 0
Заметим, что метод Шеннона дает оценку информативности исследуемого признака в виде нормированной величины, которая принимает значения от 0 до 1. Это следует из формулы (7), поскольку значения вероятностей pi к находятся в интервале от 0 до 1, а логарифм от таких значений меньше нуля. Об информативности признака x в этом случае говорят, что, чем ближе I(x) к 1, тем выше информативность x и, наоборот, чем ближе I(x) к 0, тем ниже информативность x. Меры информативности всех признаков исходного множества (3), вычисленные по методу Шеннона, приведены в таблице 5.
Таблица 5
Значения мер информативности всех признаков по методу Шеннона
Table 5
The values of the informativeness of all features for Shannon's method
Признак Информативность
Возраст пациента 0,90
Длина почки 0,67
Ширина почки 0,80
Толщина почки 0,76
Толщина паренхимы 0,51
Скорость кровотока 1,00
Ускорение артериального потока 1,00
Согласно заданным обучающим выборкам А1, A2 и мере информативности (7), наиболее значимые признаки при дифференциальной диагностике заболевания почек - это «Скорость кровотока», «Ускорение артериального потока», «Возраст пациента».
Метод Кульбака
В данном методе в качестве меры информативности признака х рассматривается величина, называемая дивергенцией Кульбака и отражающая расхождение между выборками Ai и A2 следующим образом:
q p
I(X) =1 (Рп - Pi2>-log2 — , (i0)
i=1 Pi 2
где q - количество градаций признака; pt k - вероятность попадания значения признака в i-ю градацию:
mik
Pik =-—, k = 1,2, (Ii)
m,i + m 2
где mi k - частота появления значения признака в i-й градации выборки Ak.
Для исходных данных из таблицы 1 и признака х = «Возраст пациента» результаты вычислений по формулам (10)-(1i) представлены в таблице 6. Согласно формуле (10) имеем I(x) = 1,8.
Таблица 6
Результаты расчета по методу Кульбака меры информативности признака x = «Возраст пациента»
Table 6
The calculation results of the x = "Age of the patient" according to Kullback's method
Метод Кульбака дает оценку информативности исследуемого признака в виде величины, которая принимает значения от 0 до 2. В этом случае считают, что, чем ближе 1(х) к 2, тем выше информативность х и, наоборот, чем ближе 1(х) к 0, тем ниже
информативность x. Меры информативности всех признаков исходного множества (3), вычисленные по методу Кульбака, приведены в таблице 7.
Таблица 7
Значения мер информативности всех признаков по методу Кульбака
Table 7
The values of informativeness of all features by Kullback's method
Признак Информативность
Возраст пациента 1,8
Длина почки 1,4
Ширина почки 1,6
Толщина почки 1,6
Толщина паренхимы 0,6
Скорость кровотока 2,0
Ускорение артериального потока 2,0
Из таблицы 7 следует, что метод Кульбака определяет тот же набор информативных признаков, что и метод Шеннона.
Сравнение таблиц 3, 5, 7 позволяет сделать следующие выводы: рассмотренные методы не противоречат друг другу и дают близкие наборы наиболее информативных признаков на одних и тех же обучающих выборках, результаты методов Шеннона и Кульбака в основном совпадают. Приведенные выше расчеты были выполнены в предположении, что все признаки из множества (3) являются независимыми. Для проверки этого предположения была осуществлена попытка группировки признаков с помощью статистического пакета для социальных нужд IBM SPSS (Statistical Package for the Social Sciences) [9, 10]. Эксперименты показали, что признаки из таблицы 1 не подлежат группировке.
Программная реализация методов анализа информативности признаков
Рассмотренные выше методы анализа информативности признаков реализованы в виде комплекса программ InformSigns на языке программирования С++ в среде Embarcadero RAD Studio XE8. Исходными данными для InformSigns является матрица «объект - признак», имеющая вид таблицы 1 и разделенная на две выборки. Для ввода исходных данных имеется интерфейс, вид которого представлен на рисунке (см. http://www.swsys.ru/uploaded/ image/2016_2/2016-2-dop/2.jpg). Возможен также ввод исходных данных из внешнего файла формата Microsoft Excel.
При наличии в матрице «объект-признак» качественных или номинальных признаков комплекс программ InformSigns позволяет выполнить шкалирование, то есть установить соответствие между текстовым или номинальным значениями признака
Возраст пациента Выборка Á1 Выборка Á2
mi 1 Pi 1 mi 2 Pi 2
21 1 0 0,1 0
34 1 0 0,1 0
37 1 0 0,1 0
43 2 0 0,2 0
46 0 1 0 0,1
54 0 1 0 0,1
55 0 1 0 0,1
58 1 1 0,1 0,1
62 2 0 0,2 0
65 0 1 0 0,1
67 0 2 0 0,2
68 1 0 0,1 0
69 0 2 0 0,2
70 0 1 0 0,1
74 1 0 0,1 0
(3 Определение информативности признаков Л Файл Спраака
Исходные данные Соответствие текстовых данньи
Б исходных данных есть признаки, которые содержат нечисловые значения! Установите числовые значения для признаков:
Признак Значение Эквивалент
пол F
пол M z
прав/лев L 1
прав/лев R. г
Рис. 1. Шкалирование номинального признака Fig. 1. Scaling the rated feature
и его числовым эквивалентом. Пример шкалирования номинального признака «Пол» представлен на рисунке 1.
В программном комплексе InformSigns предусмотрено несколько вариантов вывода результатов: в виде таблицы значений информативности, круговой диаграммы и гистограммы. Для табличных данных возможен вывод результатов во внешний файл формата Microsoft Excel. Графическое представление данных позволяет наглядно оценить полученные значения информативности всех при-
знаков для каждого метода отдельно, а также для всех трех методов одновременно. Пример вывода результатов таблиц 3, 5, 7 в виде круговых диаграмм представлен на рисунке 2.
Рассмотренные в работе методы оценки информативности признаков являются наиболее простыми и понятными для алгоритмизации и применения. Результаты их использования хорошо интерпретируемы. Программная реализация данных методов не является трудоемкой и не влечет за со-
бой значительных вычислительных ресурсов. Именно поэтому они могут успешно использоваться при решении задач диагностики патологических процессов в различных лечебных учреждениях. Следует отметить, что МНЧ, методы Шеннона и Кульбака реализованы в некоторых универсальных программных средствах анализа данных. Однако для освоения и применения этих программных инструментов требуется профессиональная подготовка в области ^-технологий. Если в качестве пользователя выступает врач, то целесообразно применение узкоспециализированных медицинских информационных систем, к которым можно отнести InformSigns.
Комплекс программ InformSigns в настоящее время успешно используется в учебном процессе Красноярского государственного медицинского университета имени профессора В.Ф. Войно-Ясе-нецкого на кафедре медицинской информатики и инновационных технологий. Применение Ш-formSigns подтвердило эффективность и полезность реализованных в системе методов сокращения признакового пространства для решения задач медицинской диагностики по независимым признакам. Дальнейшее развитие программного комплекса InformSigns направлено на реализацию методов выявления скрытых зависимостей между данными, привязку к БД конкретных МИС и патологиям.
Литература
1. Колесникова С.И. Методы анализа информативности разнотипных признаков // Вестн. Томского гос. ун-та: Управление, вычислительная техника и информатика. 2009. № 1 (6). С. 69-80.
2. Колесникова С.И., Янковская А.Е. Оценка значимости признаков для тестов в интеллектуальных системах // Изв. РАН. Теория и системы управления. 2008. N° 6. С. 135-148.
3. Воронцов К.В. Машинное обучение: курс лекций. 2010. URL: http://www.machineleaming.ru (дата обращения: 04.04.2016).
4. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во ИМ СО РАН, 1999. 270 с.
5. Ким Д.О., Мьюллер Ч.У., Клекка У.Р. Факторный, дис-криминантный и кластерный анализ. М.: Финансы и статистика, 1989. 215 с.
6. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешал-кин Л.Д. Прикладная статистика: Классификация и снижение размерности: справочник. М.: Финансы и статистика, 1989. 250 с.
7. Загоруйко Н.Г., Кутненко О.А., Борисова И.А. Выбор информативного подпространства признаков (Алгоритм
GRAD) // Математические методы распознавания образов: докл. 12-й Всерос. конф. М., 2005. С. 106-109.
8. Хитрова А.Н. Дифференциальная диагностика кист почечного синуса и гидронефрозов методом комплексного ультразвукового обследования: дис. ... канд. мед. наук, 1996.
9. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб: ДиаСофтЮП, 2005. 608 с.
10. Дюк В.А., Эмануэль В.Л. Информационные технологии в медико-биологических исследованиях. СПб: Питер, 2003. 528 с.
DOI: 10.15827/0236-235X.114.172-178 Received 05.04.16
METHODS AND TOOLS FOR ANALYSING INFORMATIVE FEATURES
WHEN PROCESSING MEDICAL DATA Bykova V. V., Dr. Sc. (Physics and Mathematics), Professor, [email protected] (Siberian Federal University, Svobodny Ave. 79, Krasnoyarsk, 660041, Russian Federation);
Kataeva A.V., Engineer-Programmer, [email protected]
(Krasnoyarsk Regional Clinical Hospital, Partizana Zheleznyaka Str. 3a, Krasnoyarsk, 660022, Russian Federation)
Abstract. Many modern hospitals have information systems for storing medical data about their patients' health. These data are for doctors to recognise (diagnose) pathological processes. However, experts face a problem of dimension in medical data analysis, detection of regularities in these data and their extraction. The dimension of stored data is determined by the number of different features that describe the health of the patient is very large and sometimes reaches several tens or hundreds of factors. Therefore, reducing the dimensionality of the feature space and selection of the most informative features is important for medical information systems. The article describes the problem of selection of informative features as a problem of combinatorial optimization. Its computational complexity is O (2n), where n is the initial number of features. The generalization of this problem with regard to the possibility of designing new factors based on the source features. The article gives a brief review of basic methods of sign space reduction, such as a principal component analysis and a method of extreme group of features. It also reviews statistical methods for estimating informative features used in medical diagnostics: the method of cumulative frequency, Shannon's and Kullback's methods. The application of these methods is demonstrated for diagnosing kidney disease. The article describes the program InformSigns, which implements all the statistical methods. InformSigns gives doctors a convenient interface for estimating informative features describing patients' state of health. This complex can be integrated in specialized medical information systems for diagnostics of various pathological processes.
Keywords: medical data analysis, methods of selection and extraction features, estimation of informative features, software for health care provision.
References
1. Kolesnikova S.I. Methods of analysis of different-type features informativity. Vestnik Tomskogo gos. un-ta. Upravlenie, vychislitelnaya tekhnika i informatika [Tomsk State University Journ. Management, Computer Engineering and Computer Science]. 2009, no. 1 (6), pp. 69-80 (in Russ.).
2. Kolesnikova S.I., Yankovskaya A.E. Estimation of Significance of Features for Tests in Intelligent Systems. Izv. RAN. Teoriya i sistemy upravleniya [Journ. of Computer and Systems Sciences Intern.]. 2008, vol. 47, iss. 6, pp. 930-943.
3. Vorontsov K.V. Mashinnoe obuchenie: kurs lektsy [Computer-Assisted Teaching: Series of Lectures]. 2010. Available at: http://www.machinelearning.ru (accessed April 4, 2016).
4. Zagoruyko N.G. Prikladnye metody analiza dannykh i znany [Application Methods of Data and Knowledge Analysis]. Novosibirsk, IM SO RAN Publ., 1999, 270 p.
5. Kim D.O., M'yuller Ch.U., Klekka U.R. Faktorny, diskriminantny i klasterny analiz [Factor, Discriminate and Cluster Analysis]. Moscow, Finansy i statistika, 1989. 215 p.
6. Ayvazyan S.A., Bukhshtaber V.M., Enyukov I.S., Meshalkin L.D. Prikladnaya statistika: Klassifikatsiya i snizhenie razmernosti [Applied Statistics: Classification and Dimension Lowering]. Reference book. Moscow, Finansy i statistika, 1989, 250 p.
7. Zagoruyko N.G., Kutnenko O.A., Borisova I. A. Choosing informative features subspace (Algorithm GRAD). Ma-tematicheskie metody raspoznavaniya obrazov: doklady 12 Vseross. konf. [Proc. of the 12th All-Russian Conf. "Mathematical Methods of Image Recognition"]. Moscow, 2005, pp. 106-109 (in Russ.).
8. Khitrova A.N. Differentsialnaya diagnostika kist pochechnogo sinusa i gidronefrozov metodom kompleksnogo ul-trazvukovogo obsledovaniya [Differential Diagnostics of a Renal Sinus Cyst and Hydronephrosis Using a Method of Ultrasonic Examination]. Ph.D. thesis. 1996.
9. Byuyul A., Tsefel P. SPSS: Iskusstvo obrabotki informatsii. Analiz statisticheskikh dannykh i vosstanovlenie skrytykh zakonomernostey [SPSS: the Art of Information Processing. The Analysis of Statistical Data and Data Mining Recovery]. St. Petersburg, DiaSoftYUP Publ., 2005, 608 p.
10. Dyuk V.A., Emanuel V.L. Informatsionnye tekhnologii v mediko-biologicheskikh issledovaniyakh [IT in Medical and Biological Investigations]. St. Petersburg, Piter, 2003, 528 p.