Научная статья на тему 'Эволюционный метод прогнозирования результатов лечения'

Эволюционный метод прогнозирования результатов лечения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
96
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Эволюционный метод прогнозирования результатов лечения»

УДК 004.8.023

И. А. Цыганкова, канд. техн. наук,

Санкт-Петербургский институт информатики и автоматизации РАН

Эволюционный метод прогнозирования результатов лечения

Ключевые слова: медико-биологическая информация, обработка данных, поддержка принятия решений, прогнозирование, программный комплекс, эволюционный метод

В работе представлен метод обработки многомерных плохо формализованных массивов медико-биологической информации, базирующийся на эволюционном подходе к решению экстремальных задач функции многих переменных. Метод позволяет прогнозировать результаты лечения с учетом медико-биологических и социальных особенностей пациентов. Приводится описание и структура программного комплекса поддержки принятия врачебных решений, в котором реализуется предложенный метод. Представлены результаты численного эксперимента.

Введение

На современном уровне развития общества, когда повышаются требования к качеству жизни, оказание квалифицированной медицинской помощи становится все более дорогостоящим. Это резко обостряет проблему оптимизации затрат на лечение и профилактику заболеваний как для отдельных пациентов, так и для медицинских организаций различных уровней. Решение данной проблемы может быть получено только при условии использования современных методов оптимизации и прогнозирования результатов лечения, учитывающих медико-биологические и социальные особенности пациентов.

В настоящее время развитие вычислительной техники и информационных технологий позволяет перейти к решению задач прогнозирования в медицине, используя интеллектуальные методы анализа данных [1-4]. Особенностями полученных на практике медико-биологических данных являются: высокая размерность и разнотипность данных, большое количество шумящих и дублирующих признаков, пропущенные и аномальные значения. В такой ситуации в качестве эффективных рассматриваются методы, основанные на эволюционном подходе. В отличие от традиционных методов поиска оптимального решения, они ориентированы на получение наилучшего (приемлемого) решения по сравнению с достигнутым ранее или заданным в качестве начального.

Реализация методов эволюционного подхода невозможна без внедрения в повседневную врачебную

практику современных информационных систем поддержки принятия решений. Использование таких систем позволяет повысить качество медицинских услуг, облегчить работу медицинского персонала, улучшить качество жизни пациентов, а также существенно сократить затраты на лечение и профилактику заболеваний [5].

Постановка задачи

Рассматривается задача прогнозирования результатов лечения в соответствии с заданной тактикой лечения на примере кожного хронического заболевания — псориаза. Исходная информация о больных представлена в виде числовых таблиц «объект — свойство» с описанием параметров, измеренных у конкретного пациента, до и после лечения (входных и выходных). К входным параметрам относятся индивидуальные сведения о больном:

• анамнез;

• сопутствующие заболевания;

• клинико-функциональные, метаболические и иммунологические показатели; тактика лечения.

Входные параметры в различной степени влияют на выходные параметры, но неизвестно, какие из них оказывают наиболее существенное влияние на целевые параметры и какой моделью описываются зависимости их влияния.

Выходными (целевыми) параметрами являются:

• продолжительность пребывание пациента в стационаре (количество койко-дней);

• продолжительность лечения до наступления улучшения (эффект лечения);

• продолжительность периода ремиссии;

• наличие (или отсутствие) типичных остаточных поражений на коже;

• число обострений болезни в год.

В общем случае исходная информация об объектах представлена в виде матрицы

% = Z2, ••• , ,

где — вектор анализируемых параметров (свойств, признаков) ¿-го объекта, = (гц, гг2, ••• , ••• , г1М). Каждый параметр принимает значение из

биотехносфера

I № 5-Б (11-123/2010

множества допустимых значений. Вся совокупность параметров объектов делится на входные параметры V = (и^, — , иг) и выходные параметры У = (у^, у2, у3)' Входные параметры V являются разнотипными, то есть измеряются в количественных и качественных шкалах. Обозначим параметры, значения которых измеряются в количественных шкалах, как X = (х±, %2, ..., хт), а параметры, значения которых измеряются в качественных (номинальных и порядковых) шкалах, как и = (и^, и2, .••, и¡). Вектор выходных параметров У для сформулированной задачи измеряется по шкале.

Требуется с приемлемой точностью предсказать значения неизвестных выходных параметров нового объекта по его известным входным параметрам. Рассматриваемая задача прогнозирования является плохо формализованной в силу того, что вся информация об объектах представлена лишь набором параметров, о которых нельзя сколько-нибудь определенно сказать, что они полны, не противоречивы и не искажены. При таких исходных данных будем использовать модель «черный ящик», а при построении алгоритмов анализа данных опираться только на массивы прецедентов и гипотезу о монотонности пространства решений: «.похожие входные ситуации приводят к похожим выходным реакциям системы» [1].

Эволюционный метод обработки

Решение задачи прогнозирования с помощью предлагаемого метода предполагает выполнение нескольких этапов:

• предобработка данных;

• подбор весовых параметров в процессе обучения;

• предсказание значений целевых параметров.

Предобработка данных. На этом этапе проводятся:

• структуризация данных;

• выявление и устранение аномальных и пропущенных значений;

• кодировка и нормировка данных, измеряемых на непрерывных шкалах.

Параметры, измеряемые в дискретных шкалах и имеющие число градаций больше двух, преобразуются в совокупность бинарных величин.

Введем вектор G = (gl, g2, ..., gj, ... , £л), где gj = = (1, 2, ..., — бинарные признаки объектов. На этапе предобработки все множество исследуемых объектов разбивается на подмножества (выборки) в соответствии со значениями gj. Общее количество таких выборок составит с^, где ^ — количество бинарных величин, с — количество вариантов (альтернатив) группировки объектов по каждому бинарному признаку gj. Возможны следующие варианты группировки объектов:

• в выборку попадают объекты вне зависимости от значения признака gj;

в выборку попадают объекты, для которых

ё = о;

• в выборку попадают объекты, для которых ё = 1.

Один и тот же объект может оказаться в нескольких выборках, которые имеют различное количество объектов. В дальнейшем используются только информативно значимые выборки, где количество объектов значительно больше, чем количественных входных параметров.

Подбор весовых параметров в процессе обучения. Для каждой информативно значимой выборки определяются веса входных параметров X. Для нахождения весовых коэффициентов используется эволюционный подход к решению экстремальных задач функции многих переменных и метод случайного поиска. Обозначим вектор весов как Ж = (ш^, ..., Шу, ..., шт), где Шу — весовые коэффициенты входных параметров; ] = 1,2, ..., т.

Каждый объект Ог может быть представлен в виде вектора многомерного пространства ВР количественных параметров Ог = {х^, х2, ..., ху, ..., хт, у}, где X] — входные параметры объекта; у — выходной (целевой) параметр объекта;^ — общее количество параметров многомерного пространства,^ = т + 1. В этом случае задача определения искомого параметра у по известным входным параметрам X = (х^, х2, ..., ху, ..., хт) сводится к задаче интерполяции функции у = /(X), заданной в узлах_р-мерной нерегулярной сетки.

Так как степень гладкости функции /(X) неизвестна, для ее интерполяции во всей области определения предлагается использовать функцию вида /(X) ~ у^й^, Ж)), где й — мера близости между объектами. В качестве меры близости между объектами I и I рассматривается взвешенное евклидово расстояние

d =

£ w Х - хп )

/•=1

о < w < 1.

(1)

Подбор значений весовых коэффициентов Ж проводится с использованием метода Монте-Карло.

Чтобы обеспечить необходимую точность вычисления прогнозируемого параметра, введем критерий, который минимизирует среднюю абсолютную ошибку прогноза

1 ^

Щ») = il £\у- Ун WI

у g i=i

^ min,

(2)

где | у - ун (й) | — разность между наблюдаемым и расчетным значениями выходного параметра; Ng — объем исследуемой выборки.

Если целевая функция представляет собой комплекс выходных параметров, то априори задаются коэффициенты значимости Ьу, ] = 1, 2, ..., я для каждого прогнозируемого параметра. Значения коэффициентов Ьу выбираются из интервала [0, 1],

№ 5-Б (11-12)/2010 |

биотехносфера

и для них должно выполняться условие нормировки

£ ^ = 1.

/=1

где я — количество прогнозируемых параметров. Тогда критерий (2) может быть представлен в виде

, ^ в

®) = XX ^ I- Ун(V I ^ т1п- (3)

/=17=1

Для определения расчетных значений у^ задачу многомерной интерполяции функции у = /(X), заданной в узлах нерегулярной сетки, сведем задачу многомерной интерполяции к задаче одномерной экстраполяции функций у1^(й){г = 1, 2, ..., Ng) в окрестностях каждого ¿-го узла многомерной сетки. Для этого относительно каждого ¿-го узла сетки пространства Яр по формуле (1) определяются расстояния между ним и остальными узлами, в которых заданы значения функции у. Затем расстояния ранжируются в порядке возрастания. Ранжированный вектор расстояний обозначим = (йц, й^, —, йи, —, й^ _ Далее, имея массив, состоящий из пар чисел (йй, ук) (к = 1, 2, ..., Ng - 1), решаем задачу экстраполяции дискретной зависимости у(й^) непрерывной функцией уДй). При построении приближающей функции уг(й) используются только п ближайших узлов (п < Ng - 1). В общем случае величина п определяется в процессе предварительного вычислительного эксперимента. В качестве модели для приближения используется квадратичный полином 2

У = X ' где коэффициенты а1 определяются

1=0

по условию минимизации функционала

п

° = Е У - уг' а)]2 ^ т1п-

к=1

Итеративное уточнение критерия Я(ы), вычисляемого по формуле (2) или (3), продолжается до тех пор, пока:

• либо число итераций, на протяжении которых решение не улучшается, не станет больше заранее заданного значения;

• либо расчетное значение средней абсолютной ошибки прогноза не приобретет значение ниже заданной величины допустимой погрешности;

• либо максимальное время вычислений не будет превышено.

Следует отметить, что особенностью эволюционного вычислительного процесса является то, что он может быть остановлен и продолжен в любой момент времени.

Прогнозирование искомых целевых параметров по известным входным характеристикам нового объекта на основе полученных в процессе обучения результатов. Для этого сначала выявляются те информативные выборки, в которые включается новый объект с учетом его качественных признаков.

Для дальнейшего анализа используется та выборка, в которой ошибка прогноза имеет наименьшее значение. Расчет каждого целевого параметра нового объекта сводится к задаче экстраполяции функции у fid) в окрестности узла сетки этого объекта.

После того как становятся известны выходные параметры нового объекта, объект пополняет обучающие выборки, проводится уточнение весовых коэффициентов в соответствии с изложенным методом. Таким образом, прогнозирование целевых параметров является не разовой операцией, а процессом, в ходе которого постоянно выполняются сбор, очистка и консолидация исходных данных, уточнение весовых параметров и верификация результатов.

Программный комплекс

Для реализации разработанного метода прогнозирования создан программный комплекс поддержки принятия врачебных решений. Программный комплекс ориентирован на работу в среде ОС Window. При разработке комплекса использован модульный объектно-ориентированный подход, позволяющий создавать легко модифицируемые прикладные программы.

Комплекс состоит из базы данных, пакета программных модулей и пользовательского интерфейса. Доступ к комплексу настраивается в соответствии с пользовательской ролью пользователя и, как следствие, с задачами. Структурная схема программного комплекса представлена на рис. 1.

База данных представляет собой массивы медико-биологической информации о пациентах, методах и результатах лечения. Для структурирования информации используется реляционная модель, позволяющая естественно отобразить данные в таблице типа «объект—свойство». Массивы данных хранятся в электронных таблицах формата Excel. Обмен данными между электронной таблицей и программными модулями осуществляется с помощью механизма автоматизации технологии OLE. В состав программного пакета входят:

• модуль предобработки исходных данных;

• модуль обучения, обеспечивающий расчет весов входных параметров;

• модуль прогнозирования выходных параметров нового пациента по его известным входным характеристикам.

Программные модули реализованы в среде объектно-ориентированного языка программирования C++Builder. Пользовательский интерфейс комплекса обеспечивает ввод исходных данных и представление результатов расчета. Интерфейс имеет вид, понятный и принятый в профессиональной среде пользователей. Объектно-ориентированный подход к структуре интерфейса и использование графических компонентов, входящих в библиотеки ОС Windows и C++Builder позволяют оперативно модифицировать интерфейс в соответствии с требованиями

биотехносфера

| № 5-Б (11-123/2010

Биомедицинская информатика

Рис. 1 \ Структурная схема программного комплекса

пользователей. Предусматривается защищенный иерархический доступ к информационным базам данных и программным модулям для разных категорий пользователей: врачей, администраторов, разработчиков.

Врач вводит и редактирует исходные данные пациентов, выбирает метод лечения из регламентированного списка и получает отображение на экране результата расчета прогнозируемых параметров нового пациента. Предусматривается просмотр в интерактивном режиме таблицы данных, описание входных и выходных параметров пациентов, завершивших курс лечения и имевших показатели, схожие с теми, что определены у нового пациента.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Администратор обновляет и поддерживает базы данных, обеспечивает выполнение расчетных процедур по подбору весов входных параметров для различных комбинаций качественных величин медико-биологических данных.

Разработчик имеет полный доступ к программному комплексу и возможность модифицировать программный код.

метров. Задача прогнозирования решалась отдельно для каждого выходного параметра.

На рис. 2 представлен график эволюции процесса обучения — изменение средней абсолютной ошибки прогноза в зависимости от количества итераций поиска решения. Приведенная зависимость получена при прогнозировании периода лечения пациента в стационаре. Приемлемые результаты обучения достигаются уже при первых 500 итерациях, продолжение обучения до 500 000 итераций приводит к улучшению прогноза менее 1 % .

На рис. 3 представлены гистограммы распределения ошибки прогноза периода лечения пациента в стационаре, полученные на обучающей (рис. 3, а) и контрольной (рис. 3, б) выборках, соответственно. Распределения близки к нормальному закону. Проверка гипотезы о нормальности закона распределений была подтверждена с помощью критерия согласия х2.

Аналогичные исследования были проведены и для других прогнозируемых параметров. Обобщен-

Численный эксперимент

Для оценки эффективности разработанного метода прогнозирования был проведен численный эксперимент с использованием медико-биологических данных больных псориазом, полученных в лечебных медицинских учреждениях Санкт-Петербурга. При проведении численного эксперимента был задействован программный комплекс поддержки принятия врачебных решений, описание которого приведено выше.

В исходную выборку, на которой проводилось исследование, были включены данные 308 пациентов. Из них случайным образом были отобраны 45 записей, которые составили контрольную выборку, остальные 263 пациента вошли в обучающую выборку. Общее количество числовых параметров, относящихся к каждому пациенту, — 44, в том числе 39 входных параметров и 5 выходных пара-

0,16

о

к а

0,14

£

0,12

0,10

50,0 500,0 5000,0 50000,0 5Е5 Количество итерации

Рис. 2 | Эволюция процесса обучения

№ 5-6 (11-123/2010 |

биотехносфера

Биомедицинская информатика

-0,5 -0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 Распределение погрешности прогноза

б)

16

Î12

S

s

^

а

§ s

1

я \

§ ■ р

V É Û, ш

У//АШ///, ш ». УЖ ,

-0,4 -0,3 -0,2 -0,1 0 0,1 0,2 0,3 0,4 0,5 Распределение погрешности прогноза

Рис. 3 Распределение погрешности прогноза периода лечения в стационаре: а — обучающая выборка, объем выборки N — 263 пациента; б — контрольная выборка, объем выборки N — 45 пациентов

ные результаты расчетных исследований по оценке прогноза целевых параметров сведены в таблицу.

Проведенные расчетные исследования оценки прогнозирования параметров показали достаточно высокую эффективность предлагаемого метода. Величина средней абсолютной ошибки прогноза составила 10-17 %. Достоверность полученных результатов подтверждена расчетами с использованием контрольной выборки.

Результаты прогноза выходных

параметров

Прогнозируемый параметр Средняя ошибка прогноза Q(w)

Период лечения в стационаре (количество койко-дней) 0,101

Эффект лечения (период острой стадии) 0,112

Число обострений за год 0,139

Степень разрешения (остаточные

поражения на коже) 0,163

Период ремиссии 0,167

Заключение

Предлагаемый метод прогнозирования может быть использован в различных предметных областях, где сведения об объектах сведены в информационные массивы большого объема, описываются в протоколах «вход—выход», и для информационных массивов справедлива гипотеза о монотонности принятия решений в локальной области. Разработанный метод обработки медико-биологической информации позволяет подобрать весовые коэффициенты входных параметров, не снижая размерности признакового пространства, что, в свою очередь, позволяет исключить потерю значимой информации и выявить слабые связи в рассматриваемых информационных массивах.

I Л и т е р а т у р а I

1. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999. 270 с.

2. Корнеев В. В., Гареев А. Ф., Васютин С. В. и др. Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2001. 496 с.

3. Дюк В., Самойленко А. Data Mining: Учебный курс. СПб.: Питер, 2001. 368 с.

4. Барсегян А. А., Куприянов М. С., Степаненко В. В. и др. Технологии анализа данных: Data Mining, Visual Mining, OLAP. СПб.: БХВ-Петербург, 2007. 275 с.

5. Гулиева И. Ф., Рюмина Е. В., Гулиев Я. И. Медицинские информационные системы: затраты и выгоды // Врач и информационные технологии. 2009. № 3. С. 4-16.

биотехносфера

| № 5-6 (11-12)/2010

i Надоели баннеры? Вы всегда можете отключить рекламу.