У роботі отримано класифікатори диференціальної діагностики захворювань легкою формою коагулопатій і тромбоцитопатій методом групового урахування аргументів. Точність класифікаторів отримана не менше 90%. Запропоновано шляхи розвитку діагностичної системи
Ключові слова: класифікація, діагноз, МГУА
В работе получены классификаторы дифференциальной диагностики заболеваний легкой формой коагулопатий и тромбо-цитопатий методом группового учета аргументов. Точность распознавания получена не менее 90%. Предложены пути развития диагностической системы
Ключевые слова: классификация, диагноз, МГУА
In the paper classifiers for light form of coagulopathy and thrombocytopathy differential diagnostics has been obtained using GMDH. Recognition accuracies were not less then 90% at whole data set. New ways of diagnostic system development were suggested
Keywords: classification, diagnosis, GMDH
УДК 006.78
СИНТЕЗ КЛАССИФИКАТОРОВ ДИФФЕРЕНЦИАЛЬНОЙ ДИАГНОСТИКИ ЗАБОЛЕВАНИЙ ЛЕГКИХ ФОРМ ГЕМОСТАЗИОПАТИЙ
ПО МГУА
A.В. Павлов
Аспирант
Отдел информационных технологий и индуктивного
моделирования
Международный научно-исследовательский учебный центр информационных технологий и систем НАН и
МОН Украины пр. Глушкова, 40, г. Киев, Украина, 03680 Контактный тел.: (044) 526-15-70; (044) 412-05-97
B.А. Павлов
Кандидат технических наук, доцент Кафедра компьютерного эколого-экономического
мониторинга
Открытый международный университет развития
человека «Украина» ул. Хорева, 1-Г, г. Киев, Украина, 04071 Контактный тел.: (044) 424-62-74, 050-559-79-54
Е-mail: [email protected]
В.В. Томилин
Кандидат медицинских наук, старший научный
сотрудник
Отделение хирургической гематологии и гемостазиологии
ДУ Институт гематологии и трансфузиологии АМН
Украины
ул. Максима Берлинского, 12, г. Киев, Украина, 04060 Контактный тел.: (044) 440-27-44; 050-330-96-17
1. Введение в различных прикладных областях. Связано это с
тем, что методы данного направления, решая обе за-Интенсивное развитие методов индуктивного мо- дачи моделирования (структурная и параметрическая делирования позволяет получать хорошие результаты идентификация) позволяют получать модели опти-
3
мальнои структуры в смысле минимума внешнего критерия. Ниже рассмотрена задача построения классификаторов дифференциальной диагностики для четырех заболевании, достаточно трудно различимых по клиническим признакам в врачебной практике.
2. Постановка задачи
Пусть в пространстве клинических признаков X;, 1 = 1,...т (рис. 1) заданы 4 класса (диагнозы): Д1 - болезнь Виллебранда (БВ) , Д2 - коагулопа-тия (КП), Д3 - дезагрегационная тромбоцитопатия (ДТ), Д4 - комбинированная патология системы гемостаза ( КПСГ).
Клинические признаки (т=12) принимают, как правило, бинарные значения «да» или «нет», однако для некоторых больных необходимо вводить третье значение - «не было условий для проявления данного признака».
Например, признак - «кровотечение после операций» не наблюдался, однако и самих операций у некоторых пациентов не было.
Для построения классификаторов выбрана группа пациентов - женщины, возраст - в пределах 19-49 лет. Для наглядности, на рис. 1 приведена постановка задачи распознавания диагнозов в плоскости двух признаков х1 и х2. При этом признаки изображены для общего случая задачи распознавания, как имеющие непрерывную область определения, а не как бинарные, в нашем случае. Классы в плоскости признаков отображены на рисунке различными значками.
Рис. 1. Проекции точек различных классов (диагнозов) в плоскость двух произвольно выбранных признаков
Будем искать уравнения границ заданных классов у;(х)=С;, ¡=1,...,4, где X - ВеКТОр ПрИЗНЭКОВ, КЭК задачу «один против всех», отделяя каждый ¡-тый класс от прочих классов своим ¡-тым классификатором У;(х)-С;=0 (рис. 2).
Если удастся построить некоторые функции уі(х)-сі такие, что они будут разделять классы так, как на рис. 2, то тогда очевидно следующее: на точках (значениях клинических признаков пациента) і-того диагноза функция уі(х)-сі будет принимать значения одного определенного знака (допустим, в верхней части рисунка - положительные), а на точках других диагнозов - значения противоположного знака (отрицательные). На точках, расположенных на самой линии раздела уі(х)-сі =0. Таким образом функция уі(х)-сі, принимая на точках і-того диагноза только положительные значение, а на прочих - неположительные, будет являться индикатором (классификатором) і-того диагноза.
Сформулируем наши требования к классификаторам уі(х)-сі, і=1,...,4. Требуется получить такие классификаторы уі(х)-сі, которые, будучи синтезированы на имеющейся у нас выборке пациентов были бы максимально чувствительны и специфичны не только к данной выборке но и на других выборках пациентов данной группы.
3. Обоснование метода решения задачи
Один из распространенных способов решения задач такого типа состоит в том, чтобы задать для каждой функции у;(х) вид идеального классификатора Р;(х) и затем применить подходящие методы моделирования для того, чтобы построить реальный классификатор у;(х), максимально похожий (насколько это позволит аппарат моделирования) на идеальный.
В качестве идеального классификатора обычно за-
[А, V Ее Д1
дают пороговую функцию Р1(х) = |^ у £ д , которая
разрезает (т+1)-мерное пространство переменных (на рис. 3 т=2, плоскость двух признаков х1, х2) по плоскости Р;(х) = с;.
Рис. 2. Проекции точек и разделяющей поверхности
Рис. 3. Трехмерное изображение идеального классификатора
Сформулированное выше требование к классификаторам делает необходимым учитывать следующее.
Если просто «заставить» некоторую функцию у;(х,а) с помощью выбора подходящего значения вектора параметров а, принимать положительные значения на точках 1-того диагноза на всей имеющейся у нас выборке пациентов (обозначим ее Х№ ), то нет
Е
никаких гарантий, что на «свежих», новых точках (пациентах), с другим набором значений клинических признаков, классификатор даст правильный результат.
Для построения структур классификаторов, наилучшим образом «угадывающих» диагноз и для новых пациентов разработан специальный метод - метод группового учета аргументов [1,2].
Суть метода в том, что вся выборка пациентов X*
V А лл*
делится на две непересекающиеся части: X с X ,
- обучающая выборка и Хв с X* , -проверочная выборка, ХА п Хв = 0 . Затем применяется следующий алгоритм синтеза функции у;(х,а).
Генерируют различные подходящие структуры-претенденты для у;(х,а), и для каждой из них рассчитывают наилучший вектор параметров а на множестве пациентов ХА с точки зрения сходства с идеальным классификатором Р;(х). Затем из полученного множества претендентов выбирается тот, который лучше всего разделил диагнозы на выборке Хв, не принимавшей участие в настройке параметров классификатора.
Таким образом, мы определяем структуру классификатора, способную наилучшим образом работать на новых пациентах, не принимавших участие в настройке классификатора.
Как правило, для того чтобы иметь объективную оценку классификатора выделяют не две, а три выборки. Дополнительная выборка Xе - экзаменационная выборка, при синтезе классификатора не участвует, и потому позволяет получить полностью объективную оценку классификатора. Получив такую оценку (чувствительность и специфичность на экзамене) обычно выборку Xе включают в состав рабочей выборки и с учетом точек Xе пересчитывают классификатор, который затем и используют как «советчик» в принятии решения о диагнозе пациента, принимая во внимание, что реальные чувствительность и специфичность могут быть лучше, чем на экзамене
4. Решение задачи
Исключив из общего набора клинических признаков малоинформативные и дублирующие, введем для остальных обозначения:
х1 - носовое кровотечение; х2 - кровоточивость десен; х3 - кровотечение после экстракции зубов; х4 - интра и послеоперационное кровотечение; х5
- послетравматическая гематома; х6 - кровотечение из поверхностных ран; х7 - продолжительное не заживление ран; х8 - послетравматический гемартроз; х9 - послеинъекционная гематома; х10 - послеродовое кровотечение; х11 - ювенильное маточное кровотечение; х12 - возраст.
С различными реализациями метода МГУА, которые были использованы при нахождении наилучших классификаторов у;(х)-с; 1=1,..,4 можно познакомится в [3,4].
Уровень идеального классификатора Р;(х), соответствующий принятию «своего» диагноза принят (см. рис. 3) А=220, уровень идеального классификатора Р;(х) соответствующий принятию «прочих» диагнозов принят В=100. Уровни значения клинических признаков, соответствующих их наличию в анамнезе
приняты равными числу 25, отсутствию признака в анамнезе - числу (-5), отсутствию условий для проявления признака - числу 1. Значения уровней приняты достаточно произвольно, но во взаимосвязи друг с другом.
Общее количество пациентов в группе - 80, распределение пациентов каждого диагноза в обучающей, проверочной и экзаменационной выборке следующее:
БВ - всего точек - 24 , в обучении - 17 , в проверке
- 3 , экзамен - 4,
КП - всего точек - 17 , в обучении - 13 , в проверке
- 2 , экзамен - 2,
ДТ - всего точек - 31 , в обучении - 24 , в проверке
- 3 , экзамен - 4,
КПСГ - всего точек - 8, в обучении - 8 или 6, в проверке 0 или 2, экзамен -0.
В связи с малым объемом выборки КПСГ при расчете классификаторов БВ, КП в обучении оставлены все 8 точек КПСГ, в проверке и экзамене 0 точек КПСГ. При расчете классификатора ДТ и КПСГ в обучении оставлено 6 точек, в проверку 2 точки, в экзамен - 0.
При расчете классификатора БВ обучающая выборка по всем диагнозам - (выборка А) - 62 точек, проверочная (выборка В) - 8 точек, экзамен (выборка В) -10 точек.
При расчете классификатора КП обучающая выборка по всем диагнозам - (выборка А) -62 точек, проверочная (выборка В) - 8 точек, экзамен (выборка В) - 10 точек.
При расчете классификатора ДТ обучающая выборка по всем диагнозам - (выборка А) - 60 точек, проверочная (выборка В) - 10 точек, экзамен (выборка В) - 10 точек.
При расчете классификатора КПСГ обучающая выборка по всем диагнозам (выборка А) - 60 точек, проверочная (выборка В) - 10 точек, экзамен - 10 точек.
5. Результаты синтеза
1. Формула классификатора, дифференцирующего диагноз БВ:
У1(х)= 108.4733557 - 440.7850808/(х4*х5*х10) +
+ 1.6562130*х5*х11/(х9 *х6) +
+ 112.0633706*х7/х3*х9*х8) +
+ 0.0001365*х10*х1*х4*х10 +
+ 0.0006620*х12*11*х12 /х4 -
- 0.4547683*х6*х6/(х1*х4) +
+ 0.0001007*х12*х2*х10*х7 -
- 0.0456770*х12* *х12/(х6*х4) +
+ 5407.5841870/(х12*х5*х10*х3) -
- 0.0659565 *х4*х6*х10/х12
График классификатора БВ приведен ниже на рис. 4.
На графике:
- черная (пороговая) функция - идеальный классификатор БВ,
- серая кривая - классификатор БВ, формула для которого приведена выше,
- белая линия - порог распознавания А=150: все точки серой кривой, находящиеся выше данного порога будем относим к диагнозу БВ, прочие - не являются пациентами с данным диагнозом.
3
1 1
1 1 • 1 -
1 /1 А п 1
1 1
.1 .. і
У ^ ^
!
1 і/ V 1 Iі
1—V—1—1 1 1-А—1 -і 1—
1 1 а. А і К \/\ 1 Р Ь ГТ
1
Л А 1У і /і/ і | і / \ АІ \ /ЛІ \
/V АЛ/ \1 х і V \ 1 \ Л. і \ 1 \ 1\1 V 2
\ У \1 V ^ \ 1 \1 II \ 1
і у * н і ' у * ^ и|
О 2 4 6 В 10 12 14 18 18 20 22 24 28 28 80 32 34 36 88 40 42 44 48 48 80 52 54 88 88 80 62 84 86 88 70 72 74 76 78 80
Рис. 4. График классификатора БВ
Таблица 1
Характеристики полученного классификатора БВ
%распоз- навания чувстви- тельность специ- фичность
Вся выборка А+В+С 97,50% 0,953 0,953
Рабочая выборка W=А+В 100,00% 1 1
Обучение A 100,00% 1 1
Проверка B 100,00% 1 1
Экзамен C 80% 0,75 0,833
Для всей выборки (А+В+С) качественные характеристики классификатора устойчивы и не меняются в полосе порога от 148,88 до 164,03.
2. Формула классификатора, дифференцирующего диагноз КП:
У2(х)= 98.7962916 -
- 41.4715530*x11/(*x3*x12) +
+ 1037.1013717Д12 - 0.5270360 *x9*x5/(x4*x7) +
+ 109.3761181*x3/(x1*x6)-0.8897469*x10 +
+ 0.00123 79* x12* x3* x12 Д10 -
- 0.0527665 *x3*x12/(x10*x4) +
+ 111.8641766/(x2*x4) + 0.8899826 *x10/x3 +
+ 0.4468907 *x4*x3/(x2*x10).
График классификатора КП приведён на рис. 5.
Уровень диагноза КП Значения классификатора КП Порог распознавания
7С
60
50
40 » "I"»■ "1 * • М-1 ■» Г-*-"! -1 »1 * >■■■* і 1 >■* 1 1 I ■* ■> *1 *"> * Г * Iі 1 > 1 > ‘ > * > * I 1 > 1 >■* 1 > 1 > 1 >
0 2 4 6 8 10 12 14 15 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80
Рис. 5. График классификатора КП
Е
На графике:
- черная (пороговая) функция - идеальный классификатор КП,
- серая кривая - классификатор КП, формула для которого приведена выше,
- белая линия - порог распознавания А=145: все точки серой кривой, находящиеся выше данного порога будем относим к диагнозу КП, прочие - не являются пациентами с данным диагнозом.
Таблица 2
Характеристики полученного классификатора КП
%распоз- навания чувстви- тельность специ- фичность
Вся выборка А+В+С 96,25% 0,941 0,962
Рабочая выборка W=А+В 98,57% 1 0,982
Обучение А 100,00% 1 1
Проверка В 87,50% 1 0,833
Экзамен С 80% 0,5 0,875
- черная (пороговая) функция - идеальный классификатор ДТ,
- серая кривая - классификатор ДТ, формула для которого приведена выше,
- белая линия - порог распознавания А=159,5: все точки серой кривой, находящиеся выше данного порога будем относим к диагнозу ДТ , прочие - не являются пациентами с данным диагнозом.
Таблица 3
Характеристики полученного классификатора ДТ
%распоз- навания чувстви- тельность специ- фичность
Вся выборка А+В+С 90,00% 0,871 0,918
Рабочая выборка W=А+В 95,71% 0,926 0,977
Обучение А 96,67% 0,958 0,972
Проверка В 90,00% 0,67 1
Экзамен С 50,00% 0,5 0,5
3. Формула классификатора, дифференцирующего диагноз ДТ:
У3(х)= 146.2008995 +
+ 428.5747691/(х10*х5) -
- 10.3802641*х1*х1/(х5*х12) +
+ 1274.9558858/(х9*х7*х3*х3) +
+ 0.0435972*х1*х3 - 0.0001708* х5*х4*х2*х3 +
+ 37.5828185*х6/(*х7*х9) -
- 0.0759872*х9*х5/х4 +
+ 848.9092002*х2/(х1*х12*х9) +
+ 7326.7438409/(х1*х4*х2*х2) -
- 2.4606239*х10*х11/(х3*х12) -
- 4.2983931*х4 /(х10*х6).
График классификатора ДТ приведен на рис. 6.
На графике:
4. Формула классификатора, дифференцирующего диагноз КФПГ:
У4(х) = 94.4941392 +
+ 1456.3783323/(х1*х2) -
- 32.7076625*х6/(х10*х2*х3) +
+ 0.0016226*х4*х6*х4 -
- 3418.9997737/(*х12*х3*х9) -
- 0.0185404*х12*х7*х4/х1 +
+ 0.0615398*х4*х10*х2/х12 +
+ 652.0079631 *х1/(х5*х12*х7) -
- 0.1108216 *х6*х3/х7 -
- 0.0112632 *х12*х12*/х3 -
- 48.1555120 *х3/(х1*х2*х4)
График классификатора КФПГ приведен ниже на рис. 7.
3
■Уровень диагноза КФПГ Значения классификатора КФПГ Порог распознавания
Г
1
I I
1
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 8
Рис. 7. График классификатора КФПГ
На графике:
- черная (пороговая) функция - идеальный классификатор КФПГ,
- серая кривая - классификатор КФПГ, формула для которого приведена выше;
- белая линия - порог распознавания А=140: все точки серой кривой, находящиеся выше данного порога будем относим к диагнозу КФПГ, прочие - не являются пациентами с данным диагнозом.
Таблица 4
Характеристики полученного классификатора КФПГ
%распоз- навания чувстви- тельность специ- фичность
Вся выборка А+В+С 100,00% 1 1
Рабочая выборка W=А+В 100,00% 1 1
Обучение А 100,00% 1 1
Проверка В 100,00% 1 1
Экзамен С 100,00% 1
6. Выводы
1. Высокие показатели классификатора КФПГ позволяют рекомендовать его для дифференциальной диагностики. При этом, по-видимому, потребуется определенная его доработка с учетом новых данных ввиду крайне малой выборки (8 пациентов с диагнозом КФПГ) в данной группе.
2. Классификатор БВ допустил всего 2 ошибки. Однако оба неверно диагностированных пациента -номера: 74 - ложный отказ от диагноза и 79 - ложно установленный диагноз БВ, были согласованно ложно диагностированы классификаторами КП - ложный
диагноз для 74 и ДТ - ложный отказ от диагноза для 79. Таким образом, двойная ошибка классификаторов делает ошибку классификатора БВ неустранимой с помощью других используемых здесь классификаторов.
4. Схожая ситуация получена для классификатора КП - получены неустранимые ошибки диагнозов для пациентов 70, 74 и 75 и классификатора ДТ - неустранимые ошибки диагнозов для пациентов 70 и 79.
5. Всего классификаторы на выборке 80-ти пациентов ошиблись на 9 пациентах - 21,42,70,71,73,74,75,77,79 при этом получено 4 неустранимых ошибки диагноза -номера 70,74,75,79. Для остальных пяти пациентов ввиду конфликта классификаторов или согласованного их отказа от диагноза, следует провести уточнение диагноза другими методами.
7. Заключение
Дальнейшее развитие системы дифференциальной диагностики на основании классификаторов диагнозов БВ, КП, ДТ и КФПГ может осуществляться по двум направлениям:
1. Включение в перечень используемых признаков дополнительные характеристики диагностируемых патологий и на основе нового состава признаков разработать более надежные классификаторы.
2. Выделение отдельного класса пациентов с неустранимыми ошибками диагнозов уже разработанных классификаторов, накопление статистики таких пациентов и построение дополнительного классификатора для выделения такой специальной области значений признаков. Тогда бесконфликтная классификация диагноза будет свидетельствовать о решении задачи дифференциальной диагностики, Конфликт же диагнозов либо отнесение пациента к дополнительному классу ложных диагнозов будет однозначно означать необходимость проведения процедуры уточнения диагноза.
Е
8. Литература
1. Ивахненко А.Г. Мюллер Й.А. Самоорганизация прогнозирующих моделей. Киев: Техника, 1985. 219 с.
2. Ивахненко А.Г., Степашко В.С. Помехоустойчивость моделирования. — Киев: «Наук.думка», 1985, - 216 с.
3. Многорядный алгоритм веерных решений. Кондрашова Н.В., Павлов В.А., Павлов А.В. -Вісник національного технічного університету України «КПІ». Інформатика, управління та обчислювальна техніка. №45, 2006, с. 218-228
4. Павлов А.В. "Модифицированный алгоритм с комбинаторной селекцией переменных и его анализ”, стр. 130-139. Збірник наукових праць "Індуктивне моделювання складних систем”, Випуск 2 , Київ 2010.
------------------□ □---------------------
У статті розглядаються переваги застосування онтологічного підходу під час проектування інформаційних порталів. Виконано аналіз останніх досліджень та публікацій за проблематикою, наведена модель пошуку інформації, що враховує сферу інтересів користувача порталу
Ключові слова: інформаційний портал, онтологічній підхід, переваги застосування
□----------------------------------□
В статье рассматриваются преимущества применения онтологічного похода при проектировании информационных порталов. Выполнен анализ последних исследований и публикаций по проблематике, приведена модель поиска информации, учитывающая сферу интересов пользователя портала
Ключевые слова: информационный портал, онтологический подход, преимущества использования
□----------------------------------□
In the article the advantages of using the ontological approach to design informational portals were considered. An analysis of recent studies and publications on problematic was done, the model of search of information is presented which takes into account the interests of the user portal
Key words: informational portal, the ontological approach, advantages of using ------------------□ □---------------------
УДК 025.4.03
ПРОЕКТУВАННЯ ІНФОРМАЦІЙНИХ ПОРТАЛІВ - ПЕРЕВАГИ ЗАСТОСУВАННЯ ОНТОЛОГІЧНОГО ПІДХОДУ
Н . А. Хміль
Кандидат педагогічних наук, доцент* Контактний тел.: (057) 702-15-91 E-mail: [email protected]
А.В. Прилепо
Асистент*
*Кафедра соціальної інформатики Харківський національний університет радіоелектроніки пр. Леніна, 14, м. Харків, Україна, 61108 Контактний тел.: (057) 702-15-91 E-mail: [email protected]
1. Вступ
Однією з актуальних задач сучасного розвитку інформаційного суспільства є проектування інформаційних порталів, які на сьогодні можна вважати одним з домінуючих Інтернет-рішень для систематизації інформації, доступу до неї та ефективного її використання.
Останнім часом усе частіше для проектування таких порталів стали використовуватися онтології, які здатні точно і ефективно описувати семантику даних для деякої предметної галузі і вирішувати проблему
несумісності і суперечності понять. Так, наприклад, онтології в мережі Інтернет варіюються від великих таксономій, які категорізують веб-сайти (як на сайті Yahoo!), до категоризації товарів, які продаються та їх характеристик (як на сайті Amazon.com) [1].
2. Аналіз останніх досліджень і публікацій
Серед науковців, які досліджували різні аспекти проектування порталів можна виділити В. Г. Грищен-
Э