Научная статья на тему 'Формирование представлений данных для построения медицинских диагностических шкал'

Формирование представлений данных для построения медицинских диагностических шкал Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
156
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОМЕРНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ / АНАЛИЗ ДАННЫХ / MULTIDIMENSIONAL DATA REPRESENTATION / DATA ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зыкин Сергей Владимирович, Редреев Павел Григорьевич, Чернышев Андрей Кириллович

В работе рассматривается проблема автоматизации построения представления данных со списочными компонентами из исходного реляционного представления данных. В ос­нове построения лежит формальное определение промежуточной и целевой моделей данных. Полученные представления используются в анализе данных при построении медицинских оценочных шкал.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Formation of data representations for construction of medical diagnostic scales

In the work the automation problem of data representation construction with list of components from source relational data representation is con­sidered. The basis of construction is formal definition of intermediate and target data models. The obtained representations are used in the data anal­ysis at construction of medical estimate scales.

Текст научной работы на тему «Формирование представлений данных для построения медицинских диагностических шкал»

УДК 519.72

С. В. ЗЫКИН П. Г. РЕДРЕЕВ А. К. ЧЕРНЫШЕВ

Омскии государственный технический университет

Омская государственная медицинская академия

ФОРМИРОВАНИЕ ПРЕДСТАВЛЕНИЙ ДАННЫХ ДЛЯ ПОСТРОЕНИЯ МЕДИЦИНСКИХ ДИАГНОСТИЧЕСКИХ ШКАЛ*

В работе рассматривается проблема автоматизации построения представления данных со списочными компонентами из исходного реляционного представления данных. В основе построения лежит формальное определение промежуточной и целевой моделей данных. Полученные представления используются в анализе данных при построении медицинских оценочных шкал.

Ключевые слова: многомерное представление данных, анализ данных. ' Работа выполнена по гранту РФФИ № 09-07-00059-а

1. Введение

Построение гиперкубического (многомерного) представления данных является основой для технологии оперативной аналитической обработки данных OLAP (online analytical processing) [ 1,2] и используется в алгоритмах интеллектуального анализа данных (Data Mining) [3, 4].

В данной работе рассматривается модель данных, названная «композиционной таблицей», которая позволяет многомерное представление данных разместить на плоскости, что делает удобным проведение предварительного визуального анализа.

Рассматриваемые в статьях [2, 5] многомерные модели данных обладают достаточными свойствами для реализации различных классов приложений. Обычно условием, обеспечивающим соответствие значений меры в ячейке элементам измерений, является функциональная зависимость значений мер от атрибутов терминального уровня каждого измерения [5]. В отличие от многомерных моделей данных, рассматриваемых в публикациях, для композиционной таблицы данное условие отсутствует, что позволяет размещать списки значений мер в ячейках. Это дает возможность реализации разнообразных методов анализа данных без дополнительных затрат на сбор и преобразование данных. Другим важным отличием является то, что представление композиционной таблицы является объединением нескольких гиперкубов с одним общим измерением. Тем самым предоставляется возможность работы с различными гиперкубическими представлениями в рамках одного приложения. Модель данных композиционная таблица является обобщением гиперкуба семантическая трансформация [6] на случай нескольких значений в одной ячейке и множества независимых измерений.

2. Описание предлагаемого подхода

Для автоматизации построения композиционной таблицы предлагается следующая последовательность формирования ее представления:

1. Пользователь из списка атрибутов БД формирует множества атрибутов: измерениях, У(, У2,..., YN

и соответствующие им меры Z,, Z1..... ZN. Мера Z,

соответствует измерениям (X, YJ, мера Тг соответствует измерениям (X, YJ и т.д. Естественными являются ограничения: ХпУ=0, (XuY.)nZ=0, i=l,2,...N. Дополнительным технологическим ограничением является запрет на использование атрибута в качестве меры, если он принадлежит какому-либо измерению и на него установлено ограничение в логическом выражении. Причины и детали такого ограничения будут ясны после рассмотрения способов формирования всех необходимых представлений данных.

2. Формирование иерархий измерений для множеств атрибутов X, У,, Уг..., У^ Иерархии формируются автоматически по правилам, рассмотренным далее, и пользователю предлагается только их модифицировать.

3. По специальному правилу задаются логические

ограничения на измерения Fg(X), FJYJ, F2(Y2).....

Fn(Yn). По умолчанию каждая формула есть конъюнкция условий определенности (IS NOT NULL) для атрибутов измерения.

4. Формирование контекстов измерений С0, С,,..., CN. (некоторые контексты могут быть пустыми, а некоторые—псевдоконтекстами). Далее будут представлены соответствующие определения и алгоритмы формирования контекстов.

5. Формирование контекста приложения Сы и соответствующей реализации таблицы связанных соединений с со схемой Си логическим ограничением

F(C)=FJX)a(F,(YJvF.JY.Jv.. vFJYJ)

6. Формирование реализаций измерений X, У,, Y^...,Ync сортировкой значений в соответствии с иерархией, если контекст измерения не пуст, то он используется для формирования, в противном случае реализация измерения является проекцией с.

7. Формирование реализации (представления) композиционной таблицы (заполнение значений мер на соответствующих местах таблицы).

Пользователь вручную выполняет шаги 1 и 3, и осуществляет выбор предложенных вариантов в шагах 2, 4 и 5. Все остальные операции выполняются автоматически.

Заметим, что в предложенной последовательности шагов формирования композиционной таблицы отсутствует необходимость каким-либо образом модифицировать исходную операционную БД, что делает возможным реализовать все принципы проектирования БД [7], в том числе самый важный — принцип независимости данных.

3. Формирование композиционной таблицы

Для представления данных «композиционная таблица» множества атрибутов ХиУ( (¡=1,2, ...,N1 являются обобщенными координатами и могут рассматриваться как измерения. Иерархии атрибутов в X и У^ 0=1, 2, ..., №) определяют порядок расположения значений атрибутов в заголовках строк и столбцов пользовательского представления в виде двумерной таблицы.

Определение 3.1. Схема иерархии—это связный ориентированный ациклический граф Н=(А, Е), где А — множество атрибутов, Е — множество дуг.

Определение 3.2. Пусть V, О — атрибуты. Н — схема иерархии, тогда У< Д если в Н существует путь из вершины Ув Д

Определим способы задания частичного порядка на множестве атрибутов.

Для задания частичного порядка на множестве атрибутов, входящих в функциональные и многозначные зависимости, используем следующее эвристическое правило.

Правило 3.1. Атрибуты из множества атрибутов, принимающего меньшее количество значений, располагаются в иерархии выше, чем атрибуты из множества, принимающего большее количество значений.

Смысл этого правила поясним на примере. Если какие-либо узлы одного уровня в иерархии имеют потомков с совпадающими значениями, то эти потомки в представлении будут дублироваться вместе с собственными потомками для каждого из узлов. Следовательно, чем больше значений будут иметь исходные узлы, тем больше у них будет дублированных потомков. Перемещение таких узлов вниз по иерархии позволит избежать данной ситуации.

Для функциональной зависимости V—>Д где V и О—множества атрибутов, атрибуты из О располагаются в иерархии выше, чем атрибуты из V, так как различные значения множества атрибутов V могут определять одинаковое значение Д Таким образом, будем полагать, что для атрибутов Уке V, О, еО\/к, 1

Для многозначной зависимости V-» О (Е), где V, Д Е— множества атрибутов, атрибуты из V располагаются в иерархии выше, чем атрибуты из И иЕ, так как по определению многозначной зависимости при существовании двух кортежей, совпадающих по V, существуют еще два кортежа с тем же значением V. Таким образом, будем полагать, что для атрибутов Уке V, е ОиЕУ к, 11,< V,,.

В работе [8] предложен алгоритм, автоматически формирующий иерархии в измерениях, удовлетворяющие перечисленным правилам.

После построения иерархий измерений формирование схемы композиционной таблицы завершено. Далее необходимо определиться со способом формирования ее представления. Для того чтобы в таблице не было лишних значений, в работе [9] предлагается учитывать свойство соединения без потерь информации (СБПИ) [7 ]. Для реализации этого свойства в авто-

матическом режиме в работе [10] было предложено использовать промежуточное представление данных в виде таблицы соединений. В данной работе используется частный случай этой таблицы: «таблица связанных соединений», для которой используется более «жесткое» условие формирования.

Пусть U = {А,, А2.....A J некоторое множество

атрибутов, R — исходное отношение, определенное на всем множестве U и удовлетворяющее зависимостям DEP, и {Rr R2,..., Rj - множество отношений (декомпозиция R), определенных на подмножествах атрибутов множества U.

Определение 3.3. Декомпозиция {Rt, R2..... Rj

обладает свойством соединения без потерь информации (СБПИ), если для любой реализации отношения R, удовлетворяющей множеству зависимостей DEP, выполнено:

где XI — операция естественного соединения, п^Ф) проекция отношения R по атрибутам отношения Rj.

Пусть Cx={Rt, R2,..., Rj — произвольное множество отношений реляционной БД.

Определение 3.4. Множество Сх будем называть контекстом, если оно удовлетворяет свойству СБПИ на зависимостях DEP.

Определение 3.5. Множество Сх будем называть псевдоконтекстом, если для него не гарантируется выполнение свойства СБПИ.

Для повышения уровня автоматизации работы пользователя и снижения требований к его квалификации формирование контекстов осуществляется по исходным множествам атрибутов X, Yj, Z( (1=1,2,..., N).

Для построения множества отношений, с наибольшей вероятностью удовлетворяющего свойству СБПИ используется ряд эвристических правил. В работе [11] сформулированы правила дополнения базового набора отношений другими отношениями, чтобы в совокупности все отношения удовлетворяли свойству СБПИ, а также рассмотрен алгоритм формирования контекстов и правило формирования псевдоконтекстов. В работе [12] сформулированы правила формирования базового набора отношений для множества заданных атрибутов мер и измерений. Далее предполагаем, что контексты и псевдоконтексты для измерений и контекст приложения, включающий измерения и меры, построены.

Рассмотрим формирование «таблицы связанных соединений» (С,1) для произвольного контекста: Cx={Rr R2,..., Rk}. Пусть С — схема «таблицы связанных соединений», определенная на множестве атрибутов А,, Аг ..., An, 1 — вектор вхождения длины к. Определим принцип формирования кортежей tec, где с — реализация (множество кортежей) схемы отношения С. Рассмотрим все возможные сочетания без повторений отношений Rr R?..., ^.удовлетворяющие свойству СБПИ. Пусть Р"= Rm/2)l..., Rm/J текущее сочетание отношений и р' его реализация, ограниченная логической формулой F: p'=<JF(Rmll)t>< ДшИХI...

Для каждого кортежа иер' формируем кортеж t по следующим правилам: ЦАЦ^^Ц, если атрибут Aj принадлежит соединению, и ЦАЦ=етрв противном случае, где emp — пустое значение. Каждому кортежу поставим в соответствие битовый вектор l(t)=(ljt), l2(t),... ..., ljt)), где l(t)=l, если реализация ^ схемы Д^уча-ствует в текущем соединении, и 1^=0 в противном случае.

Рассмотрим отношение частичного порядка над кортежами tec.

Определение 3.6. Кортеж 4есявляется менее определенным или равным кортежу t'e с, когда для любого

атрибута А, выполнено: если ([А.]*С[А(], то f[A]=emp и L(t'telj(t), j=l,...,k. В этом случае будем писать: t< t' и назовем кортеж t подчиненным кортежу Г.

В представлении сдостаточно хранить только кортеж f', который содержит в себе все менее определенные либо равные кортежи. Следовательно, завершающим этапом построения представления с является удаление в нем всех подчиненных кортежей.

По предложенным правилам строятся таблица связанных соединений с, соответствующая контексту приложения Сш, и измерения. Построенные измерения служат «каркасом» композиционной таблицы R", а ее заполнение осуществляется из представления с по перечисленным ниже правилам.

Атрибуты измерения X остаются неизменными вй'и являются наименованиями строк, значения атрибутов У. становятся именами столбцов в R*, домены атрибутов Z., дополненные пустым значением, распределяются между доменами новых атрибутов, введенных для значений У. VV, — дополнительное множество атрибутов, отсутствующих в R*. Естественными являются ограничения: ХпУ(=0, XnZ(=0,

YpZ.=(Z (i = 1, 2.....N). W e Я\ (Xu У,и.. .u Ул.иZ,u...

>.jZJ, ¡Dom(Y)l=Li, где Dom(Y.) область

значения атрибута У, в исходной БД.

Схема результирующего представления строится из исходных отношений по следующему правилу:

SchlCMX, Y,.....Yn, Z,.....ZN, W,.....wy =>

=*Scb(CT)={X, HDom(Y) x {Z.} (i=l, 2,..., N) }, где Sch — схема описания отношения, Dom — область значений атрибута, Dom(Y)=Dom(Yl) xDomfYJ х

В данной работе пред лагается отказаться от необходимости выполнения функциональных зависимостей вида:Х, У(—>Z, i=l,2,...,N, что позволит иметь в одной ячейке гиперкуба несколько значений (список) атрибутов Z..

Определение 3.7. Множество атрибутов KZ.p будем называть ключом атрибута Zpe Zj в контексте Р, если KZjtß{P\, зависимость KZjp->Zjp выводима в FD", и не существует выводимой в F& зависимости Y->Z.p, где Y<zKZJp и FD® множество функциональных зависимостей на атрибутах отношений из Р.

Определение 3.8. Значение атрибута t[ZJp], где ZjpeZf для текущего кортежа tе Сдублирует значение t{zjp], t'eC, если:

1)«ZJ=t1Z],

2)t[X]=tlX],i[^J=tl^],

3) HKZjp}=t\KZ.p].

Смысл определения 3.8 следующий: если в выбранном контексте есть отношение, в котором идентифицируется (функционально определяется) отдельное значение атрибута, то это значение является важным для приложения, и если оно совпадает с другим значением этого же атрибута, то это не будет дублированием. В противном случае в контексте приложения значения параметра интерпретируются как список возможных значений, тогда в списке не должно быть совпадающих значений. Если в контексте приложения для атрибута меры А} отсутствует ключ, то по аксиоме рефлексивности [7] ключом будет сам атрибут. Следовательно, в ячейках для этого атрибута не может быть совпадающих значений.

4. Анализ данных

Для решения задачи диагностирования пациентов кардиологического диспансера было использовано

представление «композиционной таблицы» со следующей схемой:

— атрибуты множества X: диагноз, № истории болезни, возраст;

— атрибуты множества У,: вид обследования, численный показатель;

— атрибуты множества Z,: значение численного показателя;

На множество X задано следующее ограничение: Fg(X)={(диагноз = Артериальная гипертензия, стадия 1)V (диагноз = Артериальная гипертензия, стадия 2)V (диагноз = Артериальная гипертензия, стадия 3)}.

Для расчета диагностической шкалы [ 13] была использована линейная комбинация N значимых параметров, называемая в литературе [14,15] решающей функцией.

Рассмотренная технология была использована при построении шкалы оценки тяжести артериальной гипер-тензии. Для этого были рассмотрены выписки из историй болезни 1443 пациентов кардиологического центра.

5. Заключение

Рассмотренная технология формирования композиционной таблицы позволяет существенно автоматизировать работу пользователя за счет учета свойств схемы исходной базы данных. При этом не требуется преобразование этой схемы к виду «звезда» или «снежинка», что позволяет сохранить положительные свойства исходной операционной базы данных. Рассмотренная технология не навязывает единственно возможное распределение таблиц меду мерами и измерениями, как это сделано в Microsoft Analysis Services, и не отдает все на откуп пользователю, как это сделано в ORACLE Analytic Workspace Manager, а предлагает на выбор различные комбинации отношений, из которых исполняющая среда может корректно построить гиперкуб.

Разработанная технология ориентирована, прежде всего, на использование визуального и статистического анализа данных при поиске скрытых закономерностей. Дальнейшее развитие системы предполагается провести по пути создания библиотеки модулей интеллектуального анализа данных с описанием шаблонов схем входных параметров.

Библиографический список

1. Vassiliadis, P. A survey of logical models for OLAP databases [Текст] / P. Vassiliadis, T. Sellis // S1GMOD Rec. - 1999. - V. 28. -№4. - P. 64 - 69.

2. Pedersen, T. B. A foundation for capturing and querying complex multidimensional data [Текст] / Т. В. Pedersen, С. S.Jensen, С. E. Dyreson // Inf. Syst. - 2001. - V. 26. - № 5. - P. 383 - 423.

3. Li, H.-G. Progressive ranking of range aggregates [Текст] / H.-G. Li, H. Yu, D. Agrawal, A.E. Abbadi // Data & Knowledge Engineering. - 2007. - V. 63. - № 1. - P. 4-25.

4. Giorgini, P. Goal-oriented requirement analysis for data warehouse design [Текст] / P. Giorgini, S. Rizzi, M. Garzetti // In Proceedings of the 8th ACM international Workshop on Data Warehousing and OLAP: DOLAP '05. - 2005. - P. 47-56.

5. Lechtenborger, J. Multidimensional normal forms for data warehouse design [Текст] / J. Lechtenborger, G. Vossen // Inf. Syst. — 2003. - V. 28. - №5. - P. 415-434.

6. Зыкин, С. В. Формирование гиперкубического представления реляционной базы данных [Текст] / С. В. Зыкин // Программирование. — 2006. — №6. — Р. 71—80.

7. Дейт, К. Дж. Введение в системы баз данных [Текст] / К.Дж.Дейт. — М.: Издательский дом «Вильяме», 2008. — 1328с. — ISBN 978-5-8459-0788-2.

8. Редреев, П. Г. Построение иерархий в многомерных моделях данных [Текст] / П. Г. Редреев // Известия Саратовского уни-

верситета. Новая серия. Сер. Математика. Механика. Информатика. - 2009. - №5. - С. 84-87.

9. Miller, L. Data Warehouse Modeler: A CASE Tool for Warehouse Design [Текст] / L. Miller, S. Nila // Thirty-First Annual Hawaii International Conference on System Sciences. — 1998. — №6. — P. 42-48.

10. Зыкин, С. В. Построение отображения реляционной базы данных в списковую модель данных [Текст] / С. В. Зыкин // Управляющие системы и машины. — 2001. — №3. — С. 42 —63.

11. Зыкин, С. В. Автоматизация формирования представлений данных для их аналитической обработки [Текст] / С. В. Зыкин, А. Н. Полуянов // Вестник компьютерных и информационных технологий. — 2010. — № 4. — С. 3 — 9.

12. Редреев, П. Г. Построение табличных приложений со списочными компонентами [Текст] / П. Г. Редреев // Информационные технологии. — 2009. — №5.'— С.7 —12.

13. Александрович, Ю. С. Оценочные и прогностические шкалы в медицине критических состояний. Справочник. [Текст] / Ю.С.Александрович,В.И.Гордеев. - СПб.:Сотис,2010. - 248с. -ISBN 978-5-93979-269-1 /

14. Журавлев, Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации [Текст) / Ю. И. Журавлев//Проблемы кибернетики. — 1978. — Т. 33. — С. 5 —68.

15. Лбов, Г. С. Метод адаптивного поиска логической решающей функции [Текст] / Г. С. Лбов, В. М. Неделько, С. В. Неделько // Сибирский журнал индустриальной математики. — 2009. — ТХ11. — №3(39). - С. 66-74.

ЗЫКИН Сергей Владимирович, доктор технических наук, профессор (Россия), профессор кафедры «Прикладная математика и фундаментальная информатика» Омского государственного технического университета.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Адрес для переписки: 644050, г. Омск, пр. Мира, 11. РЕДРЕЕВ Павел Григорьевич, математик, системный программист.

Адрес для переписки: e-mail: [email protected] ЧЕРНЫШЕВ Андрей Кириллович, доктор медицинских наук, профессор (Россия), профессор кафедры «Детская хирургия» Омской государственной медицинской академии.

Адрес для переписки: 644050, г. Омск, пр. Мира, 11.

Статья поступила в редакцию 08.04.2011 г. © С. В. Зыкин, П. Г. Редреев, А. К. Чернышев

удк004 735 В. И. НИКОНОВ

Е. В. ЩЕРБА М. В. ЩЕРБА

Омский государственный технический университет

АНАЛИЗ КОМПЛЕКСНОГО ПОДХОДА К ЗАЩИТЕ ИНФОРМАЦИИ ПРИ ЕЁ ПЕРЕДАЧЕ В РАСПРЕДЕЛЕННЫХ БЕСПРОВОДНЫХ СЕТЯХ

Стандарт IEEE 802.11s описывает новые возможности беспроводных сетей. Основанный на концепции Mesh-сетей, он позволяет интегрировать различные технологии при создании зоны информационного покрытия большой площади. Реализация Mesh-сетей масштаба города и более повысит значимость вопросов защиты передаваемых данных. В исследовании представлен альтернативный подход, позволяющий снизить вероятность успешной атаки при передаче информации в беспроводных сетях без применения алгоритмов шифрования.

Ключевые слова: беспроводные сети, безопасность компьютерных сетей, сетевые атаки, маршрутизируемый сервис, мультиплексирование трафика, защита информации.

Введение

Настоящая работа продолжает исследование [ 1 ], в котором был разработан маршрутизируемый сервис передачи данных через распределенные сети. В [ 1 ] было обосновано, что использование маршрутизируемого сервиса позволяет значительно снизить вероятность класса активных сетевых атак злоумышленника без использования каких-либо инструментов шифрования.

Развитие группы стандартов IEEE 802.11 с каждым годом позволяет решать все более широкий спектр задач. Недавнее появление нового класса широкополосных беспроводных сетей Mesh позволило достичь значительного увеличения зоны информационного

покрытия. Выбор в пользу беспроводных технологий позволяет получить преимущества в срочности и мобильности, но задачи обеспечения конфиденциальности, целостности и доступности передаваемой в этих сетях информации по-прежнему остаются актуальными.

В представленном исследовании предложена методика повышения безопасности передачи информации в распределенных беспроводных сетях масштаба города и более.

Реализация данного подхода заключается во введении в существующую архитектуру сети протокола, корректирующего работу маршрутизаторов и точек доступа для маркированной информации. Приведено

i Надоели баннеры? Вы всегда можете отключить рекламу.