Научная статья на тему 'Информационная технология для организации банка данных медико биологических исследований'

Информационная технология для организации банка данных медико биологических исследований Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
356
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информационная технология для организации банка данных медико биологических исследований»

УДК 004.9; 519.256

А. В. Дубровин, научный сотрудник,

Сибирский государственный медицинский университет Росздрава, г. Томск

Информационная технология для организации банка данных медико-биологических исследований

Ключевые слова: объектно-ориентированные технологии, медико-биологические исследования, интеграция биомедицинских данных, организация банка данных.

В работе предлагается и описывается информационная технология для организации интегрированного банка данных по результатам различных медико-биологических исследований. Технология представляется как совокупность этапов сбора, хранения и верификации полученных биомедицинских данных. Реализованные на основе описанной технологии информационные системы и компьютерные программы обладают широкими возможностями для интеграции медицинских и биологических данных и направлены на повышение качества проводимых исследований на этапах планирования и обработки первичных данных.

Введение

В настоящее время в медицине и биологии объемы экспериментальных и клинических данных многократно возрастают количественно и качественно. Это связано как с применением новых информационных технологий, широким внедрением компьютерной техники, так и с увеличением количества и расширением спектра проводимых исследований.

Несмотря на огромные массивы накопленных данных, полезной информации из них извлекается несоизмеримо меньше. В иностранной литературе введен термин DRIP-синдром (Data Rich Information Poor — много данных — мало информации) для описания этого явления. В то же время результаты медико-биологических экспериментов и клинических исследований всегда имеют естественную концептуальную основу для систематизации и интеграции: они относятся к одному и тому же объекту — человеческому организму, поэтому любые наблюдения или измерения не теряют своей значимости и всегда несут в себе потенциальную возможность получения новой и практически ценной информации.

Вследствие значительного увеличения получаемых первичных данных особую важность приобретают задачи оптимизации исследований и повыше-

ния их качества. Такие задачи успешно решаются методами планирования. Например, определение объема выборки, которого оказалось бы достаточно для формирования статистически значимого заключения о различиях (или отсутствии таких различий) в эффекте по результатам проведенного исследования. При этом в процессе статистического анализа может оказаться, что или полученных данных недостаточно для статистически достоверного ответа на вопросы, ради которых проводилось исследование, или их структура не соответствует цели исследования. Следует также учитывать, что в медицине некорректными являются как исследования, имеющие чрезмерно большое число включенных пациентов, так и исследования слишком малого объема. Также необходимо принимать во внимание наличие возможных аномальных значений в полученных данных, поскольку присутствие даже единственного аномального наблюдения может приводить к оценкам, которые совершенно не отражают истинного состояния объекта исследования.

Таким образом, задача создания оптимального, с точки зрения достаточности наблюдений, банка биомедицинских данных, позволяющего интегрировать результаты исследований в единую систему, весьма актуальна [1], и в этой работе рассматриваются подходы к ее решению.

Описание технологии

Проблема создания интегрированных систем данных по результатам медицинских и биологических исследований определяется рядом факторов, наиболее значимые из которых:

• специфика медико-биологических данных (малые целенаправленные выборки; вариабельность измеряемых параметров; разнообразие реакций систем организма, формирующих значение измеряемого параметра у объекта исследования; широкое использование категоризированных данных; сложность и разнообразие применяемых методик исследования живого организма; многомерность данных,

№ 4(10)/2010~|'

биотехносфера

характеризующих биологический объект; неизвестный вид закона распределения) [2];

• специфика структуры медицинских данных, для которой характерна: неявная и неправильная структура; частичная структурированность; апостериорная структура медицинских данных и ее частое изменение [3];

• технические особенности хранения и передачи биомедицинских данных (разнообразие способов хранения данных, в том числе форматов БД, их изолированность и т. д.);

• этические и моральные факторы, которые определяют доступность получения и передачи биомедицинских данных.

Таким образом, информационная технология, предназначенная для организации банка биомедицинских данных, и компьютерные системы на ее основе должны максимально учитывать специфику биомедицинских данных.

Предлагаемая технология состоит из двух основных этапов: 1) сбора и накопления данных; 2) обработки данных. Каждый из этапов характеризуется определенными средствами и методами.

Этап сбора и хранения данных

Для формализованного представления результатов медико-биологического исследования предлагается использование объектно-ориентированного подхода (ООП). В основе ООП лежит представление о том, что предметную область необходимо проектировать как совокупность взаимосвязанных друг с другом объектов, рассматривая каждый объект как экземпляр определенного класса. Согласно концепции ООП класс является описываемой на языке терминологии исходного кода моделью еще не существующей сущности так называемого объекта, а объект — экземпляром, реализацией определенного класса. Причем объект — это пара: идентификатор и значение. Классы образуют иерархию, т. е. обладают свойством наследования, иначе возможностью порождать один класс от другого с сохранением всех свойств класса-предка и добавлением при необходимости новых свойств и методов.

Медико-биологическое исследование, как и любое другое, представляет собой некий алгоритм действий, направленный на изучение свойств объекта исследования. Его формальное описание заключается в установлении соответствий между свойством объекта исследования (измеряемый параметр) и его значением. Измерение любого параметра характеризуется соответствующими условиями, которые должны быть зафиксированы. Описание исследования должно включать в себя всю необходимую информацию, такую как описание показателей (лабораторные, диагностические, клинические, терапевтические и т. п.), условия проведения измерений и т. д. Это описание назовем Бланком исследования.

Бланк любого медико-биологического исследования можно формализовать в виде некоего набора показателей, которые в свою очередь явно или неявно разделяются на близкие по смысловому значению группы. В данном случае под показателями имеются в виду не только различного рода лабораторные и (или) клинические характеристики, но и другая информация (о пациенте, о результатах обследования и т. п.). Исходя из этого выделим класс Элемент, объекты которого выступают в роли различных показателей. Они могут быть как простыми (например, пол пациента), так и сложными, требующими более детального описания (например, такой показатель, как «агрегация тромбоцитов» требует указания единицы и метода измерения). Показатели могут характеризоваться нефиксированным количеством атрибутов, поэтому необходимо ввести класс Свойство, с его помощью можно описать любой объект класса Элемент, т. е. указать, какими дополнительными атрибутами он обладает. Наиболее полное указание всех атрибутов (свойств) элементов является необходимым для описания условий проведения исследования. Чаще всего показатели сгруппированы по какому-либо признаку. Например, в начале бланка исследования указывается информация о пациенте (фамилия, имя, отчество, пол, дата рождения и т. п.), затем следует набор измеряемых клинических или лабораторных параметров, а в конце указываются результат, клиническое заключение. Для реализации объединения объектов класса Элемент в смысловые группы в концепцию описания следует ввести класс Раздел. Соответственно формальное описание исследования может быть представлено в виде Бланка, состоящего из таких Разделов. Приведенная ситуация является наиболее общим описанием бланка исследования, проводимого в клинико-диагностических лабораториях медучреждений. В то же время предложенный подход позволяет формировать бланки любого содержания.

Таким образом, в рамках используемого ООП описание медико-биологического исследования может быть формализовано в виде структурной модели, представляющей иерархию определенных выше классов (рис. 1).

На нижнем уровне иерархии классов находится класс Свойство. Он имеет три обязательных атрибута: наименование, тип данных и значение, которое указывается при создании объекта этого класса. На них строится класс Элемент, который имеет два обязательных атрибута — наименование и тип данных — и может быть дополнен любым количеством других атрибутов — объектов класса Свойство. Объектами класса Элемент могут являться не только реализации измеряемых параметров, но и условия измерения за счет перечисления набора дополнительных атрибутов. Каждый объект этого класса — своего рода ячейка хранения данных — результатов исследования.

биотехносфера

| № 4(10)/2010

Медицинские компьютерные технологии

Класс Раздел

Класс Бланк

Класс Раздел

Класс Раздел

С N Класс Элемент / ч Класс Свойство

Класс Элемент Класс Свойство

/ ч Класс Свойство

Класс Элемент к

/ ч Класс Свойство

С Ч Класс Элемент ч / ч Класс Свойство ^ С

/■ Класс Элемент ч У ч Класс Свойство ^ С

У ч Класс Свойство

Класс Элемент а >

у "ч Класс Свойство

Рис. 1 |

Аналогичным образом формируются объекты класса Раздел. Они имеют два обязательных атрибута: наименование и примечание. А также включают в себя необходимые объекты класса Элемент. Объекты класса Раздел несут в себе информацию о какой-либо части исследования. Например, информация о пациенте, виде исследования, клиническом заключении.

На верхнем уровне иерархии классов находится Бланк, который также имеет два обязательных атрибута — наименование и примечание. Бланк состоит из объектов класса Раздел. Таким образом, объекты этого класса позволяют более полно описывать медико-биологические эксперименты и клинические исследования. Основным требованием при таком подходе к описанию является максимально полное указание атрибутов всех объектов модели. При таком структурированном описании сохраняется связь между исследованиями, формируется единая интегрированная система данных, поскольку объекты всех классов не только наследуют свойства суперклассов, но и базируются на одних и тех же объектах нижерасположенных классов, в частности на объектах классов Свойство и Элемент.

Предлагаемая четырехуровневая модель описания результатов исследований позволяет эффективно формировать бланки медицинской тематики практически любой сложности. С использованием такого подхода была реализована интегрированная система данных (ИСД), которая обеспечивает этап сбора и хранения первичных медико-биологических данных. ИСД позволяет максимально учитывать условия проведения исследования и не зависит от систем и процедур сбора данных [4]. В целом ее можно рассматривать как универсальный инструмент для сбора и хранения данных. При таком подходе сохраняется концептуальная взаимосвязь меж-

ду результатами независимо проводимых исследований, что закладывает основу для их дальнейшего обобщения и анализа.

Этап обработки данных

В теории планирования применительно к исследованиям в медицине и биологии одним из критериев оптимальности является достаточность набора данных. Поэтому следующий этап предлагаемой технологии — предварительная обработка выборки в целях получения информации о достаточности набора данных проведенного исследования на основе общепринятых в статистике критериев и формул (1-9).

Оценка размера выборки

Технология предусматривает оценку числа исследований с использованием нижеследующих формул [5]. В случае, когда в клинических исследованиях определяются количественные признаки, выражаемые статистическими средними величинами, формула расчета минимального объема групп для сравнения показателя в двух независимых группах:

(1)

где и — стандартные отклонения сравниваемых опытной и контрольной групп; А — требуемая разность между средними значениями сравниваемых групп; Za и Zp — критические значения нормального распределения, соответствующие заданным уровням ошибок 1-го и 2-го рода, которые определяются по таблицам.

При альтернативной форме описания эффекта с помощью частот (или долей)рд и рк необходимое число наблюдений при равных по численности опытной и контрольной групп определяется по формуле

п

2Ро (100 - р0) + рк (100 - рк)

(2)

где А — разность между частотами (р0 - рк).

Такой метод дает весьма точные результаты при 25 < р <75 %. При других значениях частот для корректировки возникающих искажений вводится поправка ф = агсйШл/р. Объем выборки вычисляется при этом как

2(га + % у

п

(3)

(Фо-Ф* )2

Иногда требуется формирование различных по численности опытной и контрольной групп. Если известна фиксированная численность одной группы (например, контрольной пк), можно оценить тре-

№ 4(Ю)/2010~|'

биотехносфера

Медицинские компьютерные технологии

буемую численность другой группы (гад) для формирования статистически значимого заключения о различиях в эффекте между ними. Для количественного признака

2 о2

(%« + % г Я:

(%« + % )2 Я.

(4)

А* --

Для альтернативного представления признаков

(^ + % )2

Н)

(ф0 -щ )2 --

(+ % )2 '

(5)

п

Поиск и исключение аномальных наблюдений (выбросов)

Необходимость поиска и исключения выбросов обусловлена тем, что они могут вносить весомый и некорректный вклад в конечные оценки состояния исследуемого объекта. Результаты измерений, содержащие грубые ошибки, обычно бывают хорошо заметны и могут быть выделены без применения статистических методов. Статистические методы выявления ошибок целесообразно применять в сомнительных случаях, когда информация о качестве измерений либо неполна, либо ненадежна. Поэтому в предлагаемую технологию также включены критерии исключения Граббса. Выбор этих критериев обусловлен тем, что им было отдано предпочтение при реализации международного стандарта ИСО 5725 [6].

Критерий Граббса позволяет провести верификацию на одно или два наибольших (наименьших) значений в выборке.

Проверка на один выброс

Для проверки, не является ли выбросом наибольшее значение их х расположенных в порядке возрастания совокупности данных х^ (г = 1, 2, ..., р), вычисляется статистика Граббса Ор по формуле

(*» - х)

(6)

-т Е <* - * )2-

1 г=1

1

где х = — V х.; 5 =

1=1

Для проверки значимости наименьшего результата наблюдения вычисляют тестовую статистику:

о1 =

(х - х)

(7)

В случае, если значение тестовой статистики меньше (или равно) 5%-ного критического значения, тестируемое наблюдение признают корректным.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В случае, если значение тестовой статистики больше 5%-ного критического значения и меньше (или равно) 1%-ного критического значения, тестируемое наблюдение называют квазивыбросом и решение о его включении в результирующую выборку принимается дополнительно.

В случае, если значение тестовой статистики больше 1%-ного критического значения, тестируемое наблюдение признают статистическим выбросом.

Проверка на два выброса

Для проверки на выбросы одновременно двух наибольших результатов наблюдений вычисляют статистику Граббса:

ЭР-1.Р

(8)

Р _ Р-2 _

Здесь = X (х " *)2; = Е (X - хр-1,р2

/=1 /=1 р-2

где хр-1,р =

'Р-1.Р р - 2

1

го Е ъ ■

1=1

Соответственно, чтобы проверить два наименьших результата наблюдений, вычисляют статистику Граббса:

С =

о2

(9)

Здесь = X (X - Х,2 )2' где

Ч, 2

1=3

1

Критические значения для критерия Граббса определяют по таблицам.

После верификации выборки к ней применяют методы расчета объема выборки (для количественных признаков).

Таким образом, предлагаемую технологию сбора первичных медико-биологических данных можно схематически представить в следующем виде.

На рис. 2 представлено схематическое изображение этапов работы технологии для организации оптимального банка данных биомедицинских исследований. Ввод первичных медицинских данных осуществляется различными категориями пользователей 9, которые могут быть представлены как врачами, исследователями, лаборантами, операторами медицинского оборудования, так и информационными системами (ЛИС, МИС и т. д.), интегрированными с использующим данную технологию программным обеспечением. Сами данные 2 заносят в систему на основе предварительно созданных

биотехносфера

| № 4(10)/200

Первичные биомедицинские данные

Полезная

Бланки

з

Раздел

с Наименование N

Примечание

| Элемент 1 )

I Элемент 2 )

I )

L Элемент М J

Элемент

/ Наименование N

Тип данных

I Свойство 1

[ Свойство 2 ]

i ,

L Свойство N J

Наименование

Тип данных

Значение

ЕШШ.

^Интегрированная система д

Рис. 2

бланков исследований, которые, как уже упоминалось выше, не зависят от систем сбора данных и могут иметь любое содержание. Создание бланков исследований обеспечивается на основе объектно-ориентированного подхода 3. По мере заполнения бланков исследований аккумулируется банк данных биомедицинских исследований 4, причем организованные таким образом данные представляют собой интегрированную систему. По запросу пользователь или система отбирает из всего массива только те данные, которые отвечают интересуемым критериям или поставленным целям 5. Сформированная таким образом выборка 6 подвергается дальнейшей обработке, к ней применяются критерии оценки достаточности размера 7. В зависимости от поставленных целей конечный пользователь 10 получает полезную информацию 8, например о том, что полученных данных достаточно для статистически достоверного ответа на вопросы, ради которых проводилось исследование. Результирующую выборку можно также использовать для проверки других статистических гипотез и анализа. Особое внимание уделяется телекоммуникационной доступности такой системы данных 1, которая может быть реализована с использованием современных web и ряда других технологий, фактически стирающих географические границы между пользователем и банком данных.

Результаты и область практического применения

Реализованные на основе такого подхода информационные системы и компьютерные программы могут найти широкое применение:

• в практической медицине для получения комплексных характеристик состояния пациентов на основе данных лабораторных и других диагностических исследований;

• в научно-исследовательской сфере как в информационно-экспериментальной среде генерации научных гипотез, выявления проблем и обнаружения закономерностей;

• при организации мультицентровых исследований, так как они обладают свойствами универсальности, интегративности и позволяют генерировать заключение о достаточности набора данных.

В целом разработанная технология для организации оптимального банка данных по результатам медико-биологических исследований является универсальным средством сбора, хранения, интеграции и первичного анализа данных, что определяет ее широкое практическое применение [7, 8].

Работа выполнена при частичной финансовой поддержке ФЦП г/к №02.740.11.0083 и гранта АВЦП Министерства образования и науки РФ (грант № 2.1.1/3436).

№ 4(10)/2010 |

биотехносфера

| Л и т е р а т у р а |

1. Фокин В. А., Новикова Т. В., Пеккер Я. С., Новицкий В. В.

Концепция банка данных научных исследований в медицине// Сибир. мед. журн. 2000. № 4. С. 32-35.

2. Пеккер Я. С., Фокин В. А. Анализ и обработка медико-биологической информации: учеб. пособие Томск: Изд-во ТПУ, 2002. 160 с.

3. ВеселовВ., Долженков А. XML-ориентированные базы данных: обзор состояния и опыт разработки. Режим доступа: [http://synthesis.ipi.ac.ru/sigmod/seminar/ S20030227 10. 12. 2009].

4. Обучение медицинской статистике. Двадцать конспектов лекций и семинаров / Под ред. С. К. Л в а н г а, Ч ж оЕ к Т ы е. М.: Медицина; Женева: ВОЗ, 1989. 216 с.

Планирование медицинских экспериментов: электрон, учеб. StatSoft. Режим доступа: [http://www.statsoft.ru/ home/portal/applications/medicine/medic_design2.htm 02. 02. 2010].

ГОСТ Р ИСО 5725-2-2002. Точность (правильность и прецизионность) методов и результатов измерений. Ч. 2. М.: Изд-во стандартов, 2002. 51 с.

Kokh V., Ivlev I, Dubrovin A. Web-oriented system for integration of biomedical data // Proceedings of the nineteenth Annual CTU student scientific conference WORKSHOP 2010. Prague. Czech technical university publishing house, 2010. P. 264-265.

Свидетельство об официальной регистрации. Программа для ЭВМ «ИСД Биомед» / В. А. Ф о к и н, А. В. Д у б -р о в и н. — № 2007612525; заявл. 27.04.2007; зарегистр. 15. 06. 2007. М.: Роспатент, 2007.

Издательство «ПОЛИТЕХНИКА» ПРЕДЛАГАЕТ

Бегун П. И. Биомеханическое моделирование объектов протезирования: учебное пособие. — СПб. : Политехника, 2010. — 464 с. : ил. Цена 495 руб.

ISBN 978-5-7325-0914-4

Учебное пособие написано Петром Иосифовичем Бегуном, доктором технических наук, профессором Санкт-Петербургского государственного электротехнического университета «ЛЭТИ», академиком Академии медико-технических наук Российской Федерации, руководителем секции «Биомеханика человека».

Изложены теоретические основы математического моделирования объектов протезирования и методы их моделирования с использованием пакетов прикладных программ (CosmosWorks, ANSYS, Solid Works, Mimics и т. д.) в различных областях медицинской деятельности: кардиологии, ортопедии, отоларингологии, стоматологии и т.д. Последовательно прослеживаются пути построения моделей: от реальных объектов к содержательным моделям, от содержательных моделей к математическим и далее к их компьютерным реализациям. Пособие служит основой для изучения смежных дисциплин, способствует установлению междисциплинарных связей и формирует навыки системного подхода к постановке и решению прикладных задач.

«Рекомендовано учебно-методическим объединением вузов Российской Федерации по образованию в области радиотехники, электроники, биомедицинской техники и автоматизации в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению подготовки дипломированных специалистов 200400 (653900) «Биомедицинская техника» по специальностям 200401 (190500) «Биотехнические и медицинские аппараты и системы», 200402 (190600) «Инженерное дело в медико-биологической практике» и направлению подготовки бакалавров и магистров 200300 (553400) «Биомедицинская инженерия».

Книгу можно приобрести в издательстве по адресу: 191023, Санкт-Петербург, Инженерная ул., д. 6, 3-й этаж. Тел./факс: 312-44-95, 312-53-90, тел.: 571-61-44 E-mail: [email protected], [email protected], [email protected]

Возможна отправка книг «Книга—почтой». Книги рассылаются покупателям в России наложенным платежом (без задатка). Почтовые расходы составляют 40 % и выше от стоимости заказанных Вами книг.

биотехносфера

I № 4(10)/200

i Надоели баннеры? Вы всегда можете отключить рекламу.