Научная статья на тему 'Интеллектуальный анализ медицинских данных с использованием кейсовой технологии'

Интеллектуальный анализ медицинских данных с использованием кейсовой технологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1532
317
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЬ ПРИНЯТИЯ РЕШЕНИЯ / КЕЙС МЕТОД / RAPID MINER / DATA MINING / CASE STUDY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никонорова М. Л.

Данная работа посвящена проблеме эффективности применения информационных технологий в повседневной практической деятельности врача. Возникают реальные ситуации, когда принятие решения требует больших временных затрат. В этих случаях всегда на помощь приходят компьютерные технологии, автоматизированная обработка данных. В статье описана модель принятия решения, позволяющая реализовать конкретную ситуацию. Приведен алгоритм решения и перечислены основные операторы прикладного программного обеспечения RapidMiner. Приведен пример методического кейса, используемого на практических занятиях по медицинской информатике.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Data mining using case technology

The article explained that you can use efficiency of information technologies in everyday life practical doctor. There are real situations where the decision may be time consuming. In these cases, always come to the aid of computer technology, automated data processing. The article describes the decision-making model, which allows to implement the specific situation, An algorithm for solving the problem are the main operators and application software Rapid Miner. An example case study methodology used in practical classes in medical Informatics.

Текст научной работы на тему «Интеллектуальный анализ медицинских данных с использованием кейсовой технологии»

Медицинская статистика

и информационные

технологии

М.Л. НИКОНОРОВА,

к.п.н., Первый Санкт-Петербургский государственный медицинский университет им. академика И. П. Павлова, г. Санкт-Петербург

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ МЕДИЦИНСКИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ КЕЙСОВОЙ ТЕХНОЛОГИИ

УДК 002.55; 024

Никонорова М.Л. Интеллектуальный анализ медицинских данных с использованием кейсовой технологии

(Первый Санкт-Петербургский государственный медицинский университет им. академика И. П. Павлова, г. Санкт-Петербург)

Аннотация. Данная работа посвящена проблеме эффективности применения информационных технологий в повседневной практической деятельности врача. Возникают реальные ситуации, когда принятие решения требует больших временных затрат. В этих случаях всегда на помощь приходят компьютерные технологии, автоматизированная обработка данных. В статье описана модель принятия решения, позволяющая реализовать конкретную ситуацию. Приведен алгоритм решения и перечислены основные операторы прикладного программного обеспечения RapidMiner. Приведен пример методического кейса, используемого на практических занятиях по медицинской информатике.

Ключевые слова: модель принятия решения, кейс метод, Rapid Miner. UDC 002.55; 024

Nikonorova M.L. Data mining using case technology (Pavlov First Saint Petersburg State Medical University) Abstract. The article explained that you can use efficiency of information technologies in everyday life practical doctor. There are real situations where the decision may be time consuming. In these cases, always come to the aid of computer technology, automated data processing. The article describes the decision-making model, which allows to implement the specific situation, An algorithm for solving the problem are the main operators and application software Rapid Miner. An example case study methodology used in practical classes in medical Informatics. Keywords: Data Mining, case study, Rapid Miner

T

Вводная часть и новизна. В соответствии со стратегией развития медицинской науки в Российской Федерации на период до 2025 года [5], эффективная реализация поставленной задачи невозможна без внедрения в медицину современных компьютерных технологий обработки и анализа результатов научных исследований. Известно, что новые автоматизированные системы позволяют оценивать медико-биологические показатели обследования пациентов, интеллектуальные информационные системы диагностируют заболевания и создают алгоритм лечения, который в дальнейшем оказывает положительное лечебное воздействие. Совершенствование медицинских и информационных технологий позволяет повысить эффективность лечебно-диагностических процессов. Правила, описывающие сочетания различных симптомов заболеваний, положены в основу современных эксперт© М.Л. Никонорова, 2016 г.

ных систем. Технологии Data Mining («обнаружение знаний в базах данных» (knowledge discovery in databases) или «интеллектуальный анализ данных») [3] позволяют обнаруживать в медицинских данных шаблоны, составляющие основу указанных правил. Согласно этому, уровни знаний, извлекаемых из данных, могут быть поверхностными (язык простых запросов), неглубокими (оперативная аналитическая обработка) и скрытыми (Data Mining, discovery driven data mining), отображающими взаимоотношения неочевидных и неожиданных последовательностей. Известно, что для интеллектуального анализа данных применяют систему Rapid Miner. Rapid Miner - бесплатное программное обеспечение, ориентированное на решение задач и построение модели принятия решений. Rapid Miner содержит более 400 операторов различных методов машинного обучения, включая ввод и вывод, предварительную обработку и визуализацию данных. В то же время в Стратегии 2025 рекомендовано разработать и реализовать специальные программы обучения студентов медицинских вузов технологическим методам научных биомедицинских исследований, принципам доказательной медицины, методам обработки научной информации и так далее. Эффективность образовательного процесса, в рамках реализации новых Федеральных государственных образовательных стандартов, определяется выбором и реализацией конкретных образовательных технологий. Описание реальных ситуаций, отражение логики и содержание профессиональной деятельности отражено в методе кейсов (англ. case method, case-study, способ конкретных ситуаций). Основной принцип метода кейсов заключается в инициировании самостоятельного изучения ситуации студентами, формировании их собственного видения проблем и их решения, выработке умения дискутировать и обсуждать ситуацию со своими коллегами, преподавателями [2]. Информационные тех-

201 6, № 1

нологии позволяют эффективно реализовать педагогическую технологию case-studies, так как обеспечивают множественность выбора источников информации, средств реализации и представления, возможность быстрой оценки качества каждого решения [1].

Данные о методике исследования.

Действия в кейсе предложены в качестве метода разрешения проблемы. Тогда выработка модели практического действия становится достаточно продуктивным средством освоения профессиональных компетенций студентов [6].

В качестве кейса рассмотрим следующую задачу:

В единую базу данных вносились результаты анализов пациентов, обратившихся в клинику. В конце года администрация клиники приняла решение о дополнительных льготах по обслуживанию пациентов с нарушением дыхания в следующем году. Как оказалось, всех пациентов, обратившихся в клинику, можно разделить на 4 группы: 1 группа пациентов специализировалась на развитии реберного дыхания, 2 группа развивала «полное дыхание йогов», 3 группа пациентов имеет патологию дыхания и оставшиеся - нормальное дыхание. При анализе биомедицинской информации оказалось, что часть базы данных повреждена, оставшуюся информацию удалось сохранить в формате табличного редактора MS Excel. Для выполнения решения администрации клиники и предоставления дополнительных льгот необходимо восстановить утерянные данные и выделить пациентов с нарушением дыхания.

Опишем алгоритм решения задач методом кейса:

1. Выработка модели практического действия у студентов. Определение роли и назначения кейса. Источником кейса будет служить реальная ситуация из жизни практикующего врача. Студент в этом случае выступает в роли врача.

>

технологии

>2. Разработка информационной модели. Рассматривая представленную задачу, приходим к выводу, что решением является установка принадлежности объекта той или иной группе. В качестве примера считаем, что описанная задача относится к задачам классификации и теперь необходимо выявить этот тип закономерностей с помощью Data Mining, то есть установить принадлежность события или объекта той или иной группе. При составлении информационной модели мы описываем основные классификаторы, входящие в состав Rapid Miner: дерево решений с отсечениями, дерево решений без отсечений, дерево решений с функциями информативности Information gain, gain ratio; нейронная сеть с одним уровнем; нейронная сеть с двумя уровнями; метод k-ближайших соседей для k=1,2,3. Результаты формализации сводим в таблицу.

3. Разработка (формирование) алгоритмической модели. Алгоритмическая модель строится из последовательности операторов ввода информации, классификаторов, обработки и вывода информации. Статистическую информацию для последующего анализа формирует оператор X—Validation, состоящий из двух процессов - обучения и тестирования. В левой панели оператора формируется процесс обучения: поступают данные для обучения и на выходе получаем обученную модель. В качестве оператора обучения используем основные классификаторы. Отметим, что в правой панели всегда два оператора Apply Model и Perfomance. На вход Apply Model поступают данные обученной модели и набор данных для последующей классификации. Сообразно с этим, на выходе Apply Model мы имеем набор данных с прогнозным значением, которые поступают на вход оператора Perfomance. В результате выполнения всего алгоритма на выходе мы получаем визуализированные данные и оценку эффективности (Perfomance), позволяющую проанализировать внутреннюю структуру данных, распознавательную и пред-

статистика

сказательную способность, точность построения модели принятия решений.

4. Обработка, представление и анализ отобранной информации. На этом этапе проходит рассмотрение моделей различных решений с помощью классификаторов, изучение альтернативных вариантов. Классификаторы осуществляют вывод предсказываемой переменной на основе комбинации других аспектов (переменных-предсказателей). Результаты обработки, представления и анализа оформляем в виде таблицы.

5. Выработка решения. Защита кейса. Оцениваются различные варианты решения проблемы реальной ситуации и выбирается оптимальное решение. Защита кейса проходит в виде обсуждения или дискуссии. Преподаватель оценивает принятое решение.

Экспериментальная часть. Построим модель принятия решения для описанного кейса в прикладной программе Rapid Miner, которая состоит из следующих этапов:

1. Загрузка исходных данных. Прежде всего создаем репозиторий, в котором открываем две папки: Data - для загрузки исходных данных и Proc - для сохранения алгоритма принятия решения. Данные импортируются и сохраняются в репозитории из программы Excel. При импорте данных необходимо определить тип и роль каждой переменной, для этого можно воспользоваться автоматическим распознаванием данных, представленных в RapidMiner или описать атрибуты самостоятельно. Согласно этому выделяют численные атрибуты (целые или вещественные значения переменных); номинальные атрибуты (состояния объекта) и «целевые» атрибуты, для которых необходимо сделать прогноз. «Целевые атрибуты» могут быть как численными, так и номинальными, они определяют роль данных. Загружаемые данные сохраняем в папке Data.

2. Построение алгоритмической модели осуществляется с помощью операторов,

входящих в следующие группы операторов Rapid Miner: Repository Access (Retrieve); Data Transformation (Nominal to Binominal, Nominal to Numerical, Replace Missing Values, Normalize); Modeling (k-NN, Decision Tree, Neural Net, Apple Model).

Дерево решений (Decision Tree) относится к символьным (не числовым) алгоритмам. Преимущество символьных алгоритмов отмечается в относительной простоте интерпретации человеком правил принятия решений; хорошо приспособлены для графического отображения, на основе которого легко сделать выводы.

Алгоритм К-ближайщих соседей (k—NN) формирует решение на основании значимых ближайших соседей, число которых легко изменяется, часто применяется для сравнения результатов «фактического» обучения и тестируемого.

Нейронная сеть (Neural Net) представляет собой простейший линейный классификатор, в котором для всех ошибочных данных вектор весовых коэффициентов уменьшается или увеличивается. Нейронная сеть является математической моделью, но напоминает функциональную структуру биологических нейронных сетей. В нейронной сети прямого распространения соединения между блоками не образуют ориентированный цикл, информация движется только в одном направлении, вперед от входных узлов через скрытые узлы к выходным узлам. Отметим, что нейронная сеть после анализа позволяет прогнозировать значение переменных.

Параметры построения классификаторов Дерева решений с отсечениями, без отсечений, с различными функциями информативности; Нейронной сети с одним уровнем, с двумя уровнями: k-ближайщих соседей меняются на появляющейся панели Parametеrs при выделенном операторе.

Графическая модель (Apply Model) визуализирует графическую модель прогнозирования. Все необходимые параметры сохраняются в пределах модели объекта. Так, на этапе

201 6, № 1

процесса обучения создаётся и обучается модель, которая в дальнейшем используется в процессе тестирования. Процесс обучения максимально оптимизирует модель непосредственно для данных, которые участвуют в тестировании. При тестировании обученной модели на некотором независимом наборе данных в основном точность построения модели может отличаться в зависимости от обучающей и тестирующей выборки. Поэтому обучающая выборка должна быть тщательно подобрана или презентативна. В исследованном примере разница составила не более 5%.

Оценка эффективности (Perfomance) позволяет провести анализ внутренней структуры данных, вывести распознавательную и предсказательную способность, определить точность построения модели принятия решений.

3. Построение графической модели для определения принципов принятия решения. На рабочее окно перемещаем операторы Retrieve и X—Validation из базы операторов Rapid Miner. Выход оператора загрузки данных соединяем со входом X—Validation. В операторе X—Validation используется два выхода для получения выходных данных: получение статистической таблицы и получение визуализированного классификатора. Оператор X—Validation позволяет сформировать панели процессов обучения и тестирования. На панели обучения выбранный классификатор обычно имеет один вход и один выход. Панель тестирования включает в себя оператор Apple Model, на вход которого поступает 2 сигнала, выход у оператора один. Он проверяется порядок, тип и вид данных, а также прогнозные значения. Оператор Perfomance имеет один вход и один выход, позволяет автоматически определить тип задачи обучения и вычисляет общие критерии. После установки всех связей между операторами считаем, что графическая модель построена. Осталось только выделить классификатор и установить информативную функцию.

>

ПН

Медицинская статистика

и информационные

технологии

4. Анализ таблицы результатов.

В соответствии с таблицей определяем точность и погрешность построения модели принятия решения, распознавательную и предсказательную способность модели по каждому классификатору. Результаты формализации сводим в таблицу.

5. Описание выбранной модели принятия решения, наиболее точно отражающей внутреннюю структуру данных, ее распознавательную и предсказательную способность.

Считаем, что не поврежденные данные являются тренировочными. Их можно использовать для обучения или тестирования модели принятия решения. При восстановлении поврежденных данных используется тестовый набор. При этом добавляются на рабочее поле операторы Retrive(2) и Apple Model, выходы X-Validation и Retrive(2) поступают на вход Apple Model, а его выход выдает результат восстановленных данных, при этом отмечается уменьшение точности построения модели принятия решения на 5-8%.

Выводы и рекомендации. Предложенный кейс позволяет студентам найти решение и решить поставленную задачу. Кейс-метод требует подготовленности студентов, наличия навыков самостоятельной работы, неподготовленность может приводить к поверхностному обсуждению кейса или к неправильному принятию решения. Преподаватель обсуждает кейс со студентами, поддерживает деловой настрой, оказывает помощь в загрузке данных и технических проблемах, возникающих при реализации выбранного алгоритма построения модели принятия решения. По результатам принятия решения организует дискуссию или обсуждение, оценивает вклад студентов в анализ кейса. При этом учитываются соб-

ственные выводы студентов на основании информации о кейсе, аналитические методы обработки информации, подготовленные документы в соответствии с ранее сделанными выводами.

Кейс-метод позволяет решать задачи по формированию и развитию информационно-технологической компетенции представления информации, созданию информационной модели, освоению возможностей прикладного пакета Rapid Miner, построению алгоритмических моделей в среде Rapid Miner. Наряду с этим следует отметить формирование исследовательских компетенций студентов, таких как: умение планировать свое исследование; оценить актуальность, доступность, репрезентативность полученной информации; сохранить результаты [4]. В процессе решения кейса идет формирование личностных качеств студентов, позволяющих реализовать воспитательную функцию.

Однако, опираясь на мировой опыт, можно утверждать [2], что этот метод способствует формированию таких качеств будущего специалиста, в которых нуждается рыночная экономика. Например, умение вырабатывать и принимать модель конкретных действий, способность к поиску новых знаний, способность вырабатывать модели решения проблем, умение аргументировать и отстаивать свою точку зрения и т.д. Овладение и усовершенствование компетенций в области компьютерных технологий позволит не только увеличить эффективность практической деятельности врача, но и принять участие в научной деятельности. Возможности прикладного пакета Rapid Miner позволяют применять основные методы интеллектуального анализа данных для анализа и поддержки принятия решений в повседневной практике врача.

201 6, № 1

ЛИТЕРАТУРА

1. Баранова Е.В., Симонова И.В. Развитие информационно-технологической компетентности студента в системе педагогического образования [Электронный ресурс] / Известия РГПУ им. А. И. Герцена, СПб, 2004. № 4 (9). - Доступ с сайта Библиотека РГПУ им. А. И. Герцена. С. 158-168.

2. Власова Н.В. Современные образовательные технологии в контексте новых федеральных государственных образовательных стандартов [Текст] / Н.В. Власова // Теория и практика образования в современном мире: материалы междунар. науч. конф. (г. Санкт-Петербург, февраль 2012 г.). - СПб.: Реноме, 2012. С. 278-280.

3. В. Дюк. Data Mining - интеллектуальный анализ данных. Режим доступа: http://www. iteam.ru/publications/it/section_92/article_1448/ Дата обращения: 28.05.2015.

4. Никонорова М.Л. Информационные технологии на практических занятиях будущих врачей. Электронное обучение в ВУЗе и в школе / Материалы сетевой международной научно-практической конференции. - СПб.: Астерион, 2014. Стр. 208-209.

5. Стратегия развития медицинской науки в Российской Федерации на период до 2025 года. Режим доступа: http://goo.gl/BYUhNl Дата обращения: 01.06.2015

6. Царапкина Ю.М. Использование кейс-технологий при обучении студентов. Образовательные технологии. Образование и наука. 2015. № 3 (122). Стр. 120-128.

ИТ-новости

-i-

ПУЛЬСОКСИМЕТР КАК ТОНОМЕТР

Возможно, для контроля давления скоро не придется надевать на руку неприятно давящую манжету - в компании МосаСаге заявили о разработке компактного устройства, которое способно определить целый ряд характеристик сердечно-сосудистой системы, просто отсканировав ваш большой палец.

Гаджет, получивший название МосаНеаг^ оснащен электродом и видеодатчиком, с помощью которых он определяет скорость кровотока, а по ней - частоту сердечных сокращений, уровень кислорода крови и давление.

Правда, точные показатели систолического и диастолического давления он не выдаст - только оценку по пятибалльной шкале: «низкое», «идеальное», «повышенное», «высокое» и «очень высокое». Чтобы пройти тест, достаточно нажать пальцем на MocaHeart на несколько секунд. Устройство сопровождается мобильным приложением, которое отображает результаты, обнаруживает тенденции на основе долговременных наблюдений и выдает напоминания, когда приходит время снова снять показания. При проведении процедуры, как утверждают в компании, принимаются во внимание местонахождение пользователя и погодные условия.

Заряда батареи MocaHeart хватает на три дня работы. В США устройство предлагается за 150 долл. В создании устройства, по словам представителей MocaCare, принимали участие ученые из Стэнфорда и МТИ.

Источник: OSP.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.