ПРОБЛЕМЫ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ МЕДИЦИНСКИХ
ВЫПИСОК
Дудченко П.В. Email: [email protected]
Дудченко Полина Викторовна - аспирант, инженерная школа информационных технологий и робототехники Национальный исследовательский Томский политехнический университет, г. Томск
Аннотация: данные из медицинских выписок могут быть полезны при Case Based подходах, статистическом анализе и поиске скрытых закономерностей. Однако использование медицинских текстов для автоматизированной обработки невозможно без предварительного извлечения и структурирования информации. В статье рассматриваются основные проблемы при извлечении данных из медицинских выписок пациентов с сердечно-сосудистыми заболеваниями. Выделяется три типа данных для извлечения: персональные данные, диагнозы, количственные характеристики диагнозов. Предлагается алгоритм решения каждой задачи. Ключевые слова: извлечение данных, медицинские выписки.
PROBLEMS OF EXTRACTING INFORMATION FROM MEDICAL
RECORDS Dudchenko P.V.
Dudchenko Polina Viktorovna - PhD Student, SCHOOL OF COMPUTER SCIENCE AND ROBOTICS, NATIONAL RESEARCH TOMSKPOLYTECHNIK UNIVERSITY, TOMSK
Abstract: data from medical records can be useful in case based methods, statistical analysis and for searching for hidden patterns. However, the use of medical texts for automated processing is not possible without the initial extraction and structuring of information. The article discusses the main problems in extracting data from medical records of patients with cardiovascular diseases. Three types of data are identified for extraction: personal data, diagnoses, quantitative characteristics of diagnoses. An algorithm for solving each problem is proposed. Keywords: information extraction, medical records.
УДК 004.891.3
Данные медицинских записей могут быть полезны при Case Based подходах, статистическом анализе и поиске скрытых закономерностей [1], [2]. Отдельным пунктом возможного использования структурированных медицинских данных является формирование dataset-ов для целей машинного обучения.
Один из крупных источников медицинских данных это медицинские записи. Такие записи содержат персональные данные пациентов, результаты медицинских исследований, анамнез, диагноз основного заболевания, сопутствующие заболевания, назначенное лечение, состояние и диагноз после лечения, исходы(результат) лечения пациентов [3]. Каждый пациент обратившийся в медицинское учреждение тем самым инициировал создание медицинских записей в отношении себя. Таким образом, количество накопленных данных содержащихся в медицинских записях указанного формата можно отнести к категории big data [1], [4].
Данные, содержащиеся в слабоструктурированных медицинских записях на естественном языке недоступны для анализа без предварительной обработки, то есть необходимо извлечь и структурировать релевантную информацию. Методы, позволяющие работать с текстами на естественном языке, относят к области NLP.
1. Описание задачи
Перед нами стояла задача «чтения» выписок пациентов с целью сбора определенной медицинской информации. Электронные истории болезней внедрены еще не во всех учреждениях здравоохранения. Данные о прохождении лечения пациента заносятся в специальный документ «выписку из истории болезни». Выписка из истории болезни - это документ, сформированный врачом на естественном языке и содержащий следующие разделы: Основной, Результаты исследований, Лечение, Рекомендации.
Накопленные за десятилетия выписки содержат информацию, которая может быть востребована в 3 направлениях: Формирование датасетов по кардиозаболеваниям; анализ в рамках медицинской науки; перенос данных о предыдущих обращениях пациентов в новые электронные истории болезней в процессе информатизации медицинского учреждения.
Для решения нашей задачи она была разбита на три подзадачи:
1) Извлечение персональных данных пациента (ФИО, д.р. сроки госпитализации номер выписки);
2) Извлечение диагнозов (качественная характеристика) по трем группам: основной, сопутствующий, фоновый;
3) Извлечение количественных характеристик диагнозов.
Результаты
2.1. Извлечения персональных данных
Необходимо распознавать информационные единицы, такие как имена, включая имена лиц, организации и местоположения, а также числовые выражения, включая выражения времени, даты, денег и процентов. Термин «Именованная сущность», теперь широко используемый в обработке естественного языка, был придуман для the Sixth Message Understanding Conference [5]. Основная задача - классифицировать каждое слово в документе в некоторые предопределенные категории. Обычно алгоритм выполняет анализ информации, выявляя токены, которые отвечают на важные вопросы, такие как «кто», «где» и «когда».
Именованные объекты часто представляют собой не просто сингулярные слова, а фрагменты текста. В нашей задаче названные сущности: 1) имена пациентов, которые состоят, как правило, из трех слов; 2) адрес пациента, который может содержать несколько слов в названиях улиц. Алгоритм Витерби, алгоритмы поиска луча и декодирование слева направо были использованы в качестве алгоритмов квантования в литературе [6]-[7].
Таким образом задача извлечения персональных данных пациента может быть решена с учетом особенностей выписок, выявленных в результате их анализа. Такой подход позволяет сократить сложность разрабатываемой программы и требуемые вычислительные мощности в сравнении с методами, основанными на сложных математических моделях.
2.2. Извлечение диагнозов.
Задача два формулируется как Извлечение качественных характеристик диагноза. В результате этого этапа работы программы должен быть сформирован список диагнозов из раздела выписки Основное заболевание.
Для извлечения качественных характеристик используется следующая схема:
1. Формирование полного списка возможных характеристик основного диагноза.
2. Выделение «Претендентов» в разделе выписки Основной Диагноз. (Разделение текста на претендентов по синтаксическим признакам (знакам препинания)).
3. Сопоставление претендентов с Эталонным Списком.
4. (При совпадении претендента с одной из позиций в эталонном списке) Признание претендента и внесение в список характеристик основного диагноза пациента.
5. (При несовпадении) Запрос пользователю на внесение претендента в эталонный список как новую позицию, установка соответствия с одной из существующих характеристик в эталонном списке, отказ от рассмотрения.
2.3. Извлечение количественных характеристик диагнозов.
Численные характеристики диагнозов можно разделить на две категории. В первом случае численная характеристика отвечает за степень заболевания в соответствии с
37
общепринятой классификацией. Например, I-IV степень гипертонической болезни. Для обработки таких записей мы внесли каждую степень заболевания в эталонную таблицу диагнозов как отдельную позицию. Такой подход оправдывается тем, что для каждого заболевания встречается не более четырех степеней, а количество таких диагнозов в нашей задаче составляет всего 5.
Вторая категория численных характеристик диагнозов, которые встречаются в обрабатываемых выписках это степень атеросклероза различных сосудов, выраженная в процентах. Именно эта задача решается в данном разделе Task 3.
После извлечения двух диагнозов (Task 2) в разделе основные заболевания программа обращается к специальной таблице базы данных, содержащей сведения о возможных количественных характеристиках диагнозов. Если для первого полученного диагноза, согласно таблице, возможно указание количественных характеристик, то выполняется функция извлечения соответствующих характеристик. Поиск числа со знаком % производится в подстроке, начиная с позиции последнего символа первого диагноза и заканчивая позицией первого символа второго диагноза. Данная функция так же выполняется для последнего извлеченного диагноза при достижении конца раздела Основной диагноз. Если числовых значений встречается несколько, то записывается большее. При принятии медицинских решений наиболее важное значение имеет именно большее значение непроходимости. 2. Вывод
Предложенное решение задач позволяет извлекать данные из слабоструктурированных медицинских выписок. Предусмотрено ручное введение данных, которые не были извлечены программой. Создание и внедрение такой системы позволит создать электронную базу, упростит отслеживание динамики развития болезней отдельных пациентов, сделает накопленные медицинские данные доступными для статистических исследований.
Список литературы /References
1. Raghupathi W. and Raghupathi V. "Big data analytics in healthcare: promise and potential.," Heal. Inf. Sci. Syst. Vol. 2. P. 3, 2014.
2. Hian Chye Koh and Gerald Tan. "Data Mining Applications in Healthcare," J. Healthc. Inf. Manag., Vol. 19. № 2, 2011.
3. Kudyba Stephan P. Healthcare Informatics: Improving Efficiency and Productivity. Stephan P. Kudyba - Google Books, 2010.
4. Ward J.S. and Barker А. "Undefined By Data: A Survey of Big Data Definitions," Sep., 2013.
5. Grishman R. and Sundheim В. "Message Understanding Conference-6," in Proceedings of the 16th conference on Computational linguistics, 1996. Vol. 1. P. 466.
6. Zhou G. and Su J.. "Named entity recognition using an HMM-based chunk tagger," in Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. ACL'02, 2001. P. 473.
7. Finkel J.R. and Manning C.D. "Joint Parsing and Named Entity Recognition". Pp. 326-334, 2009.