Алгоритм ранжирования результатов о
медицинских исследований по уровням §
доказательности на этапе получения ответов о
на поисковые запросы |
М. В. Камалов1, В. Ю. Добрынин1, Ю. Е. Балыкина1, А. С.Колбин1 2, Е. В. Вербицкая2
1 Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
2 Первый Санкт-Петербургский государственный медицинский университет им. академика И. П. Павлова, Санкт-Петербург, Россия
Поиск оригинальных данных в базе MEDLINE позволяет найти наиболее полный ответ на поставленный клинический запрос. Однако при этом возникает проблема больших объемов материалов, которые необходимо просмотреть. Основной задачей авторов данной статьи была разработка алгоритма ранжирования результатов поиска медицинских исследований по уровням доказательности. Разработанная поисковая система основана на комбинации классификаторов, определяющих уровень доказательности аннотации и подтип медицинского вмешательства. В качестве основных алгоритмов классификации были рассмотрены линейные классификаторы, а также AdaBoost c Random Forest и SVM с RBF ядром. Оценки качества классификации по подтипам медицинских вмешательств были получены с применением метода скользящего контроля с 5-блоками. Для решения проблемы, связанной с несбалансированностью обучающего множества, использовались генеративные вероятностные модели LDA. Разработанный алгоритм позволяет с точностью до 92% определить уровень доказательности исследования и отсортировать результаты поиска в порядке убывания оценки релевантности аннотации запросу.
КЛЮЧЕВЫЕ СЛОВА: доказательная медицина, алгоритм, MEDLINE, информационный поиск.
Библиографическое описание: Камалов М. В., Добрынин В. Ю., Балыкина Ю. Е., Колбин А. С., Вербицкая Е. В. Алгоритм ранжирования результатов медицинских исследований по уровням доказательности на этапе получения ответов на поисковые запросы. Медицинские технологии. Оценка и выбор. 2017; 3(29): 11-21.
Ranking Algorithm for Medical Research Results Based on the Levels of Evidence at the Stage of Getting Answers to Search Queries
M. V. Kamalov1, V. Yu. Dobrynin1, Yu. E. Balykina1, A. S. Kolbin1, 2, E. V. Verbitskaya2
1 Saint Petersburg State University, Saint Petersburg, Russia
2 Pavlov First Saint Petersburg State Medical University, Saint Petersburg, Russia
Original research data in MEDLINE database allows one to find the most comprehensive answer to clinical query. This entails the problem of large amounts of material that needs to be analyzed. The main study objective was to develop an algorithm for search results ranking of medical studies based on the levels of evidence. Developed search engine is based on a combination of classifiers that determine the level of evidence and subtype of medical intervention for a study abstract. As the main classification algorithms linear classifiers, as well as AdaBoost with Random Forest and SVM with RBF kernel were considered. Evaluation of the quality of classification by medical intervention subtypes was obtained using 5-folds cross validation method. Generative probabilistic LDA model was used for solving the problem of training set imbalance. The developed algorithm allows one with 92% precision to determine the study level of evidence, and to rank query results in relevance descending order.
KEYWORDS: evidence-based medicine, algorithm, MEDLINE, searching.
For citations: Kamalov M. V., Dobrynin V. Yu., Balykina Yu. E., Kolbin A. S., Verbitskaya E. V. Ranking Algorithm for Medical Research Results Based on the Levels of Evidence at the Stage of Getting Answers to Search Queries. Medical Technologies. Assessment and Choice. 2017; 3(29): 11—21.
ВВЕДЕНИЕ
В настоящее время в системе здравоохранения активно развивается научное направление, именуемое доказательной медициной [1-3]. Одно из определений до-
казательной медицины (evidence-based medicine, EBM) - это продуманное, четкое и беспристрастное использование лучших из имеющихся доказательств при принятии решений о помощи конкретному больному [4].
о ц,
о
4 о н ш
5
12
CL
О LO _ü m
х
ш
Предполагается, что доказательная медицина - это инструмент, необходимый в каждодневной практике врача и для составления клинических рекомендаций. При проведении поиска достоверных научных данных используют шкалы ранжирования исследований по уровню и убедительности доказательств. Однако процесс поиска крайне трудоемкий, зачастую носит ручной характер с потенциальным риском реализации системной ошибки. Целью данного исследования стала разработка алгоритма ранжирования результатов медицинских исследований по уровням доказательности; ранжирование проводят на этапе получения ответов на поисковые запросы для анализа и оценки найденной информации.
МЕТОДЫ
Методика настоящего исследования состояла из нескольких этапов. Во-первых, были проанализированы используемые сейчас поисковые системы и проведен обзор научной литературы. Во-вторых, была обоснована и поставлена задача. В-третьих, составлено описание применяемых алгоритмов, указаны используемые метрики качества. Проведена подготовка обучающего множества для задачи классификации. В-четвертых, указана классификация MEDLINE аннотаций по уровням доказательности. Проведена фильтрация клинических исследований. В-пятых, выполнены эксперименты с классификацией по уровням доказательности. В данной работе за основу была принята шкала уровней доказательности исследований, содержащая шесть уровней доказательности, представленных в таблице 1 [5].
Поскольку I и II уровни доказательности имеют подуровни «а» и «b», то для удобства описания все уровни переобозначили: 1 уровень заменил собой Ia; 2 уровень - Ib; 3 уровень - IIa; 4 уровень - IIb; 5 уровень - III; 6 уровень - IV.
РЕЗУЛЬТАТЫ
1. Анализ поисковых систем, работающих с базой данных исследований в области медицины
На сегодняшний день существует ряд поисковых систем, работающих с крупнейшей библиографи-
ческой базой исследований в области медицины -MEDLINE [6]. Было проведено сравнение трех наиболее известных поисковых систем: PubMed [7], TRIP [8] и MEDIE [9]. Несмотря на достоинства и удобства использования, ни одна из указанных систем не учитывает при ранжировании уровень доказательности медицинских исследований. Так, система TRIP, хотя её и разрабатывали как медицинскую поисковую систему с акцентом на ЕВМ, использует алгоритм ранжирования, учитывающий не материал статьи, а ресурс, которому принадлежит статья.
Таким образом, основываясь на том, что задача ранжирования медицинских исследований по уровням доказательности на данный момент является открытой и востребованной, было решено начать разработку поисковой системы для базы данных MEDLINE, проводящей ранжирование релевантных исследований с учетом уровня их доказательности и дополнительных критериев (например, с учетом оценки системы GRADE). При этом следует отметить, что существует целый ряд исследований, в которых были выполнены эксперименты с разработкой алгоритмов ранжирования и поиска надежных и научно строгих медицинских исследований с точки зрения ЕВМ (например, работы [10-22]).
2. Постановка задачи
Объектом анализа были документы, содержащие аннотации к статьям из базы данных MEDLINE. На первом этапе было решено начать разработку алгоритма ранжирования с классификацией медицинских исследований по уровням доказательности (см. табл. 1). Необходимо заметить, что в работе рассматривались 1, 2, 3 и 5 уровни доказательности, поскольку на практике очень редко встречаются исследования 4 и 6 уровней и обучение алгоритмов классификации и ранжирования по данным уровням становится затруднительным. Исходя из требований к РКИ, более детально были представлены исследования, обеспечивающие 2 и 3 уровни доказательности.
Список рассматриваемых медицинских исследований (далее - Список 1)
1. Рандомизированные с двойным ослеплением.
2. Рандомизированные с одинарным ослеплением.
о ^
о
X
X
ш
о
X
Таблица 1. Уровни доказательности
Уровень Тип исследования
!а Данные мета-анализов рандомизированных контролируемых клинических исследований (РКИ)
Ib Как минимум одно рандомизированное исследование.
IIa Как минимум одно хорошо выполненное контролируемое исследование без рандомизации.
IIb Как минимум одно хорошо выполненное квази-экспериментальное исследование.
III Данные из неэкспериментальных описательных исследований, таких как сравнительные или корреляционные исследования.
IV Экспертное консенсусное мнение либо клинический опыт признанного эксперта.
3. Рандомизированные открытые.
4. Нерандомизированные с двойным ослеплением.
5. Нерандомизированные с одинарным ослеплением.
6. Нерандомизированные открытые.
Таким образом, в Списке 1 детально представлены возможные комбинации РКИ с рандомизацией (с 1 по 3), соответствующие 2-му уровню доказательности, и РКИ без рандомизации (с 4 по 6), относящиеся к 3-му уровню доказательности.
В качестве дополнительного параметра при ранжировании было решено учитывать подтипы медицинского вмешательства, различающиеся по методам лечения и профилактики пациентов. Примеры подтипов медицинских вмешательств были взяты из данных ресурса clinicaltrials.gov [23]. Учет данного параметра при ранжировании был необходим, поскольку он локализует поисковые результаты относительно определенного подтипа медицинского вмешательства, указанного в запросе. Например, в случае запроса «ingavirin influenza» (ингавирин грипп) на первом месте оказывались все исследования, которые принадлежали к подтипу медицинского вмешательства «Лекарственные средства». Отметим, что результаты, полученные при классификации по подтипам медицинских вмешательств, дополнительно использовали для задачи извлечения представленных в аннотациях фактов. Решение данной задачи позволило применить автоматическое аннотирование к результатам поисковых запросов для разрабатываемой поисковой системы.
Поставленные выше задачи классификации относят к методам машинного обучения, и они требовали выполнения следующих вспомогательных подзадач:
1. Разработка метода автоматической разметки обучающего множества аннотаций по уровням доказательности и подтипам медицинских вмешательств. Основой метода послужило существование связи между документами, являющимися аннотациями к статьям базы MEDLINE, и содержимым исследований, зарегистрированных в clinicaltrials.gov. Связь представлена расположенной в документе ссылкой на ресурс clinicaltrials.gov.
2. Решение проблемы, связанной с несбалансированным обучающим множеством, путем применения статистических методов (Synthetic Minority Over-sampling Technique, SMOTE [24]) и генеративных вероятностных моделей (Latent Dirichlet Allocation, LDA [25]).
3. Обучение линейных методов мульти-классифи-кации из выбранного набора алгоритмов: Multinomial Naive Bayes; Multinomial Logistic Regression; Linear Support Vector Machines (SVM) из библиотеки sklearn [26]. Обучение ансамблей классификаторов Random Forest, Gradient Boosting Machine, AdaBoost on
Random Forest и нелинейных алгоритмов классификации SVM с полиномиальными и RBF (radial basis function) ядрами из библиотеки Weka [27] для дальнейшего проведения оценки и выбора наиболее эффективного метода.
4. Формирование поискового индекса и разработка распределенной поисковой системы.
3. Описание применяемых алгоритмов
Поскольку в данной работе выполняли классификацию текстов, то выбирали алгоритмы, способные быстро обучаться на больших объемах данных, представляемых в n-мерных пространствах (n - число признаков). Соответственно, были выбраны алгоритмы машинного обучения, позволяющие проводить обучение за линейное время с линейной памятью: SVM, Naive Bayes classifier, Logistic regression classifier, Random Forest и Adaptive Boosting (AdaBoost). Для оценки подбора гиперпараметров алгоритмов классификации применяли следующие подходы: Random Layout и скользящее среднее с n -блоками.
Дополнительно к этому для решения проблемы несбалансированных данных применялись методы, основанные на генерации повторных выборок (resampling) и тематическом моделировании: SMOTE, LDA, Latent semantic analysis (LSA) и Conditional Random Fields (CRF).
Используемые метрики качества. Для оценки качества работы классификаторов применялись следующие метрики: точность, полнота и F-мера.
Точность =
ИП
ИП + ЛП
Полнота =
_ ИП_
ИП + ЛО
F-мера = 2 *
Точность * Полнота Точность + Полнота'
где ИП - истинно положительные значения классификации, т. е. классификатор правильно отнес элемент тестовой выборки; ЛП - ложноположительные, т. е. классификатор ошибочно отнес элемент к данному классу; ЛО - ложноотрицательные элементы, т. е. классификатор ошибочно не отнес элемент к соответствующему классу. Для оценки мульти-классифи-кации алгоритмов высчитывали макро- и микро точность, полноту и F-меру [28]. Для применения алгоритмов классификации использовали представление аннотаций в форме модели «мешок слов». Для этого производили токенизацию (разбиение текста на слова для дальнейшей обработки) с удалением стоп-слов и выполнением стемминга (нахождения основы слова для заданного исходного слова) при помощи алгоритма Портера.
Подготовка обучающего множества для задачи классификации. Для решения задачи разметки
о ц,
о
4 о н ш
5
Таблица 2. Результаты разметки по уровням доказательности
Класс Число аннотаций
Рандомизированные с одинарным ослеплением 883
Рандомизированные с двойным ослеплением 2740
Рандомизированные открытые 1955
Нерандомизированные с одинарным ослеплением 20
Нерандомизированные с двойным ослеплением 12
Нерандомизированные открытые 513
Таблица 3. Результаты разметки по подтипам медицинских вмешательств
Класс Число аннотаций
Лекарственные препараты 1619
Устройства 238
Биологические препараты 242
Процедуры 300
Радиация 18
Поведенческие вмешательства (психотерапия) 585
Генетические 8
Пищевые добавки 191
Прочие 333
14
CL
О
LQ _0 ш
X
ш
о ^
о
X
X
ш
о х
корпуса аннотации на первом этапе рассматривали 90 документов 2011 г., являющихся аннотациями к статьям базы данных MEDLINE. Указанные 90 документов были размечены вручную, основываясь на поиске связи между аннотациями и ресурсом clinicaltrials.gov. Более подробное описание этапов разметки документов можно наИти в [28]. Далее было решено рассмотреть корпус из 2 млн аннотаций с 2006 по 2013 гг. и автоматизировать процесс разметки. Автоматизация была реализована при помощи скрипта на языке Python, специально разработанного для данной подзадачи. В результате автоматической разметки из исходного множества удалось разметить 6123 аннотаций по уровням доказательности и 3534 - по подтипам медицинских вмешательств (табл. 2, табл. 3).
Дополнительно удалось сформировать выборку из размеченных аннотаций по двум уровням: в классе «Обзорные исследования» - 741 аннотация, в классе «Исследования с медицинским вмешательством» -7817 аннотаций.
4. Классификация MEDLINE аннотаций по уровням доказательности
Следующим этапом после получения разметки MEDLINE аннотаций по уровням доказательности являлась разработка модуля классификации. В данной работе учитывали уровни доказательности 1, 2, 3 и 5, при этом автоматическая разметка не учитывала уро-
вень 1, поскольку все аннотации, содержащие в заголовке термин «мета-анализ», было решено помечать первым уровнем доказательности. Данное решение обусловлено тем, что проведение мета-анализа является трудоемким процессом, и авторы такого медицинского исследования всегда указывают в названии данный термин.
Фильтрация клинических исследований. Первым этапом разработки модуля классификации стало построение фильтра, отсеивающего аннотации, не являющиеся описанием клинических исследований. В связи с тем, что в сформированных выборках аннотации описывали только клинические исследования без примеров неклинических исследований, решение данной проблемы с помощью алгоритмов классификации стало невозможным. С учетом этого был построен фильтр из коллокаций (устойчивых словосочетаний) для отсеивания аннотаций, описывающих неклинические исследования.
Классификации аннотаций по уровням доказательности 2 и 3. Исходя из того, что, согласно информации из Списка 1, данные уровней 2 и 3 доказательности имеют большую точность описания, в модуль классификации включили классификатор, выполняющий мульти-классификацию аннотаций по Списку 1. Далее, на основании того, что обучающее множество (см. табл. 2) является несбалансированным и уровни в Списке 1 можно представить комбинацией двух классов (1 - рандомизированные/нерандомизирован-
Рис. 1. Декомпозиция уровней
доказательности.
ные; 2 - двойное ослепление/одинарное ослепление/ открытое), было решено выполнить декомпозицию уровней доказательности. Декомпозиция уровней доказательности (рис. 1) позволяет разбить задачу классификации аннотаций по уровням доказательности на две независимые подзадачи:
• Классификация аннотаций по рандомизации.
• Классификация аннотаций по виду ослепления.
Решение данных подзадач позволило избавиться от
сильной корреляции между уровнями доказательности.
Предложенный подход декомпозиции классов позволил улучшить результат классификации путем выбора техники балансировки обучающего множества и алгоритма классификации для каждой подзадачи в отдельности с последующим слиянием результатов. Основываясь на исследованиях [29, 30], для решения проблемы несбалансированных данных в мульти-классовой классификации были выбраны для сравнения два алгоритма: метод опорных векторов - SVM (от англ. support vector machine) на ядрах с радиальными базисными функциями (RBF, от англ. radial basis functions) и AdaBoost в сочетании с алгоритмом «случайный лес» (Random Forest) из библиотеки Weka. По данным экспериментов, лучший результат при балансировке обучающего множества синтетическими аннотациями для подзадачи 1 показал SVM на RBF ядрах с гиперпараметрами:
-S 0 -K 2 -D 3 -G 0.0 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.001 -P 0.1.
Также и при решении 2-й подзадачи лучший результат обеспечивали балансировка обучающего множества синтетическими аннотациями и применение алгоритма AdaBoost в сочетании с RandomForest с гиперпараметрами: -I 100 -K 0 -S 1.
Модуль ранжирования по уровням доказательности. На следующем этапе необходимо было разработать модуль ранжирования. Данный модуль реализует алгоритм ранжирования аннотаций по уровням доказательности и подтипу медицинского вмешательства, выполняя следующие шаги:
1. Аннотации, полученные посредством булева поиска, собирают в матрицу размера m х n, где m - подтипы медицинских вмешательств, n - уровни доказательности.
2. Внутри каждого элемента матрицы применяется функция tf-idf для вычисления оценки релевантности аннотации запросу [28].
3. Внутри каждого элемента матрицы выполняют ранжирование аннотаций по убыванию оценки релевантности, полученной на 2-м шаге.
Приведем пример работы алгоритма ранжирования. Допустим, в результате поиска по запросу «breast cáncer» (рак молочной железы) мы получили данные, приведенные в таблице 4.
Таблица 4. Результат поиска по запросу «breast cancer» (рак молочной железы)
Кол-во аннотаций Подтип вмешательства Уровень доказательности
5 Лекарственный препарат Рандомизированное открытое
7 Генетические Нерандомизированные с двойным ослеплением
2 Процедуры Мета-анализ
о ц,
о ч о
I-
ш
s
Запрос к бета-версии: docetaxel
1. Epirubicin-based compared with: docetaxel-based chemotherapy for advanced gastric carcinoma: A systematic review and meta-analysis, (Clinical trial: Meta-analysis) LEVEL: IA
2. Docetaxel versus docetaxel plus cjspJatin for non-small-cell lung cancer: a meta-analysis of randomized clinical trials. (Clinical trial: Meta-analysis) LEVEL: IA
3. MicroRNA-i8ia promotes docetaxel resistance i (Clinical trial: Randomized, Double Blind) LEVEL: IA
n prostate cancer cells.
Рис. 2. Результаты поискового запроса с ранжированием.
16
В результате получим матрицу размера 8 х 8, в которой будут заполнены только три элемента, а именно: элемент со строкой «Лекарственный препарат» и столбцом «Рандомизированное открытое», элемент со строкой «Генетические» и столбцом «Нерандомизированные с двойным ослеплением» и элемент со строкой «Процедуры» и столбцом «Мета-анализ». Далее, внутри каждого элемента вычислим оценку релевантности аннотаций запросу и ранжируем аннотации в каждом элементе матрицы по убыванию подсчитанных оценок релевантности. Данный алгоритм ранжирования позволит пользователю просмотреть результаты поиска в интересующем его элементе матрицы. Пример результатов вывода поискового запроса приведен на рисунке 2.
5. Эксперименты с классификацией по уровням доказательности
Была проведена сравнительная оценка работы используемых алгоритмов: AdaBoost в сочетании с
Random Forest сравнивали с SVM на RBF ядрах без выполнения декомпозиции уровней доказательности. В качестве вектора признаков для аннотаций использовали вектор слов из словаря, составленного по всему корпусу аннотаций. Гиперпараметры на несбалансированном обучающем множестве подбирали при помощи метода Random Layout [31] и скользящего контроля с 5 блоками [32]. Оценки качества классификации (табл. 5, табл. 6) по подтипам медицинского вмешательства были получены с применением метода скользящего контроля с 5 блоками.
В результате можно заметить, что из-за малого числа аннотаций в классах «Нерандомизированные с одинарным ослеплением», «Нерандомизированные с двойным ослеплением» распознать аннотации оказалось невозможно. В связи с этим было решено применить декомпозицию уровней доказательности. При этом дополнительно был использован метод генерации синтетических аннотаций для балансировки
Таблица 5. Результаты плоской классификации SVM на RBF ядрах
Класс Точность Полнота F-мера
Рандомизированные с одинарным ослеплением 0,7062 0,6830 0,6946
Рандомизированные с двойным ослеплением 0,7521 0,8333 0,8112
Рандомизированные открытые 0,5342 0,7925 0,6382
Нерандомизированные с одинарным ослеплением 0 0 0
Нерандомизированные с двойным ослеплением 0 0 0
Нерандомизированные открытые 0,8821 0,1416 0,2502
CL
О
LO -О
m
х
ш
О ^
О X
X
ш
о
X
m ш
Таблица 6. Результаты плоской классификации AdaBoost в сочетании с Random Forest
Класс Точность Полнота F-мера
Рандомизированные с одинарным ослеплением 0,8752 0,8020 0,8370
Рандомизированные с двойным ослеплением 0,6931 0,8774 0,7744
Рандомизированные открытые 0,5364 0,6863 0,6025
Нерандомизированные с одинарным ослеплением 0 0 0
Нерандомизированные с двойным ослеплением 0 0 0
Нерандомизированные открытые 0,8517 0,1172 0,5773
Класс Число аннотаций
Нерандомизированные 2553
Рандомизированные 4533
С одинарным ослеплением 25
С двойным ослеплением 102
Открытые 83
обучающих множеств. Поскольку производили декомпозицию классов, то помимо генерации синтетических аннотаций обучающее множество дополнили вспомогательным. Для формирования вспомогательного множества повторно использовали алгоритм для разметки аннотаций, внеся в него дополнительную модификацию, позволяющую размечать аннотации, при индексировании которых на сайте clinicaltrials.gov и Isrctn.com указана информация либо только о рандомизации, либо только об ослеплении. В результате было сформировано вспомогательное обучающее множество (табл. 7), дополнительно используемое при балансировке.
Для оценки качества классификации аннотаций на рандомизированные и нерандомизированные (задача 1) сравнивали алгоритмы AdaBoost c Random Forest и SVM с RBF ядром. Гиперпараметры подбирали при помощи метода Random Layout и скользящего контроля с 5 блоками. Соответствующие оценки качества классификации аннотаций (рис. 3) были получены с применением метода скользящего контроля с 5 блоками.
Из приведенных данных видно, что лучший результат классификации дает применение нелинейной разделяющей поверхности в алгоритме SVM.
Аналогичным образом оценивали качество классификации аннотаций по видам ослеплений (задача 2): сравнивали результаты применения алгоритмов AdaBoost c Random Forest и SVM с RBF ядром; гиперпараметры подбирали при помощи метода Random Layout и скользящего контроля с 5 блоками. Соответствующие оценки качества классификации аннотаций (рис. 4) были получены с применением метода скользящего контроля с 5 блоками.
Результаты эксперимента показывают, что нелинейная разделяющая поверхность SVM плохо разделяла данные классы, поскольку SVM изначально не является мульти-классовым классификатором, и в данной задаче используется в модификации One-vs-Rest. В свою очередь, алгоритм AdaBoost в сочетании с Random Forest показывал лучший результат, поскольку выполняет задачу мульти-классификации без дополнительных модификаций. Гиперпараметры AdaBoost в сочетании с Random Forest: -I 200 -K 2 -S 5. При слия-
Рис. 3. Результаты классификации на рандромизированные и нерандомизированные при использовании AdaBoost в сочетании с RandomForest и SVM с RBF ядром.
о ц,
о
4 о н ш
5
Рис. 4. Результаты классификации аннотаций по видам ослеплений.
Таблица 8. Результаты классификации при декомпозиции уровней доказательности
Класс Точность Полнота F-мера
Рандомизированные с двойным ослеплением 0,9264 0,7505 0,8232
Рандомизированные с одинарным ослеплением 0,8634 0,7211 0,7858
Рандомизированные открытые 0,9122 0,8264 0,8671
Нерандомизированные с одинарным ослеплением 0,9234 0,7513 0,8335
Нерандомизированные с двойным ослеплением 0,8732 0,7531 0,8617
Нерандомизированные открытые 0,8935 0,7216 0,7984
18
CL
О
L0 _ü m
х
ш
О ^
О X
X
ш
о
X
нии лучших результатов классификации для задач 1 и 2 были получены следующие оценки качества классификации по уровням доказательности (табл. 8):
Можно заметить, что декомпозиция уровней доказательности действительно улучшает качество классификации аннотаций за счет выполнения балансировки обучающих множеств и выбора лучшего алгоритма классификации для каждой подзадачи отдельно.
ОБСУЖДЕНИЕ ДАННЫХ
Главнейший принцип доказательной медицины заключается в том, что каждое клиническое решение должно опираться на строго доказанные научные факты. Процесс, описываемый доказательной медициной, включает несколько этапов, начиная с формулировки клинического вопроса, поиска данных и критической оценки полученных результатов, и заканчивая внедрением в практику и оценкой эффекта. При этом на этапе поиска данных используется дока-
зательная база, содержащаяся в том числе в статьях крупнейшей базы MEDLINE. Поиск оригинальных данных в базе MEDLINE позволяет найти наиболее полный ответ на поставленный клинический запрос. Однако при этом возникает проблема больших объемов материалов, которые необходимо просмотреть. Был проведен анализ используемых на сегодняшний день поисковых систем. Сравнение трех наиболее известных поисковых систем, использующих базу MEDLINE - PubMed, TRIP и MEDIE, выявило, что несмотря на их несомненные достоинства, ни одна из них при выводе результатов поискового запроса не учитывает уровень доказательности медицинских исследований, описываемых в статьях. Таким образом, основной задачей настоящей работы стала разработка алгоритма ранжирования результатов поиска медицинских исследований по уровням доказательности. Для достижения цели были сформулированы необходимые подзадачи и описаны алгоритмы ранжирования исследований; проведена
подготовка обучающего множества с последующей классификацией MEDLINE аннотаций по уровням доказательности и фильтрацией клинических исследований. Автоматизация разметки обучающего множества была реализована на языке Python. В результате из исходного множества удалось разметить 6123 аннотаций по уровням доказательности и 3534 - по подтипам медицинских вмешательств. Для решения проблемы, связанной с несбалансированностью обучающего множества, использовались генеративные вероятностные модели LDA. Помимо плоской классификации в соответствии со Списком 1, был предложен и вариант, учитывающий предварительную декомпозицию уровней доказательности. Такая декомпозиция позволила разбить задачу классификации аннотаций по уровням доказательности на две независимые подзадачи: классификацию аннотаций по типу рандомизации и классификацию аннотаций по виду ослепления. Было проведено сравнение качества работы алгоритмов AdaBoost, использованного в сочетании c Random Forest, и SVM с RBF ядром; сравнение проводилось без выполнения декомпозиции уровней доказательности. Оценки качества классификации по подтипам медицинских вмешательств были получены с применением метода скользящего контроля с 5 блоками. Предложенный подход декомпозиции классов позволил получить лучший результат классификации, выбирая технику балансировки обучающего множества и алгоритм классификации для каждой подзадачи в отдельности с последующим слиянием результатов. Так, например, для класса исследований «Рандомизированные с двойным ослеплением» показатели точности, полноты и F-меры, определявшиеся до декомпозиции уровней доказательности, составили 0,7521, 0,8333 и 0,7913, соответственно. После декомпозиции уровней доказательности точность увеличилась до 0,9264, полнота составила 0,7505, а F-мера выросла до 0,8232.
Ограничения исследования
В рамках данного исследования в обучающей выборке не учитывались отдельно РКИ с тройным ослеплением. Такого рода исследования планируется добавить в будущих версиях разрабатываемой системы.
ВЫВОДЫ
1. Разработанная поисковая система основана на комбинации классификаторов, определяющих уровень доказательности аннотации и подтип медицинского вмешательства.
2. Характеристики исследований, полученные от классификаторов, позволяют представлять результаты поиска в матричной форме. При этом в строке, соответствующей определенному подтипу медицин-
ского вмешательства, и в столбце, соответствующем уровню доказательности, размещают аннотации, отсортированные в порядке убывания релевантности аннотации запросу. Оценка релевантности найденной аннотации запросу вычисляется при помощи функции tf-idf.
В дальнейшем планируется улучшить качество извлечения представленных в аннотациях фактов, повысить качество работы модулей фильтрации и классификации, а также включить в алгоритм ранжирования критерии оценок GRADE.
ЛИТЕРАТУРА
1. Guyatt G., et al. Evidence-based medicine: a new approach to teaching the practice of medicine. JAMA. 1992; 268(17): 2420-2425.
2. Власов В. В. Доказательная медицина как способ решения проблем. Медицинская кафедра. 2003; № 3: 40-41.
3. Плавинский С. Л. Почему мы начинаем говорить о научно-доказательной медицине? Российский семейный врач. 2004: № 3: 59-65.
4. Sackett D. L., et al. Evidence based medicine: what it is and what it isn't. BMJ (Clinical research ed.). 1996; 312(7023): 71-72.
5. Burns P. B., Rohrich R .J., Chung K. C. The Levels of Evidence and their role in Evidence-Based Medicine. Plastic and Reconstructive Surgery. 2011; 128(1): 305-310.
6. URL: http://www.nlm.nih.gov/.
7. URL: http://www.ncbi.nlm.nih.gov/pubmed/.
8. Fyfe T. Turning Research Into Practice (TRIP). Journal of the Medical Library Association. 2007; 95(2): 215.
9. URL: http://www.nactem.ac.uk/tsujii/medie/.
10. Choi S., Ryu B., Yoo S., et al. Combining relevancy and methodological quality into a single ranking for evidence-based medicine. Information Sciences: an International Journal. 2012; 214: 76-90.
11. Robertson S. E., Walker S. Okapi/keenbow at trec-8. Proceedings the Eighth Retrieval Conference (TREC-8). 1999; 151. pp.
12. Kilicoglu H., et al. Towards automatic recognition of scientifically rigorous clinical research evidence. Journal of the American Medical Informatics Association. 2009; 16(1): 25-31.
13. Veningston K., Shanmugalakshmi R. Information retrieval by document re-ranking using term Association Graph. In: Proceedings of the 2014 International Conference on Interdisciplinary Advances in Applied Computing, New York, USA. 2014; Article № 21.
14. Cohen A. M., et al. Evidence-based medicine, the essential role of systematic reviews, and the need for automated text mining tools. In: Proceedings of the 1st ACM International Health Informatics Symposium. 2010: 376-380.
15. Khan K. S., Kunz R., Kleijnen J., et al. Fivesteps to conducting a systematic review. Journal of the Royal Society of Medicine. 2003; 96(3): 118-121.
16. Davis-Desmond P., Molla D. Detection of evidence in clinical research papers. In: Proceedings of the V Australasian Workshop on Health Informatics and Knowledge Management (HIKM'12). 2012: 13-20.
17. McKibbon K., Wilczynski N., Haynes R., et al. Retrieving randomized controlled trials from MEDLINE: a comparison of 38 published search filters. Health Information and Libraries Journal. 2009; 26(3): 187-202.
18. Yoo I., Hu X. A comprehensive comparison study of document clustering for a biomedical digital library MEDLINE. In: Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries, New York, USA. 2006: 220-229.
19. Dobrynin V., Balykina Y., Kamalov M. Analysis of standard clustering algorithms for grouping MEDLINE abstracts into evidence-based medicine intervention categories. In: Proceedings of International Conference «Stability and Control Processes» in Memory of V.I. Zubov (SCP). 2015: 555-557.
о ц,
о ч о
I-
ш
s
20
CL
О
LQ _D
m
х
ш
О ^
О X
X
ш
о
X
m ш
20. Dobrynin V, Patterson D., Galushka M., et al. SOPHIA: An interactive cluster based retrieval system for the OHSUMED collection. IEEE Translations on Information Technology for Biomedicine. 2005; 9(2): 256-265.
21. Yoo I., Hu X., Song I.-Y. Integration of semantic-based bipartite graph representation and mutual refinement strategy for biomedical literature clustering. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA. 2006; 791-796.
22. Demner-Fushman D., Lin J. Answer extraction, semantic clustering, and extractive summarization for clinical question answering. In: Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, Stroudsburg, USA. 2006: 841-848.
23. URL: https://clinicaltrials.gov/.
24. Chawla N.V., Bowyer K. W., Hall L. O., et al. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research. 2002; 16: 341-378.
25. Blei D.M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation. Journal of Machine Learning Research. 2003; 3(4-5): 993-1022.
26. URL: http://scikit-learn.org.
27. URL: http://www.cs.waikato.ac.nz/~ml/weka/.
28. Dobrynin V., Balykina J., Kamalov M., et al. The data retrieval optimization from the perspective of evidence-based medicine. In: Proceedings of the Federated Conference on Computer Science and Information Systems (FedCSIS). 2015: 323-328.
29. He H., Ma Y. Imbalanced Learning: Foundations, Algorithms, and Applications. Wiley Publishing. 2013; 216 p.
30. Rodriguez J., Diez-Pastor J., Garcia-Osorio C. Ensembles of decision trees for imbalanced data. In: Proceedings of the 10th International Conference on Multiple Classifier Systems (MCS'11). 2011: 76-85.
31. Bergstra, J. and Bengio, Y., Random search for hyper-parameter optimization. The Journal of Machine Learning Research. 2012; 13(1): 281-305.
32. Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. In: Proceedings of the 14th International Joint Conference on Artificial Intelligence. 1995: 1137-1143.
REFERENCES
1. Guyatt G., et al. Evidence-based medicine: a new approach to teaching the practice of medicine. JAMA. 1992; 268(17): 2420-2425.
2. Vlasov V. V. Dokazatelnaya meditsina kak sposob resheniya problem. Meditsinskaya kafedra. 2003; № 3: 40-41.
3. Plavinskiy S. L. Pochemu myi nachinaem govorit o nauchno-do-kazatelnoy meditsine? Rossiyskiy semeynyiy vrach. 2004; № 3: 59-65.
4. Sackett D. L., et al. Evidence based medicine: what it is and what it isn't. BMJ (Clinical research ed.). 1996; 312(7023): 71-72.
5. Burns P. B., Rohrich R .J., Chung K. C. The Levels of Evidence and their role in Evidence-Based Medicine. Plastic and Reconstructive Surgery. 2011; 128(1): 305-310.
6. URL: http://www.nlm.nih.gov/.
7. URL: http://www.ncbi.nlm.nih.gov/pubmed/.
8. Fyfe T. Turning Research Into Practice (TRIP). Journal of the Medical Library Association. 2007; 95(2): 215.
9. URL: http://www.nactem.ac.uk/tsujii/medie/.
10. Choi S., Ryu B., Yoo S., et al. Combining relevancy and methodological quality into a single ranking for evidence-based medicine. Information Sciences: an International Journal. 2012; 214: 76-90.
11. Robertson S. E., Walker S. Okapi/keenbow at trec-8. Proceedings the Eighth Retrieval Conference (TREC-8). 1999; 151. pp.
12. Kilicoglu H., et al. Towards automatic recognition of scientifically rigorous clinical research evidence. Journal of the American Medical Informatics Association. 2009; 16(1): 25-31.
13. Veningston K., Shanmugalakshmi R. Information retrieval by document re-ranking using term Association Graph. In: Proceedings of the 2014 International Conference on Interdisciplinary Advances in Applied Computing, New York, USA. 2014; Article № 21.
14. Cohen A. M., et al. Evidence-based medicine, the essential role of systematic reviews, and the need for automated text mining tools. In: Proceedings of the 1st ACM International Health Informatics Symposium. 2010: 376-380.
15. Khan K. S., Kunz R., Kleijnen J., et al. Fivesteps to conducting a systematic review. Journal of the Royal Society of Medicine. 2003; 96(3): 118-121.
16. Davis-Desmond P., Molla D. Detection of evidence in clinical research papers. In: Proceedings of the V Australasian Workshop on Health Informatics and Knowledge Management (HIKM'12). 2012: 13-20.
17. McKibbon K., Wilczynski N., Haynes R., et al. Retrieving randomized controlled trials from MEDLINE: a comparison of 38 published search filters. Health Information and Libraries Journal. 2009; 26(3): 187-202.
18. Yoo I., Hu X. A comprehensive comparison study of document clustering for a biomedical digital library MEDLINE. In: Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries, New York, USA. 2006: 220-229.
19. Dobrynin V., Balykina Y., Kamalov M. Analysis of standard clustering algorithms for grouping MEDLINE abstracts into evidence-based medicine intervention categories. In: Proceedings of International Conference «Stability and Control Processes» in Memory of V.I. Zubov (SCP). 2015: 555-557.
20. Dobrynin V., Patterson D., Galushka M., et al. SOPHIA: An interactive cluster based retrieval system for the OHSUMED collection. IEEE Translations on Information Technology for Biomedicine. 2005; 9(2): 256-265.
21. Yoo I., Hu X., Song I.-Y. Integration of semantic-based bipartite graph representation and mutual refinement strategy for biomedical literature clustering. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA. 2006; 791-796.
22. Demner-Fushman D., Lin J. Answer extraction, semantic clustering, and extractive summarization for clinical question answering. In: Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, Stroudsburg, USA. 2006: 841-848.
23. URL: https://clinicaltrials.gov/.
24. Chawla N.V., Bowyer K. W., Hall L. O., et al. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research. 2002; 16: 341-378.
25. Blei D.M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation. Journal of Machine Learning Research. 2003; 3(4-5): 993-1022.
26. URL: http://scikit-learn.org.
27. URL: http://www.cs.waikato.ac.nz/~ml/weka/.
28. Dobrynin V., Balykina J., Kamalov M., et al. The data retrieval optimization from the perspective of evidence-based medicine. In: Proceedings of the Federated Conference on Computer Science and Information Systems (FedCSIS). 2015: 323-328.
29. He H., Ma Y. Imbalanced Learning: Foundations, Algorithms, and Applications. Wiley Publishing. 2013; 216 p.
30. Rodriguez J., Diez-Pastor J., Garcia-Osorio C. Ensembles of decision trees for imbalanced data. In: Proceedings of the 10th International Conference on Multiple Classifier Systems (MCS'11). 2011: 76-85.
31. Bergstra, J. and Bengio, Y., Random search for hyper-parameter optimization. The Journal of Machine Learning Research. 2012; 13(1): 281-305.
32. Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. In: Proceedings of the 14th International Joint Conference on Artificial Intelligence. 1995: 1137-1143.
Сведения об авторах:
Камалов Михаил Валерьевич
аспирант, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия
Добрынин Владимир Юрьевич
доцент кафедры технологии программирования СПбГУ, канд. физ.-мат. наук
Балыкина Юлия Ефимовна
доцент кафедры математического моделирования энергетических систем СПбГУ, канд. физ.-мат. наук
Колбин Алексей Сергеевич
зав. кафедрой клинической фармакологии и доказательной медицины, ПСПбГМУ им. акад. И. П. Павлова, д-р мед. наук, профессор
Вербицкая Елена Владимировна,
доцент кафедры доклинических и клинических исследований лекарственных средств, ПСПбГМУ им. акад. И. П. Павлова, канд. биол. наук
Адреса для переписки
Университетский пр., 35 (СПбГУ, ф-т ПМ-ПУ, для Балыкиной Ю. Ф.),
Санкт-Петербург 198504, Россия
E-mail: [email protected]
E-mail: [email protected]
E-mail: [email protected]
E-mail: [email protected]
E-mail: [email protected]
Authors:
Kamalov Mikhail Valeryevich
Postgraduate Student at SaintPetersburg State University, Saint Petersburg, Russia
Dobrynin Vladimir Yuryevich
Associate Professor of the Programming Technology Department of St. Petersburg State University, PhD
Balykina Yulia Efimovna
Associate Professor of the Department of Mathematical Modeling of Power Systems of St. Petersburg State University, PhD
Kolbin Alexei Sergeevich
Head Department of Clinical Pharmacology and Evidence-Based Medicine, Pavlov First St. Petersburg State Medical University, Doctor of Medical Sciences, Professor
Verbitskaya Elena Vladimirovna
Associate Professor of Preclinical and Clinical Studies of Drugs, Pavlov First St. Petersburg State Medical University, PhD
Addresses for correspondence:
University Ave, 35 (St. Petersburg State University, faculty of PM-PU,
for Balykina Yu. F.), St. Petersburg 198504, Russian Federation
E-mail: [email protected]
E-mail: [email protected]
E-mail: [email protected]
E-mail: [email protected]
E-mail: [email protected]
О Ц,
о d о н ш
5
21