УДК 615.03
МОДЕЛЬ АНАЛИЗА ФАРМАКОЭПИДЕМИОЛОГИЧЕСКИХ ДАННЫХ НА ОСНОВЕ МЕТОДОВ DATA MINING
Бурыкин И.М., Алеева Г.Н., Хафизьянова Р.Х.
ФГБОУ ВО Казанский государственный медицинский университет, г. Казань, Российская Федерация
Аннотация. Фармакотерапия одна из затратных статей расходов современного здравоохранения. Повышение рациональности и эффективности использования лекарственных препаратов была определена ВОЗ приоритетным направлением государственной политики. Настоящее исследование посвящено разработке модели анализа фармакоэпидемиологических данных на основе выбора эффективных инструментов анализа данных программных средств и языков программирования (excel, vba.net, Statistica, Python). Используя разработанные программы нами проведен фармакоэпидемиологических анализ данных назначения лекарственных препаратов больным, имеющим право на льготное лекарственное обеспечение. На основе разработанных критериев и инструментов была оценена эффективность и рациональность фармакотерапии. Было выявлено, что структура назначения лекарственных препаратов отличается от структуры заболеваемости и смертности. Приоритетность использования в реальной клинической практике лекарственных препаратов отличается от их доказанной эффективности. Разработанная модель анализа данных позволяет эффективно оценивать рациональность и качество фармакотерапии. Полученные фармакоэпи-демиологические данные свидетельствуют о значимости разработки проектов повышения рациональности и качества фармакотерапии. Ключевые слова: фармакоэпидемиология, рациональность фармакотерапии, data mining,
Введение. За последние несколько десятков лет в системе здравоохранения произошли значительные изменения. В таких направлениях, как диагностика и лечение заболеваний, изменения коснулись как качественной, так и количественной стороны. Расширение арсенала и точности диагностических методов исследования позволило сократить сроки выявления заболеваний. Однако, увеличение числа проводимых медицинских тестов существенно усложняет работу медицинских работников, в связи с необходимостью интерпретации значительных объемов связанной информации. По мнению ряда исследователей в современной медицине возникли условия "избыточности информации", а принятие рациональных и правильных решений в различных областях здравоохранения стало комплексным и сложным [1; 2].
Методология поиска закономерностей, основанная на извлечении выборки из генеральной совокупности и проверке статистических гипотез, была главенствующей на протяжении почти всего XX века [3; 4]. Рост объемов собираемой информации длительное время сдерживался отсталостью технических и аппаратных средств анализа и хранения данных. К началу 90-х годов прошлого века за счет широкого внедрения новых носителей информации (оптические диски, флэш память) эта проблема была решена. В новых условиях на первое место вышел вопрос методологии анализа и извлечения закономерностей из массивов имеющейся информации, которые могли бы быть полезными в области медицины.
Общепринято проводить фармакоэкономические и фармакоэпидемиологические исследования на основе выборочного метода. Исследователь формирует гипотезу и на основе критериев включения и исключения формирует выборку пациентов для изучения. Результаты анализа экстраполируются на генеральную совокупность - население региона или страны. Подобный подход позволяет получить достоверные данные и ответить на вопросы рациональности и качества фармакотерапии. Однако, этот метод не лишен недостатков. Выборка пациентов не застрахована от вероятности ошибки смещения, связанной с субъективными факторами отбора. Даже качественная процедура рандомизации не гарантирует от появления систематических ошибок [5]. Многими авторами методология выборочных клинических исследований критикуется в связи с использованием очень жестких критериев отбора. Обсуждается, что результаты, получаемые на такой «рафинированной» выборке пациентов, не могут быть перенесены на генеральную совокупность [6; 7]. Высокая стоимость связана с трудоемкостью сбора и анализа данных [8]. Несмотря на это подобные подходы используются и в настоящее время при проведении фар-макоэпидемиологических и фармакоэкономических исследований.
Широкое внедрение 1Т технологий в последние годы позволило собирать значительные объемы информации. Значительный вклад в это внесли медицинские базы данных [9]. Это привело к улучшению про-
—--—
Журнал включен в Перечень рецензируемых научных изданий ВАК
цессов хранения, интегрирования результатов из различных источников, систематизации и объединению в единое целое разрозненных фактов в области здравоохранения. Однако, прямой анализ этой информации имеет ряд трудностей, связанных с большим объемом анализа, не структурированностью данных, разрозненностью по нескольким источникам. Анализ доступной литературы не выявил исследований, посвященных анализу многомерной и структурированной информации из баз данных для получения фармакоэкономиче-ских и фармакоэпидемиологических оценок. Общепринятый анализ рынка, проводимый аналитическими агентствами, на основе показателей объемов продаж и динамики средней стоимости упаковок лекарственных препаратов имеет в большей степени маркетинговую ценность и не позволяет получить клинически значимой информации [10].
Настоящее исследование посвящено разработке эффективной модели анализа данных для оценки фарма-коэпидемиологических и фармакоэкономических данных.
Материалы и методы. Исходные данные были представлены информацией об отпуске ЛП для льготной категории граждан. Для решения поставленных задач была сформирована база данных по отпущенным льготным лекарственным препаратам для больных трёх районов Республики Татарстан. Для изучения были выбраны данные по отпуску лекарственных препаратов за 2013-2015 годы. Для анализа данных была сформирована единая база данных содержащая 530919 записей об отпуске ЛП. Для анализа данных и извлечения сводной информации были написаны программы с использованием языка Python 3.6. Всего нами было разработано более двадцати компьютерных программ.
Первичные данные содержали информацию об отпуске ЛП в виде записей текстовых строк. Для преобразования в структурированные данные пригодные для анализа проводилась предобработка исходной информации на основе ETL (Extract, Transform, Load) подхода. Первичные данные в виде текста были очищены
от лишней информации, извлечено название ЛП, проведена кодификация ЛП (АТХ код), проведен расчет суммарной выписанной дозы в мг и число выписанных DDD доз. ETL компонент был реализован на основе программ на языке Python 3.6. Отдельные элементы обрабатывались с использованием программ на VB.net. На выходе был получен файл в формате EXCEL пригодный для последующей аналитической обработки.
Дальнейший этап изучения и анализа агрегированных оценок фармакоэкономических и фармакоэпиде-миологических показателей проводили с использованием OLAP системы. С помощью нее из данных получали «срезы» - агрегированные показатели (средняя арифметическая, дисперсия) в различных измерениях [3]. Подходы к использованию OLAP системы для анализа данных были описаны нами ранее [11]. Были использованы две OLAP-системы: надстройка PowerPivot для MSoffice Excel (Microsoft) и SPSS Statistics ver. 22 (IBM).
Фармакоэпидемиологические методы были основаны на DDD методологии [12]. Рассчитывались количество отпущенных DDD доз, объем потребления на одного жителя района или пациента, страдающего артериальной гипертензией или стенокардией напряжения. Фармакоэкономические оценки проводили только на основании прямых затрат на фармакотерапию. Иные затраты полагали эквивалентными и в расчётах не использовали.
Создание методологии расчета фармакоэконо-мических и фармакоэпидемиологических показателей. Для обработки больших и не структурированных данных на первом этапе была разработана методология анализа данных. Исходно, рассмотрены различные языки программирования для анализа данных и проведена их сравнительная эффективность по критериям гибкости разработки, пригодности для анализа данных, возможности расчета статистических оценок (таб. 1).
Таблица 1
Сравнение различных языков программирования для анализа фармакоэпидемиологических и фармакоэкономических данных.
Язык программирования Достоинства Недостатки Ссылки
R Развитый аппарат для получения статистических оценок Слабые средства трансформации данных [13]
SAS Развитый аппарат для получения статистических оценок Высокая стоимость реализации [14]
VBA.net Интеграция с MS Excel Низкая производительность [15]
Python 3.6. Мощные инструменты трансформации данных, эффективная интеграция различных источников данных Низкая производительность www.python.org
На основании результатов оценки было выявлено, что R и SAS хотя и являются мощными средствами статистического анализа практически не позволяют проводить оценку комплексных моделей процессов оказания медицинской помощи. Кроме того, средствами языков сложно проводить первичную трансформацию фармакоэпидемиологических данных. VB.NET простой язык программирования позволяет проводить трансформацию и анализ первичных данных, однако не содержит развитых средств построения моделей и их оценки. Данный язык наиболее оптимален для первичной обработки первичных данных и их трансформации. VBA диалект данного языка, встроенный в пакет MS Office является весьма полезным в связи с возможностью быстрой трансформации и обработки данных.
Использование языка Python 3.6 оказалось наиболее рациональным. Развитые средства обработки данных (кортежи, списки, массивы) позволили эффективно обрабатывать сложные информационные конструкции. Программы на этом языке позволили эффективно обрабатывать первичные данные. Наличие подключаемых пакетов позволили использовать мощные средства статистического анализа, а также подключаться к различным источникам данных. На основе вышеизложенного нами был использован данный язык как основной инструмент анализа данных настоящего исследования.
Для оценки сложных моделей на основе анализа и расчета сводных данных была использована OLAP (OnLine Analytical Processing, интерактивная аналитическая обработка) [16]. Анализ данных проводился с
использованием надстройки Power Pivot являющуюся дополнением MS Excel. Данная система позволяет с использованием компьютера обрабатывать базы данных до 10 миллионов записей в режиме реального времени. Соответственно это позволило нам проверять гипотезы и проводить оценки в режиме реального времени. От использования коммерческих продуктов мы отказались в виду их высокой стоимости. С использованием OLAP системы проведен расчет сводных данных. Предварительные модели, полученные с использованием OLAP инструментов, оценивались с позиции полезности и достоверности.
Ряд моделей, связанных с временными показателями, например, периоды между посещениями невозможно построить с использованием стандартных инструментов. Для реализации подобных моделей использовалась методология Process mining - инструмента оценки и анализа процессных явлений. Построение процессных моделей проводили с использованием программ на языке Python 3.6. Результаты программы позволяли оценить такие показатели как приверженность к лечению и поддержание терапии.
На основании вышеизложенного нами впервые предложена методология анализа фармакоэпидемиологических баз данных (рис. 1). На первом этапе с использованием языка Python и VBA проводилась очистка и трансформация данных, восполнение пробелов информации. На втором этапе строились модели и оценивалась их полезность. Визуализация данных проводилась с использованием Excel 12.0 и Statistica 12.0.
Рис. 1. Схема построения методологии анализа информации баз данных для получения фармакоэкономиче-
ских и фармакоэпидемиологических параметров.
Важным элементом анализа являлось использование принципа Парето, который входит в арсенал инструментов управления качеством. Этот метод основан на ранжировании вариационного ряда по величине и выделения групп, определяющих 80%, 95% и 99% совокупности. Например, можно определить группу пациентов, которые потребляют 80% всех финансовых ресурсов. В настоящем исследовании за границу стратификации мы использовали величину эквивалентную 80% совокупности от общего объема затрат или потребления DDD доз.
Результаты и их обсуждение. Ранее нами было выявлено, что качество оформления льготных рецептов существенно отличается от оформления рецептов
Число участников программы ДЛО (чел.) и об]
трех районов РТ
для других категорий граждан. Рецепты выписываются строго на бланках, указывается четкое название лекарственного препарата на основе международного непатентованного наименования. Это определяется существенно более строгими требованиями законодательства по отношению к оформлению льготных рецептов и контролем со стороны надзорных органов, включая Росздравнадзор.
Для изучения процесса формирования затрат на лекарственные препараты по программе ДЛО и оценке структуры затраты на первом этапе исследования с использованием OLAP системы мы оценили число пациентов, получавших ЛП и общий объем финансовых затрат по программе в разрезе исследуемых районов за период с 2013 по 2015 годы.
Таблица 2
щие затраты (руб.) на их фармакотерапию в разрезе за 2013-2015 годы.
№ Районы Участники, чел. Финансовые затраты, руб.
2013 г. 2014 г. 2015 г. 2013 г. 2014 г. 2015 г.
1 №1 6571 6615 7117 48 155 243,44 61 169 371,53 59 962 322,53
2 №2 1274 1211 1207 7 726 142,60 7 704 686,41 7 411 827,31
3 №3 4612 4421 4749 30 772 132,20 30 706 171,14 33 361 616,35
Общий итог 12457 12247 13073 86 653 518,24 99 580 229,08 100 735 766,19
Согласно результатам анализа данных таблицы 2, за исследуемый период финансовые затраты на фармакотерапию выросли на 16,2% (с 86,6 до 100,7 миллионов). Отмечался рост числа пациентов, получающих лекарства по программе ДЛО на 4,9% за три года. Общее число выписок лекарственных препаратов по трем районам за исследуемый период выросло с 166926 ед. (2013 год) до 184082 ед. (2015 год). Это позволяет ска-
зать, что в программе ДЛО наблюдается незначительный, но устойчивый рост как пациентов, так и затрат на их лечение.
Для понимания структуры затраты и оценки ее взаимосвязи со структурой смертности населения Республики Татарстан проведен анализ затрат на лекарственные препараты по классам заболеваний МКБ-10 (таб. 3).
Таблица 3
Структура финансовых затрат на лекарственные препараты по различным классам заболеваний МКБ-10.
Код МКБ-10 Название классов Район №1 Район №2 Район №3
A B Некоторые инфекционные и паразитарные болезни 1,9% 2,8% 1,2%
C D Новообразования. Болезни крови, кроветворных органов и отдельные нарушения, вовлекающие иммунный механизм 11,7% 6,7% 12,8%
E Болезни эндокринной системы, расстройства питания и нарушения обмена веществ 30,6% 28,5% 29,5%
F Психические расстройства и расстройства поведения 3,6% 3,4% 3,6%
G Болезни нервной системы 4,3% 6,8% 5,2%
H Болезни глаза и его придаточного аппарата. Болезни уха и сосцевидного отростка 0,3% 1,2% 0,8%
I Болезни системы кровообращения 5,4% 14,2% 8,5%
J Болезни органов дыхания 9,0% 11,7% 13,0%
K Болезни органов пищеварения 4,8% 6,8% 4,6%
L Болезни кожи и подкожной клетчатки 0,1% 0,2% 0,1%
M Болезни костно-мышечной системы и соединительной ткани 7,5% 10,7% 8,5%
N Болезни мочеполовой системы 14,8% 6,7% 10,2%
O Беременность, роды и послеродовой период 0 0 0
P Отдельные состояния, возникающие в перинатальном периоде 0 0 0
Q Врожденные аномалии [пороки развития], деформации и хромосомные нарушения 0 0 0,1%
R Симптомы, признаки и отклонения от нормы, выявленные при клинических и лабораторных исследованиях, не классифицированные в других рубриках 0,1% 0 0,9%
S T Травмы, отравления и некоторые другие последствия воздействия внешних причин 0 0 0,2%
Z Факторы, влияющие на состояние здоровья и обращения в учреждения здравоохранения 5,8% 0,3% 0,6%
Общепринято мнение, что расходы здравоохранения должны соответствовать приоритетным направлениям, связанными с наибольшими медико-социальными потерями общества. Соответственно, структура расходов должны в определенной мере соответствовать структуре заболеваемости и смертности. Согласно полученным результатам в структуре затрат от 28,5% до 30,6% затрат приходится на заболевания класса Е «Болезни эндокринной системы, расстройства питания и нарушения обмена веществ». На втором и третьем местах по затратам на лекарственные препараты является класс N «Болезни мочеполовой системы» и С, D «Новообразования. Болезни крови, кро-
ветворных органов и отдельные нарушения, вовлекающие иммунный механизм». Затраты на лечение сердечно-сосудистых заболеваний находятся лишь на четвертом месте и составляют от 5,4% до 14,2%. Сопоставление со структурой смертности дает прямо противоположные результаты. Сердечно-сосудистые заболевания находятся на первом месте, а онкологические заболевания и травмы находятся на втором и третьем местах.
Для понимания приоритетности направлений повышения качества и рациональности фармакотерапии сердечно-сосудистых заболеваний была проанализирована структура затрат в классе «I» «Болезни системы кровообращения» (таб. 4).
Таблица 4
Результаты анализа структуры затрат на лекарственные препараты для лечения заболеваний класса I «Болезни системы кровообращения» *.
Ранг Код МКБ-10 Наименование группы заболеваний по МКБ-10 Район №1 Район №2 Район №3 Общий итог
1 I11 Гипертензивная болезнь сердца [гипертоническая болезнь с преимущественным поражением сердца] 44,5% 48,6% 41,0% 43,7%
2 I67 Другие цереброваскулярные болезни 18,8% 30,6% 18,7% 20,6%
3 I20 Стенокардия 14,6% 12,3% 9,8% 12,4%
4 I25 Хроническая ишемическая болезнь сердца 11,6% 0,2% 7,7% 8,3%
5 I83 Варикозное расширение вен нижних конечностей 5,3% 5,2% 4,4% 4,9%
6 I69 Последствия цереброваскулярных болезней 1,3% 0,1% 8,6% 4,0%
7 I27 Другие формы легочно-сердечной недостаточности 0,2% 0 4,4% 1,8%
8 I70 Атеросклероз 0,5% 0,4% 1,9% 1,1%
9 I21 Острый инфаркт миокарда 1,3% 0,4% 0,2% 0,7%
10 I49 Другие нарушения сердечного ритма 0,3% 0,2% 1,1% 0,6%
11 I80 Флебит и тромбофлебит 0,3% 0,1% 0,7% 0,4%
12 I48 Фибрилляция и трепетание предсердий 0 0,9% 0,2% 0,2%
13 I73 Другие болезни периферических сосудов 0 0,5% 0,2% 0,2%
14 I63 Инфаркт мозга 0,1% 0,2% 0,1% 0,1%
15 I87 Другие поражения вен 0,1% 0 0,2% 0,1%
16 I13 Гипертензивная [гипертоническая] болезнь с преимущественным поражением сердца и почек 0 0 0,2% 0,1%
17 I42 Кардиомиопатия 0,2% 0 0 0,1%
18 I77 Другие поражения артерий и артериол 0 0 0,2% 0,1%
* - Данные проранжированы в порядке снижения затрат.
тоже время, высокие затраты в группе 167 «Другие це-реброваскулярные болезни», по нашему мнению, требуют дополнительного анализа, так как данные состояния не являются предикторами смертности и не влияют на нее. Атеросклероз является ведущим патогенетическим фактором при сердечно-сосудистых заболеваниях. По данным настоящего исследования затраты, ассоциированные с этим заболеванием, составляют от 0,4% до 1,9%, занимая восьмое место в ранжированном ряду.
Для выявления насколько рационально назначение с позиции нозологий, мы провели оценку назначений и оценили группу ЛП, с которой ассоциированы 80% затрат по классу I в разрезе их международных непатентованных наименований (таб. 5).
Таблица 5
Фармакоэкономические детерминанты затрат на лекарственные препараты, использованные для лечения заболеваний класса I «Болезни системы кровообращения» *
Ранг Международное непатентованное наименование годы Общий Анализ
2013 2014 2015 итог Парето
1 Церебролизин 13,2% 15,1% 11,0% 12,99% 80%
2 Периндоприл 13,4% 11,1% 14,3% 12,92%
3 Периндоприл+Индапамид 10,6% 10,3% 6,8% 9,03%
4 №карбамоилметил-4-фенил-2-пирролидон 3,4% 5,3% 3,7% 4,20%
5 Изосорбида динитрат 4,4% 3,3% 2,4% 3,26%
6 Лозартан+Гидрохлоротиазид 3,2% 3,4% 1,8% 2,72%
7 Диосмин+Гесперидин 1,9% 3,4% 2,3% 2,61%
8 Изосорбида мононитрат 3,2% 1,8% 2,6% 2,46%
9 Диосмин 2,2% 1,9% 2,6% 2,28%
10 Триметазидин 2,6% 2,8% 1,4% 2,22%
11 Клопидогрел 1,3% 1,9% 3,0% 2,16%
12 Ацетилсалициловая кислота 1,9% 1,7% 2,1% 1,90%
13 Нифедипин 2,4% 1,8% 1,5% 1,81%
14 Лозартан 1,7% 1,7% 1,8% 1,72%
15 Бозентан 0 0 4,4% 1,71%
16 Хинаприл 1,4% 2,0% 1,7% 1,71%
17 Розувастатин 1,1% 1,1% 2,4% 1,62%
18 Дипиридамол 2,0% 1,9% 1,1% 1,62%
19 Фелодипин 1,2% 1,9% 0,8% 1,29%
20 Этилметилгидроксипиридина сукцинат 1,0% 1,3% 1,5% 1,28%
21 Нитроглицерин 1,2% 1,3% 1,2% 1,23%
22 Винпоцетин 1,2% 1,1% 1,2% 1,16%
23 Ботулинический токсин типа А-гемагглютинин комплекс 0 0,4% 2,4% 1,07%
24 Каптоприл + Гидрохлоротиазид 1,3% 1,1% 0,8% 1,05%
25 Пирацетам 1,1% 1,0% 1,0% 1,01%
26 Небиволол 1,1% 1,3% 0,4% 0,87%
27 Моксонидин 0,3% 0,7% 1,3% 0,84%
28 Бисопролол 1,0% 0,6% 0,9% 0,81%
29 Лизиноприл 0,8% 0,7% 1,0% 0,80% 20%
30 Эпоэтин альфа 1,6% 1,1% 0,1% 0,80%
* - Данные проранжированы, приведены первые 30 наименований
Как видно из таблицы 4, 85% всех затрат ассоциированы с четырьмя нозологиями: 111 «Гипертензивная болезнь сердца [гипертоническая болезнь с преимущественным поражением сердца]», (43,7%) I67 «Другие цереброваскулярные болезни» (20,6%), I20 «Стенокардия» (12,4%), I25 «Хроническая ишемическая болезнь сердца» (8,3%). По нашему мнению, подобная структура свидетельствует о нерациональности существующих приоритетов среди врачей при назначении ЛП. Артериальная гипертензия и ишемическая болезнь являются основными предикторами ранней смертности и высокие затраты в данной группе могут быть интерпретированы с позиции необходимости коррекции нарушений организма и профилактики осложнений. В
Как видно из данных таблицы 5, структура затрат и приоритеты назначения лекарственных препаратов существенно отличаются. Эти данные не взаимосвязаны со структурой смертности и заболеваемости в Республике Татарстан. Общепринято, что в приоритете назначения должны быть те лекарственные препараты, которые оказывают максимальное влияние на снижение смертности и заболеваемости, улучшению качества жизни. С позиции доказательной медицины, для АГ доказанным является назначение пяти классов гипотензивных ЛП, тогда как для ИБС на продолжительность жизни влияют липидоснижающие препараты, ингибиторы РАС [17; 18]. Как видно из таблицы 5, в структуру затрат при сердечно-сосудистых заболеваниях входят ЛП, не оказывающие влияние на прогноз заболеваний. Церебролизин, находясь на первом месте по затратам - один из лекарственных препаратов эффективность которого в многоцентровых исследованиях не оценивалась. Доля затрат на этот препарат снизилась на 2,2% и достигла 11,0%. ^карбамоилметил-4-фенил-2-пирролидон (Фенотропил), винпоцетин, пи-рацетам используются для коррекции нарушения памяти, являются вспомогательными препаратами и не влияют на ожидаемую продолжительность жизни пациентов с ССЗ. Этилметилгидроксипиридина сукцинат
препарат метаболического типа действия также не оценивался в рандомизированных исследованиях.
Доказано, что назначение липидоснижающих препаратов является основным направлением снижения сердечно-сосудистой смертности, ассоциированной с атеросклерозом. Это нашло отражение в существующих клинических рекомендациях и руководствах [17]. В настоящем исследовании выявлено, что доля затрат на аторвастатин за исследуемый период увеличилось с 0,4% до 1,1%, затраты на розувастатин увеличилась с 1,1% до 2,4%. Это примерно в 10 раз ниже затрат на церебролизин. По нашему мнению, необходимо пересмотреть приоритеты назначения ЛП для повышения их рациональности использования.
Другим критерием, позволяющим оценить закономерности использования лекарственных препаратов, является величина потребления, которая оценивает число принятых пациентами DDD доз. Это общепринятая оценка, определяющая сколько DDD доз было назначено в среднем на одного человека в популяции. Мы модифицировали такой подход и оценили структуру количества DDD доз всех ЛП назначенных для терапии ССЗ. Результаты анализа структуры потребления представлены в таблице 6.
Таблица 6
Фармакоэпидемиологические детерминанты структуры потребления лекарственных
препаратов в числе DDD доз.
Ранг Международное непатентованное наименова- годы Общий Анализ Па-
2013 2014 2015
1 Ацетилсалициловая кислота 12,85% 13,58% 15,10% 13,91% 80%
2 Эналаприл 8,74% 6,60% 6,68% 7,23%
3 Амлодипин 8,27% 7,73% 7,50% 7,80%
4 Триметазидин 8,01% 8,82% 4,00% 6,87%
5 Периндоприл 7,05% 6,92% 10,14% 8,10%
6 Лизиноприл 3,49% 4,23% 5,24% 4,38%
7 Изосорбида мононитрат 3,46% 2,02% 2,74% 2,68%
8 Рамиприл 3,37% 3,23% 1,94% 2,81%
9 Лозартан + Гидрохлоротиазид 2,90% 3,11% 1,96% 2,64%
10 Бисопролол 2,86% 2,47% 3,51% 2,95%
11 Лозартан 2,81% 3,32% 4,71% 3,67%
12 Винпоцетин 2,70% 2,88% 2,95% 2,85%
13 Индапамид 2,46% 2,51% 2,65% 2,55%
14 Нифедипин 2,43% 2,29% 1,95% 2,21%
15 Периндоприл + Индапамид 2,41% 2,66% 2,08% 2,38%
16 Изосорбида динитрат 2,09% 1,77% 1,23% 1,66%
17 Нитроглицерин 2,00% 2,37% 2,04% 2,15%
18 Клопидогрел 1,80% 1,84% 2,10% 1,92%
19 Гидрохлоротиазид+Эналаприл 1,61% 1,27% 0,98% 1,26% 20%
20 Дигоксин 1,56% 1,64% 1,78% 1,67%
21 Гидрохлоротиазид 1,14% 0,87% 1,91% 1,32%
22 Варфарин 1,09% 0,95% 1,08% 1,03%
23 Метопролол 1,03% 1,20% 1,18% 1,14%
24 Пирацетам 0,97% 0,86% 0,94% 0,92%
25 Калия и магния аспарагинат 0,80% 0,77% 0,84% 0,80%
Как видно из данных таблицы 6, на 18 ЛП приходится 80% всех принятых пациентами DDD доз. Положительным является тот факт, что все ЛП в этой группе потребления снижают смертность больных ССЗ с позиции доказательной медицины. Однако, необходимо отметить крайне высокий уровень потребления триметазидина (6,87%) и винпоцетина (2,85%). Данные препараты не влияют на исходы сердечно-сосудистых заболеваний. С другой стороны, аторваста-
тин, симвастатин и розувастатин находятся в 20% категории и объем их потребления больными ССЗ незначительный (менее 1%). При высокой распространенности ишемической болезни сердца интерпретация таких показателей остается открытой.
Косвенным показателем доступности фармакотерапии является показатель числа назначений на одного застрахованного пациента. С целью оценки этого показателя мы провели расчет показателя числа назначенных ЛП в год на пациента (таб. 7).
Таблица 7
Число назначений (ед.) лекарственных препаратов льготной категории граждан на одного человека в год в различных нозологических группах пациентов.
район Все пациенты Пациенты страдающие артериальной гипертензией Пациенты страдающие стенокардией напряжения
Год исследования 2013 2014 2015 2013 2014 2015 2013 2014 2015
Район №1 12,77 13,54 13,17 6,01 7,26 8,07 6,84 8,33 7,76
Район №2 21,96 23,27 21,51 12,69 15,31 13,94 5,59 5,55 7,03
Район №3 11,92 14,04 13,54 6,44 8,76 7,97 5,15 6,58 5,85
Как видно из данных таблицы 7, в среднем врачи выписывают на одного больного от 11,9 до 21,9 рецептов на ЛП. Этот показатель за исследуемый период изменился разнонаправлено, и в первом и третьем районе увеличился на 3,1% и 13,5%, соответственно. Во втором районе было зарегистрировано значимое снижение на 2,0%. Учитывая, что в группу могут входить пациенты с различными заболеваниями, мы оценили данный показатель для пациентов с исследуемыми заболеваниями. Было выявлено, что врачи выписывают в среднем от 6,01 до 12,69 рецептов на лекарственные препараты на одного пациента с АГ в год. При этом исследуемый показатель вырос в различных районах от 9,8% (район №2) до 34,2% (район №3). Показатели пациентов, страдающих стенокардией напряжения, были сходными с показателями пациентов с АГ. Рост числа назначений в этой группе за исследуемый период составил от 13,5% до 25,7%.
Базы данных являются ключевыми объектами современной системы здравоохранения, в тоже время в Российской Федерации единичные работы посвящены вопросам выявления и использования закономерностей для нужд практического здравоохранения. Сама по себе интеграция и накопление данных не дает значительного повышения эффективности процессов профилактики и лечения заболеваний людей. В частности,
внедрение системы электронных историй болезни в клиниках позволило добиться повышения скорости доступа к данным, снизило число ошибок, однако на процесс диагностики и качество медицинской помощи это не повлияло. Соответственно, увеличение числа и информативности критериев диагностики, а также появление информационных систем в области здравоохранения, позволяющих хранить и управлять информацией потребовало разработки новых подходов к анализу медицинских данных. Показана перспективность использования баз данных как инструмента эффективного принятия решений в системе управления здравоохранением [9; 19]. Возможности и перспективы методов анализа данных обсуждены нами ранее [11].
Мы полагаем, что проблема больших данных заключается в том, что эксперт не в состоянии проанализировать все данные, содержащиеся в базе данных. Оценивать качество и эффективность каждого назначения затратно по времени и ресурсам. Показано, что результаты получаемые на основе анализа больших источников данных имеют меньшее количество искажений и ошибок. Алгоритм настоящего исследования позволил оценить возможности информационных систем и их использования для оценки рациональности и качества фармакотерапии.
Мы считаем, что используя OLAP систему и строя различные срезы данных, эксперт может оценить структуру совокупности в короткое время. В дополнении с Парето анализом можно оценить наиболее существенные дефекты и проблемы, не акцентируя на редких и малозначительных событиях.
На основании результатов настоящего исследования можно сделать заключение о перспективности медицинских информационных баз данных для нужд фармакоэкономики и фармакоэпидемиологии. Нами доказано, что существует резерв повышения качества и рациональности фармакотерапии при сердечно-сосудистых заболеваниях. Модель анализа фармакоэпиде-миологических данных может являться базисом для разработки региональной и государственной программ повышения качества и рациональности фармакотерапии.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
[1] Hettler M. Data mining goes multidimensional // Healthc Inform. 1997. V. 14. № 3. p. 43-46, 48, 51-56.
[2] Lee I.N., Liao S.C., Embrechts M. Data mining techniques applied to medical information // Med Inform Internet Med. 2000. V. 25. № 2. p. 81-102.
[3] Хафизьянова Р.Х., Бурыкин И.М., Алеева Г.Н. Математическая статистика в экспериментальной и клинической фармакологии. Казань: Медицина, 2006. 374 С.
[4] Horton N.J., Switzer S.S. Statistical Methods in the Journal // N Engl J Med. 2005. V. 353. № 18. p. 1977-1979.
[5] Ланг Т. Двадцать ошибок статистического анализа, которые вы сами можете обнаружить в биомедицинских статьях // Междунар журн мед практики. 2005. Т. 1. С. 21-31.
[6] Lauer M.S., D'Agostino R.B. The Randomized Registry Trial — The Next Disruptive Technology in Clinical Research? // New England Journal of Medicine. 2013. V. 369. № 17. p. 1579-1581.
[7] Sandoval D.C. The Meta-Analysis in Medicine: Tools for Clinical and Experimental Research // Journal of Biometrics & Biostatistics. 2013. V. 01. № S7.
[8] Antman E.M., Harrington R.A. Transforming clinical trials in cardiovascular disease: mission critical for health and
economic well-being // JAMA. 2012. V. 308. № 17. P. 1743-1744.
[9] Medical data mining: knowledge discovery in a clinical data warehouse / J.C.Prather, D.F.Lobach, L.K.Goodwin, J.W.Hales, M.L.Hage, W.E.Hammond // Proceedings of the AMIA Annual Fall Symposium. , 1997. P. 101.
[10] ЗАО «Группа ДСМ». Аналитический отчет Фармацевтический рынок России Итоги 2013 г. URL: http://www.dsm.ru/docs/analytics/dsm_report2013.pdf. (дата обращения: 15.02.2016).
[11] Хафизьянова Р.Х., Алеева Г.Н., Бурыкин И.М. Перспективы использования data mining методов анализа данных в медицине // Материалы Международной научно - практической конференции «Роль неправительственных организаций в решении проблем, связанных с разработкой и внедрением инновационных технологий во всех сферах человеческой деятельности», посвященной 15-летию образования Академии информатизации Республики Татарстан (2 часть). Казань, 2010. С. 32-39.
[12] ATC/DDD классификационная система в фармакоэпи-демиологических исследованиях /Л.Е.Зиганшина, Д.Р.Магсумова, А.В.Кучаева, О.И.Пикуза, В.Б.Герасимов, А.Н.Яворский // Качественная Клиническая Практика. 2004. № 1. С. 28-33.
[13] Ihaka R., Gentleman R. R: a language for data analysis and graphics // Journal of computational and graphical statistics. 1996. V. 5. № 3. P. 299-314.
[14] Institute S.A.S. SAS Language: Reference: Version 6. : Sas Inst, 1990.
[15] Cornell G., Morrison J. Programming VB.Net: a guide for experienced programmers. Berkeley, Calif: Apress, 2002. 500 p.
[16] Hristovski D., Rogac M., Markota M. Using data warehousing and OLAP in public health care // Proc AMIA Symp. 2000. P. 369-373.
[17] ВНОК. Диагностика и лечение стабильной стенокардии // Кардиоваскулярная терапия и профилактика. 2008. Т. 7. № 6. С. 37-73.
[18] ВНОК. Диагностика и лечение артериальной гипертен-зии // Кардиоваскулярная терапия и профилактика. 2008. Т. 7. № 6. Приложение 2. С. 7-34.
[19] Nimmagadda S.L., Dreher H.V. On robust methodologies for managing public health care systems // Int J Environ Res Public Health. 2014. V. 11. № 1. p. 1106-1140.
THE MODEL FOR THE ANALYSIS OF PHARMACOEPIDEMIOLOGICAL DATA BASED ON DATA MINING METHODS
Burykin I.M., Aleeva G.N., Khafizianova R.Kh.
Kazan State Medical University, Kazan, Russian Federation
Annotation. Pharmacotherapy is costly expenditures of modern health care. WHO has determined that the basis of the state drug policy is the rationality and effectiveness drugs used. In this study, we developed a model for the analysis of pharmacoepidemiologi-cal data. We compared the data analysis tools: software and programming languages (excel, vba.net, Statistica, Python). The study included patients with reimbursable drug coverage. Pharmacoepidemiological data were analyzed using the developed programs. It was revealed, that the structure of prescription of medicines does not correspond to the structure of morbidity and mortality. The rate of prescription drugs was not consistent with drug's clinical effectiveness in the outcomes of cardiovascular diseases. Data mining methods are effective in evaluating the rationality and quality of pharmacotherapy. Key words: pharmacoepidemiology, rational pharmacotherapy, data mining
REFERENCE
[1] Hettler M. Data mining goes multidimensional // Healthc Inform. 1997. V. 14. № 3. p. 43-46, 48, 51-56.
[2] Lee I.N., Liao S.C., Embrechts M. Data mining techniques applied to medical information // Med Inform Internet Med. 2000. V. 25. № 2. p. 81-102.
[3] Hafizianova R.H., Burykin I.M., Aleeva G.N. Mathematical Statistics in Experimental and Clinical Pharmacology. Kazan: Medicina. 2006. 374 p.
[4] Horton N.J., Switzer S.S. Statistical Methods in the Journal // N Engl J Med. 2005. V. 353. № 18. p. 1977-1979.
[5] Lang T. Twenty errors of statistical analysis that you can find in biomedical articles // Mezhdunar zhurn med prak-tiki. 2005. T. 1. S. 21-31.
[6] Lauer M.S., D'Agostino R.B. The Randomized Registry Trial — The Next Disruptive Technology in Clinical Research? // New England Journal of Medicine. 2013. V. 369. № 17. p.1579-1581.
[7] Sandoval D.C. The Meta-Analysis in Medicine: Tools for Clinical and Experimental Research // Journal of Biometrics & Biostatistics. 2013. V. 01. № S7.
[8] Antman E.M., Harrington R.A. Transforming clinical trials in cardiovascular disease: mission critical for health and economic well-being // JAMA. 2012. V. 308. № 17. P. 1743-1744.
[9] Medical data mining: knowledge discovery in a clinical data warehouse / J.C.Prather, D.F.Lobach, L.K.Goodwin, J.W.Hales, M.L.Hage, W.E.Hammond // Proceedings of the AMIA Annual Fall Symposium. , 1997. P. 101.
[10] ZAO «Gruppa DSM». Analytical report Russian Pharmaceutical market Results of 2013. URL: http://www.dsm.ru/docs/analytics/dsm_report2013.pdf. (date of access: 15.02.2016).
[11] Hafizianova R.H., Aleeva G.N., Burykin I.M. Prospects for the use of data mining methods of data analysis in medicine // Materialy Mezhdunarodnoj nauchno - prakticheskoj kon-ferencii «Rol' nepravitel'stvennyh organizacij v reshenii problem, svjazannyh s razrabotkoj i vnedreniem inno-vacionnyh tehnologij vo vseh sferah chelovecheskoj deja-tel'nosti», posvjashhennoj 15-letiju obrazovanija Akademii informatizacii Respubliki Tatarstan (2 chast'). Kazan, 2010. P. 32-39.
[12] ATC/DDD classification system in pharmacoepidemiolog-ical studies / L.E.Ziganshina, D.R.Magsumova, A.V.Kuchaeva, O.I.Pikuza, V.B.Gerasimov, A.N.Javorskij // Kachestvennaja Klinicheskaja Praktika. 2004. № 1. P. 28-33.
[13] Ihaka R., Gentleman R. R: a language for data analysis and graphics // Journal of computational and graphical statistics. 1996. V. 5. № 3. P. 299-314.
[14] Institute S.A.S. SAS Language: Reference: Version 6. : Sas Inst, 1990.
[15] Cornell G., Morrison J. Programming VB.Net: a guide for experienced programmers. Berkeley, Calif: Apress, 2002. 500 p.
[16] Hristovski D., Rogac M., Markota M. Using data warehousing and OLAP in public health care // Proc AMIA Symp. 2000. P. 369-373.
[17] VNOK. Diagnosis and treatment of stable angina // Kardi-ovaskuljarnaja terapija i profilaktika. 2008. T. 7. № 6. P. 37-73.
[18] VNOK. Diagnosis and treatment of hypertension // Kardio-vaskuljarnaja terapija i profilaktika. 2008. T. 7. № 6. Prilozhenie 2. p. 7-34.
[19] Nimmagadda S.L., Dreher H.V. On robust methodologies for managing public health care systems // Int J Environ Res Public Health. 2014. v. 11. № 1. p. 1106-1140.