[гиена и санитария 5/2012
В целом тщательная аналитическая работа должна быть направлена на конечный выбор такой нормативной величины, которая в наибольшей степени будет обеспечивать безопасность населения на современном уровне знаний с учетом рисков и ущербов здоровью при острых и хронических воздействиях атмосферных загрязнений.
Литер атур а
1. Авалиани С. Л., Мишина А. Л. // Здоровье населения и среда обитания. - 2011. - № 3 (216). - С. 44-48.
2. Новиков С. М., Шашина Т. А., Скворцова Н. С. // Здоровье населения и среда обитания. - 2010. - № 11 (212). - С.13-15.
3. Промежуточный отчет. Блок деятельности 10. Нормативы качества окружающей среды. 10.3 - Нормирование качества атмосферного воздуха и выбросов загрязняющих веществ // ЕС-Россия - Программа сотрудничества. Гармонизация экологических стандартов II. - М., 2008.
4. Рекомендации по качеству воздуха в Европе. Европейское региональное бюро ВОЗ. Изд. - 2-е изд. - М.: "Весь мир", 2004.
5. Directive 2008/50/EC of the European Parliament and of the Council of 21 May 2008 on ambient air quality and cleaner air for Europe.
6. Environment and health: An International concordance on selected concepts. WHO, Regional Office for Europe. - Copenhagen, 2001.
7. Science and decisions: Advancing risk assessment // Committee on improving risk analysis approaches used by the U. S. EPA, National Research Council. iSBn: 0-309-12047-0. - 2008.
8. U. S. Clean Air Act, 1990. http://www.epa.gov/air/caa/
9. WHO Air Quality Guidelines. Global Update 2005 // WHO. Report on a working group meeting, Bonn, Germany, 18-20 October 2005.
Поступила 11.03.12
Методы исследований в гигиене
О Ж. В. ГУДИНОВА, 2012 УДК 614.3/.4:681.518
Ж. В. Гудинова
о ПРИМЕНЕНИИ ЭЛЕМЕНТОВ DATA MINING (ОБНАРУЖЕНИЯ ПОЛЕЗНЫХ ЗНАНИЙ
в базах данных) в гигиенических исследованиях и социальногигиеническом мониторинге
ГБОУ ВПО Омская государственная медицинская академия Минздравсоцразвития России
В статье доказывается необходимость и возможность применения методов Data Mining (обнаружения полезных знаний в базах данных) в современных гигиенических исследованиях и в ходе решения практических задач социально-гигиенического мониторинга. В качестве иллюстрации применения технологий Data Mining для выработки управленческих решений в сфере санитарно-эпидемиологического благополучия населения региона приведены результаты кластерного анализа базы данных о среде и здоровье населения в районах Омской области.
Ключевые слова: Data Mining, обработка баз данных в медицине, кластерный анализ, профилактика
Zh. V Gudinova - ON THE APPLICATION OF ELEMENTS OF DATA MINING (THE DETECTION OF USEFUL KNOWLEDGE IN DATABASES) IN HYGIENIC RESEARCH AND SOCIAL-HYGIENE MONITORING
Federal State Budgetary Educational Institution of Higher Professional Education "Omsk State Medical Academy" of the Ministry of Healthcare and Social Development, Omsk, Russian Federation
In article necessity and possibility of application of Data Mining methods (detection of useful knowledge in databases) in modern hygienic researches and during the decision of practical problems of socially-hygienic monitoring is proved. As illustration for applications of Data Mining technologies for development of administrative decisions in sphere of sanitary-and-epidemiologic well-being of the population of region results of the cluster analysis of a database about medium and population health in districts of the Omsk region are presented.
Key words: Data Mining, processing of medical databases, cluster analysis, prevention, social and hygienic monitoring
Как известно, XXI век называют веком информации, и это не красивые слова. Согласно оценке специалистов, информация удваивается каждые 2-3 года, поступая из науки, бизнеса, Интернета и других источников [1]. Объемы информации растут не по дням, а по часам и в службе Роспотребнадзора: это и
Гудинова Ж. В. - д-р мед. наук, доц., зав. каф. общей гигиены с курсом гигиены детей и подростков ([email protected]).
нормативно-распорядительные документы, и информация о санитарно-эпидемиологическом благополучии населения, и изменения в социально-политической сфере, от которых сейчас зависит работа, пожалуй, всех учреждений страны. На наш взгляд, ключевым личностным профессиональным свойством специалиста Роспотребнадзора в таких условиях становится способность к переработке информации. Особенно актуальным мы считаем это качество для специалистов социально-
78
гигиенического мониторинга (далее СГМ), который не случайно был организован в системе Роспотребнадзора в начале нулевых годов нашего века как информационноаналитическая система. Если творчески переработать его задачи, сформулированные в Федеральном законе № 52-ФЗ "О санитарно-эпидемиологическом благополучии населения" с учетом реалий СГМ (а реалии - накопление баз данных согласно утвержденному Перечню показателей и данных для формирования Федерального информационного фонда СГМ), становится понятным, что основной для СГМ сейчас является возможность переработки накопленных баз данных о здоровье населения и среде обитания. Именно такую возможность дает Data Mining (датамайнинг). «Data Mining - это собирательное название, используемое для обозначения совокупности методов обнаружения в базе данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введен Г. Пятецким-Шапиро в 1989 г. Английское словосочетание "Data Mining" пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие обозначения: просев информации, добыча данных, извлечение данных, а также интеллектуальный анализ данных [6-8]».
Специалисты в области Data Mining указывают, что "наука об извлечении содержания из массивов данных становится все более изощренной, а задачи, за которые берутся мастера такого поиска, - все более человечными". Вот неполный список областей применения дата-майнинга: реклама; биоинформатика; связь с клиентами; маркетинг; выявление мошенничества; е-коммерция; здравоохранение; инвестиции/ценные бумаги; управление производством; развлечения и спорт; телекоммуникации; изучение веба. Если говорить об успехах индустрии датамайнинга, то самый яркий пример здесь - Google [6-8].
Постановка задачи в Data Mining. Первоначально задача ставится следующим образом: имеется достаточно крупная база данных, предполагается, что в базе данных находятся некие "скрытые знания". Необходимо разработать методы обнаружения знаний, скрытых в больших объемах исходных "сырых" данных. Что означают "скрытые знания"? Это должны быть знания: 1) ранее неизвестные, обязательно новые (а не подтверждающие какие-то ранее полученные сведения); 2) нетривиальные, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или вычислении простых статистических характеристик), неочевидные, неожиданные; 3) представляющие ценность для исследователя или потребителя; 4) доступные для интерпретации, т. е. такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области; кроме того, полученные знания должны быть логически объяснимы.
В основе методов Data Mining лежат различные математические методы обработки данных, включая интеллектуальный анализ и статистические методы. Однако следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми
(те же средние), что полностью расходится с целями и задачами Data Mining. Тем не менее статистические методы используются, но их применение ограничивается выполнением только определенных этапов исследования.
Интеллектуальный анализ данных - одно из новых направлений искусственного интеллекта. Этот термин является кратким и весьма неточным переводом с английского языка словосочетаний Data Mining и Knowledge Discovery in Databases (DM&KDD). Более точный перевод - "добыча данных" и "выявление знаний в базах данных". Таким образом, Data Mining - это процесс обнаружения в "сырых" данных (row data) ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности (Г. Пятецкий-Шапиро). В технологиях DM&KDD используются различные математические методы и алгоритмы: классификация, кластеризация, регрессия, прогнозирование временных рядов, ассоциация, последовательность. К интеллектуальным средствам DM&KDD относятся нейронные сети, деревья решений, индуктивные выводы, методы рассуждения по аналогии, нечеткие логические выводы, генетические алгоритмы, алгоритмы определения ассоциаций и последовательностей, анализ с избирательным действием, логическая регрессия, эволюционное программирование, визуализация данных. Иногда перечисленные методы применяются в различных комбинациях. Полезные знания, полученные в ходе Data Mining, могут быть представлены в виде закономерностей, правил, прогнозов, связей между элементами данных и др. Главным инструментом поиска знаний являются аналитические технологии Data Mining, реализующие задачи классификации, кластеризации, регрессии, прогнозирования, предсказания и т. д. [6-8].
Резюмируя вышеизложенное, можно сформулировать ряд положений.
Первое. Поскольку современный СГМ, не говоря о научных исследованиях, предполагает накопление баз данных, постольку Data Mining становится необходимым средством для их обработки. Разумеется, и в настоящее время идет та или иная обработка баз данных, но следует признать, что деятельность по их анализу носит весьма субъективный, хаотичный, нецеленаправленный характер: исследуются отдельные, чаще общепринятые элементы системы среда обитания-здоровье населения, не выделяются местные региональные проблемы в общероссийском ряду и, следовательно, не находятся их решения. Так же хаотично планируется и выполняется научная работа, по этой причине справедливо критикуемая обществом и правительством.
Еще менее значительны достижения СГМ в отношении прогнозов здоровья, среды обитания и здоровья населения в зависимости от сценариев развития среды обитания. По-прежнему аналитик (и ученый, и специалист информационно-аналитической сферы здравоохранения) должен полагаться на свой опыт и знания в сфере анализа данных, часто весьма скудные, а главное на эти весьма скудные знания и отрывочные достижения ограниченных исследований должны полагаться лица, принимающие решения, вплоть до правительственных чиновников. В итоге страдает население, его здоровье и состояние среды его обитания, не говоря об экономических потерях, вызванных неверным обоснованием бюджетирования здравоохранения.
79
[гиена и санитария 5/2012
Второе. Необходимость применения Data Mining основывается также на чрезвычайно привлекательной его цели: обнаружения в "сырых" данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности, в частности в сфере управления санитарно-эпидемиологическим благополучием, здоровьем населения и здравоохранением. В этом ключе весьма показательны формулировки авторов долгосрочной целевой программы "Развитие системы здравоохранения Омской области", утвержденной постановлением Правительства региона от 30.09.09 № 175-п [9]. В качестве причин проблем здоровья населения указаны непрофессионализм врачей в области профилактики, "измерения резервов здоровья и индивидуального прогнозирования жизнеспособности человека", недостаточная материальная база и рискованное поведение граждан (алкоголь, курение и т. п.). В этом перечне отсутствуют факторы, которые не могут не влиять на здоровье, - условия среды обитания и аспекты управления здоровьем населения и здравоохранением. Технологии Data Mining могли бы применяться и для оценки влияния условий среды, и для выработки управленческих решений применительно к каждому району области, не говоря о прогнозе индивидуального здоровья.
Третье. Data Mining предполагает системы поддержки принятия решений (СППР): программные системы, призванные облегчать работу людей, выполняющих анализ (аналитиков), т. е. это программные средства, приспособленные именно под конкретные задачи для конкретного работника, будь то ученый-гигиенист или специалист информационно-аналитического отдела [1]. Иными словами, процесс анализа данных еще более ускоряется, по крайней мере в его технической части.
Четвертое. Рассмотрим возможность применения Data Mining в широкой практике. Пока, разумеется, это звучит фантастически. Однако если вспомнить стремительное внедрение компьютерных технологий в практику работы Роспотребнадзора, следует констатировать, что наша служба в отношении компьютеризации была впереди не только системы здравоохранения и медикосоциальной экспертизы, но и многих вузов и научных организаций. Что же нужно для широкого применения методов обнаружения полезных знаний в базах данных? Это безусловно навыки работы в пространстве методов Data Mining. Некоторые рекомендации по обработке баз данных были нами даны в виде двух методических документов: 1) Социально-гигиенический мониторинг. Инвалидность детей. Сбор, обработка и анализ показателей: Методические рекомендации МР ФЦ/3718 от 01.12.04: утверждено заместителем Главного государственного санитарного врача Российской Федерации / Ж. В. Гу-динова [и др.] - М.: Федеральный центр госсанэпиднадзора, 2004. - 68 с.; и 2) Социально-гигиенический мониторинг. Анализ медико-демографических и
социально-экономических показателей на региональном уровне: Методические рекомендации. Утверждено приказом Роспотребнадзора № 341 от 20.09.10. / Н.В. Шестопалов, В.П. Самошкин, А.С. Крига, Е.Л. Овчинникова, Ж.В. Гудинова и др. - М.: Федеральная служба по надзору в сфере защиты прав потребителей и благополучия человека, 2010. - 53 с. В этих документах были освещены классические и авторские методы статистической обработки баз данных, в том числе и Data Mining (описательная статистика, способы расчета статистиче-
ской нормы одного и нескольких признаков, перцентиль-профиль, прогнозирование, анализ динамических рядов, методика "стабильные -хаотичные", дисперсионный анализ (ANOVA), корреляционно-регрессионный анализ, факторный и компонентный анализ, кластерный анализ), уделено большое внимание интерпретации результатов и обоснованию управленческих решений. В Омской государственной медицинской академии в течение ряда последних лет проводится последипломное обучение специалистов в этой сфере.
Вместе с тем нами во главу угла ставится понимание необходимости применения анализа руководителями, лицами, принимающими решения. Трудно представить себе стихийную работу специалистов СГМ в этом направлении (как, впрочем, и в любом другом). Об этом свидетельствует опыт внедрения наших разработок: несмотря на официальное признание, утвержденное в 2010 г. приказом руководителя Роспотребнадзора Г. Г. Онищенко, нельзя сказать, что методы анализа баз данных, предложенные нами, широко используются в практике СГМ. Почему? Мы объясняем это рядом причин: низким уровнем знаний и умений специалистов СГМ в области анализа, их высокой загруженностью другими делами, тогда как анализ не терпит суеты. Главное, специалисты СГМ явно не видят важности такого анализа, востребованности его результатов руководителями, лицами, принимающими решения. Отсюда, на наш взгляд, определенная неудовлетворенность в кругах заинтересованных лиц - и ученых и практиков - результатами СГМ. Вследствие этого, как нам представляется, страдает престиж СГМ, нивелируется основная его идея - анализа и прогноза, обоснования управленческих решений.
В качестве примера применения в гигиене и СГМ одного из основных методов Data Mining - кластерного анализа рассмотрим результаты выполненной на нашей кафедре диссертации А. В. Клочихиной [3]. Известно, что в Омской области существенно различаются здоровье и среда обитания населения. Исходя из этого мы полагали, что создание единой программы профилактики для всей области нецелесообразно. Сколько должно быть профилактических программ и каких, мы установили по результатам кластерного анализа, который был проведен по 10 кластеризационным характеристикам: 1) общая заболеваемость детей в возрасте 0-14 лет, среднее хронологическое значение за период 19962005 гг., на 100 тыс. детей соответствующего возраста (заболеваемость детей); 2) общая инвалидность детей, среднее хронологическое значение за период 1997-2006 гг., на 10 тыс. детей соответствующего возраста (инвалидность детей); 3) общий коэффициент смертности, среднее хронологическое значение за период 1990-2006 гг., на 1000 населения (смертность); 4) плотность населения, среднее хронологическое значение за период 1994-2006 гг., количество человек на 1 км2 территории (плотность населения); 5) обеспеченность населения врачами, среднее хронологическое значение за период 1990-2006 гг., на 10 тыс. (врачи); 6) число посещений амбулаторно-поликлинических учреждений на 1 жителя, среднее хронологическое значение за период 19912006 гг. (амбулаторная помощь); 7) сумма рангов по производству 6 основных видов сельскохозяйственной продукции за 1991-2006 гг. (из них овощей - за 19962006 гг.) (производство); 8) густота дорог с твердым покрытием, среднее хронологическое значение за период 1990-2006 гг., на 100 км2 территории (дороги); 9) сумма
80
рангов по 5 показателям благоустройства жилья за 2006 г. (благоустройство жилья); 10) популяционный риск развития хронических патологических реакций вследствие употребления питьевой воды в 2003 г. (питьевая вода). Высокий стандартизованный показатель указывает на высокий реальный уровень во всех случаях, кроме характеристик 7 и 9, для которых чем ниже показатели, тем лучше. Кластерный анализ, как и стандартизация показателей, проведены в ППП Statistica 6.0 по инструкциям, приведенным в руководствах [2, 4, 5]. Различия между классами статистически значимы (р < 0,05) по всем классификационным характеристикам. На рисунке приведены результаты кластерного анализа.
Итак, какие полезные нетривиальные знания получены в ходе наших исследований? Судя по рисунку, низкие значения инвалидности детей в районах кластера 2 оправданы минимальными показателями смертности населения и более высоким уровнем жизни по характеристикам благоустройства жилья, сельскохозяйственного производства, развития сети дорог с твердым покрытием, а также наилучшего качества питьевой воды, о чем свидетельствует минимальный риск здоровью в результате ее употребления. Эти районы наиболее плотно заселены и лучше освоены человеком. В районах кластера 2 отмечены максимальные показатели заболеваемости детей, которые в сочетании с низкими значениями инвалидности детей дают возможность оценить качество диспансеризации больных детей как удовлетворительное. Этот благополучный кластер целиком составили районы южной половины области, что позволяет назвать описанный тип формирования здоровья населения как "южный". Наиболее типичный район этого класса - Таврический.
Ситуация в районах кластера 1, который составили в основном районы северной половины области, диаметрально противоположна. Неблагополучие проявляется в худших показателях здоровья и среды обитания по всем 10 классификационным характеристикам. В районах этого кластера, расположенных в северной половине Омской области, отмечены более низкие показатели обеспеченности врачами, амбулаторной помощью, развития производства и сети дорог, благоустройства жилья. Очевидна причина этого неблагополучия - минимальная плотность населения. Эту очевидность иллюстрирует вошедший в состав кластера Оконешников-ский район - район степной зоны области (т. е. южный район), но с минимальной плотностью населения, как на севере. В районах кластера 1 низкое качество питьевой воды. Что касается здоровья населения, положительно трактовать низкие цифры заболеваемости детей не позволяют максимальные уровни инвалидности детей и смертности населения. На таком фоне низкая заболеваемость может быть истолкована только как проявление неудовлетворительной диспансерной работы. Последняя в свою очередь может быть связана с недостаточной обеспеченностью населения врачами и амбулаторной помощью (см. рисунок). Таким образом, улучшение жилищной, транспортной и социальной инфраструктуры является основой укрепления здоровья населения в районах северной половины области, и именно на этих
Результаты многомерной классификации районов Омской области.
Кластеризационные характеристики: 1 - заболеваемость детей, 2 - инвалидность детей, 3 - смертность населения, 4 - плотность населения, 5 - обеспеченность врачами, 6 - обеспеченность амбулаторной помощью, 7 - производство сельскохозяйственной продукции, 8 - дороги, 9 - благоустройство жилья, 10 - питьевая вода1.
Кластер 1 (северная тенденция): Большеуковский, Седельниковский, Тюкалинский, Тевризский, Оконешниковский, Знаменский, Колосов-ский, Называевский, Крутинский, Саргатский, Большереченский, Усть-Ишимский, Муромцевский, Нижнеомский, Тарский.
Кластер 2 (южная тенденция): Таврический, Москаленский, Шерба-кульский, Одесский, Павлоградский, Полтавский, Нововаршавский, Р-Полянский, Марьяновский, Исилькульский, Калачинский, Черлакский, Омский, Горьковский, Любинский, Азовский, Кормиловский.
1Полное описание характеристик приведено в тексте.
территориях должны быть в первую очередь сконцентрированы финансовые и иные ресурсы.
Автор выражает благодарность за мысли, высказанные в ходе совместных бесед и использованные при подготовке этой публикации, зам. нач. орготдела Управления Роспотребнадзора по Омской области канд. мед. наук Е. Л. Овчинниковой и мл. науч. сотр. Центральной научно-исследовательской лаборатории ОмГМА Д. А. Сербаеву.
Литер атур а
1. Анализ данных и процессов: учебное пособие / Барсегян А. А., Куприянов М. С., Холод И. И. и др. - СПб.: БХВ-Петербург, 2009.
2. Боровиков В. П. Программа STATISTICA для студентов и инженеров. - 2-е изд. - М.: Компьютер-Пресс, 2001.
3. Клочихина А. В. Гигиеническая оценка потерь здоровья населения в разных природно-хозяйственных зонах Омской области. - Омск, 2008.
4. Халафян А. А. STASTICA 6. Статистический анализ данных: Учебник. - 3-е изд. - М.: Бином-Пресс, 2007.
5. Электронный учебник по статистике компании StatSoft. www.statsoft.ru
6. http://ru.wikipedia.org/wiki/Data_mining
7. http://wwwxomputerra.ru/new/logo2.gif
8. http://www. basegroup.ru/library/methodology/data_mining
9. http://mzdr.omskportal.ru/ru/RegionalPublicAuthorities/ executivelist/MZDR/cel_program/PageContent/0/body_files/ file/dcp_2010-2014_razv_zdrav.rtf
Поступила 06.02.12
81