Научная статья на тему 'Опыт использования искусственных нейронных сетей при прогнозировании заболеваемости населения (на примере г. Братска)'

Опыт использования искусственных нейронных сетей при прогнозировании заболеваемости населения (на примере г. Братска) Текст научной статьи по специальности «Науки о здоровье»

CC BY
434
137
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Экология человека
Scopus
ВАК
CAS
RSCI
Область наук
Ключевые слова
НЕЙРОННЫЕ СЕТИ / ЗАБОЛЕВАЕМОСТЬ / ПРОГНОЗ / ФАКТОРЫ / ЗАГРЯЗНЕНИЕ АТМОСФЕРНОГО ВОЗДУХА / NEURAL NETWORKS / FACTORS / AIR POLLUTION / PROGNOSIS / MORBIDITY

Аннотация научной статьи по наукам о здоровье, автор научной работы — Ефимова Наталья Васильевна, Горнов А. Ю., Зароднюк Т. С.

Представлены результаты разработки математической модели заболеваемости населения г. Братска, учитывающей факторы окружающей природной, техногенной и социальной среды. Адекватность нейромодели оценена при сравнении результатов численных экспериментов. Определена оптимальная степень загрязнения атмосферного воздуха, позволяющая обеспечить фоновый уровень заболеваемости различных возрастных групп населения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам о здоровье , автор научной работы — Ефимова Наталья Васильевна, Горнов А. Ю., Зароднюк Т. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPERIENCE IN USING THE ARTIFICIAL NEURAL NETWORKS IN PROGNOSING THE POPULATION MORBIDITY (ON AN EXAMPLE OF BRATSK)

The materials on the development of a mathematical model using the neural networks taking into account the factors of the natural, technogenic and social environments with may explain the variables as well as the model adequacy control compared with the results of the numeral experiments on an example of town Bratsk are represented in this paper. The optimal levels of air pollution with allow to provide the background morbidity level among the different age groups of the population have been offered.

Текст научной работы на тему «Опыт использования искусственных нейронных сетей при прогнозировании заболеваемости населения (на примере г. Братска)»

УДК 614,7:616-084:330,3

ОПЫТ ИСПОЛЬЗОВАНИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ПРИ ПРОГНОЗИРОВАНИИ ЗАБОЛЕВАЕМОСТИ НАСЕЛЕНИЯ (на примере г. Братска)*

© 2010 г. Н. В. Ефимова , *А. Ю. Горнов, *Т. С. Зароднюк

Ангарский филиал УРАМН ВСНЦ экологии человека СО РАМН -НИИ медицины труда и экологии человека, г. Ангарск

Важная роль в оценке и прогнозировании состояния единой медикоэкологической системы отводится созданию и анализу математических моделей, описывающих динамику взаимодействия элементов системы. Математические модели служат инструментом, позволяющим увязывать и согласовывать информацию различного содержания, что неизбежно в любых комплексных междисциплинарных исследованиях [3, 11]. Кроме того, с точки зрения доказательной медицины использование математикостатистических и эпидемиологических подходов абсолютно необходимо [5, 8]. В последние годы при моделировании сложных процессов и систем стали применяться нейросетевые методы, в основе которых лежит идея построения вычислительного устройства из большого числа параллельно работающих простых элементов (формальных нейронов), которые функционируют независимо друг от друга и связаны между собой каналами передачи информации [2, 7]. Каждый отдельный нейрон моделируется простой функцией (обычно логистической), но совокупная высокая сложность модели, гибкость ее функционирования и другие важнейшие качества определяются структурой связей и многоуровневой иерархией всей сети. Нейронная сеть, получающая на входе определенный сигнал, способна после прохождения его по сети выдавать на выходе определенный ответ, который зависит от весовых коэффициентов всех нейронов, определяемых в процессе самообучения сети [13].

Цель исследования — оценить возможность использования искусственных нейронных сетей при изучении особенностей формирования заболеваемости населения крупного промышленного центра. В ходе работы последовательно решались следующие задачи:

• разработка математической модели, учитывающей в качестве объясняющих переменных факторы окружающей природной и социальной среды;

• определение фоновых уровней заболеваемости населения на основе нейромодели по наиболее значимым факторам внешней среды;

• разработка оптимальных уровней загрязнения атмосферного воздуха, позволяющего обеспечить фоновый уровень заболеваемости различных возрастных групп населения);

• проверка адекватности модели при сравнении результатов численных экспериментов.

Материалы и методы исследования

Исследования проведены в г. Братске, расположенном на севере Иркутской области В 1994 году по результатам государственной эколо-

• Работа выполнялась при поддержке грантов РГНФ №09-02-00650а «Разработка компьютеризированных методик для исследования социально значимых медико-экологических проблем региона», РФФИ №.09-07-00267 "Вычислительные технологии интеллектуального анализа временных рядов на основе математических методов теории управления".

Представлены результаты разработки математической модели заболеваемости населения г. Братска, учитывающей факторы окружающей природной, техногенной и социальной среды. Адекватность нейромодели оценена при сравнении результатов численных экспериментов. Определена оптимальная степень загрязнения атмосферного воздуха, позволяющая обеспечить фоновый уровень заболеваемости различных возрастных групп населения.

Ключевые слова: нейронные сети, заболеваемость, прогноз, факторы, загрязнение атмосферного воздуха.

гической экспертизы медико-экологическая ситуация в городе была признана кризисной. Внедрение Федеральной целевой Программы неотложных мероприятий по улучшению состояния окружающей среды, санитарноэпидемиологической обстановки и здоровья населения города Братска в 1995—2005 годах можно рассматривать как крупный натурный эксперимент, оценить который без применения современного математического аппарата не представляется возможным.

Для составления качественного прогноза здоровья населения региона нужно было решить одну из сложнейших задач — выявить в заболеваемости экологически обусловленную компоненту и составить математическую модель, описывающую исследуемый объект (здоровье населения по показателям заболеваемости).

При этом исходили из принципа, что поведение элементов объекта модели осуществляется не изолированно, а во взаимосвязи, причем не только в причинно-следственном отношении «фактор — отклик», но и между отдельными элементами. Так, опираясь на результаты многочисленных исследований, представленных в работах [1, 10, 11], мы учли зависимость уровня загрязнения атмосферного воздуха от метеоусловий. Предложена математическая формализация зависимости заболеваемости населения ^) от основных наиболее влиятельных факторов:

ЬпВ

Z. = а, ■ Т + а2 ■ № + а3 ■¥. + а.-+ а5 ■ ЬпС.

I 11 2 1 3 1 4 у т т 5 I

ЬпУ1

где Т. — среднегодовая температура воздуха (°С);

— обеспеченность врачами (число специалистов на 1 000 населения); V. — среднегодовая скорость ветра (м/с); Р— интегральный показатель загрязнения атмосферного воздуха (условные единицы); С — социальные условия, характерные для города (экспертная оценка, баллы); ак — коэффициенты. Рассмотрены процессы на примере временного отрезка 1990—2005 годов (т. е. . = 1,16). Данный период характеризовался выраженным изменением качества окружающей среды и здоровья населения.

При формировании концепции моделирования учитывали сложный характер формирования уровней заболеваемости, определяемый совокупностью эффектов длительного (хронического) и кратковременного (острого) воздействий различных факторов. В качестве показателя, характеризующего величину длительного химического загрязнения, использован среднегодовой показатель суммарного загрязнения атмосферы комплексом веществ «Р», рассчитанный в соответствии с [4]. Оценка загрязнения воздушного бассейна дана с учетом количества загрязнителей, поступающих в атмосферу, их физико-химических и токсикологических свойств, возможности потенцирования и суммирования биологического воздействия. Показатели общей заболеваемости изучались на сплошной выборке по данным лечебно-профилактических учреждений (форма № 12). Показатели заболеваемости представлены средней величиной (М), ее ошибкой (т) и 95 % доверительным интервалом (ДИ). Блок информации по

социальным условиям, представляемый для оценки экспертам, включал качество жилищного фонда (обеспеченность централизованным водоснабжением и канализованием, электроплитами, среднее количество жилой площади на душу населения), социальную инфраструктуру (обеспеченность детскими садами и яслями, школами, учреждениями культуры, спорта) и некоторые характеристики образа жизни, полученные различными авторами при опросе населения.

Одним из способов построения прогнозной модели является аппроксимация рассматриваемой функции пяти переменных искусственной нейронной сетью. По данному вопросу в последние годы опубликовано огромное количество работ, имеются достаточно строгие математические результаты — теоремы Колмогорова, Арнольда, Стоуна, Горбаня, разработано большое число программных продуктов и вычислительных технологий [2, 9, 12]. Тем не менее при рассмотрении конкретной задачи необходимо решить ряд важных технологических вопросов — выбрать структуру нейросети, количество слоев, нейронов в слоях, вид функций активации нейронов, для которых практически отсутствуют четкие формальные методики. Неудовлетворительное решение вышеперечисленных подзадач может привести к построению плохих аппроксимаций и совершенно неверным прогнозным результатам.

Для формирования модели была создана общая обучающая выборка для населения десяти городов Иркутской области по данным статистических отчетов комитета по статистике, лечебно-профилактических учреждений, центров гигиены и эпидемиологии, управления по гидрометеорологии и мониторингу окружающей среды (1995—2005 гг). Для «обучения» сети (настройки внутренних весовых коэффициентов сети с целью наилучшего приближения рассматриваемой зависимости) применялись несколько методов: наименьших квадратов, случайного мультистарта, имитации отжига и сопряженного градиента в вариантах Fletcher-Reeves и Polak-Ribiere [2]. В качестве нейроэмулятора использовался программный продукт Neural Network Wizard компании BaseGroup Labs [http://www.basegroup.ru/labs/] и разработанная авторами вычислительная технология построения сетей обратного распространения.

Результаты и обсуждение

Установлено, что наиболее адекватные результаты получены при применении 2-слойной нейросети с числом нейронов в каждом слое 5 или 10 (табл. 1). Выявлено, что расчеты по сети с числом нейронов 20 в слоях дают наименее точный вариант. Расчетный показатель заболеваемости был ниже среднегодового фактического у детей в 4,9—16,1 раза, у подростков в 5,8—16,0 раза, у взрослых — в 4,8—13,5 раза. Следует также отметить, что время расчета при различных структурах нейронной сети отличалось незначительно и составляло 386—420 сек. при работе с данными по заболеваемости детей, 403—444 сек.

при анализе заболеваемости подростков и 402—468

— взрослых.

Единственным способом оценки достоверности результата расчетов по нейросети является нейроконсилиум. Для использования данной технологии несколько сетей обучаются решению одной и той же задачи, в качестве ответа можно выбрать среднее значение полученных результатов, а по отклонению ответов от среднего оценивается достоверность итогового результата. Для прогнозирования показателя заболеваемости населения г. Братска нами применен консилиум, состоящий из 15 нейронных сетей, которые обучались независимо. При этом результат прогнозирования определялся как среднее значение от результатов прогнозирования каждой из сетей консилиума. На основе накопленной за 10 лет статистической информации проведено обучение консилиумов нейронных сетей для предсказания заболеваемости населения при определенных значениях параметров. На основе разработанной нейронной модели составлен прогноз заболеваемости детей, подростков и взрослых при определенных значениях исходных параметров: Т= —3,5 °С; W. = 2,8 специалиста на 1 000 населения; V. = 2,6 м/с; Р = 15,0 усл. ед.; С1 = 8 баллов. Результаты прогнозных расчетов «нейроконсилиума» представлены в табл. 1.

Для верификации полученных результатов мы выбрали тестовый период, соответствующий по своим параметрам сценарной задаче. Наиболее близким оказались годы 1999—2001, когда при стабильном состоянии климатических и социальных факторов регистрировались относительно низкие (для Братска) уровни загрязнения атмосферного воздуха (Р = 12—16). Так как известно, что заболеваемость является весьма инерционным показателем и зачастую не реагирует на изменение условий в течение изучаемого календарного года, в качестве отклика учитывали средний показатель заболеваемости за три года по каждой возрастной группе. Средние расчетные данные составили: у детей 1 554 (95 % ДИ 1 287—1 827) случая на 1 000 человек (%о), у подростков — 1 266 (95 % ДИ 1 218—1 314) %, у взрослых 1 020 (95 % ДИ 787—1 253) %. Сравнивая расчетные данные и фактические уровни забо-

леваемости установили, что фактический показатель у детей на 18 % превысил верхний предел расчетной заболеваемости, у взрослых — на 17 %, различия средних статистически незначимы (р > 0,05). Наименее удовлетворительный результат получен по группе подростков, расчетный показатель на 51 % ниже, чем фактический (различие статистически значимо р < 0,05). По нашему мнению, такая низкая сходимость данных может быть связана с большей значимостью для формирования заболеваемости подросткового населения неучтенных факторов (либо учтенных с большой погрешностью).

Для успешного управления сложными системами традиционно применяют математические и информационные технологии, позволяющие на моделях рассмотреть возможные последствия от внедрения управляющих решения [3]. В связи с вышеуказанным представляла интерес задача определения оптимального уровня объясняющих переменных для достижения целевых показателей заболеваемости. В качестве целевых индикаторов любой социальной программы могут служить фоновые уровни заболеваемости в регионе, для Иркутской области это: у детей 1 300 %; у подростков 1 100; у взрослых -1 200. При расчетах были учтены вероятные пределы вариабельности предикторов, основанные на эмпирических данных наблюдений за 30-летний период. Граничными значениями по природным условиям приняли: температура 0 ...-3,5 °С, скорость ветра

1,5—2,8 м/с. Для управляемых факторов в качестве лимитирующих заложили уровни, обеспечивающие приемлемое качество жизни: обеспеченность врачами на уровне несколько ниже и выше среднего по РФ и Иркутской области (2,0—3,0 на 1 000 населения), социальные условия предполагают либо отсутствие дополнительных вложений и сохранение существующего образа жизни большинства населения (это оценивалось в 6 баллов), либо улучшение социальных условий и внедрение здорового образа жизни (10 баллов). Нижняя граница интегрального показателя загрязнения атмосферного воздуха выбрана на уровне допустимого (Р = 2—4, для количества учитываемых в городе веществ), верхним пределом мы посчитали Р = 15 (высокое загрязнение).

Таблица 1

Результаты расчетов заболеваемости населения г. Братска, полученные с помощью нейронных сетей

Количество слоев нейронной сети Количество нейронов в каждом слое Дети Подростки Взрослые

Заболеваемость, % Время расчета, сек Заболеваемость, % Время расчета, сек. Заболеваемость, % Время расчета, сек.

1 5 1762,2 420 1377,3 420 1039,2 420

1 10 1638,4 420 1303,9 420 1131,1 420

1 20 1611,7 420 1275,8 420 1080,2 420

2 5/5 1576,7 401 1327,6 403 833,0 468

2 10/10 1614,7 420 1259,4 420 1067,2 420

2 20/20* 368,3 420 277,2 420 277,3 423

3 5/5/5 1618,7 386 1296,1 407 869,1 402

3 10/10/10 1154,5 420 957,3 420 991,5 420

3 20/20/20* 108,4 430 97,1 444 97,9 443

Примечание. * — расчетная величина неудовлетворительно аппроксимирует фактические данные.

Результаты прогноза представлены в табл. 2. Установлено, что целевые показатели заболеваемости в значительной степени зависят от загрязнения окружающей среды и достижимы даже при более суровых погодных условиях. Для снижения заболеваемости детского населения очень важно повысить медицинское обеспечение и снизить загрязнение атмосферного воздуха. А для подростков в первую очередь необходимо улучшить социальные условия. Интересным представляется расчетный показатель загрязнения атмосферного воздуха, определенный как «целевой» — от 7 усл. ед. для взрослых до 10 у подростков, то есть уровень, оцениваемый гигиенистами как «среднее загрязнение». Необходимо отметить, что для города, на территории которого расположено более 30 промышленных предприятий (в том числе алюминиевый завод, объекты теплоэнергетики, лесоперерабатывающей промышленности), снижение уровня контаминации воздушного бассейна до указанного уровня реально возможно при внедрении ряда природоохранных мероприятий. Полученные результаты расчетов послужили основой для формирования предложений, которые были учтены при разработке муниципальной программы по сохранению окружающей среды и здоровья населения города на 2008—2012 годы.

Таблица 2

Результаты расчетов по достижению оптимальных уровней заболеваемости населения г. Братска

Оптимальный уровень

Параметр Дети Под- ростки Взрос- лые

Среднегодовая температура, °С -3,Б -3,Б -3,Б

Обеспеченность медицинскими работниками, %0 3,Б 2,8 2,8

Скорость ветра, м/с 2,6 2,6 2,6

Социальные условия, баллы 7,Б 9,Б 4

Показатель загрязнения атмос- 9 10 7

ферного воздуха, усл. ед.

Заболеваемость (М±т), % 1312±40 1090±20 998±36

Считаем необходимым обратить внимание на то, что расчеты по нейросетям с 20 нейронами в каждом слое дают наименее точный результат. Вероятно, это связано с относительно коротким вариационным рядом [9]. В связи с указанным полагаем некорректным использование данной структуры сети при эпидемиологических исследованиях по материалам годовых отчетов на временных промежутках менее 20 лет. Хотелось бы отметить, что для оценки влияния факторов на отдельные субпопуляции представленные модели могут быть расширены. Целесообразно учитывать изменения производственных условий при изучении формирования заболеваемости взрослого населения, для значительной доли которого характерно комплексное влияние химического фактора [5, 6]. Для проверки эффективности созданной модели необходимо провести ряд численных экспериментов, позволяющих более детально изучить ее особенности, адаптировать для конкретных условий и разработать на ее основе кратко- и среднесрочные ситуационные прогнозы.

Таким образом, математическая модель системы «заболеваемость — факторы окружающей среды», построенная с помощью нейронных сетей на временном отрезке 16 лет, позволяет получить достаточно точные прогнозы и разработать на их основе управляющие решения по минимизации рисков для здоровья населения. Применение нейросете-вых методов при исследовании сложных медикобиологических систем возможно при решении задач классификации, минимизации числа необходимых параметров, прогнозирования. Указанные задачи постоянно возникают при проведении дифференциальной диагностики в клинической медицине и кластеризации территорий для ранжирования медико-экологической ситуации в рамках решения задач социально-гигиенического мониторинга. Перспективным представляется также полученный нами опыт нормирования возмущающего влияния для достижения целевых показателей популяционного здоровья, которые приобретают большое значение при формировании программ, направленных на улучшение качества природной и социальной среды и сохранение здоровья населения.

Список литературы

1. Берлянд М. Е. Прогноз и регулирование загрязнения атмосферы / М. Е. Берлянд. — Л., 1985. — 271 с.

2. Горбань А. Н. Нейронные сети на персональном компьютере / А. Н. Горбань, Д. А. Россиев. — Новосибирск : Наука, 1996. - 276 с.

3. Моделирование социо-эколого-экономической системы региона / под ред. В. И. Гурмана, Е. В. Рюминой.

- М. : Наука, 2001. - 175 с.

4. Пинигин М. А. Задачи гигиены атмосферного воздуха и пути их решения на ближайшую перспективу / М. А. Пинигин // Гигиена и санитария. — 2000. — № 1.

- С. 3-8.

5. Профессиональный риск для здоровья работников : руководство / под ред. Н. Ф. Измерова, Э. И. Денисова.

- М. : Тровант, 2003. - 392 с.

6. Соколова Л. А. Оценка экологических факторов при установлении профессионального риска для здоровья трудоспособного населения / Л. А. Соколова // Экология человека. - 2009. - № 2. - С. 17-21.

7. Шитиков В. К. Нейросетевые методы оценки качества поверхностных вод по гидробиологическим показателям / В. К. Шитиков, Т. Д. Зинченко, Л. В. Го-ловатюк // Изв. СамНЦ РАН. - 2002. - Т. 4, № 2.

- С. 280-289.

8. Fletcher R. Р. Клиническая эпидемиология. Основы доказательной медицины : пер. с англ. / R. Fletcher, S. Fletcher, E. Vagner. - М., 1998. - 352 с.

9. Hill B. A. Основы медицинской статистики : пер. с англ. / B. A. Hill. - М., 1958. - 306 с.

10. Domany E. Models of Neural Networks II: Temporal Aspects of Coding and Information Processing in Biological Systems / E. Domany, J. L. Van Hemmen, K. Schulten // Physics of Neural Networks. - 2005. - Vol. 325. -Р 92-97.

11. Kukkonen Y. Мониторинг качества атмосферного воздуха. Критерии ВОЗ : пер. с англ. / Y. Kukkonen -Женева, 2005. - С. 224-248.

б

12. Moussiopoulos N. Ambient air quality, pollutant dispersion and transport models (http://www.eea.eu.int/ Copengagen. European environmental agency. Topic report N 19 / aug. 1999.

13. Suykens J. A. K Artificial Neural Networks for Modelling and Control of Non-Linear Systems / J. A. K. Suykens, J. P. L. Vandewalle, B. L. R. De Moor. — MacMillan College Publishing Co., New York, 2004. - P 2412-2423.

experience in using the artificial neural

NETWORKS IN PROGNOSING THE POPULATION MORBIDITY (ON AN ExAMPLE OF BRATSk)

Efimova N. V., *Gornov A. Yu.,*Zarodnyuk T. S.

Angarsk Branch of East-Siberian Scientific Center of

Human Ecology, Siberian Division of the Russian Academy

of Medical Sciences -Institute of Occupational Health &

Human Ecology, Angarsk, Russia

*Institute for System Dynamics and Control Theory,

Siberian Branch, Russian Academy of Sciences, Irkutsk,

Russia

The materials on the development of a mathematical model using the neural networks taking into account the factors of the natural, technogenic and social environments with may explain the variables as well as the model adequacy control compared with the results of the numeral experiments on an example of town Bratsk are represented in this paper. The optimal levels of air pollution with allow to provide the background morbidity level among the different age groups of the population have been offered.

Key words: neural networks, factors, air pollution, prognosis, morbidity.

Контактная информация:

Ефимова Наталья Васильевна - доктор медицинских наук, зав. лабораторией медицинской экологии Ангарского филиала УРАМН Восточно-Сибирского научного центра экологии человека СО РАМН

Адрес: 665827, г. Ангарск-27, а/я 1170 Тел. 8 (3955)55-40-85, факс 8(3955)55-40-77 E-mail: [email protected]

Статья поступила 06.05.2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.