УДК 519.688
Е.В. Прокопенко
ИССЛЕДОВАНИЕ МЕДИЦИНСКИХ СТАТИСТИЧЕСКИХ ДАННЫХ ПРИ ПОМОЩИ В-СПЛАЙНОВЫХ КРИВЫХ И ПОВЕРХНОСТЕЙ
Типичная постановка задач математической статистики заключается в оценке по данной выборке числовых характеристик случайной величины и объявлении их характеристиками всей совокупности. Для наглядности представления статистического распределения используют графическое изображение вариационных рядов - полигон, гистограмма, кумулята. При этом, если рассматриваются двумерные случайные величины (х,у), одна из компонент, например х, выступает в качестве независимой переменной, а вторая переменная у - функции от х. Для изучения такой зависимости используют метод регрессионного анализа. Выбор уравнения регрессии производится на основе опыта предыдущих исследований, теоретических и эмпирических соображений (во всех случаях вид кривой, иллюстрирующей зависи-мостьу=у(х), предполагается заранее известным).
На практике зависимость между параметрами х и у не обязательно является одной и той же на разных промежутках изменения независимой переменной. Поэтому кривая у=у(х) может и не иметь явного задания для всех значений х из заданного промежутка.
Естественно предположить, что в этом случае мы имеем дело с составной кривой, определяемой массивом точек {Р(хиу)}. Тогда задачу можно сформулировать так: по заданному множеству вершин Р={Р0, Р, ■■-,Рт} с учетом их нумерации построить гладкую кривую, которая, плавно изменяясь, последовательно проходила бы вблизи этих вершин и удовлетворяла некоторым дополнительным условиям.
Как известно, для решения поставленной задачи весьма удобно привлечь кривые, составленные из элементарных фрагментов. (желательно, чтобы эти фрагменты строились по единой схеме). Такие составные кривые принято называть сплайнами кривыми.
Наибольшее распространение в приложениях получили методы конструирования составных сплайновых кривых, в которых используются кубические многочлены (В - сплайновые кривые)..
В качестве примера методики обработки статистических данных рассмотрим массив данных, полученных при исследовании наркозависимых в
ГУЗ «Прокопьевский наркологический диспансер».
В силу ряда факторов наркоманию невозможно распознать быстро:
- обычно интоксикация длится недолго (порядка нескольких часов). Это позволяет наркоману скрывать прием наркотика, просто избегая попадаться на глаза другим людям. Чтобы обнаружить текущее состояние интоксикации (прием наркотического средства с последующей интоксикацией), необходимо присутствовать непосредственно при употреблении наркотика или наблюдать период сразу после него, чтобы иметь возможность заметить индивидуальные признаки наркотического опьянения;
- симптомы регулярного злоупотребления наркотиком поначалу очень малозаметны;
- наркоманы часто скрывают, отрицают или преуменьшают прием наркотических средств;
- многие психические или социальные проблемы, связанные с потреблением наркотиков, можно легко спутать с проявлениями подросткового переходного периода или психических заболеваний;
- люди, несущие ответственность за детей (например, родители и учителя), часто могут считать, что проще закрыть глаза на злоупотребление наркотиками, чем признать существование проблемы рядом с собой.
На ранних стадиях развития наркомании периоды интоксикации непродолжительны и редки (рис.1). Их вполне можно и не заметить.
Связанное с приемом наркотиков поведение можно наблюдать только в течение фазы подготовки Р (например, во время подготовки героина для инъекции) или в течение фазы приема наркотика А (например, в момент самого укола). Обе фазы кратковременны (измеряются минутами) и, как правило, протекают в уединении.
Во время фазы интоксикации 1 или фазы по-стинтоксикационной астении Н можно заметить, а иногда и исследовать изменение поведения, рефлексов (например, реакцию зрачков на свет) и физиологических показателей (например, частоты пульса).
Эти фазы длятся часами (а в случае с некото
наркотиками и дольше). Наркотики или их метаболиты (продукты превращений в организме) можно обнаружить в биологических жидкостях на протяжении длительной фазы М, как правило, в течение нескольких дней (а иногда и больше недели, как в случае с метаболитами каннабиса) после окончания интоксикации.
После продолжительного периода многократного введения наркотика могут встречаться разнообразные преходящие расстройства S, такие как утомление или ухудшение памяти. Их связь с потреблением наркотиков зачастую упускается из виду.
В поздних стадиях наркомании возможно появление хронических расстройств или физических признаков В, делающих потребителя наркотиков легко узнаваемым, «типичным наркоманом», даже когда он трезв. Это ясно видно, например, по нарушениям плавности движений у потребителей стимуляторов ЦНС, делающих их «дерганными». Некоторые из этих физических признаков могут остаться на всю жизнь. Злоупотребление наркотиками может стать причиной ряда социальных проблем:
- нарушений дисциплины и асоциального поведения;
- потери духа сплоченности общества;
- склонности к конфликтам;
- предрасположенности ко лжи, нарушению обещаний и т. д.;
- воровства, насилия и шантажа.
Существует несколько видов наркомании - в
зависимости от употребляемого наркотика:
- морфиномания (морфинизм): опиатная наркомания;
- наркомания, вызванная приемом препаратов конопли;
- кокаиновая наркомания;
- наркомания амфетаминового типа (стимуля-торная наркомания);
- эфедроновая (меткатиноновая) наркомания;
- наркомании, вызванные галлюциногенами и психоделиками;
- барбитуратная наркомания вследствие приема барбитуратов;
- полинаркомании (употребление нескольких видов наркотиков).
По данным за 2003 - 2007 гг., по г. Кемерово (так же по Кемеровской области) число наркоза-висимых, состоящих на учете, составляет (на 10 тыс населения) (.табл.1). Эти данные только по тем, кто официально обратился в лечебное наркологическое учреждение за помощью, с постановкой на учет.
Огромен процент тех, кто не обращался, не успел или не собирается говорить о своей болезни. Также большое количество пациентов, находится под наблюдением.
Нами предлагается методика обработки медико-статистических данных наркозависимых боль-
ных на основе сплайнов, построения кривой, характеризующей наркологический анамнез пациента. Точной количественной зависимости между временем употребления наркотика, объемом употребляемой дозы и «качеством жизни» наркозави-симого мы не знаем. Однако медикам известно о существовании такой зависимости. Если ставить вопрос о графическом изображении этой зависимости, то речь идет не о задаче построения аппроксимирующей кривой для данного массива статистических данных, а о задаче построения сглаживающей кривой для данного массива статистических данных. Так как данный массив статистических данных содержит достаточно много точек, удобно использовать сплайновый подход к построению сглаживающей кривой
Таблица 1. Статистические данные по Кемеровской области 2003-2007гг.
2003 2004 2005 2006 2007
Взрослое население:
3839 2859 3176 2922 2492
Из них впервые взятые на учет
391 195 144 149 513
Подростки:
Наконец отчетного года
58 60 36 26 15
Из них впервые взятые на учет (26с)
32 44 19 17 16
Из них повторно:
40,9% 29,1% 46,9% 34,9%
Анонимное лечение:
769 425 530 320 837
Из них сняты с выздоровлением
12 20 34 40
Из них сняты со смертью
1068 464 357 324
Для нашего исследования будем рассматривать данные по двум группам пациентов:
А) употребление «среднего» по действию наркотика (срок употребления до 8-13 лет), интересуемые нас периоды - это:
- заболевание менее 3 лет;
- заболевание от 3 до 5 лет;
- заболевание от 5 до 8 лет;
- «летальная» группа» - продолжительность болезни свыше 8 лет.
Б) употребление «сильного» по действию наркотика (срок употребления до 2-4 лет), интересуемые нас периоды - это:
- заболевание менее 0,5 года;
- заболевание от 0,5 до 1 года;
- заболевание от 1 до 2 лет;
- «летальная» группа» - продолжительность болезни свыше 2 лет.
По оси ОХ будем откладывать срок употребления наркотика: 1 - это первый год употребления наркотиков, 2 - два года употребления наркотиков и т. По оси ОУ объем: 1 - один «кубик» нарко-
тического средства, что равно 1 мл, 2 - два «кубика» наркотического средства (2 мл) и т.д. По оси 02 время действия (час). Тогда рассматривая массив статистических данных, можно интерпретировать как массив точек в трех- или двухмерном пространстве.
Рассмотрим массив
г0 0,3 0,3 1 1.4 1,6 4
Р0= 0 0,3 0,7 0,35 0,75 0,65
,0 2 2 2 1.7 1.7 ,
2.3 2.75 3 3.2 3.75 ''
0,5 0,85 0,75 0,8 1,25 1,4
1.76 1.5 1.5 1 1.1 0.9
^4 4,5
1,35 1,6
5
1,7
0.45 0.7 0.45 1
/ 6,5 7 7,25
3 3,3 3,8
0.7 0.35 0.55
\
9 10 10,6
5,5 6 6,6
0.25 0.45 0.15
5.25 5.75 2 2,2 2,7
0.75 0.9 7,6 8
4 4,35
0.45 0.35
/
8,3 ^ 5
0.55
11 11,5 12 13
3,5
О
10
о
(1)
По этому массиву можно построить пространственную В-сплайновую кривую, определить и
узнать её каноническую модель [1,2]:
1
Рк : 1
1
V.
/ 1 1
Iі 1
Iі 1
1
- 1
1
1
1 1 1 п
- 1 1 1
Iі Iі 1 -
(2)
Эту кривую назовем кривой анамнеза пациента (нормальные условия жизни). По графикам трудно отследить зависимости, влияющие на жизнь пациента. Заметно лишь, что кривые «повторяют» дугу полукубической параболы. Исследуя канонические модели фрагментов составной кривой, построенной по данному массиву, видим, что в некоторых точках канонический тип кривой не определяется, что соответствует периоду жизни по определенному участку массива. Например, первый момент неопределенности соответствует массиву:
(1.4 1,6 2 2.3 ^
Р =
0,75 0,65 0,5 0,85
1.7 1.7 1.76 1.5
(3)
Рис. 4. Кривая критического момента
Этому массиву соответствует график (рис.4).
В ближней области массив и график имеют следующий вид:
'0,3 0,8 1 1.4
0,35 | 0,75 2 1.7
Р =
0,3 0,7 2 2
(2
,0,5
^ 1.76
1,6 о, б:
1.7
3
0,3 1
3.2
1,25
1.1
(4)
Рис. 2. Плоская кривая анамнеза
2.3 2.75
0,35 | 0,75 1.5 1.5
На первом этапе мы строим В-сплайновую кривую, находим каноническую модель. При рассмотрении данных на конкретных примерах, выяснилось, что каждому массиву, для которого канонический тип соответствующей кривой не определяется, соответствует некий «критический» период течения болезни. Таким образом, наличие таких массивов в массиве данных является своеобразным индикатором состояния здоровья больного.
Рис. 5. Кривая периода анамнеза Окончательный анализ и рекомендации долж-
ны давать медицинские работники. На практике данные были проверены на группе из 250 человек, в 77% «критические» периоды совпали на 82% [3].
Группа Б.
Наряду со «слабыми» наркотиками, используемыми большей частью наркозависимыми, используются и «сильные» средства. По статистике продолжительности жизни наркомана использующего данные препараты, составляет от 2 до 4 лет (± 0,5 года в зависимости от условий жизни). Степень зависимости от него гораздо выше. За координатные оси берем те же значения.
Рассматривая такую же классификацию, как в случае А, получаем, что наши выводы верны и в этом случае. Часто наркозависимые комбинируют разные вещества, этот момент также можно проклассифицировать тем же способом.
Рис. 6. Рабочая форма программы
СПИСОК ЛИТЕРАТУРЫ
1. Прокопенко, Е.В. Канонические модели кубически параметризованных кривых [электр]: Исследовано в России / Е.В. Прокопенко. - Режим доступа: http://zhumal.ape.relam.ru/articles/2008/029.pdf. - С. 329-337
2. Прокопенко, Е.В. Канонические модели сплайновых кривых в медицинских исследованиях [текст]: МАК-2009: тезисы двенадцатой региональной конференции по математике/ Е.В. Прокопенко. - Барнаул, 2009.
- С. 106-108.
3. Прокопенко, Е.В. Компьютерный комплекс хранения и обработки диагностической информации в наркологическом диспансере [текст]: тезисы тринадцатой региональной конференции по математике МАК-2010/ Е.В. Прокопенко. - Барнаул, 2010. - С. 106-107.
□ Автор статьи:
Прокопенко Евгения Викторовна, канд.физ.мат.наук, доцент каф. вычислительной техники и информационных технологий, КузГТУ e mail: [email protected]
УДК 62-5
А.П. Лушавин
ЧИСЛЕННЫЕ ДАННЫЕ И АНАЛИЗ ПРИМЕНЕНИЯ РАЗЛИЧНЫХ МЕТОДОВ ПРОГНОЗИРОВАНИЯ ВРЕМЕННОГО РЯДА
Повышение эффективности обработки ин- ленного и как следствие экономического потен-
формации является на сегодняшний момент вре- циала страны. В настоящее время инновационный
мени одной из главных и перспективных задач в путь развития отечественной промышленности
области развития различных областей промыш- является одним из ключевых направлений россий-
90
А.П. Лушавин
ской экономической политики. Успешность реализации этого процесса будет зависеть от темпов развития прогрессивных секторов промышленности в рамках общего повышения эффективности во всех секторах общественного производства. При этом изучение прогностических возможностей временных рядов является важной составляющей инструментария математического моделирования и прогнозирования.
Выполним сравнительный анализ описанных методов прогнозирования. В качестве объекта для эксперимента возьмём ряд отсчётов температур химического процесса [1, ряд С ]. Первоначально этот ряд состоит из 226 наблюдений, выполненных через одну минуту. Сравнительные данные по различным видам прогнозирования приведены ниже в табл. 1. Для получения более объективной сравнительной оценки в качестве “классических” методов прогнозирования используются метод АШМА и метод экспоненциального сглаживания и прогнозирования, реализованные в системе 8ТАТ18Т1СА 8.0. Метод экспоненциального сглаживания проще, чем АШ1МА, но тем не менее иногда позволяет строить приемлемые прогнозы временных рядов [2, с. 115]. Суть его в том, что исходный ряд сглаживается с некоторыми экспоненциальными весами, что в результате даёт новый ряд с меньшим уровнем шума, поведение которого можно спрогнозировать. Данные по времени вычисления прогноза даются только для нейронных сетей, т.к. вычисление прогноза методами
ARIMA и экспоненциального сглаживания в системе STATISTICA 8.0 осуществляется практически мгновенно. Прогноз вычисляется на 12 значений вперёд. Тестирование производилось на ПК под управлением OC Windows XP в системе Statis-tica 8.0. Аппаратная часть ПК: AMD Athlon™ 64x2 Dual Core Processor 5200+2,71ГГц, 2ГБ ОЗУ. Обучение гибридной нейронной сети на нечёткой логике проводилось на том же ПК в системе MATLAB 6.1 Из анализа табличных данных хорошо видно, что существенное улучшение качества прогноза временного ряда достигается при применении гибридной системы MLP-ANFIS, к тому же этот вариант обнаруживает значительный выигрыш во времени по сравнению с “чистым” нейро-сетевым вариантом (время, затрачиваемое на обучение такой сети, меньше в 6,5 раз!, что может существенно влиять на оперативность составления прогноза). К тому же в гибридной сети были взяты 150 входных функций и сравнительно небольшое количество эпох обучения - 50. Вариации этих параметров могут так же влиять на качество прогнозирования, если при их изменении в большую сторону не является критическим время обучения такой сети.
Таким образом, наглядно продемонстрированы вариации среднеквадратической ошибки (SSЕ) и снижении временной сложности при применении гибридной нейронной сети (MLP-ANFIS), что даёт предположении о перспективности развития данного вида исследований.
Таблица 1. Сравнительные характеристики различных способов прогнозирования
Метод Время вычисления Ошибка SSE % к наивному прогнозу
“Наивный” - 1,6953 100%
Экспоненциальное Сглаживание (без тренда) - 1,9835 117%
Экспоненциальное сглаживание (линейный тренд) - 2,8859 170%
Экспоненциальное сглаживание (экспоненциальный тренд) 2,7840 164%
Экспоненциальное сглаживание (демпфированный тренд) 2,0207 119,2%
ARIMA - 2,3369 137,85%
MLP (62-19-1) 225 с. 0,2504 14,77%
MLP-ANFIS(150 функций, 50 эпох) 36 с. 0,2175 12,83%
СПИСОК ЛИТЕРАТУРЫ
1. Дж.Бокс, Г.Дженкинс. Анализ временных рядов. Прогноз и управление. Вып. 1, пер. с англ. - M.: Мир, 1974, - 406 с.:
2. Боровиков В.П. Прогнозирование в системе STATIATICA в среде Windows: Основы теории и интенсивная практика на компьютере :Учеб. пособие / В.П. Боровиков, Г.И. Ивченко. - 2 изд., перераб. и доп. - М.: Финансы и статистика, 2006. - 386 с.: ил.
□ Автор статьи:
Лушавин Андрей Петрович,
аспирант. каф. вычислительной техники (Самарский гос. техн.
университет). e mail: [email protected]