ХИМИЯ
Вестн. Ом. ун-та. 2012. № 4. С. 114-120.
УДК 616.83-072-036.838-053.36:518 А.Н. Налобина
ПРИМЕНЕНИЕ МЕТОДОВ DATA MINING ДЛЯ АНАЛИЗА ФУНКЦИОНАЛЬНОГО СОСТОЯНИЯ ДЕТЕЙ ПЕРВОГО ГОДА ЖИЗНИ И ОПРЕДЕЛЕНИЯ ПРЕДИКТОРОВ ЭФФЕКТИВНОСТИ РЕАБИЛИТАЦИОННЫХ МЕРОПРИЯТИЙ
Приведены результаты многолетних исследований функционального состояния и адаптационных реакций у здоровых детей первого года жизни и детей с перинатальным поражением центральной нервной системы. Приводятся данные о необходимости и обоснованности применения методов Data Mining для работы с многомерными данными большого размера. В статье описаны результаты использования факторного, кластерного, дискриминантного анализов для выявления информационных критериев, а также классификационное дерево (дерево решений) для определения предикторов эффективности курса реабилитации.
Ключевые слова: методы Data Mining, дети первого года жизни, информационный критерий, предикторы успешности, реабилитация.
Введение
В современных научных исследованиях одним из основных способов для получения уникальной информации, которую невозможно получить другим путем, в том числе и экспериментальным, является применеие методов Data Mining. Под методами Data Mining подразумеваются любые методы, позволяющие «нащупать» структуру в данных, особенно в данных большого размера, провести их классификацию, выявить взаимосвязи [1-3]. Результатом анализа является статистическая модель, которая позволяет существенно прояснить сложившуюся ситуацию и определить стратегию принятия решения. Примером может служить проблема разработки эффективных восстановительных технологий в раннем постнаталь-ном периоде и определения критериев успешности реабилитации у детей первого года жизни с перинатальным поражением ЦНС.
Оценка функционального состояния ребенка базируется на тщательном анализе анамнестических сведений, клинических симптомов и синдромов, результатов дополнительных исследований и представляет совокупность огромного количества показателей, отражающих состояния различных органов и систем организма. Кроме многомерности и большого размера используемые данные отличаются тем, что переменные в них - совершенно разных типов (качественные, балльные, счетные, непрерывные), причем даже некоторые «типичные» для статистики непрерывные числовые переменные не подчиняются заранее известным законам распределения. То есть к ним не могут быть применимы параметрические методы.
Таким образом, целью настоящего исследования является применение многомерных статистических методов для выявления индивидуальнотипологических особенностей, стратификации технологии физической реабилитации и определения критериев эффективности восстановительных мероприятий у детей первого года жизни с перинатальным поражением ЦНС.
Материалы и методы
Нами проведена серия медицико-биологических исследований, направленных на изучение функционального состояния детей первого года жизни.
© А.Н. Налобина, 2012
В качестве стандартных были выбраны условия: оптимальная температура 24-26 °С,
1-2-минутная адаптация ребенка при симметричном освещении. Были использованы методы, представленные в таблице 1. Наряду с традиционными схемами оценки неврологического статуса детей до года [4] нами были проведены дополнительные исследования, позволяющие оценить функциональные возможности.
1. Исследование двигательного развития ребенка осуществлялось по общим движениям и мелкой моторике. Общие движения являются традиционными в оценке моторики ребенка. Для каждого возраста характерен свой набор двигательных умений и навыков, который по мере развития ребенка должен изменяться количественно (от 9 до 12 баллов) и качественно. Движения руки младенца имеют особенно большое значение, так как оказывают огромное влияние на развитие высшей нервной деятельности. И.А. Скворцовым (2000 г.) был определен должный объем движений руки, на их основе нами были разработаны функциональные тесты, позволяющие оценить состояние мелкой моторики.
2. Оценка сенсорных функций проводилась отдельно по трем направлениям: состояние зрительной системы, слуховой сенсорной системы; устойчивость вестибулярного аппарата.
3. Оценка вегетативных функций осуществлялась с помощью компьютерной системы «Поли-Спектр» (фирма «Нейрософт»). Анализ вариабельности сердечного ритма проводился временными и спектральным методами [5]. Оценивались следующие показатели: ТР - суммарная активность регуляторных механизмов по среднеквадратичному отклонению; %УЬК - относительное значение в процентах очень низкочастотных колебаний (0,04-0,015 Гц); %ЬК - относительное значение в процентах низкочастотных колебаний (0,15-0,04Гц); %ИК - от-
Методы оценки функционального
носительное значение в процентах высокочастотных колебаний (0,4-0,15 Гц); 8 - площадь скатерограммы (вычисляли по формуле площади эллипса: 8 = рЧЬЧш/4); Ь - длина основного облака (длинная ось эллипса); Ш - ширина скатерограммы (перпендикуляр к длинной оси, проведенный через ее середину); мода (Мо) - наиболее часто встречающиеся значения Ы-Ы, указывающие на доминирующий уровень функционирования синусового узла; вариационный размах (ВР) - разница между максимальными и минимальными значениями интервалов Ы-Ы; амплитуда моды (АМо) - число кардиоинтервалов (в %), соответствующее диапазону моды; индекс напряжения регуляторных систем (ИН = АМо/2ВР х Мо), указывающий на степень централизации управления сердечным ритмом.
4. Для оценки адаптации сердечно-сосудистой и нервной систем к физической нагрузке нами разработаны и использованы следующие функциональные пробы:
1-я функциональная проба заключалась в активном повороте ребенка на живот;
2-я проводилась по методике пассивной ортостатической пробы.
Для статистических расчетов и построения графиков использовалась программа, разработанная в среде свободно распространяемого продукта Ы (среда и язык программирования для анализа данных), доступного на сайте шшш.г-ргсуес^о^. Применялись следующие методы анализа данных: дискриминантный анализ, метод главных компонент (МГК) с варимакс-вра-щением, иерархическая кластеризация переменных по методу объединения ближайших соседей, классификационное дерево, причем МГК и иерархическая кластеризация переменных использовались только для визуализации и выяснения структуры данных [2; 3].
Таблица 1
статуса детей первого года жизни
Система Показатели Методы исследования Оборудование/Приборы!
Двигательная Моторный коэффициент, общие движения, мелкая моторика, крупная моторика Функциональное тестирование -
Сенсорная Зрительное, слуховое сосредоточение, зрительномоторная координация, слуховая ориентировочная реакция, вестибулярная устойчивость Функциональное тестирование Электронный секундомер
Нервная Тонус мышц, безусловно-рефлекторная деятельность Общеклинические -
Вегетативная Суммарная активность регуляторных механизмов (ТР); доли очень низкочастотных колебаний (У1_Р), низкочастотных колебаний (и) и высокочастотных колебаний (ИР); площадь скатерограммы (Б); длина основного облака (1); ширина скатерограммы (Ш); мода (Мо); вариационный размах (ВР); амплитуда моды (АМо); индекс напряжения (ИН) Кардиоритмография Компьютерная система «Поли-Спектр» (фирма «Нейрософт»)
Физическое развитие Рост, масса тела, окружность грудной клетки, окружность головы Антропометрия Весы, ростомер горизонтальный, сантиметровая лента
Результаты исследования и их обсуждение
Вопрос о внутренней неоднородности здоровой популяции и имеющихся типологических особенностях организма, связанных с различным уровнем биологического развития, поднимается давно [4; 5]. При анализе полученных данных мы также обратили внимание на выраженный разброс показателей, указывающий на наличие индивидуально-типологических особенностей.
Первым шагом этапа моделирования был отбор тех переменных из первоначального набора, которые вносят наибольший вклад в суммарную дисперсию данных. Самым распространенным методом является МГК. Метод главных компонент - это один из способов понижения размерности, состоящий в переходе к новому ортогональному базису, оси которого ориентированы по направлениям максимальной дисперсии набора входных данных. Вдоль первой оси нового базиса дисперсия максимальна, вторая ось максимизирует дисперсию при условии ортогональности первой оси и т. д., последняя ось имеет минимальную дисперсию из всех возможных. Такое преобразование позволяет понижать информацию путем отбрасывания координат, соответствующих направлениям с минимальной дисперсией. Предполагается, что если нам надо отказаться от одного из базисных векторов, то лучше, если это будет тот вектор, вдоль которого набор входных данных меняется менее значительно.
Еще одним вариантом работы с матрицей данных является кластерный анализ. Существует множество его разновидностей, причем наиболее употребительными являются иерархические методы, которые производят деревья классификации или дендрограммы. Иерархическая кластеризация переменных, представленная на рисунке 1, дает представление о степени близости (взаимозаменяемости) переменных между собой. Из рисунка видно, что наиболее удалены, а значит, незаменимы другими переменными общая мощность спектра (ТР) и индекс напряжения (ИН).
Результаты применения факторного анализа и иеарархической кластеризации переменных по методу объединения ближайших соседей обозначили информационные критерии, позволяющие выявить индивидуально-типологические особенности в исследуемой группе детей.
В соответствии с полученными информационными критериями нами были выделены три типа вегетативной регуляции сердечного ритма у детей первого года жизни. Показатели общей мощности спектра и индекса напряжения, соответствующие оптимальному функционированию регуляторных систем организма, указывали на умеренное преобладание центральной регуляции сердечного ритма (УЦТ). Высокие значения индекса напряжения и низкие значения об-
щей мощности спектра свидетельствовали о выраженном преобладании центральной регуляции сердечного ритма (ВЦТ). Высокие значениями общей мощности спектра и низкие значения индекса напряжения соответствовали автономному типу (АТ) (табл. 2).
Дети с выраженным преобладании центральной регуляции сердечного ритма имели достоверно высокие (р<0,05) показатели ЧСС, АМо и низкие - Ь, Ш, 8 облака скатте-рограммы, Мо, ВР. У детей с автономным типом наблюдались достоверно низкие показатели Ь, Ш, ВР, низкие - АМО (табл. 3). Сравнительный анализ показателей двигательного развития выявил, что дети с умеренной симпатикотонией имели достоверно высокие (р<0,05) показатели основных движений, моторного коэффициента, крупной моторики, ее статической и динамической составляющих. У детей с относительной ва-готонией выявлены самые низкие показатели двигательного развития (табл. 4).
Однако не стоит забывать, что факторный и кластерный анализы являются всего лишь методами визуализации. Насколько «хороши» получившиеся кластеры или факторы, можно проверить методами классификации с обучением. В зарубежной литературе именно их принято называть методами классификации. Одним из самых простых методов этой группы является дискриминантный анализ. Дискриминантный анализ является статистическим методом, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Он часто используется в медицине для построения классификационных моделей, использующих обучающую выборку. Среди полученных нами измерений, которые предполагалось использовать в качестве первоначального набора переменных для построения модели, имелись как непрерывные, так и категориальные переменные. В этом случае классический дискриминантный анализ неприменим, и следует использовать общий дискриминантный анализ [1; 2].
При отборе из первоначального списка переменных учитывались ограничения, касающиеся их статистических свойств (переменные не должны быть линейными комбинациями других переменных или быть высококоррелированными между собой). При выявлении тех переменных, которые вносят наибольший вклад в значение дискриминантной функции, применяют стандартизованные коэффициенты.
Применение дискриминантного анализа показало, что наибольший вклад в функции 1 и 2 вносят переменные, отражающие реакцию организма на проведение функциональных проб (табл. 5). Использование данных показателей в качестве классификационного признака сделало возможным определение степени тяжести перинательных поражений центральной нервной системы и выделить четыре типа адаптации к физической нагрузке.
6GGG -
4GGG —
2GGG —
G _|
Рис. 1. Иеарархическая кластеризация переменных по методу объединения ближайших соседей:
Мо - мода, ВР - вариационный размах, Тонус в/к - тонус мышц верхних конечностей, Тонус н/к - тонус мышц нижних конечностей, Кр. моторика - крупная моторика, Кач. пр. руки - качественная оценка мелкой моторики правой руки,
Кач. лев. руки - качественная оценка мелкой моторики левой руки, ВУ - вестибулярная устойчивость, % ИР1 - прирост доли ИР-волн в первой функциональной пробе; %ЧСС - процент прироста ЧСС в первой функциональной пробе, ЧСС - частота сердечных сокращений, ЧСС1 - частота сердечных сокращений в ортостатической пробе, МК - моторный коэффициент,
% 1_Р2 - прирост доли и волн в ортостатической пробе, %АМо2 - процент прироста амплитуды моды в ортостатической пробе,
%У1_Р2 - прирост доли У1_Р волн в ортостатической пробе
Таблица 2
Типы вегетативной регуляции сердечного ритма у детей первого года жизни
Тип вегетативной регуляции Показатель 1-2 мес. 3-4 мес. 5-6 мес. 7-9 мес. | 10-12 мес.
УЦТ, п = 67 ТР, mс 1GG1-2GGG 2GGG-4GGG 1GGG-3GGG 2GGG-6GGG
ИН, у.е 5G1-1GGG 4GG-6GG 1GG-2GG
ВЦТ, п = 120 ТР, mс 3GG-1GGG | 3GG-2GGG 3GG-1GGG 3GG-2GGG
ИН, у.е 1GGG-25GG 6GG-2GGG 2GG-15GG
АТ, п = 37 ТР, mс 2GGG-9GGG | 4GGG-6GGG 3GGG-6GGG 6GGG-9GGG
ИН, у.е 1GG-5GG 1GG-4GG 6G-99
Показатели ВСР в зависимости от состояния вегетативного тонуса (Ме (ИР))
Таблица 3
Показатель Умеренное преобладание центральной регуляции сердечного ритма Выраженное преобладание центральной регуляции сердечного ритма Автономный тип
ЧСС, уд/мин 135 (125;142) 143 (135;152)* 135 (131;150)
1, тс 148 (125;142) 108 (93;127)* 195 (169;227)*
Ш, тс 40 (33;46) 30 (24;36)* 38 (30;42)
1_М, у.ед. 3,75 (3,26;4,92) 3,58 (2,99;4,32) 5,53 (4,79;6,81 )*
Б, тс2 8886 (6219;13359) 5245 (3497;6685) * 12138 (7944;14081)
Мо, с 0,44 (0,41;0,48) 0,41 (0,39;4,32)* 0,45 (0,4;0,48)
АМо, % 52 (47;60) 63 (56;77)* 38,4 (35,4;44,8)*
ВР, с 0,2 (0,15;0,29) 0,13 (0,1 ;0,16)* 0,25 (0,21;0,28)*
- достоверность значений р < 0,05 по отношению к показателям ВСР детей с УЦТ.
*
Таблица 4
Показатели сенсомоторного развития детей грудного возраста в зависимости от состояния вегетативного тонуса (Ме (ИР))
Показатель Умеренное преобладание центральной регуляции сердечного ритма Выраженное преобладание центральной регуляции сердечного ритма Автономный тип
Основные движения, балл 10 (6;12) 8 (5;11)* 6 (4;8)*
Моторный коэффициент, % 89 (58;111) 77 (44;100)* 67 (44;83)*
Динамическая составляющая крупной моторики, балл 2 (1;3) 1 (1;3) 1 (1;3)*
Статическая составляющая крупной моторики, балл 2 (1;3) 1 (1;3)* 0 (0;1)*
Крупная моторика, балл 4 (2;6) 3 (2;5)* 2 (1;3)*
* - достоверность значений р < 0,05 по отношению к показателям двигательного развития детей с УЦТ.
Таблица 5 Стандартизованные коэффициенты дискриминантных функций
Переменная Обозначение переменной Функция 1 Функция 2
а0 0,00000 0,00000
ДО х1 0,988 -0,233
%У1_Р х2 -0,266 0,5719
%1_Р х3 -0,433 0,320
ЧСС1 х4 -0,109 -0,397
%|_Р1 х5 0,105 -0,555
%ИР1 х6 -0,128 0,231
12 х7 0,471 0,7531
Ато 2 х8 0,287 0,740
ИН х9 -0,164 0,020
Симпатический тип предполагал увеличение доли ЬК-волн и уменьшении ИК-волн. Смешанный тип характеризовался равновесным увеличением активности обоих отделов ВНС (ЬК- и ИК-волн). К ваготоническому типу были отнесены случаи с повышением активности парасимпатического отдела ВНС (ИК-волн) и уменьшением симпатического (ЬК-волн). Астенический тип обнаруживал снижение активности как симпатической, так парасимпатической нервной регуляции (ЬК- и ИК-волн). В зависимости от типа реакции на физическую нагрузку у детей грудного возраста нами были получены достоверные различия в показателях двигательного развития (табл. 6).
Дети с симпатическим типом адаптации имели высокие показатели развития общих движений, крупной и мелкой моторики. Известно, что срочная адаптация всегда происходит при активном участии симпатического отдела ВНС. Нормальная вегетативная реакция связана с активацией высших регуляторных центров. В связи с вышесказанным, симпатический тип нервной регуляции рассматривался нами как норма. Но этот благоприятный путь адаптации наблюдался не у всех детей.
Смешанный тип адаптации к физической нагрузке свидетельствовал о напряжении механизмов регуляции. У детей с данным типом на фоне относительно высоких показателей были выявлены наименьшие (р < 0,05) значения качественной оценки мелкой моторики. Астенический тип указывал на перенапряжение механизмов регуляции, характеризующееся снижением функциональных возможностей организма. В данной группе обследуемых зарегистрирован больший вариационный размах следующих показателей: общие движения, моторный
коэффициент. У детей с ваготоническим типом адаптации к физической нагрузке - достоверно низкие значения моторного коэффициента, общих движений по сравнению с детьми, имеющими симпатический тип. Это свидетельствует об истощении регуляторных систем и «срыве» адаптации.
Таблица 6
Показатели двигательного развития детей грудного возраста в зависимости от типа адаптации к физической нагрузке (Ме (025:075))
Показатель Тип адаптации
Симпатический, п = 37 Смешанный, п = 91 Астенический, п = 39 Ваготонический, п = 45
Общие движения, балл 10 (7;12) 8 (6;11) 9 (5;11) 7 (4;10)*
Моторный коэффициент, % 94 (62;116) 78 (58;100) 86 (44;116) 67 (38;89)*
Динамическая составляющая крупной моторики, балл 3 (1;3) 2 (1;3) 2 (1;3) 1 (0;3)*
Статическая составляющая крупной моторики, балл 2 (1;3) 2 (0;3) 2 (1;3) 1 (0:3)
Крупная моторика, балл 3 (3;5) 3 (2;5) 3 (2;5) 3 (1;4)*
Качественная характеристика мелкой моторики (правая рука), балл 3 (1;3) 2 (1:3) 1 (1;3)" 1 (1:3)
Качественная характеристика мелкой моторики (левая рука), балл 2 (1;3) 2 (1;3) 1 (1;3) 1 (1;3)*
Вестибулярная устойчивость, с 10 (2;30) 15 (0;30) 16 (3;30) 8 (0;30)
Примечание, в таблице не представлены показатели, имеющие различные нормы и/или разные единицы измерения в разных возрастных периодах; * - достоверность значений р < 0,05 по отношению к показателям двигательного развития детей, имеющих симпатический тип адаптации.
На основании результатов исследования разработана и внедрена в практику технология физической реабилитации детей первого года жизни, перенесших ППЦНС, учитывающая тип вегетативной регуляции сердечного ритма и тип адаптации к физической нагрузке [6].
Одной из основных проблем эффективного применения восстановительных технологий является недостаточное исследование предикторов успешной реабилитации. Для определения степени важности показателей (предикторов) наиболее оптимальным является применение алгоритма «дерево решений», так как для построения дискриминат-ной функции необходимо исключить некоторые сильно коррелирующие между собой показатели, значимость которых, возможно, не менее сильна. Дерево решений позволяет выяснить, какие именно показатели могут быть использованы для разделения объектов на заранее заданные группы (успешно прошедшие реабилитацию / неуспешная реабилитация) (см. рис. 2). Наиболее значимым является тот показатель, который лежит в корне дерева. Последовательно исключая главные переменные, находим следующий по важности показатель. В результате строится ключ, в котором на каждой ступени объекты делятся на две группы. Кроме того, преимуществами дерева решений является
работа с диапазонами, имеющими границы, а не использование всего ряда значений (как дискриминантая функция).
Метод применялся следующим образом: а) в качестве тренировочной опять была использована вся выборка; б) строилось классификационное правило разделения исследуемых на больных и здоровых; в) это правило проверялось на больных, проходивших реабилитацию; на данных, измеренных до реабилитации. Согласно полученным данным, чувствительность метода составила 87 %, специфичность - 76 %, что соответствует принятым критериям доказательной медицины (стандарты 1СН ОСР). Анализ результатов, полученных с помощью классификационного дерева, показал, что успешность курса реабилитации у детей первого года жизни, перенесших перинатальное поражение центральной нервной системы, определяется следующими показателями: моторным коэффициентом (3,48), крупной моторикой (1,93), ЧСС в ортостатическом положении (1,36) и в состоянии относительного покоя (0,89), амплитудой моды (0,89), общей мощностью спектра нейрогумораль-ной регуляции сердечного ритма (0,85), возрастом (0,67), индексом напряжения (0,54), вестибулярной устойчивостью (0,44). Список предикторов приведен по убыванию степени влияния на целевую переменную.
Су) - успешная реабилитация; (^) - неуспешная реабилитация
Рис. 2. Предикторы успешности реабилитации у детей первого года жизни с перинатальным поражением ЦНС
Применение метода «дерево решений» показало, что количество детей, успешно прошедших реабилитацию, было достоверно (больше p<0,05) в группе детей, занимающихся по разработанной нами технологии физической реабилитации, чем в группе занимающихся по традиционной программе (29 % и 12 % соответственно).
Таким образом, применение методов Data Mining позволило выявить наличие индивидуально-типологических особенностей,
подчеркивающих важность индивидуальной адаптации у детей первого года жизни и необходимость дифференцированного применения восстановительных технологий, а также определить предикторы эффективности курса реабилитации.
ЛИТЕРАТУРА
[1] Ким Дж.-О., Мьюллер Ч. У. Факторный анализ: статистические методы и практические вопросы // Факторный, дискриминантный и кластерный анализ : сб. работ : пер. с англ. / под ред.
И. С. Енюкова. М. : Финансы и статистика, 1989. 215 с.
[2] Халафян А. А. БТАТІвТЮА 6. Статистический анализ данных : учебник. 3-е изд. М. : Бином-Пресс, 2008. 512 с.: ил.
[3] Шипунов А. Б., Коробейников А. И., Бал-дин Е. М. Анализ данных с Р (II). СПб. : Речь, 2010. 13 с.
[4] Бадалян Л. О. Детская неврология. М. : Мед-пресс-информ, 2001. 485 с.
[5] Баевский Р. М. Вариабельность сердечного ритма и донозологическая диагностика // Вариабельность сердечного ритма: Теоретические аспекты и практическое применение : матер. V Всерос. симпозиума / отв. ред. Р. М. Баевский, Н. И. Шлык. Ижевск : Удмурский университет, 2011. С. 411-413.
[6] Налобина А. Н., Стоцкая Е. С. Методика лечебной гимнастики для детей первого года жизни, перенесших церебральную ишемию 1-11 степени в перинатальном периоде // Лечебная физкультура и спортивная медицина. 2011. № 1(85). С. 33-41.