5. Ложкин С. А. Об одном методе получения линейных нижних оценок сложности контактных схем и структуре минимальных схем для некоторых функций // Методы и системы технической диагностики. Вып. 18. Саратов: Изд-во Саратовского ун-та, 1993. С. 110-112.
6. Ложкин С. А. Лекции по основам кибернетики: Учебное пособие. М.: Изд. отдел ф-та ВМиК МГУ, 2004.
Поступила в редакцию 31.10.07
УДК 681.3:519.9:519.68:612.001.57 Е.А. Попова
МЕТОД АНСАМБЛЕЙ ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ АНАЛИЗА ЭЛЕКТРИЧЕСКОЙ АКТИВНОСТИ МОЗГА ЧЕЛОВЕКА
(кафедра автоматизации систем вычислительных комплексов факультета ВМиК, e-mail: [email protected])
Работа посвящена разработке метода локализации активных областей мозга по сигналам электроэнцефалографии на основе ансамблей случайных деревьев решений. Предлагается метод сведения задачи локализации к задаче классификации качества дипольных источников. Представлен алгоритм локализации, состоящий в построении ансамбля деревьев решений для параметров дипольных источников, отвечающих за аппроксимацию регистрируемого потенциала в разные моменты времени и нахождения наиболее вероятных зон расположения источников на основе специальной процедуры голосования. Показано, что подход, основанный на аппарате деревьев решений, позволяет устойчиво определять параметры переходной функции между источником и регистрируемым сигналом, что является существенным для построения интерфейса мозг-компьютер. Сходимость предложенного метода продемонстрирована как на точных решениях, так и при анализе сигналов реальных экспериментов по анализу вызванных потенциалов.
1. Введение. Работа посвящена методам автоматизированного анализа электрической активности мозга. Судить об электрической активности мозга мы можем с помощью электроэнцефалограммы. Электроэнцефалограммой [1] называется запись слабых (порядка 5-100 ¿¿V) электрических потенциалов, генерируемых мозгом. ЭЭГ-сигнал представляет собой разность потенциалов между электродами, размещенными на поверхности головы. Существует два вида электрической активности мозга: это спонтанная активность и вызванные потенциалы. Спонтанной активностью называются электрические колебания, которые соответствуют нормальному состоянию человеческой деятельности, т. е. когда у человека нет никаких выраженных чувственных или мыслительных процессов. Вызванным потенциалом называют реакцию мозга на внешний стимул или электрические колебания системного характера, возникающие в нервных структурах в ответ на раздражение рецепторов. Вызванные потенциалы можно использовать как канал связи между мозгом человека и компьютером. Каждая мыслительная деятельность человека характеризуется вызванным потенциалом на электроэнцефалограмме. Распознавание конкретной деятельности человека по вызванным потенциалам является основополагающей идеей, развивающейся в последнее время в области интерфейса мозг-компьютер (Brain-Computer Interface) [2, 3]. Тем не менее разработка BCI еще в самом начале. Необходимо понять, каким же образом создается связь между мозгом человека и компьютером, какие алгоритмы следует использовать для автоматизированного анализа этих объектов. Электроэнцефалограмма является неинвазивным методом регистрации активности мозга. Любое эмоциональное состояние, визуальное восприятие, моторная активность отражаются на ЭЭГ-сигнале, что делает его обработку достаточно трудоемкой задачей. Для выделения вызванных потенциалов из ЭЭГ используют два основных подхода. Первый основан на обработке только самого сигнала, выделение соответствующих спектральных характеристик, удаление артефактов, определение принципиальных компонент сигнала для вызванных потенциалов. Второй подход, который используется в данной работе, основан на выделении характерных для вызванных потенциалов активных областей мозга. Как правило, определение локализации таких областей происходит в рамках конкретной модели мозга. В настоящей работе используется дипольная модель источников. Модель основана на предположениях о нейронных клетках как источниках (генераторах) электрического тока. Мозг моделируется как некий объемный проводник с
неоднородной электропроводностью с имплантированными в него диполями. Прямая задача состоит в вычислении трехмерного электрического поля, создаваемого источниками-диполями [4]. Полученное решение — потенциал электрического поля на поверхности головы — моделирует измеряемый в эксперименте с помощью электродов потенциал электрического поля. Делая различные предположения о распределении и количестве диполей, можно добиваться совпадения экспериментального потенциала с модельным. Обратная задача ЭЭГ состоит в определении положений источников по измеренным потенциалам на поверхности головы [5-7]. Для решения обратной задачи требуется решение большого числа прямых задач [8]. Дипольная модель не связывает измеренные сигналы по времени, однако учет пространственно-временного характера данных позволяет решить задачу о локализации нейронных источников более точно и устойчиво.
В данной работе предлагается создать передаточную функцию между компьютером и человеком, основанную на определении вызванных потенциалов с помощью алгоритма ансамбля случайных деревьев решений. При создании такой функции на ее вход будет подаваться сигнал и будут определяться намерения человека в зависимости от активной области мозга. Основная идея данного подхода состоит в сведении конкретной задачи локализации, т. е. задачи нахождения расположения и силы дипольных источников, к задаче классификации. Найденная зона локализации для конкретного внешнего стимула определяется с некоторым риском, который вычисляется для каждой найденной области. Этот риск будет определять точность классификации человеческой деятельности для данного ЭЭГ-сигнала с вызванными потенциалами. Далее в статье будут описаны дипольная модель источников, формулировка задачи локализации, алгоритм построения ансамбля деревьев решений, определение риска локализации и основные результаты работы алгоритма с модельным и реальным сигналами ЭЭГ.
2. Дипольная модель источников и задача локализации нейронных источников. В ди-
польной модели мозг рассматривается как объемный трехмерный проводник. Обозначим V0\ его объем и Stot — поверхность, ограничивающую объем. Источниками электрической активности являются электролитические токи внутри нервных клеток коры головного мозга [9]. Закон Ома в рассматриваемом проводнике запишется в следующем виде:
j=jiü + ff-E, (1)
где jin — плотность стороннего (ионного, электролитического по происхождению) тока, создаваемого нервной клеткой. Источники тока помещены в проводящую среду с неоднородной электронной проводимостью <т(г). Ионные токи в объеме мозга порождают электрическое поле Е(г, i), которое описывается уравнениями Максвелла. Показано, что в данной задаче временная и пространственная составляющие уравнений могут быть разделены и пространственная часть в каждый момент времени удовлетворяет стационарному уравнению
(V-j) = 0. (2)
Применяя оператор дивергенции к обеим частям (1), используя (2) и введя потенциал электрического поля U(r,t):
Е = -VC/, [V х Е] = О,
получаем уравнение Пуассона
(V • 0oVÎ7(r,i)) = —(V -jm)- (3)
Предполагая, что все источники тока заключены в объем V0i, а в остальном пространстве Frest источников нет, можно записать частное решение уравнения Пуассона в виде объемного потенциала в области с постоянной проводимостью (То-
Задача состоит в вычислении потенциала U как решения уравнения (3). Для этого потенциал U представляется в виде суммы:
U(T,t) = W(T,t) + V(v,t),
где W — потенциал, создаваемый диполями:
Здесь Ni — число диполей и V(r, t) — неизвестный потенциал индуцированного поля, который создается из-за наличия границ и неоднородной электропроводности. Если известны положения диполей и
их моменты (прямая задача), то потенциал Ш(гсоздаваемый диполями, известен и требуется найти индуцированный потенциал У(г, I). В областях однородности проводимости для функции У(г, I) имеем задачу Неймана для однородного уравнения Лапласа
АУ(г,г) = О
с неоднородным граничным условием на скальпе (граница с непроводящей средой):
дУ_ _ дШ дп дп
и условиями сшивки на каждой поверхности разрыва проводимости
У к — Ук+1
Sk
Заметим, что Ш непрерывно вместе со своими производными во всем пространстве, за исключением точек расположения источников. Нормальные производные потенциала V терпят разрыв:
dVk дУк+1 , , aw
1 • —+ Wk+1 - <Тк)
о О ! V KTi К,} О
дп дп on
Sk
Здесь индекс к обозначает номер поверхности, ограничивающей слой проводимости.
При учете проводимости области вне головы (проводимость гелия электродов, учет других проводящих слоев вне скальпа) задача ставится в неограниченной области. Метод решения прямой задачи основан на использовании общего решения уравнения Лапласа в виде сферических гармоник, приведенного в работе [6]. Коэффициенты общего решения находятся методом наименьших квадратов для удовлетворения граничного условия Неймана на границе и условий сшивки на границах смены электропроводности.
Математическая постановка обратной задачи сводится к нахождению правой части неоднородного трехмерного эллиптического уравнения (3) с неоднородными коэффициентами по решению U, заданному в точках поверхности Smeas, и граничному условию Неймана на этой поверхности.
Для численного решения обратной задачи используются приближенные граничные условия в виде условий минимума функционалов ошибки:
ei (*Лгр) = ll^exp - W(v,rp,r) - Vft-(r)||2 ->• min, (4)
К ,
у,*р) =
d[W{v, гр,г) + УИг); 2
дп
mm.
Задача состоит в определении величин и координат диполей и, гр для наилучшего приближения потенциала итойе1 = гр, г) + Ук{г) на поверхности скальпа к экспериментально измеренному распределению потенциала 11ехр путем минимизации функционала в = < + < . Для итеративного решения обратной задачи необходимо решать прямую задачу на каждой итерации, т. е. по дипольным источникам с известными расположением и мощностью находить трехмерное распределение потенциала.
3. Постановка задачи локализации как задачи классификации. Основная идея предлагаемого метода локализации источников состоит в решении задачи минимизации методом классификации источников на основе специально сформированной базы данных этих источников. Каждый образ в базе данных — это диполь, заданный в сферической системе координат. Полное анализируемое множество образов разбивается на независимые подмножества, соответствующие определенному моменту времени в ЭЭГ-сигнале. Каждое такое подмножество состоит из набора образов-диполей, располагаемых некоторым способом внутри пространственной области. Так, в каждый момент времени имеется набор определенного числа диполей внутри области. Далее эти диполи делятся на два класса — true, false. К классу true относятся те диполи, которые дают ошибку в аппроксимации экспериментальных данных меньше некоторого заданного порога eth по потенциалу е (4). К классу false относятся все остальные. Для решения задачи классификации и построения классификатора используется ансамбль случайных деревьев решений. Каждое дерево в ансамбле анализирует пространственные данные для
определенного момента времени, и окончательное решение вырабатывается некоторой процедурой голосования. Задача классификатора состоит в том, чтобы найти наиболее вероятные зоны расположения хороших источников и выбрать среди них лучшего представителя. Опишем процедуру формирования базы данных в один момент времени, так как для каждого момента эта процедура аналогична.
Каждый диполь характеризуется шестью признаками. Внутренняя пространственная трехмерная область покрывается сеткой в сферической системе координат. Шаги сетки hr = 1/Nr, h$ = 1 /Ng, кф = 1 /N,^^ где Nr, N0, Нф — число точек по каждому из направлений. В каждом узле сети располагается диполь. Строится трехмерная сетка в области моментов диполей в сферической системе координат, где вектор v характеризуется тремя параметрами: i/r=||i/||, щ = cos(0), ь>ф = cos(ф); , Нрф — шаги сетки. Сетка по параметру иг привязана к данному ЭЭГ-сигналу. Образ представляет собой точку в шестимерном пространстве, т. е. это может быть диполь, расположенный в одном и том же месте, но обладающий разными моментами. Всего образов
Ndb = НГ-Нв-Нф- Nv6 ■ ■ Nvr. Обозначим вектор признаков образа через
ХР = {хьх2, • • • ,Хг, . . . ,Хм\ Ск}Р, (5)
где р — номер примера, к — номер класса, хр — г-ш признак.
Для каждого р-го образа вычисляется ошибка по потенциалу: RRE (Residual Relative Error)
= - VHtf», ¥>,■)) - I #»<Рз)]28т#Мп.
i j
Задаем уровень допустимой ошибки eth и для каждого момента времени t разделяем параметры диполей на два класса — ниже порога, когда ер < eth (первый класс — С i), и выше порога (второй класс — Сг). Таким образом сформирована база данных для классификации в один момент времени. Если число анализируемых временных срезов Nt, то полная база данных содержит Nt • Ndb данных. Анализ всей базы данных одним деревом нецелесообразен, поэтому предлагается построение ансамбля случайных деревьев для классификации.
4. Алгоритм построения дерева решений в ансамбле. Дерево представляет собой связный ориентированный граф, где каждый терминальный узел характеризуется именем атрибута и пороговым значением, а нетерминальный, т. е. лист, — меткой класса. Узлом дерева является узел проверки, а листом — узел решения. Условие в узле будем называть тестом. Множество В содержит примеры, относящиеся к разным классам. Цель построения дерева — разбить множество В на некоторые подмножества H¡. которые будут состоять в основном из примеров, относящихся к одному классу. Нас интересует разбиение внутренней области на подобласти, в которых примеры относятся к первому классу, т. е. такому, в котором ошибка по потенциалу наименьшая.
Вначале выбирается наиболее значимый атрибут для разбиения. Выбранный атрибут должен разбить множество так, чтобы получаемые подмножества состояли в основном из объектов, принадлежащих к одному классу. Количество образов-примесей в каждом из этих множеств будет наименьшим. Мы используем теоретико-информационный критерий для выбора наиболее значимого атрибута [10]. Для различных классов и различных примеров каждый признак хг упорядочивается в порядке возрастания величины. Вычисляются средние значения соседних величин признака:
х* = (xí + xi+i)/2.
Эти значения х* являются границами разбиения на подмножества В, по признаку ж*, i = I.....М - I.
Пусть Nk¿ есть число примеров из И,, относящихся к одному классу С^. Тогда вероятность того, что случайно выбранный пример из множества В, будет принадлежать к классу Ск, равна / '/, ., = N^^/Ní, где Щ есть полное число образов в множестве И,. Информация, содержащаяся в выборе ж^, равна In Д^ = — log2 / '/,../• а средняя информация, приходящаяся на такой выбор, есть энтропия
п N
Еп(хи Bi) = - ■ log2 Рк,г} ~• (6)
fc=i
Обозначим через Еп(жг,Т) энтропию полного множества В при анализе по признаку ац. Тогда критерием выбора признака будет минимальное значение
в(Х) = Еп(хг,В)-Еп(хг,Вг)
по всем признакам. Итак, множества Bi, В->. ■ ■ ■ Вп получены при разбиении исходного множества В по признаку х%. Выбирается атрибут, дающий максимальное значение по критерию (6) (см. [11]).
Пусть выбран признак хг для всех примеров. Теперь разбиваем множество В на два подмножества путем вычисления порога по выбранному признаку. Для этого вычисляется пороговое значение признака a^th в наборе х* из условия максимизации энтропии (6). Исходное множество примеров разбивается на два подмножества /if: и /if.1'. Множество /if: соответствует критерию
%i,th;
а множество /if.1' определяется неравенством
%i ^ th-
Далее рассматриваем множество /if: . Делаем проверку: если в /if: находятся примеры одного класса, то получено решение и алгоритм останавливается. Если в /if: присутствуют примеры других классов, то продолжаем разбиение каждого из полученных множеств /if: и /if.''. Пусть анализируем дальше /if: , в котором выбираем наиболее информативный признак для следующего разбиения, используя указанную выше процедуру. Причем признак х% исключается из соревнования. Пусть выбран признак Xj для следующего разбиения. Из условия максимизации энтропии вычисляется порог Xjtth по признаку Xj и множество /if: оказывается разбитым на Вьь и BLR по признаку Xj. Если полного разделения образов не получилось, то множество /if.'' разбивается на два множества BRL и BRR. Таким образом, используя два признака, мы разбили исходное множество на четыре подмножества: BLL, BLR, BRL и BRR. Далее процедура повторяется. Когда проведено разделение множества примеров по всем признакам, алгоритм останавливается.
5. Построение ансамбля случайных деревьев решений. После построения тренировочного множества для каждого момента формируется дерево. После построения деревьев для всех временных срезов строится ансамбль деревьев решений. Основными параметрами, характеризующими ансамбль деревьев решений, являются количество деревьев в ансамбле и количество признаков, участвующих в построении каждого дерева [12, 13]. В данной работе критерий выбора признаков для каждого дерева основан на следующих особенностях задачи.
Задача определения положения нескольких источников внутри головы по измеренным потенциалам является неоднозначной, т. е. существует более чем одна комбинация положения диполей, для которых ошибка по потенциалу будет отличаться на малую величину. Чтобы отделить параметры диполей, которые сильно влияют на неединственность задачи, все множество временных моментов Т разбивается на два подмножества для определенного временного окна. Первое из них состоит из атрибутов, отвечающих за пространственное положение диполей Rpos = (г<ир, 0dip, ф<цр), второе — из моментов диполей i?mom = (^rdip, ; ip) ПРИ фиксированных на первом подмножестве параметрах положения. При построении одного дерева (из подмножества выделенных признаков) оно получится ветвистое, громоздкое, что будет значительно увеличивать вычислительные затраты и ресурсы при его обработке и хранении информации. С целью решения этой проблемы мы используем метод случайного выбора m атрибутов для построения дерева из множества Rpos, отвечающего временным срезам из первого подмножества, и i?mom — второго подмножества. Число случайно выбранных атрибутов m намного меньше исходной размерности множества атрибутов Rpos (Rmom) и зависит от числа диполей. После определения признаков каждое дерево строится по алгоритму п. 4.
Пусть для всех временных моментов построено Nt деревьев. Для формирования комитета определим процедуру голосования деревьев следующим образом [14]. Будем использовать понятие пути. Путем в графе дерева называют конечную последовательность вершин, в которой каждая вершина (кроме последней) соединена со следующей в последовательности вершиной ребром. Рассмотрим в каждом дереве все пути из корневой вершины vroot в листовую вершину с меткой класса С\. Обозначим через V = V\,V2, ■ ■ ■, vtiv множество терминальных узлов дерева и через В = Ьгi, br2, ■ ■ ■, brtB множество ветвей дерева, принадлежащих каждому из таких путей. Каждому из терминальных узлов
множества V соответствует (по алгоритму построения) название признака из исходного множества признаков для дерева и пороговое значение этого признака. Каждой ветви в дереве приписана метка из множества {<,>}. Каждому пути г в дереве t, соединяющему корневую вершину и лист с классом С1, поставим в соответствие множество пар вида
Regti = [xi,xth,rt],
где Xi — признак, который соответствует вершине v^ из множества V; a;th — пороговое значение, которое соответствует вершине Vi из множества V; rt — отношение (>,<), определенное ветвью bri из множества В. Рассмотрим пространство всех признаков, которые принадлежат множеству Regti- Данное множество будет выделять определенную область в пространстве признаков [13]. В дальнейшем будем говорить, что дерево выделяет области Regt. После построения серии деревьев решений мы получаем последовательность выделенных каждым деревом областей Regs = Regui, Regti2, • • •, Regt2i, Regt22, ■■■, RegtNi, RegtN2,■ ■ ■, где Nt — количество деревьев. Для определения результирующей области мы вводим процедуры голосования деревьев, основанные на принципе минимальной ошибки по потенциалу. Алгоритм выглядит следующим образом.
1. Формируем все возможные комбинации Reg^N областей из последовательности Regs. Каждая комбинация областей должна содержать все исходные признаки без повторных вхождений. Формирование одной комбинации происходит следующим образом. Рассмотрим случай локализации одного диполя. Возьмем первую область из последовательности — Regtn. Пусть признаками этой области будут параметры Ы = {гр,щ} и интервалы найденных значений этих параметров. Для данных признаков выбираем из последовательности те области, у которых признаки принадлежат множеству 1.2 = {в, ф, ь>г, ь>ф\. Мы можем найти некоторое подмножество данного множества, тогда далее ищется область с признаками из множества L3 = {L1\L2} и так далее, до тех пор, пока не будут найдены все признаки. В другом случае мы можем не найти такого сочетания областей без повторных вхождений признаков, тогда мы ищем такое сочетание областей, в которых повторное вхождение признаков будет минимально. Для признаков, которые входят повторно, вычисляем пересечение интервалов их значений.
Таким образом составляем все сочетания областей. Фактически происходит полный перебор всех найденных областей множества Regs.
2. Для каждого сочетания областей в каждой области случайно фиксируем точку, т.е. случайно задаем значения всех признаков. Вычисляем ошибку по потенциалу.
3. Из всех возможных случаев выбираем то сочетание областей, которое показало наименьшую ошибку по локализации. Найденные области будут являться результатом процедуры голосования.
Каждая область была определена с помощью пути в дереве ансамбля. Множеству областей будет соответствовать множество деревьев ансамбля. Риск классификации каждого из деревьев вычисляется по тренировочному и тестовому наборам данных [15]. Ошибка классификации на тренировочных данных (5) дерева — это отношение числа неправильно классифицированных примеров к общему числу примеров:
1 N
= (7)
i= 1
где ti — дерево-классификатор, I — функция-индикатор:
_ j I. если X(t(xn) ф С'п) — true, 1 0, если X(t(xn) ф Сп) —false.
Чтобы сформировать тестовое множество для каждого дерева, мы будем использовать базу данных, построенную аналогично тренировочной, но с другим шагом по сетке параметров диполей. Тогда ошибка на тестовых данных — это величина (7), вычисленная на тестовом множестве.
Таким образом, после голосования ансамбля и вычисления рисков мы получим область в пространстве всех параметров диполей, которая будет являться итоговой областью локализации с оценкой риска классификации. Каждому временному окну сигнала будет сопоставлена область в пространстве параметров диполей.
Для классификации новых данных электроэнцефалограмма разбивается на временные окна. Их количество и продолжительность должны соответствовать задаче обучения ансамбля. Во временном
окне фиксируется несколько временных точек (срезов). Они не обязательно должны совпадать с точками, использованными при обучении. Для каждого такого среза вычисляется ошибка по потенциалу для положения диполей из найденных областей параметров. Если ошибка по потенциалу меньше заданного порога, то найденная зона является результирующей зоной активности мозга для данного временного окна.
6. Решение задачи локализации для модельного сигнала. В качестве модельной задачи использовалось известное решение прямой задачи — так называемый квазиреальный эксперимент. Внутри области головы размещался диполь и моделировалось вращение по координате ф вектора плотности тока в сферической системе координат. В каждом положении диполя вычислялся потенциал на 64 точках поверхности головы по алгоритму решения прямой задачи и использовался в качестве экспериментального сигнала (угол вращения определялся средней длиной волны альфа-ритма). Значение параметра иг было связано с иф,щ следующим образом:
Это один из этапов регуляризации задачи, позволяющий получить решение, на котором достигается минимум ошибки аппроксимации потенциала на поверхности. Вычисленные значения потенциала зашумлялись по параметру Уф с уровнем шума в 2%.
Пусть {xif} = (rf,'&f,^pf,l>rJ,l>0J,l>фJ) — найденное ансамблем положение диполя для данного сигнала, а {¡ад} = (гд, (рд, , щ , ифя) — значения параметров диполя для квазиэксперимента. Пусть
— ошибка локализации для данного сигнала, где (re, — квазиположение диполя.
Тогда сходимость метода в данном случае означает уменьшение ошибки локализации диполя при уменьшении порога по потенциалу. При исследовании параметров задачи локализации были выявлены параметры, влияющие на сходимость задачи.
1. Количество признаков при построении каждого дерева решений. Количество признаков диктует размер дерева решений и точность класссификации. Неэффективно использовать все пространство признаков для построения одного дерева решений, так как оно получается слишком громоздким. Для более компактного представления дерева мы используем метод отсечения ветвей (pruning) [16] и выделение правил из дерева, уменьшая точность классификации. Если строить серию деревьев решений и при построении каждого брать количество признаков меньшее, чем исходное пространство, и не использовать процедуру отсечения ветвей, то мы получим множество классификаторов, каждый из которых будет указывать на несколько возможных областей расположения диполя. Основная задача — определение оптимального количества признаков для построения каждого дерева. В ходе исследований для решения модельной задачи в случае одного диполя оптимальное число признаков для построения каждого дерева оказалось равным трем.
2. Выбранный порог по потенциалу. Порог по потенциалу определяет величину областей, найденных каждым деревом. Если порог выбрать маленьким, то дерево может не выделить областей по каждому параметру. В ходе вычислительных экспериментов была исследована зависимость значения порога по потенциалу от количества примеров в обучающем множестве ансамбля. В модельной задаче был использован метод определения наиболее подходящего порога по потенциалу, который состоит в следующем. Обучающее множество формируется путем размещения на сетке внутри области головы iVdipoles; и вычисляется ошибка.
Пусть Ns — шаг сетки для построения тренировочного множества ансамбля. Тогда разобьем интервал возможных значений порога [0,1] на сетку с шагом Ns. Рассмотрим интервал значений [0,1/NS}. В этом интервале выберем три точки с шагом 1/NS • 3 и построим для каждого значения ансамбль деревьев решений, вычислим ошибку на тестовых данных построенного ансамбля. Если для этих трех точек будет существовать хоть одна точка, для которой дерево не будет построено, т.е. порог по потенциалу слишком мал для тренировочного множества с шагом Ns, то рассматривается следующий интервал [1 /Ns,..., 2/Ns}. Итеративный процесс останавливается, когда в выбранном интервале будут построены три ансамбля деревьев решений для задачи локализации и будет выбран
n
Рис. 1. Зависимость числа выделенных деревом областей от порога по потенциалу
Рис. 2. Зависимость ошибки локализации положения от значения порога по потенциалу
Рис. 3. Зависимость значении параметра положения диполя Тр от временного среза для модельной задачи
лучший на основе значения ошибки на тестовых данных. На рис. 1 показана сходимость метода в зависимости от значения порога по потенциалу. На рисунке видно, что ошибка по локализации для порога £th = 0,04 будет минимальна, а ошибка локализации для значений порогов от 0,005 до 0,025 не изменяется. Это объясняется конечностью шага сетки при построении тренировочного множества. При увеличении значения порога ошибка по локализации увеличивается. Порог по потенциалу также определяет количество областей, принимающих участие в голосовании ансамбля. Из рис. 2 видно, что количество диполей-кандидатов при голосовании будет увеличиваться экспоненциально при шаге по порогу £steP = 0,01, что оказывает сильное влияние на вычислительное время и ресурсы памяти. На рис. 3 показаны значения параметров диполя гр и Уф по времени при фиксированном пороге по потенциалу £th — 0,04, найденные деревьями ансамбля. Эти значения участвуют в голосовании за результирующую область. На рис. 2 также отмечены точные значения этих же параметров диполя для модельной задачи. Из рисунка можно заметить, что деревья точно определяют положение диполя (оно не меняется со временем) и отслеживают изменения параметра Уф со временем. Точность нахождения параметров положения диполя определяется шагом сетки при построении тренировочного множества. Точность определения моментов более чувствительна к порогу по потенциалу. Это говорит о том, что для данного подхода найдены основные зависимости между параметрами, которые влияют на сходимость и точность решения.
7. Использование метода ансамблей деревьев решений для моделирования процесса запоминания. В реальной задаче о вызванных потенциалах эксперимент состоял в следующем: в течение 30 с три раза предъявлялась последовательность поочередно появляющихся точек на экране компьютера, которую испытуемый должен был запомнить. В процессе запоминания информации регистрировалась ЭЭГ. Затем испытуемый при помощи компьютерной мыши должен был воспроизвести точки на экране компьютера в правильной последовательности. Время на воспроизведение не
ограничивалось, ЭЭГ регистрировалась в течение 200 с. В настоящей работе, решая задачу локализации источников соответственно данным эксперимента, мы хотим обнаружить область источников, являющихся активными в процессе запоминания. Целью эксперимента являлось выделение признаков специфической ментальной активности человека при помощи локализации источников электрической активности мозга. Разработанный метод использовался для анализа вызванных потенциалов в ответ на процесс запоминания. Эксперименты проводились в Научно-исследовательском институте нормальной физиологии им. П.К. Анохина и взяты из работы [17].
Рис. 4. Результат локализации диполя для фонового сигнала (а); для задачи запоминания (б)
На рис. 4, а, б представлен сигнал ЭЭГ, снятый у одного и того же испытуемого в расслабленном состоянии (а) и в состоянии запоминания информации на экране (б). Показаны сигналы на трех электродах: Т2, 02, Р1. Каждый файл (фоновый сигнал и сигнал в процессе запоминания) длительностью 30 с был разбит на 10 временных окон, в каждом из которых с частотой дискретизации 1/128 брались значения потенциала. Сигнал был отфильтрован на частоте 7-ритма ЭЭГ-сигнала от 26 до 64 Гц и /3-ритма от 12 до 26 Гц. Значение параметра уг задачи было привязано к входному сигналу следующим образом. При вычислении тренировочного множества ансамбля деревьев решений значения параметра уг приравнивались к максимальному абсолютному значению амплитуды сигнала по соответствующему каналу для каждого временного среза. В каждом временном окне было выбрано 320 временных точек для обработки. Столько же деревьев было построено для результирующего ансамбля. На рис. 4, а показаны найденные первым ансамблем наиболее вероятные области локализации активности за 1,1 с в процессе запоминания информации испытуемыми. Всего было построено 140 деревьев, из них выделено 8 результирующих деревьев. Результатом локализации фоновой активности является диполь с параметрами г = 0,525, в = 0,7864, ф = 1,57, ъ>г = 0,09, щ = 0,75, ъ>ф = 0,33. На рис. 4, б показана область локализации, выделенная ансамблем деревьев решений для фоновой ЭЭГ того же временного окна. Результатом локализации фоновой активности является диполь с параметрами г = 0,7, в = 1,139, ф = 2,618, ъ>г = 0,17, щ = —0,683, ъ>ф = —0,37. Вычислим расстояние между двумя найденными положениями диполя еа = 0,7044. С учетом постановки прямой задачи диполи находятся в различных областях мозга, что свидетельствует о специфике задачи запоминания. Для определения внешнего стимула испытуемого нам достаточно подсчитать ошибку локализации в найденной области для задачи запоминания и оценить ошибку по потенциалу для порога по потенциалу построенного ансамбля.
В таблице представлены оценки ошибки классификации для тех деревьев решений, которые определяют итоговую область локализации при обработке ЭЭГ-сигнала по запоминанию испытуемыми информации на мониторе. Представлены средние значения ошибки на тестовых и тренировочных данных по четным и нечетным окнам.
Окна Значения ошибки
на тренировочных на тестовых
данных данных
Четные 0,0043 0,0185
Нечетные 0,0233 0,0185
8. Заключение. В настоящей работе предложен и исследован метод локализации источников электрической активности мозга на основе ансамблей деревьев решений. В работе представлен подход сведения обратной задачи анализа ЭЭГ в задаче классификации. Метод позволяет существенно сократить число признаков в задаче по сравнению с прямым анализом ЭЭГ-сигналов. Сходимость метода показана на квазиреальных данных по сравнению с известным решением. В модельной задаче выявлены зависимости точности локализации от порога по потенциалу, шага сетки тренировочного множества ансамбля и количества признаков для построения каждого дерева. Приведено использование метода для реальных ЭЭГ-данных по вызванным потенциалам. Рассмотрена задача об определении активных зон в процессе запоминания информации. С помощью предложенного подхода показано, что можно выделять зоны активности, ответственные за процесс запоминания, и различать состояние испытуемого в процессе запоминания и фоновую активность. Проведена оценка риска дерева-классификатора на тестовых и тренировочных данных для результирующей области локализации.
СПИСОК ЛИТЕРАТУРЫ
1. Wolpaw J. R.,Birbauiner N.,McFariand D. J.,Pfurtseheller G., Vaughan T.M. Brain-computer interfaces for communication and control // Neurophysiol. 2002. 113. P. 767-791.
2. Гнездицкий В.В. Обратная задача ЭЭГ и клиническая электроэнцефалография. Таганрог: Из-во ТРТУ, 2000.
3. Vidal J.I. Real-time detection of brain events in EEC // Proc. IEEE. 1977. 65. P. 33-664.
4. Mosher J.C., Leahy R.M., Lewis P. S. EEG and MEG: Forward solutions for inverse methods // IEEE Trans. Biomed. Eng. 1999. 46. N 3. P. 245-259.
5. Sarvas J. Basic mathematical and electromagnetic concepts of the bio-magnetic inverse problem / / Phys. Med. Biol. 1987. 32. P. 11-22.
6. Хоффманн К., Попов A. M., Фед улова И. А., Певцов С. Е. Численное решение обратных математических задач электроэнцефалографии // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2004. № 4. С. 16-27.
7. Захаров Е.В., Коптелов Ю.М. О некоторых математических проблемах в решении обратной задачи электроэнцефалографии // ДАН СССР. 1987. 292. С. 578-581.
8. Pascual-Marqui R. D. Review of methods for solving the eeg inverse problem // International Journal of Bioelectromagnetism. 1999. P. 75-86.
9. Wolters С. H. Comparing regularized and non-regularized nonlinear dipole fit methods: a study in a simulated sulcus structure // Brain Top. 1999. 12. N 1. P. 3-18.
10. Dietterich T. An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization // Machine Learning. 2000. 40. N 2. P. 139-157.
11. Demsar J. Statistical comparisons of classifiers over multiple data sets // Journal of Machine Learning Research. 2006. 7. P. 1-30.
12. Breiman L., Friedman J.H., Olshen R. A., Stone C.J. Classification and regression trees. Monterey, USA: Wadsworth, 1984.
13. Breiman L. Bagging predictors // Machine Learning. 1996. 24. P. 123-140.
14. Wehenkel L., Ernst D., Geurts P. Ensembles of extremely randomized trees and some gene some generic applications // Department of Electrical Engineering and Computer Science University of Liege-Sart-Tilman. B28-B-4000. Liege, 2006.
15. Ho T. The random subspace method for constructing decision forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. 20. N 8. P. 832-844.
16. Breiman L. Random Forests // Machine Learning. 2001. 45. P. 5-32.
17. Певцов С. Разработка методов решения обратных задач, возникающих в биомедицине: Дис. ... канд. физ.-мат. наук. МГУ. М., 2007.
Поступила в редакцию 07.05.07