Научная статья на тему 'Анализ сетевой структуры коннектомов человеческого мозга и их классификация'

Анализ сетевой структуры коннектомов человеческого мозга и их классификация Текст научной статьи по специальности «Математика»

CC BY
740
122
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ТЕОРЕТИКО-ГРАФОВЫЕ МОДЕЛИ / ГРАФОВЫЕ МЕТРИКИ / КОННЕКТОМ / МОЗГ / СЛОЖНЫЕ СЕТИ / МАЛЫЕ МИРЫ / БИНАРНАЯ КЛАССИФИКАЦИЯ / GRAPH THEORETIC MODEL / GRAPH METRICS / CONNECTOME / BRAIN / COMPLEX NETWORK / SMALL-WORLD NETWORKS / BINARY CLASSIFICATION PROBLEM

Аннотация научной статьи по математике, автор научной работы — Меринов Артем Александрович, Кочкаров Азрет Ахматович

Рассматривается грубый анализ модели человеческого мозга на основе матриц смежности, представляющих взаимосвязь между различными областями мозга. Основной целью является изучение структурных коннектомов с помощью инструментов теории графов, а именно некоторых графовых метрик, которые описывают сложные сети и их свойства. Основываясь на графовых характеристиках, проводится задача бинарной классификации на примере ASD и TD групп с использованием алгоритмов машинного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE ANALYSIS OF THE NETWORK STRUCTURE OF THE HUMAN BRAIN CONNECTOME AND ITS CLASSIFICATION

The article is about rough analysis of the human brain model based on adjacency matrix that represents the relationship between different areas of the brain. The main purpose is to study the structural connectomes using the tools of graph theory, namely graph metrics that describe complex network and its properties. With the help of machine learning algorithms it is carried out a binary classification problem using ASD (autism spectrum disorder) and TD (typically-developing) groups of people.

Текст научной работы на тему «Анализ сетевой структуры коннектомов человеческого мозга и их классификация»

СОВРЕМЕННАЯ НАУКА № 3/2016

В ОТКРЫТОМ ДОСТУПЕ НА САЙТЕ SOVNAUKA.COM - OPEN ACCESS - 9

Прикладные исследования

УДК 519.173.5; 004

Научная специальность 03.01.09 — Математическая биология, биоинформатика

Работа выполнена при поддержке РФФИ (гранты № 16-01-00342 и 16-29-04268) и гранта Президента РФ (НШ-6831.2016.8)

АНАЛИЗ СЕТЕВОЙ СТРУКТУРЫ КОННЕКТОМОВ ЧЕЛОВЕЧЕСКОГО МОЗГА

И ИХ КЛАССИФИКАЦИЯ

А. А. Меринов*, А.А. Кочкаров**

Аннотация. Рассматривается грубый анализ модели человеческого мозга на основе матриц смежности, представляющих взаимосвязь между различными областями мозга. Основной целью является изучение структурных коннектомов с помощью инструментов теории графов, а именно некоторых графовых метрик, которые описывают сложные сети и их свойства. Основываясь на графовых характеристиках, проводится задача бинарной классификации на примере ASD и TD групп с использованием алгоритмов машинного обучения.

Ключевые слова: теоретико-графовые модели, графовые метрики, коннектом, мозг, сложные сети, малые миры, бинарная классификация.

THE ANALYSIS OF THE NETWORK STRUCTURE OF THE HUMAN BRAIN CONNECTOME AND ITS CLASSIFICATION

A.A. Merinov*, A.A. Kochkarov**

Abstract. The article is about rough analysis of the human brain model based on adjacency matrix that represents the relationship between different areas of the brain. The main purpose is to study the structural connectomes using the tools of graph theory, namely graph metrics that describe complex network and its properties. With the help of machine learning algorithms it is carried out a binary classification problem using ASD (autism spectrum disorder) and TD (typically-developing) groups of people.

Keywords: graph theoretic model, graph metrics, connectome, brain, complex network, small-world networks, binary classification problem.

ВВЕДЕНИЕ

Понимание устройства и принципов работы головного мозга человека является одной из главных проблем науки. Особое место в исследовании мозга заняли вопросы анализа его сетевой структуры, а именно изучения связей между его различными участками.

Коннектомика — это новая область исследования, одной из главных целей которой является составление карты соединений нейронов мозга (коннектома). Коннектом представляет собой математическую модель, которая отображает структурные или функциональные

связи между анатомически различными областями мозга [1]. Одной из ключевых задач современной нейробиоло-гии является выявление различий между коннектомами. Например, психические расстройства, как было установлено в [2], связаны с изменением в коннектоме. Это важная область исследований, поскольку она обеспечивает не только полное представление о характере неврологических расстройств, но также имеет практическое применение в медицинской диагностике.

На сегодняшний день расшифрован только коннектом круглого червя — нематоды С. е^аш, выбор кото-

* Меринов Артем Александрович,

магистрант по кафедре интеллектуальных информационных радиофизических систем Московский физико-технический институт (государственный университет)

Контакты: Институтский пер., д. 9, Долгопрудный, Московская область, Россия, 141701 E-mail: [email protected]

** Кочкаров Азрет Ахматович,

заместитель директора НТЦ-3 ОАО «РТИ», доцент Департамента анализа данных, принятия решений и финансовых технологий, кандидат физико-математических наук Финансовый университет при Правительстве РФ Контакты: ул. 8 Марта, д. 10, стр. 1, Москва, Россия, 127083 E-mail: [email protected]

* Artem A. Merinov,

Master's degree candidate of the Department

of Intelligent Information

Radio Physical Systems

Moscow Institute of Physics and Technology

Contacts: Institutskiy per., d. 9, Dolgoprudnyy,

Moskovskaya oblast', Russia, 141701

E-mail: [email protected]

** Azret A. Kochkarov,

JSC «RTI», vice-chief of R&D center,

Associate Professor of Applied Mathematics Department,

PhD

Financial University under the Government of the Russian Federation Contacts: 8 Marta ul., d. 10, str. 1, Moscow, Russia, 127083 E-mail: [email protected]

рого был обусловлен небольшим количеством нейронов и синаптических связей. Что касается человеческого мозга, то он является очень сложной системой, и составление коннектома затрудняется из-за его больших размеров. В связи с этим будет рассмотрен грубый анализ модели мозга. Основной целью будет изучение структурных коннектомов человека и их классификация при помощи инструментов теории графов, а именно некоторых графовых метрик. Таких метрик существует несколько десятков, включая довольно сложные, типа отношения метрик заданного графа к метрикам случайного графа со сходным распределением вершин.

ИНТЕРПРЕТАЦИЯ ГРАФОВЫХ «ЕДИНИЦ» МОЗГА

В данной работе используются только готовые кон-нектомы, которые представляет собой неориентированные взвешенные графы или матрицы смежности (DTI-матрицы, diffusion tensor imaging). С помощью МРТ мозг разбивается на участки, таким образом, происходит выделение вершин графа. Диффузионная МРТ позволяет реконструировать нервные пути в головном мозге, то есть происходит построение ребер вместе с количественной характеристикой — весом.

Определение вершины, разбиение мозга на зоны. Определение вершины графа представляет собой комплекс сложных задач, так как ученым не хватает договоренности как лучше определить составляющую «единицу» мозга. В зависимости от исследования, «единицы» мозга, представленные вершинами, могут варьироваться от небольших участков коры до большого количества областей головного мозга [1]. Например, набор из 264 областей, который предложил Power, более точно представляет информацию о сетевой структуре мозга в задаче классификации аутистов [3].

Определение ребра. Вопрос о том, как определить ребро в графе мозга является еще более открытым. Как было описано выше для коннектома червя C. elegance, ребра определялись как синаптические связи между нейронами и были точно определены. На практике большинство графовых анализов коннетома C. elegance приняли самые простые из возможных вариантов — все соединения представлены как неориентированные невзве-шенные (или в равных долях) ребра, но это не единственно возможный выбор. Когда мы переходим к графовому анализу сложных нейрофизиологических данных, где не хватает знаний о физических связей между узлами, разумная интерпретация ребер становится все более сложной задачей.

Так как работа направлена на анализ структуры коннектомов, то будем придерживаться структурного

подхода [4]. Анатомические соединения могут быть определены различными способами, на основе различных видов томографий. Для диффузионно-тензорной томографии (на основе анализа трактографии) можно назначить вероятность аксонов устанавливать связь между любой парой областей серого вещества. Для обычных данных МРТ, анатомическая связь может быть введена с помощью пороговой матрицы ковариации между областями коры или множеством внутренних частей.

Таким образом, ниже приведена интерпретация составляющих единиц сетевой структуры мозга или DTI-матрицы:

• вершина — отдельная область мозга, на которые происходит разбиение;

• ребро — связь, соединение между двумя вершинами;

• вес ребра — «сила» связности или количество линий связи, полученных с помощью трактографии (данное количество не обязательно соответствует номеру реальных волокон белого вещества в связи с некоторыми ограничениями в алгоритме построения модели).

ДАННЫЕ

Как было сказано выше, в данном исследовании используются уже готовые коннектомы, которые представлены в виде DTI-матриц размерности 264x264. Да-тасет находится в базе университета UCLA (University of California, Los Angeles). В данных предоставлены 94 объекта, относящиеся к двум классам: ASD (autism spectrum disorder) — 51 объект и TD (typically developing) — 43 объекта.

ОПИСАНИЕ МЕТОДА

Нормировка. Существует несколько подходов для нормировки, например, можно оперировать с геометрическими мерами (физическая длина пути между ре-

Рис. 1. Пример DTI-матрицы

гионами, объем корковых областей и т.д.), а можно использовать топологические нормировки, где, к примеру, количество трактов для каждой пары областей нормируется на общее число трактов во всем головном мозге. В нашем исследовании будем применять нормировку, которую использовали в [5]. Здесь каждое ребро нормируется с помощью среднего геометрического от общего количества трактов смежных вершин:

Wij =

aij

V^aiiZi««

Выделение признаков. Для выделения признаков будем использовать графовый подход, который предлагает использовать метрики для определения особенностей вершин графа. Существуют метрики разных типов — топологические и физические. Последние оперируют с реальными величинами, например, длиной тракта. В этой работе используются только топологические метрики. Их существует довольно много, начиная с простых характеристик (степень вершин, радиус и диаметр графа и т. д.), заканчивая довольно сложными, например, индекс малого мира.

Описание графовых метрик. Для данного подхода мы будем использовать ряд графовых метрик, предложенных в статье [6]. Грубо их можно разделить на две группы: глобальные, которые относятся ко всему графу в целом, и локальные на вершинах. Далее приведено описание каждой метрики вместе с математическим определением.

Пусть

N— множество всех вершин в сети, n — количество вершин;

L — множество всех ребер в сети, l — количество ребер;

(i,j) — ребро между i-ой и j-ой вершиной, (ij^N);

aij — статус соединения между i-ой и j-ой вершиной ной: a,j — 1 — есть соединение, aj — 0 — иначе;

Wi — вес ребра (i,j), в дальнейшем мы предполагаем, что веса нормированы, такие, что 0<Wj<1 для всех in j;

Aw — {wj} и A= {aj} — взвешенная и невзвешенная матрица смежности соответственно.

ЛОКАЛЬНЫЕ МЕТРИКИ НА ВЕРШИНАХ

Взвешенная степень вершины kW i-ой вершины — сумма весов всех ребер, выходящих из данной вершины:

kw — YjNWj

Средневзвешенная степень вершинык'пщ i-ой вершины — усредненная степень суммы весов всех соседних вершин:

kwnni= 1 X wkw,

kW jsN(i)

MODERN SCIENCE | 2016 | 3

где N(i) — множество соседей вершины i.

Центральность на основе степени <Ущ вершины i— простейший способ измерения центральности графа. Cwd,i вершины i равна количеству связей с другими вершинами или сумме строк (столбцов) матрицы смежности:

Cwd,i — deg(i) = kW.

Нормирока (Freeman) [7]. Разделим взвешенную степень вершины на степень графа-звезды (или максимальную степень вершины):

(maxC'Di,- Cwd)

C DiFreeman — , s /-»ч .

(n -1) (n - 2)

Чем больше Cwd,i i-ой вершины, тем больше число связей с этой вершиной. Таким образом, вершина с большим показателем Cwd,i может взаимодействовать с большим числом вершин в графе.

Центральность по близости (У, вершины i — это величина, равная обратной сумме длин кратчайших взвешенных путей от данной вершины i до остальных n -1 вершин:

fw . —

1

ZjîNjidW

где dwij — длина кратчайшего взвешенного пути между i-ой и j-ой вершиной, которая вычисляется следующим образом:

dwij = Zauv^gwi«jf(wuv),

где f— функция инверсии весов в длину, gwi«j — кратчайший взвешенный путь между i-ой и j-ой вершинами. Для DTI-матрицы A можно найти /(A) = ЛЛ и уже для обратной матрицы применять алгоритмы нахождения кратчайшего пути, например, алгоритм Дейкстры.

Нормирока (Freeman) [7]. Так как сумма расстояний зависит от числа вершин в графе, то близость нормирована на сумму минимально возможных расстояний n - 1,

CwCF

или

CwCF

_CwQl 'n - 1

n - 1

JjtNjidW

Данная метрика показывает, насколько центральная вершина в среднем удалена от других вершин в графе.

Центральность по посредничеству СУв,1 вершины 1— это сумма доли всех кратчайших путей, которые проходят через две любые вершины 5, tи заданную вершину 1:

CE,i = Y

s (s,t \i) ■s,t,ev,s*tei s (s,t) ,

где o(s, t) — количество всех кратчайших путей, соединяющих вершины s и t, o(s, t |i) — количество кратчайших путей, соединяющих вершины s и t, а также проходящих через данную вершину i.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Нормирока (Freeman) [7]. Так как Cwb,i меняется с изменением пар вершин, как следует из индексов суммирования, то вычисление может быть пересчитано путем деления на число пар узлов не включая i, то есть

(n -1) (n - 2)

на --2-для неориентированного графа. Таким образом, CvB,ie[0,1]: 2

CwE,i,F

(n - 1) (n - 2)

Ce.

Данная метрика показывает, насколько вершина связывает различные участки графа (выступает в роли посредника).

Центральность на основе собственных векторов для вершины i вычисляется на основе центральностей ее соседей [8]. Для этого нужно вычислить центральность каждой вершины путем решения задачи на собственные значения:

Awe = le.

Таким образом, центральность на основе собственных векторов вершины i определяется следующим выражением:

ei = 1/AY'eN(i)ei =1/AY?= we,

где 1—наибольшее собственное значение, e—соответствующий главный собственный вектор матрицы Aw.

Нормирока (Freeman) [7]. Центральность на основе собственных векторов масштабируется с помощью коэффициента пропорциональности 1/1. В обсуждениях о нормировке данной величины, было показано [9], что с помощью евклидовой нормировки получается центральность, которая может достигать максимального значения 1/V2 независимо от размера сети. Умножив полученные значения центральности на V2, максимально достижимое значение становится 1, и может быть достигнута только с помощью вершины в центре звезды.

Данный вид центральности дает высокие значения для вершин, которые связаны со многими другими хорошо соединенными вершинами.

Взвешенный коэффициент кластеризации показывает тенденцию вершины i соединяться в кластеры вместе с другими вершинами:

2tw

где № — взвешенное геометрическое среднее всех треугольников (триад) вокруг 1-ой вершины:

Щ = ШХйеМщщЪЩЪ) 'А

Эффективность 1-ой вершины определяет ее способность распространять информацию к другим вершинам в сети:

ЕЩ= Ъ'&УУ 1 п - 1 '

ГЛОБАЛЬНЫЕ МЕТРИКИ

Диаметр и радиус графа соответственно равны:

ё = шах{шш 1 ^ шш'},

ё = шш{шШ 1 'ек! шш'},

где ё шшу — это длина кратчайшего пути между вершинами 1 и Например, для нахождения диаметра графа сначала находят кратчайшие пути между всеми парами вершин, а затем берут наибольшую длину любого из этих путей.

Плотность сети — это характеристика, показывающая, как число ребер в данном графе отличается

от числа ребер в полном графе [10]:

В = 21

В I (I - 1).

Если число ребер близко к максимальному, то граф называется плотным, иначе — разреженным. Для полного графа число ребер равно ^1) , поэтому максимальная плотность равна 1. И обратное: если ребра отсутствуют, то плотность равна 0. В нашем случае ЭТ1-матрица является разреженной.

Коэффициент ассортативности. Ассортативные сети — это сети, в которых узлы с большой степенью (так называемые «звезды» преимущественно связаны с такими же по степени узлами. Чтобы охарактеризовать это свойство, используют коэффициент ассортативно-сти. Коэффициент ассортативности — это коэффициент корреляции Пирсона между взвешенной степенью соседних узлов [11]:

r =

i -1 Y®)LWijKWiKW- [i -1J^(i]hL1/2Wi](KWi+KW )]2

i- Y(iJ)tLWij((KW)2+ (kW)2 - [/-1 YoLmWiki+KW)]2

CW =

kW (kW - 1)

Коэффициент ассортативности лежит в отрезке -1 < r < 1, причем для ассортативных сетей r > 0.

Взвешенный коэффициент транзитивности. Транзитивность графа — величина, выражающая степень, в которой соседние вершины являются связанными друг с другом: если есть связь между вершинами i и j, а также между j и h, то также есть связь между i и h («друзья моих друзей мои друзья») [10]. Мерой транзитивности является глобальный коэффициент транзитивности, присущий ко всему графу:

jj^NKwkw -1) '

Данная величина достигает максимума для транзитивного графа. Коэффициент транзитивности также иногда называют коэффициентом кластеризации С №.

Взвешенный коэффициент кластеризации С № — усредненная по количеству вершин п сумма всех отдельно взятых взвешенных коэффициентов кластеризации:

C W— 1/n XN W — 1/n

2tW

kW (kWi - 1)

Взвешенная характеристическая длина пути — кратчайшая длина пути между двумя вершинами 1 и j, усредненная по всем парам вершин:

LW— 1/n X^

XjNjdj n - 1

Большая величина предполагает, что сеть будет выглядить почти как линейная цепочка, а относительно маленькая величина показывает на компактность сети.

Глобальная эффективность — мера, показывающая, насколько эффективно сеть осуществляет обмен информацией:

EWglob — 1/n X'^N

Xj^Njidj n - 1

1/LW.

Показатель малого мира для взвешенного графа — это величина, содержащая отношение метрик заданного графа к метрикам случайного графа со сходным распределением вершин:

S w—-

(W / CW Л

^ / rand

LW / Т W ,

/ ±-> rand

где С — взвешенный коэффициент кластеризации, — взвешенная характеристическая длина пути.

Сети, обладающие свойством малых миров, всегда имеют S № >1.

АНАЛИЗ КОННЕКТОМОВ

В данном пункте проведем анализ коннектомов на основе некоторых графовых метрик по отдельности. Найдем значения данных метрик для всех объектов в целом, а также попробуем провести сравнительный анализ для конкретного класса (ASD и TD).

Будем считать, что все объекты ASD группы (TD группы) имеют схожие сетевые характеристики (так как эти признаки принадлежат одному классу). Поэтому попробуем найти какие-либо отличия в ASD и TD объектах, используя некоторые из перечисленных графовых метрик. Для этого проведем сравнение отдельных метрик для матриц, относящихся к ASD и TD группе.

Отметим, что используемые DTI-матрицы имеют одинаковую размерность (то есть происходит сравнение векторов одной размерности). Таким образом, получим сравнение 264-ех метрик на вершинах. Напомним, что в данном анализе мы используем нормированные характеристики графа.

Средневзвешенная степень вершины

(ASD, TD) — (6658.11, 6548.32)

В [3] сказано, что средневзвешенная степень вершин для ASD объектов больше, чем для TD. Это можно пояснить тем, что у аутистов большее количество связей, нежели у нормально развивающихся людей.

Центральности

• на основе степени: (ASD, TD) — (254.95, 254.64);

• по близости: (ASD, TD) — (5.49, 5.47);

• по посредничеству: (ASD, TD) — (54.19, 51.98);

• на основе собственных векторов: (ASD, TD) — — (153.20, 147.64)/

Центральность у ASD группы больше, чем у TD группы. Например, короткие соединения являются более важными признаками для ASD объектов (так как центральность по близости является обратной величиной по отношению к характерной длине пути). Также большая центральность по посредничеству соответствует ASD группе [12].

Коэффициент кластеризации

(ASD, TD) — (8.63, 8.82)

Коэффициент кластеризации у ASD группы меньше, чем у TD группы, о чем пишут в [3]. Это значит, что тенденция вершин ASD группы соединяться в кластеры вместе с другими вершинами меньше, чем у TD группы.

Диаметр графа

(ASD, TD) — (4.980 ± 0.139, 5.093±0.290)

Получаем, что средняя максимальная длина кратчайшего пути между двумя вершинами примерно равна 5-ти (у ASD объектов это значение в среднем немного меньше, чем у TD объектов).

Сложно сказать что-то определенное по большинству метрик графа, также как и в работе J.D. Rudie [3], где нет сильных отличий между классами.

ФЕНОМЕН «МАЛОГО МИРА»

Больший интерес представляет из себя метрика, связанные с понятием «малого мира» сети — показатель малого мира.

Феномен «малого мира» или «мир тесен» связан с фактом, что из одной вершины сети в любую другую не смежную с ней вершину можно попасть за небольшое количество шагов (используя некоторое количество ребер).

Еще в 1960-х гг. известный социолог Stanley Mil-gram провел эксперимент, в котором определил коли-

С = П1П2 Y

(mi/ni - vi/m)'2

i=1

m¡ + vi

= 3.037

чественное выражение данного факта, названное как «закон шести рукопожатий». Согласно предложенной теории человечество определяется как система, в которой между любыми двумя людьми есть порядка пяти общих знакомых.

В 1998 г. Duncan J. Watts и Steven H. Strogatz показали, что в сетях как естественно существующих, так и созданных человеком (в том числе нейронная сеть, коннектом C. elegans), проявляется феномен «мир тесен». Данное исследование было опубликовано в журнале «Nature» [13].

Более поздние исследования в данной области были показаны на примере социальной сети Facebook в 2011 г. Была проверена теорию «шести рукопожатий» на базе пользователей (1,6 млрд человек), и было выяснено, что двух людей разделяют в среднем 3,57 человека (в 2008 г. этот показатель равнялся 4,28). Но выводы Facebook нельзя называть опровержением теории «шести рукопожатий» из-за небольшой выборки по сравнению со всем населением Земли, а также из-за того, что эта часть людей обладает аккаунтом в Facebook и доступом к Интернету.

Посчитанная метрика «показатель малого мира» Sw, оказалась равной больше 1, что подтверждает факт феномена «малого мира»:

(ASD, TD) = (4.695± 0.158, 4.815±0.181).

Оказывается, в исследовании J. Watts и H. Strogatz [13] при подсчете «показателя малого мира» коннектома червя C. elegans получилось число 4.75, очень близкое к нашим результатам. Также, как и в работе J.D. Rudie [3] (ASD, TD) = (4.33, 4.38), так и по результатам нашего исследования, «показатель малого мира» превышает у TD группы.

РЕЗУЛЬТАТЫ СРАВНЕНИЯ

На самом деле сравнение ASD и TD групп по отдельным графовым метрикам не подлежит из-за однородности распределения, результаты получились с большой дисперсией. То есть нельзя отличить ASD от TD группы по отдельной характеристике.

Например, для индекса «малого мира» Sw по критерию однородности с2 значение статистики критерия для двух выборок равна:

Где п и П2 — размеры первой и второй выборок, т и V — число вхождений первой и второй выборок в У-ый класс.

Соответственно, р^а1ие равно 0.8 (из таблицы «Процентные точки распределения с2»). Поэтому в работе используется композиция графовых метрик, которые использует бинарный классификатор, о чем будет написано далее.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ О БИНАРНОЙ КЛАССИФИКАЦИИ

Пусть: X— множество объектов, Y— конечное множество классов. Чтобы классифицировать объект, нужно найти отображение а: X®Y, то есть построить алгоритм, способный классифицировать произвольный объект хеХ. Если | Y = 2, то классификация называется бинарной. Обозначим множество классов через Y = {-1, + 1}.

Большинство известных классификаторов могут быть представлены в виде а(х) = sign(f(x,W) - щ), где х— произвольный объект, f(x,w) — дискриминантная функция, w— вектор параметров, определяемый по обучающей выборке, wo — порог принятия решения. Уравнение f(x,w) = wo определяет разделяющую поверхность.

В нашем случае Y = {0,1}, к этому можно привести любую задачу бинарной классификации. ASD группа относится к классу 1, TD группа — соответственно к классу 0.

Таблица сопряженности. Рассмотрим задачу бинарной классификации, где классы разделены на положительный (1) и отрицательный (0). Классификатор а(х) может предсказать верный класс, а может и ошибиться. В связи с этим получается четыре варианта, которые проиллюстрированы таблицей ниже (а(х) — предсказание, у— истинный класс):

7 = 1 7 = 0

a(x) = 1 TP(1,1) FP(1,0)

a(x) = 0 FN(0,1) TN(0,0)

Возвращаясь к нашей задаче, предположим, что мы на основе каких-либо анализов собирается поставить диагноз ASD или его отсутствие (TD). Тогда:

TP (true-positive) — классификация положительная, истинное значение положительное (пациента болен, диагноз положительный);

TN (true-negative) — классификация отрицательная, истинное значение отрицательное (пациент здоров, диагноз отрицательный);

FN (false-negative) — классификация отрицательная, истинное значение положительное (пациент болен, диагноз отрицательный);

FP (false-positive) — классификация положительная, истинное значение отрицательное (пациент здоров, диагноз положительный).

ROC-кривая и ее AUC. Пусть дана задача классификации: нам известна выборка объектов Xm — {xi}m= ¡, а также соответствующие им известные бинарные ответы Ym — {y}f= j е{0,1}. Чтобы измерить качество алгоритма классификации a(x), можно посчитать следующие характеристики:

FPR (доля ошибочных положительных классификаций) — отношение числа ложных срабатываний к размеру нулевого класса:

FPR(a,Xm) =-

FP

(FP + TN)

TPR (доля правильных положительных классификаций) — отношение числа верных срабатываний к размеру первого класса:

TPR(a,Xm) = -

TP

(TP + FN) •

ROC-кривая хорошо подходит для оценки качества бинарного классификатора. По оси абсцисс откладывается FPR, а по оси ординат — TRP, таким образом, данная кривая показывает зависимость TPR от FPR при варьировании порога щ. Она проходит из точки (0,0), соответствующей максимальному значению порога, в точку (1,1), соответствующую минимальному значению порога.

Площадь под ROC-кривой AUC — это характеристика качества классификации, не зависящая от соотношения цен ошибок. Чем больше значение AUC, тем «лучше» модель классификации. Данный показатель часто используется для сравнительного анализа нескольких моделей классификации. Площадь, равная 0.5, соответствует случайному гаданию, и такой метод классификации непригоден для оценки качества. Случай равенства 1 является идеальным.

АЛГОРИТМЫ МАШИННОГО ОБУЧЕНИЯ

В качестве основы возьмем работу, проведенную в [5].

В исследовании используются алгоритмы машинного обучения с помощью процедур перекрестной проверки (кросс-валидации) для изучения структур-

ных различий между TD и ASD группами. На каждом шаге мы строим модель по обучающей выборке, где известно, к какому классу принадлежит тот или иной объект, а затем проверяем данную модель на неизвестных данных. Это дает представление о том, насколько хорошо наша модель будет вести себя на вновь предстоящие неизвестные данные.

На практике чаще всего выбирается k = 10, при этом модель обучается на 9/10 данных и тестируется на 1/10. В этом случае, как показали исследования, получается наиболее достоверная оценка ошибки модели. Мы используем 10-кратную кросс-валидацию, поскольку она также обеспечивает баланс между робаст-ностью (устойчивость к помехам, независимость влияния на результат различного рода выбросов) и временем работы классификатора (использованием как можно больше данных).

Для всех алгоритмов используется линейный классификатор на примере логистической регрессии (LR, logistic regression) и метода опорных векторов (SVM, support vector machine) с регуляризацией I2. Данные классификаторы могут используются в признаковых пространствах большой размерности.

РЕЗУЛЬТАТЫ РАСЧЕТОВ

Результаты работы классификаторов на некоторых метриках по отдельности и в композиции (метрика качества — ROC AUC):

• только глобальные метрики графа (матрица признаков размерности 94x7):

LR's ROC AUC: 0.614 ±0.129;

SVC's ROC AUC: 0.645 ±0.116;

• только взвешенная степень вершин (94x264):

LR's ROC AUC: 0.621±0.129;

СОВРЕМЕННАЯ НАУКА № 3/2016

16 -

Прикладные исследования

SVC's ROC AUC: 0.626±0.127;

• только центральность по близости (94x264): LR's ROC AUC: 0.663±0.112;

SVC's ROC AUC: 0.665±0.113;

• только центральность на основе собственных векторов (94x264):

LR's ROC AUC: 0.660±0.104; SVC's ROC AUC: 0.647±0.099 и т.д.

• все метрики: и локальные, и глобальные (94x1590) — лучший результат:

LR's ROC AUC: 0.670±0.099; SVC's ROC AUC: 0.671±0.098.

ЗАКЛЮЧЕНИЕ

В данной работе:

• были рассмотрены и изучены DTI-матрицы, связанные со структурой и свойствами сложных сетей мозга;

• были описаны и посчитаны графовые метрики по данным DTI-матриц;

• было показано, что на используемых данных нельзя проводить сравнение различных групп по отдельным метрикам;

• была описана и реализована задача бинарной классификации при помощи языка программирования Python 3.5 и библиотеки машинного обучения Sci-kit-learn. Результат классификации равен 0.67 ROC AUC. Можно предположить, что такой неточный результат был получен из-за вида используемых данных: на сегодняшний день выявление различных психических расстройств, основанных на данных нейровизуа-лизации, далека от точной (это верно для многих патологий, включая аутизм). К тому же данный дата-сет предоставил относительно небольшое количество объектов.

HmepaTypa/References

1. Craddock RC, Jbabdi S, Yan CG, Vogelstein JT, Castellanos FX, Di Martino A, Kelly C, Heberlein K, Col-combe S, Milham MP. Imaging human connectomes at the macroscale. Nature Methods. 2013(10):524-39. doi: 10.1038/nmeth.2482

2. Bassett DS, Bullmore ET. Human brain networks in health and disease. Nature Methods. 2013;10(6):524-39. doi: 10.1097/WCO.0b013e32832d93dd

3. Rudie JD, Brown JA, Beck-Pancer D, HernandezLM, Dennis EL, Thompson PM, Bookheimer SY, Dapretto M. Altered functional and structural brain network. Neurolmage. 2013;2:79-94. Available from: http://www.sciencedi-rect.com/science/article/pii/S2213158212000356 doi; https://doi.org/10.1016/j.nicl.2012.n.006

4. Bullmore ET, Bassett DS. Brain graphs: Graphical models of the human brain connectome. Annual Reviews. 2011;7:113-40. doi: https://doi.org/10.1146/annurev-clinpsy-040510-143934

5. PetrovD, Dodonova Yu, ZhukovL. Differences in structural connectomes between typically developing and autism groups. Informatsionnye tekhnologii i sistemy. 2015:763-77. Available from: http://itas2015.iitp.ru/pdf/1570161991.pdf

6. RubinovM, Sporns O. Complex network measures of brain connectivity: Uses and interpretations. Neurolmage. 2010;52(3): 1059-69. Available from: https://www.researchgate.net/publication/26885102_Rubinov_M_Sporns_0_Com-plex_network_measures_of_brain_connectivity_uses_and_interpretations_NeuroImage_52_1059-1069 doi: 10.1016/j .ne-uroimage.2009.10.003

7. Freeman L. Centrality in social networks conceptual clarification. Social Networks. 1978;1(3):215-39. Available from: http://hbanaszak.mjr.uw.edu.pl/TempTxt/PDF/Freeman_1979_CentralityInNetworksConceptualQari-fication.pdf

8. Joyce KE, Laurienti PJ, Burdette JH, Hayasaka S. A new measure of centrality for brain networks. PLoS ONE. 2010;5(8). doi: https://doi.org/10.1371/journal.pone.0012200

9. Britta R. eigenvector-centrality — a node-centrality? Social Networks. 2000;22(4):357-65. doi: https://doi.org/-10.1016/S0378-8733(00)00031-9

10. Wasserman S, Faust K. Social network analysis: Methods and applications Cambridge University Press; 1994. 857 p.

11. Newman MEJ. Assortative mixing in networks Physical Review Letters. 2002;89(20). doi: 10.1103/PhysRev-Lett.89.208701

12. Hernandez LM, Rudie JD, Green SA, Bookheimer SY, Dapretto M. Neural signatures of autism spectrum disorders: Insights into brain network dynamics. Neuropsychopharmacology reviews. 2015;40:171-89. Available from: http ://www.nature.com/npp/j ournal/v40/n 1 /full/npp2014172a.html doi:10.103 8/npp .2014.17 2

13. Watts SH, StrogatzDJ. Collective dynamics of 'small-world' networks. Nature. 1998(393):440-2. doi:10.1038/30918

®

© Меринов А.А., Кочкаров А.А./Merinov A.A., Kochkarov A.A., 2016. Это произведение распространяется по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная. [This work is licensed under the Creative Commons Attribution 4.0 International License].

i Надоели баннеры? Вы всегда можете отключить рекламу.