МЕТОДЫ ПОИСКА ИСКЛЮЧЕНИЙ В ПОТОКАХ СЛОЖНОСТРУКТУРИРОВАННЫХ ДАННЫХ

Казачук М.А.; Петровский М.И.; Машечкин И.В.; Горохов О.Е.

УДК 519.612:632.4

М. А. Казачук1 , М. И. Петровский2 , И. В. Машечкин3 , О. Е. Горохов4

МЕТОДЫ ПОИСКА ИСКЛЮЧЕНИЙ В ПОТОКАХ СЛОЖНОСТРУКТУРИРОВАННЫХ ДАННЫХ*

На сегодняшний день методы обнаружения аномалий в данных получили широкое распространение. В частности, данные методы используются в системах обнаружения внутренних вторжений, в медицине, в системах обнаружения экстремизма в публичных политических дискуссиях на форумах и в социальных сетях. Данная работа посвящена нечеткому методу выявления аномалий в данных на основе эллиптической кластеризации в пространстве признаков высокой размерности с использованием метрики Махаланобиса для расчета расстояний между объектами и центром кластера. Для подбора оптимальных значений метапараметров данного алгоритма используется разработанный авторами метод. Рассматривается классификация как отдельных событий, так и целых сессий активности пользователей с использованием алгоритма па основе ¿-статистики Уэлша. Предложенные методы показали высокое качество работы в решении двух важных задач анализа потока сложноструктурированных данных: задаче динамической аутентификации пользователей по динамике их работы с клавиатурой компьютера, а также в задаче выявления экстремистской информации в текстовых сообщениях в сети Интернет.

Ключевые слова: обнаружение аномалий, одноклассовая классификация, потенциальные функции, нечеткая логика, ¿-статистика Уэлша.

1. Введение. Методы поиска исключений играют важную роль при решении многих прикладных задач, в первую очередь связанных с безопасностью. В таких задачах, как правило, доступны данные только одного, легитимного, класса. А примеров нелегитимного целевого класса мало и зачастую их тяжело выделить путем "ручной" разметки. Данные задачи называются задачами одноклассовой классификации. В них легитимная модель строится без использования образцов других классов, хотя может делаться предположение, что в обучающей выборке может присутствовать определенный небольшой процент наблюдений из целевого нелегитимного класса. Такие задачи возникают в областях компьютерной [1], финансовой [2] и общественной безопасности [3]. Неформально под аномалией (или исключением) понимается объект или событие в выборке, чьи признаки или их комбинации не соответствуют зависимостям, характерным для остальных объектов или событий в данной выборке. Для поиска аномалий традиционно используются статистические (вероятностные) и метрические подходы, а также методы, основанные на анализе отклонений. В статистическом подходе под исключением понимается резко выделяющееся наблюдение (используется вероятностная интерпретация понятия исключения как маловероятного события). В метрическом подходе используется геометрическая интерпретация понятия исключения: исключением является наблюдение, удаленное от большей части наблюдений в выборке. Методы, не использующие ни вероятностную, ни геометрическую интерпретацию понятия исключения, относятся к методам, основанным на анализе отклонений. Следует отметить, что данные в задачах, связанных с безопасностью, как правило, имеют пространство признаков большой размерности. Вследствие этого многие признаки оказываются нерелевантными с точки зрения выделения целевого класса, а многие — являются взаимозависимыми. Это затрудняет использование традиционных вероятностных и метрических подходов, которые не устойчивы к "проклятию" размерности. Перспективным подходом в этой ситуации является использование кегпе!-методов (методов, основанных на переходе из исходного пространства признаков в

1 Факультет ВМК МГУ, асп., e-mail: kazachukQmlab.cs.msu.su

2 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: michaelQcs.msu.su

3 Факультет ВМК МГУ, проф., д.ф.-м.н., e-mail: mashQcs.msu.su

4 Факультет ВМК МГУ, студ., e-mail: owlman995Qgmail.com

* Работа выполнена при финансовой поддержке РФФИ № 16-29-09555.

пространство признаков большей размерности (RKHS) с использованием потенциальной (kernel) функции и поиске зависимостей в новом результирующем пространстве). Наиболее популярными среди них являются SVC и kernel-версия метода главных компонент — Kernel РСА. Но данные методы обладают рядом недостатков. В частности, SVC ищет оптимальный центр множества образов наблюдений в пространстве характеристик высокой размерности (RKHS) и ограничивает их гиперсферой минимального радиуса, считая наблюдения, чьи образы выходят за рамки гиперсферы, исключениями. Очевидным недостатком здесь является сферичность области, поскольку зависимости между исходными признаками также могут привести к зависимостям между индуцированными признаками в RKHS, а значит, логичнее использовать не сферические области, а эллиптические. С другой стороны, Kernel РСА строит как раз эллиптические области в RKHS, содержащие образы допустимых наблюдений, что позволяет эффективно работать с сильно зависимыми признаками. Однако, данный метод, в отличие от метода SVC, фиксирует центр распределения и не пересчитывает его с учетом найденных выбросов.

Для преодоления этих недостатков в данной работе предлагается новый метод обнаружения аномалий, основанный на анализе отклонений. Основной идеей предложенного метода является переход из исходного пространства признаков в пространство характеристик высокой размерности и дальнейшая нечеткая кластеризация образов наблюдений в результирующем пространстве с использованием метрики Махаланобиса для расчета расстояний между объектами и центром кластера, который также находится в индуцированном пространстве и итерационно пересчитыва-ется. В пространстве большей размерности строится один общий нечеткий кластер эллипсоидальной формы, где каждый образ наблюдения имеет свою степень принадлежности (типичности). Настройки алгоритма кластеризации (параметры регуляризации и степень нечеткости) задаются так, чтобы степень принадлежности "основной части" образов наблюдений кластера в RKHS была достаточно высока (выше заданного порога, например выше 0.5). Исключениями считаются наблюдения со степенью типичности, меньшей заданного порога. Расстояние Махаланобиса вычисляется путем проецирования данных на пространство, заданное собственными векторами матрицы ковариации в RKHS. Благодаря этому удается учесть разброс дисперсии и корреляции между признаками в RKHS. Тем самым, результирующий кластер будет иметь не сферическую, а эллипсоидальную форму в RKHS, что позволит более точно описать основную часть легитимной обучающей выборки и построить более точную одноклассовую модель соответственно. Подбор оптимальных значений метапараметров данного алгоритма осуществляется разработанным нами методом.

Зачастую входные данные в прикладных задачах, связанных с безопасностью, представляют собой потоки как целых документов (например, текстовых сообщений), так и отдельных событий (например, нажатий на клавиши клавиатуры), определенных на временной шкале, т.е. могут быть представлены временными рядами. Работа методов поиска исключений в данных задачах заключается в построении модели для предсказания будущих событий на основе информации о событиях произошедших. Данная информация является сложноструктурированной. Методы машинного обучения традиционно работают с более структурированной информацией — например, с векторами характеристических признаков. Поэтому необходимо уметь правильно выбрать модель представления данных. Зачастую для построения модели представления имеющийся поток поступающих событий последовательно разбивается на фрагменты (временные окна) небольшой продолжительности, и далее для каждого временного окна строится свой вектор характеристических признаков. Набор построенных векторов признаков далее подается на вход методу машинного обучения для построения модели представления. Для проведения классификации тестовых данных также строятся векторы признаков и подаются на вход классификатору. В ходе классификации каждого вектора признаков мы будем получать для него одно число — степень аномальности поведения пользователя. Однако, зачастую необходимо решать задачу оценки аномальности поведения пользователей за длительный промежуток времени, значительно превышающий размер временного окна, — например, за целую сессию работы пользователя за компьютером. Иными словами, необходимо на основе полученной последовательности откликов классификации отдельных событий уметь получать единое число — степень аномальности поведения пользова-

теля за продолжительный промежуток времени. Для решения поставленной задачи в данной работе предлагается метод на основе t-статистики Уэлша, ранее не применявшийся для решения данной задачи и сравнивающий значения откликов классификатора для валидационной выборки легитимного пользователя и новых тестовых данных.

Настоящая статья имеет следующую структуру. В п. 2 приведен обзор наиболее популярных kernel-методов обнаружения аномалий, идеи которых развивает предложенный подход. В п. 3 содержится описание предлагаемого нечеткого метода выявления аномалий. В п. 4 предлагается метод подбора оптимальных значений метапараметров алгоритмов одноклассовой классификации. В п. 5 приведено описание использования t-статистики Уэлша для оценки аномальности поведения пользователя за длительный промежуток времени. Пункт 6 посвящен экспериментальному исследованию работы предложенных методов в двух типовых задачах, связанных с проблемами компьютерной и информационной безопасности. Первая задача посвящена динамической аутентификации пользователей по динамике их работы с клавиатурой. Вторая задача посвящена выявлению экстремистской информации в текстовых сообщениях в сети Интернет. В п. 7 делаются выводы по предложенным подходам.

2. Классические kernel-методы поиска исключений. Наиболее известными методами обнаружения аномалий в RKHS являются такие методы машинного обучения, как SVC [4] и Kernel PC А [5]. Ключевым моментом данных методов является переход из исходного пространства анализируемых объектов X в пространство характеристик большей размерности И, в котором образы объектов ^>(x) и <^(у) связаны с исходными объектами x и у:

K(x,y) = {^(x),^(y))H ,

где K — ядровая (потенциальная) функция. Расстояние d между объектами «ув новом пространстве будет вычисляться следующим образом:

dix, у) = л/К(х,х) -2К(х,у) + К(у,у).

Выбор используемой потенциальной функции зависит от специфики задачи. В задачах обнаружения аномалий часто используется радиально-базисная функция Гаусса (RBF):

К{х,у) = е" " 2,

где а — ширина используемого ядра (параметр алгоритма).

Целью перехода в пространство характеристик большей размерности является эффективное использование более простых геометрических структур для описания зависимостей во входных данных [6].

Рассмотрим методы, использующие переход в пространство характеристик большей размерности, подробнее.

В методе SVC [4] объекты из исходного множества неявно отображаются с помощью потенциальной функции в пространство характеристик высокой размерности, где далее происходит поиск гиперсферы минимального радиуса, содержащей внутри "основную часть" образов объектов из исходного множества. Исключениями считаются объекты, чей образ лежит за пределами найденной гиперсферы. Таким образом, в данном методе решается следующая задача оптимизации:

min

ÇeRN ,ReR,aeH

Mxi) - allH < R2 + Ci Vi € [1 ,N],

где R — радиус построенной гиперсферы, a — центр гиперсферы, N — число объектов в обучающей выборке X, 0 < V ^ 1 — предопределенный процент исключений, Ci — дополнительные

N

i=1

(1)

переменные. Для решения данной задачи предлагается использовать метод множителей Лагран-жа. В результате бинарная решающая функция будет иметь следующий вид:

N N

f (z) = sgn(R2 -J2 fiifijK(Xi, Xj) + 2 ^ вгK(хг, z) - K(z, z)),

i,j=l i=l

где fa i £ [1, N], — множители Лагранжа, (3i = для исключений, 0 < (3i < для граничных объектов и вг = 0 для остальных объектов, z — тестовое наблюдение.

Настраиваемым параметром данного алгоритма является отношение ожидаемого числа исключений к общему числу объектов рассматриваемой выборки v (см. (1)). Основным недостатком данного метода является чрезмерная простота найденных границ для определения исключений в RKHS, которые не учитывают в полной мере зависимости между признаками.

Данную проблему частично решает метод поиска аномалий Kernel PC А [5]. В данном методе после перехода в пространство высокой размерности выполняется отбор главных компонент методом РСА, а далее происходит построение уже не гиперсферы, а эллипсоида, содержащего большую часть образов объектов исходного множества. Использование эллипсоида вместо гиперсферы позволяет учесть масштаб разброса данных по разным направлениям, взаимозависимости признаков и более точно описать строящуюся модель. Главным компонентам соответствуют собственные векторы с наибольшими собственными значениями. Количество отбираемых главных компонент является параметром алгоритма.

В данном методе в качестве меры аномальности вводится понятие реконструкционной ошибки, которую необходимо минимизировать. Для каждого объекта хг обучающей выборки данное значение вычисляется следующим образом:

||<р(хг) - Рр(хг)||H = (<р(хг), (р(хг)) - 2 (р(хг),Рр(хг)) + (Рр(хг), Рр(хг)), (2)

где р(хг) — центрированный образ данного объекта в пространстве характеристик высокой раз-

N

мерности: (p(xi) = <p(xi) — jf <f(xi)> Рф^г) — проекция (p(xi) на подпространство с максималь-

г=1

ной дисперсией данных.

Таким образом, уровень аномальности p(z) тестируемого вектора z будет иметь вид

2 N 1 N p(z) = K(z, z)-~Yl K(Z> + E K(Xi> г=1 га=1

q IN I 1 N 1 N 1 N \\2

"E + ^ E K(xr,xs)\\ , (3)

Z=l \г=1 \ r=l r=l r,s=i J J

где N — число анализируемых объектов, а,г — весовые коэффициенты, q — количество используемых главных компонент. Исключениями считаются объекты с наибольшим значением уровня аномальности.

Но как видно из формул (2), (3), результирующая модель хотя и строит эллипсоидные области

в RKHS, центр этих областей фиксируется в центре масс распределения и не пересчитывается

q

оставленных главных компонент.

3. Нечеткий метод выявления аномалий в данных на основе эллиптической кластеризации в RKHS. Для решения вышеописанных проблем методов SVC и Kernel РСА в данной работе предлагается нечеткий метод выявления аномалий в данных на основе эллиптической кластеризации (Ellipsoidal Single Fuzzy Clustering — ESFC) в RKHS. В данном методе с помощью потенциальной функции (р строится отображение исходного множества анализируемых объектов {хг}^1<a<n} С X в пространство характеристик H. Вместо гиперсферы, содержащей

образы анализируемых объектов, в пространстве характеристик строится один общий нечеткий кластер эллиптической формы, содержащий все образы анализируемых объектов таким образом, чтобы степень принадлежности (типичности) щ каждого обр аза p(xi) "основной части" объектов была достаточно высока. Степень принадлежности образа анализируемого объекта этому кластеру интерпретируется как "мера типичности". Исключениями будут считаться объекты со степенью типичности, меньшей порога, заданного априори. В отличие от метода Kernel РСА в данном методе центр нечеткого кластера пересчитывается оптимальным образом на каждой итерации.

Таким образом, задача сводится к следующей задачи оптимизации:

N N

min E(U, a,V)=J2 UT ||a - фг) ||£ + п ^(1 - щ)т, (4)

i=1 i=1

где a — центр нечеткого кластера в пространстве характеристик, N — число анализируемых объектов, U — вектор значений, где Ui — степень типичности г-го объекта, m > 1 — степень нечеткости (параметр, определяющий скорость убывания значения степени принадлежности в зависимости от расстояния до центра кластера) и п > 0 — параметр, контролирующий размер кластера, ||a — ^(xi)||C — квадрат расстояния Махаланобиса в пространстве характеристик от образа ^(xi) до a:

||a — p(xi)||£ = (a — ^(xi))TC-1 (a — <^(xi)),

где C — матрица ковариации. Введем обозначение: M = C-1. Таким образом, матрица M являет-

C

на пространство, заданное собственными векторами матрицы ковариации в RKHS. Благодаря этому удается учесть разброс дисперсии и корреляции между признаками в пространстве высокой размерности. Тем самым, результирующий кластер будет иметь не сферическую, а эллипсоидальную форму в RKHS, что позволит более точно описать основную часть легитимной обучающей выборки и построить более точную одноклассовую модель соответственно.

Заметим, что в отличие от метода SVC, в ESFC каждому объекту выборки присваивается определенный вес (степень типичности), благодаря чему уменьшается степень воздействия менее значимых (менее типичных) объектов выборки X и увеличивается влияние более значимых объектов данной выборки на результат классификации нового рассматриваемого объекта.

Для решения рассматриваемой задачи оптимизации (4) и, следовательно, поиска исключений предлагается следующий итерационный алгоритм на основе процедуры блочного покоординатного спуска [7].

Шаг 0. Инициализация.

u(0) = random ([0,1]), п(0) = 0.5.

Шаг 1. l-я итерация. Вычисление центра нечеткого кластера, соответствующего данной итерации, a(1) = argminE(U(1-1), a(1-1), п(1-1)) следующим образом:

N

a(1) =£ a?Wi),

i=1

где

iuC-'T

L u?-4

i=1 v

C

емых объектов <^(xi) и центра нечеткого кластера a в пространстве характеристик, на каждой итерации данного алгоритма необходимо осуществлять ее пересчет по формуле

Cj = (Wi) — a(l)) (V(xj) — a«) =

/

N

Е [иГ 1Л р(хг

<р(Хг) -

Г=1

V

N

Е (иг

Г=1

(г-1^ т

(

N

Е (и!1

«=1

Фз) - N

Е К

(1-1^ т

!=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

N / ('-1А т

г

= Кэ -

Е (иГ'-1))т К + Кгэ) Е (иГ1-1))

Г=1 V / Г,!=1 4 '

—--ь ^-

^ ,лт / N /

) КГ!

Г (иГ'-1^ т

г=1

Е иГ

Г=1

(6)

где Кэ = К(хг,хэ). Далее происходит вычисление обратной к ней матрицы М = С .

Шаг 2. Расчет расстояния Вк(а(1)) от центра кластера а(1) до образа й-го наблюдения Хк на данной (1-й) итерации для каждого наблюдения обучающей выборки:

Вк(а()) = |а(1) - фк) |С = (а(1) - Фк))* М (а(1) - фк))

N N

ЕЕ

Э=1г=1

N

и

М

(I) г,в= 1

('-1)

и

('-1)

КГ

N

Е (иГ'-1)) т Кгк

- 2М

(О Г=1

(е (иГ'-1)Чт

" N (иГ'-')4'"

Г=1

+мЭ)мкк)

N N

ЕЕМ? мщ.

Э=1г=1

Если параметр п не зафиксирован, от вычисляется как расстояние до образа (Ж - д)-го наиболее удаленного от а наблюдения, в результате чего ц наблюдений являются нетипичными (имеют степень типичности, меньшую 0.5). Параметр ц (ожидаемый процент исключений) должен задаваться априори и быть фиксированным на протяжении всей работы алгоритма:

П(') = В? (а(')),В21 (а(')) > В?(а(')) > ... > В? (а(')).

(7)

Шаг 3. Вычисление новых значений степеней типичности элементов обучающей выборки и (') = а^шт Е(и('), а('), п('))

Щ =

1 +

'Вг(а('))>

1

7П — 1

п

-1

(8)

Если |и(') - и('+1) > то — переход на Шаг 1, иначе — выход из алгоритма.

Значение решающей функции для расчета степени типичности и(г) рассматриваемого тестового наблюдения г вычисляется следующим образом:

и(г) =

1+

В, (а)

п

-1

где расстояние Махаланобиса В,(а) от образа ^>(г) анализируемого объекта г до центра нечеткого а

В,(а) = ||а - ф) ||£ = (а - ф))Т М (а - ф)) =

т

N N

ЕЕ

з=1¿=1

N

м

¿з

V

N

У! иг ит Кгз г\«=1 ~ „ , г=1

ЛГ - " ^

Еи™

г=1

Е и^К(хг, г) - ^-+ г)

Е

Г=1

/

Здесь степень типичности иг, соответствующая г-му наблюдению обучающей выборки (8), обратная ковариационная матрица М (6) и параметр ц (7) вычисляются по предложенному алгоритму ЕБРС, К(хг, г) — значение потенциальной функции, вычисляемой для тестового наблюдения г и г-го наблюдения хг обучающей выборки X.

Как было замечено ранее, предложенный итерационный алгоритм является алгоритмом блочного покоординатного спуска. В данной задаче мы можем выделить три независимых блока по N переменных: ф = фи х фа х фч. Для доказательства сходимости предложенного алгоритма необходимо убедиться, что он сходится линейно к стационарной точке (V*, а*, ц*) при любом начальном приближении. Для этого необходимо показать, что:

1) Е(и,а, г]) имеет глобальный минимум при фиксированных 17 = (Щ,... ,йдГ) € фи = [0,

_ _ (_ м _ )

и а = (а\,..., а^) € фа = \ а € Е аг = 1 г • В данной задаче это верно, поскольку

Е(17,а,г]) является линейной возрастающей функцией одной переменной, заданной на отрезке;

2) Е(17, а, г}) имеет глобальный минимум при фиксированных 17 = (йГ,... € фи = [0, и ц. Для доказательства данного факта вычислим значение

да,- да,

т 1г

¿=1 ,,к=1

к, ■

М

метричной матрице С. Следовательно, М — также положительно определенная симметричная матрица. Получили, что приведенная матрица вторых производных является положительно определенной. Следовательно, функция Е(17,а,г/) является выпуклой и имеет глобальный минимум в точке

„ ('ЩГ .

^ _ N

Е(и )т

¿=1

3) Е(17, а, г}) имеет глобальный минимум при фиксированных а = (Щ,..., адГ) € фа = 14 — 1

= ^ а € Е СЦ = 1 > и г?. Вычислим значение

¿=1

д2Е([7,а,г]) ди ди,

= 0, i = з,

д2Е{и,а,г))

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

= т(т - 1) [и™-2А(а) + ц(1 - иг)т-2] ■

(ди )2

Получили, что данная матрица вторых производных также является положительно определенной. Следовательно, функция Е(17,а,г/) является выпуклой и имеет глобальный минимум в точке

'А (а)'

и =

1 +

п

1 п

т — 1

-1

Таким образом, мы показали, что предложенный метод линейно сходится к некоторой стационарной точке (V*,а*,ц*) при любом начальном приближении. Следовательно, данный метод является сходящимся, что и требовалось доказать.

4. Метод подбора оптимальных значений метапараметров алгоритмов одноклас-совой классификации. Одной из основных проблем одноклассовых методов машинного обучения является подбор значений метапараметров данных алгоритмов, задаваемых априори. Поскольку в реальных ситуациях нам доступны данные только легитимного класса, а примеры целевого нелегитимного класса либо отсутствуют, либо не отмечены в обучающей выборке, обычные методы подбора и корректировки значений параметров алгоритмов классификации с использованием валидационного набора данных (holdout-Ha6opa), содержащего размеченные примеры обоих классов (как для методов обучения с учителем), использовать нельзя.

Для решения вышеописанной проблемы в данной работе предлагается метод подбора оптимальных значений метапараметров алгоритмов одноклассовой классификации на основе валидационного набора данных — адаптация аналогичного подхода для задачи классификации неразмеченного набора данных (задачи обучения без учителя). Основной идеей предлагаемого метода является фиксация значения ключевого метапараметра (ожидаемого процента исключений) и перебор по сетке значений всех остальных метапараметров рассматриваемого алгоритма машинного обучения таким образом, чтобы процент исключений на валидационном наборе данных совпал с ожидаемым процентом исключений для обучающей выборки. Рассмотрим данный метод более подробно.

Для каждого рассматриваемого легитимного класса все имеющиеся по нему данные предлагается разбивать случайно в отношении 50/50 на обучающую и holdout-выборку. Заметим, что одним из параметров всех рассматриваемых kernel-методов поиска аномалий является ме-тапараметр, который можно охарактеризовать как "ожидаемое отношение числа исключений к общему числу объектов в рассматриваемой выборке" (или ожидаемый процент исключений). Например, для алгоритма SVC это параметр v из (1). Для метода ESFC данный параметр вы-

q/N q

N

параметр обозначает долю объектов с наибольшим уровнем аномальности, пороговое значение данной величины вычисляется на обучающей выборке (3) и используется при дальнейшей классификации. Остальными метапараметрами рассматриваемых алгоритмов являются ширина ядра, а также степень нечеткости для алгоритма ESFC, и количество главных компонент для метода Kernel РСА. Предлагается для каждого рассматриваемого метода одноклассовой классификации фиксировать значение параметра "ожидаемый процент исключений" и варьировать значениями оставшихся параметров для достижения их оптимальной комбинации, т.е. комбинации, при которой значения параметра — "ожидаемого процента исключений" для обучающего и валидационного (holdout) наборов данных — окажутся наиболее близкими. В частности, для метода SVC необходимо найти перебором такое значение ширины ядра, при котором на тренировочном и на валидационном наборах данных пропорции наблюдений с отрицательным значением решающей функции будут совпадать. Для метода ESFC с целью достижения одинаковых на тестовом и валидационном наборах данных пропорций наблюдений со степенью типичности, меньшей 0.5, значения параметров — ширины ядра и степени нечеткости — перебираются по решетке. Аналогично для алгоритма Kernel РСА. При этом обучающий и валидационный набор данных будут оставаться неразмеченными. Отметим, что равенство значений ожидаемого процента исключений для обучающего и holdout-наборов данных означает стабильность работы рассматриваемого метода машинного обучения при найденных данным алгоритмом значениях метапараметров. Экспериментально было получено, что оптимально рассматривать следующие значения ожидаемого процента исключений: 5, 10 и 15%.

Заметим, что в некоторых существующих работах подбор значений метапараметров для одно-классовых методов машинного обучения осуществляется путем искусственной генерации объектов нелегитимного класса на основе предположений о типе его распределения, однако, не всегда можно сделать верное предположение о распределении данных нелегитимного класса [8]. Предложенный метод решает данную проблему.

5. Использование i-статистики Уэлша для оценки аномальности поведения пользователя за длительный промежуток времени. Рассмотренные в данной работе методы машинного обучения позволяют построить одноклассовую модель поведения пользователей на основе построенных векторов признаков и осуществлять классификацию для каждого поступающего в систему нового тестового вектора признаков. Однако, зачастую необходимо решать задачу оценки аномальности поведения пользователей за длительный период однотипной работы. С помощью классификатора мы сможем получить набор откликов для всех событий, полученных за рассматриваемый временной интервал. Необходимо на основе полученной последовательности откликов уметь получать единое число — степень аномальности поведения пользователя за продолжительный промежуток времени.

Для решения поставленной задачи в данной работе предлагается метод оценки аномальности поведения пользователя за длительный промежуток времени на основе i-статистики Уэлша.

Статистический тест Уэлша [9] используется для проверки гипотезы о том, что два рассматриваемых распределения имеют равные средние значения. Его отличительной особенностью является тот факт, что он применим для сравнения выборок, имеющих разные дисперсии, и даже для выборок, имеющих разный размер. В рамках поставленной задачи в качестве двух рассматриваемых распределений будут выступать результаты классификации легитимного и тестового пользователей (последовательности откликов классификатора), полученные за продолжительные промежутки времени их работы за компьютером.

Для анализа аномальности поведения тестового пользователя необходимо использовать обучающую (train) и валидационную (holdout) выборки легитимного пользователя, а также тестовую (test) выборку данного тестового пользователя. Обучение модели должно происходить на выборке train. В качестве "типичных" данных легитимного пользователя используется выборка holdout. Далее происходит сравнение данных пользователя для тестирования (выборка test) с выборкой holdout легитимного пользователя. Осуществляется расчет статистики:

где Xi — среднее значение элементов первой выборки (степеней аномальности, выданных классификатором на выборке holdout легитимного пользователя), X2 — среднее значение элементов второй выборки (степеней аномальности, выданных классификатором на выборке test тестового пользователя), si — дисперсия элементов первой выборки, s2 — дисперсия элементов второй выборки, N1 — число элементов первой выборки, N2 — число элементов второй выборки. Далее вводится понятие числа степеней свободы: vi = N1 — 1 — число степеней свободы для первой выборки, V2 = N2 — 1 — число степеней свободы для второй выборки.

Имея значения статистики t и числа степеней свободы, по их таблице соответствия находим значение p-value. Чем выше p-value, тем выше вероятность, что перед нами находится легитимный пользователь. Чем ниже значение p-value, тем выше вероятность, что перед нами находится нелегитимный пользователь (злоумышленник).

6. Экспериментальное исследование. Предложенный алгоритм ESFC был применен для двух задач, связанных с безопасностью. Первая задача относится к компьютерной безопасности — динамическая аутентификация пользователей по динамике их работы с клавиатурой компьютера. Вторая задача относится к информационной безопасности — обнаружение экстремистских сообщений в потоке публикаций пользователей в Интернете.

В первой задаче для проведения экспериментов использовался набор данных Villani [10,11], представляющий собой данные динамики работы 144 пользователей с клавиатурой, собранные в фоновом режиме их работы за компьютером. В среднем, каждый пользователь проработал за компьютером порядка одного рабочего дня. Для каждого действия пользователя записывался код клавиши, тип действия (нажатие или отпускание) и время совершения действия. Для построения вектора признаков собранная последовательность событий разбивалась на подпоследовательности (окна) событий с перекрытиями при превышении порога по числу событий в окне

t

Xi — X2

(минимальный размер окна — 300 событий, максимальный размер окна — 500 событий), а также при возникновении паузы в 40 секунд между последовательными событиями. Далее для каждого окна вычислялись признаки, характеризующие отдельные нажатия клавиш, а также нажатия диграфов — последовательных нажатий двух клавиатурных клавиш (рассчитывались промежутки времени между нажатиями и отжатиями клавиш). При этом, вектор признаков состоял из порядка 250 признаков, содержащих корреляции между собой. После этого все векторы признаков подвергались дискретизации по квантилям. Подробнее данный набор данных описан в работе [1]. В качестве продолжительного промежутка времени работы пользователя рассматривалась деятельность пользователя в рамках целой сессии работы за компьютером.

Во второй задаче рассматривалась ситуация опПпе-поиска экстремистских сообщений. В качестве экспериментального рассматривался набор данных, собранный из сообщений форума Ка-vazChat. Данный русскоязычный форум привлекает исламистов с Северного Кавказа, включает 699981 сообщений из 16854 веток форума, в котором участвовали 7125 пользователей. Рассматривались сообщения с 21 марта 2003 года по 21 мая 2012 года. В качестве предварительной обработки данных из исходного набора данных были удалены события, не содержащие временную метку. После этого для каждого пользователя были отобраны только те сессии, в которых он оставил более 40 сообщений. Затем были отобраны 23 пользователя, участвовавших более чем в 11 ветках форума. К сообщениям отобранных пользователей по отобранным сессиям был применен стем-минг. Было обнаружено, что для выделения признаков из текстовых данных может послужить доработанная архитектура сверточной сети, описанной в [12]. Основным отличием используемой архитектуры от описываемой является наше предположение, что сверточные признаки каждого пользователя принадлежат не к одному кластеру, а сразу к нескольким. Таким образом, при обучении мы пытаемся подобрать такие значения сверточных коэффициентов, которые минимизируют расстояние от каждого вектора обучающей выборки до ближайшего кластера, но при этом максимизируют расстояние до всех остальных кластеров. После применения данного решения мы можем воспользоваться стандартным методом обнаружения аномалий в данных, основанным на сведении поставленной задачи к задаче одноклассовой классификации. В качестве продолжительного промежутка времени работы пользователя рассматривалась деятельность пользователя по какому-то одному конкретному вопросу форума (участие в одной ветке обсуждения).

Для проведения экспериментов для обеих задач имеющиеся данные по каждому пользователю в равных долях были разбиты на три части: обучающую, валидационную и тестовую выборки. Валидационная выборка использовалась для подбора оптимальных значений метапараметров одноклассовых классификаторов, а также для оценки аномальности поведения пользователя за длительный промежуток времени. Подбор оптимальных значений метапараметров алгоритмов машинного обучения осуществлялся разработанным в данной работе методом (см. табл. 1). Рассматривались следующие значения ключевого метапараметра — ожидаемого процента исключений: 5, 10, 15%. Значения оставшихся метапараметров рассматриваемых алгоритмов перебирались по решетке с использованием "жадного" алгоритма. Для оценки качества классификации использовалось медианное значение величины ROC AUC в сочетании с межквартильным разбросом (усредненные по всем пользователям).

Результаты проведенных экспериментов представлены в табл.2.

Как видно из табл. 2, для обеих рассматриваемых задач наилучший результат распознавания (как классификации по отдельным событиям, так и по целым сессиям) был получен при использовании разработанного классификатора ESFC, и везде классификация по сессиям дала более точную оценку, чем классификация по отдельным событиям.

7. Заключение. Kernel-подход, используемый в задачах выявления аномалий в данных — эффективный способ борьбы с коррелируемыми данными высокой размерности. Однако, наиболее популярные сегодня kernel-методы SVC и Kernel РСА имеют ряд недостатков, связанных с формой и центром областей, которые они строят в RKHS для выделения аномалий. В частности, SVC строит гиперсферу с оптимальным центром, однако в RKHS сохраняются корреляции между образами входных данных, поэтому для их описания лучше подойдут контуры эллиптической

Таблица 1

Оптимальные значения метапараметров алгоритмов одноклассовой классификации, найденные с помощью предложенного алгоритма

Алгоритм Параметр Значение параметра

Набор данных 1 Набор данных 2

SVC Ширина ядра (а) 0.01 0.5

Процент исключений (г/) 10% 10%

Kernel PCA Ширина ядра (а) 0.01 0.6

Процент исключений (г/) 10% 10%

Количество главных компонент (д) 45 50

ESFC Ширина ядра (а) 0.006 0.7

Процент исключений 5% 5%

Степень нечеткости (т) 1.5 1.2

Таблица 2

Результаты проведенных экспериментов

Алгоритм Набор данных 1 Набор данных 2

Классификация по событиям Классификация по сессиям Классификация по событиям Классификация по сессиям

SVC 0.9262±0.0676 0.9414±0.0521 0.7958±0.091 0.8054±0.060

Kernel РСА 0.9315±0.0647 0.9513±0.0453 0.8053±0.085 0.8126±0.067

ESFC 0.9486±0.0521 0.9683±0.0301 0.8200±0.075 0.8431±0.079

формы. С другой стороны, метод Kernel PC А строит эллипсоидальные контуры в RKHS, но их центр в начале работы алгоритма фиксируется в центре масс образов наблюдений и далее итерационно не пересчитывается. Для преодоления данных недостатков мы разработали метод ESFC, строящий эллиптические контуры с оптимальным центром в RKHS. Он сочетает в себе достоинства методов SVC и Kernel РСА. Оптимальные значения метапараметров данного алгоритма находятся разработанным нами методом, не использующим информацию о данных нелегитимного класса. Предложенные методы были применены для решения двух важных задач анализа потока сложноструктурированных данных: задачи динамической аутентификации пользователей по динамике их работы с клавиатурой компьютера, а также в задаче выявления экстремистской информации в текстовых сообщениях в сети Интернет, где было показано наилучшее качество работы по сравнению с другими рассматриваемыми алгоритмами. Рассматривалась как классификация отдельных событий, так и классификация целых сессий активности пользователей

t

данных задач.

СПИСОК ЛИТЕРАТУРЫ

1. Kazachuk М., Kovalchuk A., Mashechkin I., Orpanen I., Petrovskiy M., Popov I., Zakliakov R. One-class models for continuous authentication based on keystroke dynamics // International Conference on Intelligent Data Engineering and Automated Learning. Cham: Springer, 2016. P. 416-425.

2. N g a i E. W. T. et al. The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature // Decision Support Systems. 2011. 50. N 3. P. 559-569.

3. Petrovskiy M., Tsarev D., Pospelova I. Pattern based information retrieval approach to discover extremist information on the Internet // International Conference on Mining Intelligence and Knowledge Exploration. Cham: Springer, 2017. P. 240-249.

4. Ben-Hur A. et al. Support vector clustering //Journal of Machine Learning Research. 2001. 2. N Dec. P. 125-137.

5. Hoffmann H. Kernel PC A for novelty detection //Pattern Recognition. 2007. 40. N 3. P. 863-874.

6. Petrovskiy M. A fuzzy kernel-based method for real-time network intrusion detection //International Workshop on Innovative Internet Community Systems. Berlin; Heidelberg: Springer, 2003. P. 189-200.

7. B e z d e k J. C. et al. Local convergence analysis of a grouped variable version of coordinate descent //J. Optim. Theory and Appl. 1987. 54. N 3. P. 471-477.

8. Ever it t R. A.J., McOwan P. W. Java-based internet biometric authentication system //IEEE Transactions on Pattern Analysis and Machine Intelligence. 2003. 25. N 9. P. 1166-1172.

9. W e 1 c h B. L. The generalization of student's' problem when several different population variances are involved //Biometrika. 1947. 34. N 1/2. P. 28-35.

10. Monaco J. V., B a k e 1 m a n N., C h a S. H., T a p p e r t C. C. Developing a keystroke biometric system for continual authentication of computer users // 2012 European Intelligence and Security Informatics Conference (EISIC). IEEE, 2012. P. 210-216.

11. Tap pert C. C., Villani M., Cha S.H. Keystroke biometric identification and authentication on long-text input //Behavioral Biometrics For Human Identification: Intelligent Applications. IGI Global, 2010. P. 342-367.

12. G o r o k h o v O., Petrovskiy M., M a s h e c h k i n I. Convolutional neural networks for unsupervised anomaly detection in text data // International Conference on Intelligent Data Engineering and Automated Learning. Cham: Springer, 2017. P. 500-507.

Поступила в редакцию 02.04.19 После доработки 15.04.19 Принята к публикации 15.04.19

МЕТОДЫ ПОИСКА ИСКЛЮЧЕНИЙ В ПОТОКАХ СЛОЖНОСТРУКТУРИРОВАННЫХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Казачук М. А., Петровский М. И., Машечкин И. В., Горохов О. Е.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Казачук М. А., Петровский М. И., Машечкин И. В., Горохов О. Е.

Outlier detection in complex structured event streams

Текст научной работы на тему «МЕТОДЫ ПОИСКА ИСКЛЮЧЕНИЙ В ПОТОКАХ СЛОЖНОСТРУКТУРИРОВАННЫХ ДАННЫХ»