УДК 519.254
ВЫБОР ПАРАМЕТРОВ СТАТИСТИЧЕСКИХ МЕТОДОВ ОБНАРУЖЕНИЯ АНОМАЛЬНЫХ СОБЫТИЙ В СЕТИ
© 2007 г. В.А. Нестеренко, А. О. Семизоров
In this article we consider some aspects of statistical methods for detection of abnormal events in a network. We offer a set of weight functions for realization of an effective method of calculation of local statistical characteristics; we consider criteria of presence of anomalies for various statistical characteristics of a stream of packages in a network.
Статистические методы обнаружения аномальных событий в сети могут быть основаны на сравнении текущих, локальных характеристик потока пакетов с усреднёнными за продолжительный промежуток времени, глобальными характеристиками. В качестве статистических характеристик обычно используются выборочные моменты, энтропия,
критерий согласия х2 и т. п. [1—3]. Если локальные характеристики сильно отличаются от соответствующих глобальных, это свидетельствует об аномальном поведении потока пакетов и вполне вероятна попытка сканирования сети или сетевой атаки. Таким образом, возникает задача построения эффективных методов вычислений локальных статистических характеристик в течение некоторого ограниченного интервала времени и задача определения величины этого интервала в зависимости от глобальных статистических характеристик потока в сети на большом промежутке времени. В данной статье предлагается набор весовых функций для реализации эффективного метода вычисления локальных статистических характеристик. Обсуждается выбор значений параметров используемых весовых функций. В качестве статистических характеристик потока пакетов в сети рассматриваются выборочное среднее и критерий согласия Пирсона х2, признаки наличия аномалий и связь между этими признаками при использовании различных статистических характеристик потока пакетов в сети.
Будем считать, что числовая величина Xi, хт;п < Xi < xmax характеризует некоторое событие из потока событий, произошедшее в момент времени ti , 1 < г < N . Весь набор событий характеризуется средним значением х и дисперсией аХ величины X. Разобьём область возможных значений величины X на В частей:
(хтш' хтах] ^ (х0; х1] (хЬ х2] ••• (хВ_Ь хВ],
где хо = хт;п , хв = хтах . Полуинтервал (хь-1, хь ], 1 < Ь < В назовём контейнером.
При нахождении статистических характеристик последовательности событий будем учитывать ко-
личество событий, попадающих в контейнер с номером Ь (величина X, удовлетворяет условию хь-1 < < X, < хь). Для этого определим функцию
Фь (X):
Ф (х) I1 при Х е(хь-1' хь] .. б
Фь (X ) = <! , т и введём набор
[0 при X £(хь_ь хь ]
1 " / \
величин уь, 1 < ь < В : уь(п) = -•2Фь(X,),
п 1=1
В
2 Уь (п) = 1 для учёта доли событий от числа п,
ь=1
попадающих в контейнер с номером ь .
Общее количество событий N определяется интервалом времени, в течение которого ведётся наблюдение за потоком. При увеличении числа событий N частоты уь ^) стремятся к рь - вероятностям попадания события в контейнер с заданным номером - и могут быть использованы в качестве глобальных, долговременных характеристик потока. Для определения локальных характеристик будем учитывать содержимое контейнеров не для всего потока из N событий, а только для п последних. С этой целью введём весовую функцию Р(г), и значения локальных частот Уь будем вычислять по формуле N
Уь(N) =2Р(tN _и)-Фь(X,). (1) г=1
Использование весовой функции подходящего вида позволяет выделить из всей последовательности событий требуемую подпоследовательность. В качестве простого примера такой весовой функции может служить использование тета-функции:
Р(г) = в(пА_ г)/п , где А - среднее значение интервала времени между двумя последовательными событиями А и ti _ ti_1. В этом случае для локальных частотных характеристик событий получаем Уь ^)и - - 2 Фь (X,).
п i=N_n+1
В данной статье предлагается использовать весовую функцию
Fs (z) - 1 ks
(z/т)J
■ ex
p(- z/ т). (2)
Kj (1) -S
нуля:
dm
dzm
-Fs (z)
= 0 при 0 < m < s.
z=0
где
A(b)( N) - —
J TJ
Kj (N) =
N
J! ,-1
N
2 фь (X,) ■ ((n -1,) ■ exp(- ((n -1, )/t) ,
TJ ■ j! ,=1
2((n -1,) exp(-((N -1, )/т).
Выделяя вклад последнего события, получаем рекуррентные соотношения для вычисления вели-
чин А
f (N) и Kj(N): AJ">(1) = Фь(Xi)■Sjо,
(ь)(1)
Ajb)(N) - Фь(Xn) ■Sjo + e~AN/т 2
(An TT
-oo (-1/
-A(b)(N -1)
J 0 =
(5)
1=о Л
Функция ^ (г) локализована вблизи нуля и довольно быстро (экспоненциально) убывает с ростом аргумента г . Параметр т , присутствующий в определении весовой функции, задаёт временной интервал, на котором эффективно вычисляются частоты Уь (1). Результаты, полученные в [4], показывают, что в предположении N ^ ж и А/т << 1 значение параметра ф хорошо аппроксимируется выражением
п А
т =-. (3)
1,15 + 2
Коэффициент к5 в формуле (2) введён для обеспечения правильной нормировки функции
Р,(г): NFS^ - ) = 1.
1 = N - п+1
Выражение (2) представляет семейство функций
(г), различающихся значением параметра 5 , определяющего поведение функции ^ (г) вблизи
К (N) = 8}о + е"А"т ¿(А(/т)) 1К1 (N -1): I=0 у - Ч!
где А N = tN - tN-1 - временной интервал между последним и предпоследним событиями в потоке. Учитывая тот факт, что величины XN ха-
рактеризуют события, происходящие в последовательные моменты времени tN, формулы (5) позволяют реализовать вычисления частотных характеристик Уь (N), Уь (N +1), Уь (N + 2),... в режиме реального времени, по мере поступления новых пакетов и получения числовых характеристик XN, XN+1, XN+2,... потока сети.
В качестве статистических характеристик потока пакетов в сети будем использовать выборочное среднее числовой характеристики X :
£=2 ~ь • Уь, (6)
ъ=1
где ~ь = (хь + хь-1)/2 - середина полуинтервала
(хь-1, хь ], и статистику х1 :
« (Уь - рь )2
ж = n ■ 2-
С увеличением значения 5 функция ^ (г) становится «более похожей» на тета-функцию: выравнивается относительный вклад разных событий на временном интервале Т и пА при вычислении локальных статистических характеристик. В [2] предлагается использовать весовую функцию, аналогичную (1), при значении параметра 5 = 0, однако в некоторых случаях (при определении характеристик, усреднённых в течение продолжительного интервала времени - час, сутки и т. п.) значение 5 > 0 может быть более приемлемым.
Предлагаемый выбор весовой функции ^ (г) обусловлен тем обстоятельством, что формула (2) позволяет использовать простые рекуррентные соотношения для вычисления частот Уь ). Следуя [4], введём обозначения
Уь (N) =2А}ь)( N) 2К1 (N), (4) 1=о / 1=0
ь-1 рь
(7)
Величина х подчиняется хорошо известному
X2-распределению с В -1 степенями свободы.
Признаком аномалии в потоке будем считать чрезмерное отклонение величины £ от её среднего
значения:
(8)
где £ = 2 ~ь ' Рь - математическое ожидание вели-
ь=1
чины £; рь - вероятность попадания события в контейнер с номером ь . Параметр к в формуле (8) задаёт границы интервала £ - ках ,£ + ках ], выход за его пределы воспринимаем как аномалию. При значении параметра к и иа!4п, где иа - а-значение нормального отклонения и п - количество событий, участвующих в формировании локальных статистических характеристик, вероятность отклонения величины £ за пределы (8) составляет а . Если это случится, то с вероятностью 1 -а это отклонение будет вызвано появлением аномалии. Так, например, если мы выберем п = 30 и вероятность а = 0,001, то иа = 3,30 [5] и значение параметра составит к и 0,60 .
Если в качестве статистической характеристики потока событий использовать статистику х2 (7), то в качестве критерия появления аномалии будем использовать факт превышения величиной х2 заданного предела:
1
х2 äX2.
(9)
Критерии (8), (9) аномального поведения потока событий не эквивалентны, факт появления аномалии по одному критерию может соответствовать нормальному поведению потока согласно другому критерию. Это связано с тем обстоятельством, что используемые критерии введены для различных статистических характеристик. В случае (8) мы оцениваем отклонение выборочного среднего от математического ожидания, в другом случае (9) -отклонение плотности локальной функции распределения от плотности глобальной функции распределения величины X.
Для согласования используемых критериев рассмотрим ситуацию, в которой возникновение аномалии приводит к одновременному выполнению условий (8), (9), и установим связь между параметрами к и X2. Будем считать, что в обычном состоянии при отсутствии аномалий частоты попадания событий в контейнеры имеют вид Уъ = ръ + въ , 1 < Ъ < В, а аномалия заключается в том, что частота попадания в первый контейнер возрастает на регулярную величину 8 :
У = Р1 +в +8, (10)
я
Уъ = Ръ + въ - —, 1 <Ъ < В.
В — 1
В реальности подобная ситуация может возникнуть при сканировании сети или Аоо^атаке, когда на фоне обычного сетевого трафика появляется множество пакетов с близкими характеристиками. В этом случае из условий (8) и (9), представления (10) для Уъ и свойств вариаций въ М[въ ] = 0,
1 < b < B , M
в ßt
n Y —
b=1 Pb
= B -1, где M [z] - математи-
ческое ожидание величины г , находим связь между параметрами двух разных критериев наличия аномалий в сети:
х2
(в -1).
(
1 + n-
k 2Ч (- ~1)2
Л
(11)
тами: X1 = ^ — ^—1. В приведённом примере средний интервал времени между пакетами и среднеквадратичное отклонение составляют х и 250 мс и сх и 150 мс соответственно. При обработке потока пакетов и нахождении статистических характеристик (6), (7) были выбраны значения В = 5 и п = 30; при нахождении локальных частот Уъ (1) использовалась весовая функция ^ (г) (2) при значении параметров 5 = 5 иг в соответствии с формулой (3). Вдоль горизонтальных осей графиков отложены номера событий в сети (событие - поступление нового пакета), вертикальная ось соответствует промежутку времени между приходом двух пакетов. На
верхнем графике показано поведение величины х2 (7), на нижнем графике приведены значения характеристики Х1 поступающих пакетов и поведение выборочного среднего ^ (6). Пунктирные линии на графиках обозначают границы (8) и (9), выход за указанные границы свидетельствует о наличии ано-
При получении соотношения (11) предполагалось, что ръ и 1/В , 1 < ъ < В . Это допущение обычно используется в математической статистике при применении критерия согласия х2, его легко реализовать посредством подбора границ полуинтервалов (хъ—1, хъ ], 1 < ъ < В таким образом, чтобы вероятности попадания событий в разные контейнеры были равны.
Графики, приведённые на рисунке, иллюстрируют возможность практического использования полученных результатов.
При построении графиков использованы реальные данные, полученные на одном из узлов сети. В качестве числовой характеристики X используется временной интервал между двумя соседними паке-
N
малии в сети. Начиная с пакета номер Nf, график
резко возрастает, средняя частота поступления пакетов увеличивается в 5-7 раз. Из приведённых графиков видно, что в этом случае значения статистических характеристик х2 и выходят за границы «коридора» допустимых значений и используемые критерии указывают на появление аномалии.
Литература
1. Kwitt R. A Statistical Anomaly Detection Approach for Detecting Network Attacks. Salzburg, 2004.
2. Feinstein L., Schnackenberg D. // Statistical Approaches to DDoS Attack Detection and Response: Proceedings of the DARPA Information Survivability Conference and Expostion (DISCEX'03), 2003.
3. Mahadik V.A., Wu X., Reeves D.S. Detection of Denial-
of-QoS Attacks Based On Statistic And EWMA Control
Charts // http://arqos.csc.ncsu.edu/papers/2002-02-usenixsec-diffservattack.pdf. Raleigh.
4. Нестеренко В.А. // Изв. вузов. Сев.-Кавк. регион. Естеств. науки. 2006. Приложение. № 3. С. 18-22.
5. Абрамовиц М., Стиган И. Справочник по специальным функциям. М., 1979.
Ростовский государственный университет_22 мая 2006 г.