Научная статья на тему 'Использование весовых функций при определении статистических характеристик потока пакетов в сети'

Использование весовых функций при определении статистических характеристик потока пакетов в сети Текст научной статьи по специальности «Математика»

CC BY
453
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование весовых функций при определении статистических характеристик потока пакетов в сети»

В.А. Нестеренко

Россия, г. Ростов-на-Дону, Южный федеральный университет

ИСПОЛЬЗОВАНИЕ ВЕСОВЫХ ФУНКЦИЙ ПРИ ОПРЕДЕЛЕНИИ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ПОТОКА ПАКЕТОВ В СЕТИ

Системы обнаружения нарушений в сети, основанные на выявлении аномалий, определяют отклонение текущего состояния от базового профиля, характеризующего нормальное состояние системы. Основным достоинством этих методов является возможность выявления новых, неизвестных ранее видов атак. Для построения базового профиля системы используется набор данных, соответствующий состоянию сети свободному от аномалий, или применяются статистические методы. Использование статистических методов для построения базового профиля системы предполагает, что аномальные события составляют небольшую долю в сетевом потоке и не дают заметного вклада при вычислении статистических характеристик для большого числа пакетов. Таким образом, статистические методы обнаружения нарушений в сети основаны на сравнении характеристик потока пакетов вычисленных на относительно небольшом промежутке времени (локальные характеристики), с соответствующими характеристиками за продолжительный промежуток времени (глобальные характеристики) [1]. В качестве статистических характеристик обычно используются выборочные моменты, энтропия, критерий согласия Пирсона С и т.п. [2-4]. Если локальные характеристики сильно отличаются от соответствующих глобальных характеристик, то это свидетельствует об аномальном поведении потока пакетов и вполне вероятна попытка сканирования сети или сетевой атаки. Таким образом, возникает задача построения эффективных методов вычислений локальных и глобальных статистических характеристик. В данной статье предлагается набор весовых функций для практической реализации вычисления статистических характеристик потока событий в течение некоторого заданного интервала времени.

Будем считать, что величина Хі, 1 < і < N представляет некоторое событие из потока событий. В качестве статистической характеристики потока событий можно использовать среднее арифметическое функции /(X):

і N

*( N)=т; •£ / (X).

N г=1

Общее количество событий N определяется интервалом времени, в течение которого ведётся наблюдение за потоком. При нахождении статистических характеристик среднее значение необходимо вычислять не для всего потока из N событий, а только для п последних событий. С этой целью введём весовую функцию ^(х) и значения локальных характеристик Ж(N) будем вычислять по формуле:

Ж ^ )=Х^ (^ - і)/Тп )• І (Хі) (1)

і=1

Значение аргумента N у величины Ж (N) означает, что соответствующая характеристика вычисляется вблизи N -го события потока, а размер выборки, для которой находится эта величина, определяется видом весовой функцией и значением параметра тп . Использование весовой функции подходящего вида позволяет выделить из всей последовательности событий подпоследовательность заданного размера п . Простым примером такой весовой функции может служить функция:

рв(г )=-• #(1 - Vт I

п

где тп = п , а в (г) - обычная тета-функция. В этом случае из формулы (1) для арифметического среднего получаем

1 N

жМ=-• X /(X),

п гЧМ-п+1

Использование весовой функции ^ (г) имеет один недостаток: при вычислении среднего значения (1) в потоке необходимо хранить значения Хі для всех п последних событий.

В работе [2] в качестве весовой функции предлагается использовать функцию

^ (г1 т) = 1ехР(- */т) к

Такой выбор весовой функции позволяет при вычислении статистических характеристик Ж N) использовать простые рекуррентные соотношения:

Ж ^ ) =1 (/ (хN)+ ехр(- 1/т) • Ж ^ -1)). (2)

к

В тех случаях, когда интервал усреднения состоит из большого числа (несколько сотен или тысяч) событий, использование таких рекуррентных соотношений даёт значительный выигрыш при вычислении среднего значения Ж N).

Отличие весовой функции Е0(г) от функции Рв(р) заключается в том, что при вычислении статистических характеристик с использованием функции ^0(г) события при малых значениях х дают относительно больший вклад по сравнению с остальными событиями выбранного интервала. В работах [5-6] предлагается использовать для нахождения статистических характеристик потока событий весовую функцию

(Ф,)=кт •Х (^тт- • ехР(- г!т*) (3)

ка у=0 7!

Функция ¥й (х) является частным случаем ^ (г) при значении параметра 5 = 0 .

О п г

Рнс 1

Из графиков приведённых на рис.1 видно, что с увеличением значения 5 функция ^ (z) становится “более похожей” на тета-функцию, выравнивается относительный вклад разных событий на интервале усреднения. Из результатов работы [5] следует, что в предположении N >> п и т, >> 1 нормирующий множитель к5 задаётся выражением

к, =(* +1)-т

а значение параметра т, хорошо апроксимируется формулой

п

Т =----------•

* 1.1* + 2

Здесь параметр т, определяет интервал усреднения в формуле (1), п - число событий на интервале усреднения.

Выбор вида весовой функции ^ ^) обусловлен тем обстоятельством, что использование выражения (3) позволяет получить рекуррентные соотношения, аналогичные (2) для вычисления W N). Учитывая тот факт, что величины X1,...,XN характеризуют события, происходящие в последовательные моменты времени t1,...,tN, рекуррентные соотношения, подобные (2), позволяют реализовать вычисления величин W^), W^ +1), ... в режиме реального времени, по мере поступления новых пакетов и получения соответствующих характеристик XN, XN+1, ... для потока в сети. Использование рекуррентных соотношений более эффективно, с точки зрения программной реализации вычислений статистических характеристик (1) потока событий, если интервал усреднения содержит большое число событий.

Ключевым моментом при выборе весовой функции ^ (р) является возможность получения рекуррентных соотношений, аналогичных (2). Для этого следует использовать функции удовлетворяющие соотношениям

Фк (г1 + ^2 )=ХРу (71 )' Ф (*2 )

]

К таким функциям относятся показательные, степенные, тригонометрические и некоторые другие функции. Это обстоятельство позволяет использовать в качестве весовой функции любую функцию, допускающую представление с достаточной степенью точности в виде частичной суммы ряда Фурье:

1 т I \

рт (г)=- ао + X (а С08(>)+Ь8ІП (і2))-

а +^ уа

2 У=1

В качестве примера рассмотрим периодическую функцию ( ) |1 при 2/' Т < г <(2/ +1)' Т,

т) [0 при (2/ +1)' Т < г <(2/ + 2)' Т, (4)

где I = 0,1, 2,....

При значениях аргумента 0 < z < 2Т функция m(z) совпадает с тета-функцией 0(1 - ^Т) и может быть использована в качестве весовой функции для нахождения статистических характеристик (1) на интервале усреднения содержащем п = Т событий для потока, состоящего из Т < N < 2Т событий.

Используя выражение для частичной суммы ряда Фурье функции т(2), вверху +1)-

дём весовую функцию: /

Fm

Sin

—+ 2

V-

) -

п

-0 +1)

(5)

Подставляя функцию Ет(г) в формулу для арифметического среднего (1) и выделяя вклад последнего события в величину Ж (Ы), можно получить рекуррентные соотношения, аналогичные (2).

На рис. 2 приведены графики весовых функций Ев(г) (тета-функция); ^ (г) (комбинация степенной и показательной функции (2) при значении параметра 5 = 12); Ет(г) (функция на основе частичной суммы ряда Фурье при значении т = 5). Значения параметров 5 = 12 и т = 5 выбраны так, чтобы для весовых функций ^(г) и Ет(г) на каждом шаге рекурсии вычислялось одинаковое количество объектов.

Весовая функция Ет(г) при значениях аргумента 0 < г < 2Т близка к тета-

функции и может быть использована в качестве весовой функции для нахождения статистических характеристик (1) на интервале усреднения, содержащем п = Т событий для потока, состоящего из Т < Ы < 2Т событий. При использовании рекуррентных соотношений вычисления начинаются с произвольного события Ы0 , в течение интервала (Ы 0, Ы о + Т ] набирается необходимое число событий для интервала усреднения Т . Затем при вычислении средних на интервале (Ы 0 + Т, Ы 0 + 2Т ] весовая функция Ет(г) даёт результат, близкий результату тета-

функции Ев (г). Для учёта следующих событий потока Ы > Ы0 + 2Т функция Ет (г) становится неприемлемой, так как в характеристику Ж (Ы) начинает давать вклад импульс второго периода (2Т < г < 3Т) весовой функции Ет(г). Эту ситуацию можно исправить и применять периодическую (с периодом 2Т = 2п ) весовую

функцию Рт (г) для обработки последовательности событий произвольной длины. Для этого следует использовать два набора рекуррентных соотношений для вычисления арифметического среднего Ж (Ы), начала рекурсий для этих наборов должны быть сдвинуты относительно друг друга на величину Т . Как только использование одного набора становится некорректным из-за большого числа событий в потоке N > Ы0 + 2Т , то следует переключиться на другой набор рекуррентных соотношений, а для текущего набора рекурсию следует начать заново. Другими словами: следует переключать с одного набора рекуррентных соотношений для случая использования весовой функции Рт(г) при вычислении (1) на другой набор через каждые Т событий.

На рис. 3 приведены результаты вычислений усреднённых значений для величин X,, представляющих некоторое событие для потока пакетов:

Ж (Ы ) = £Ы, Р ((Ы -, > X . В качестве характеристики Х используется временной промежуток между двумя соседними пакетами А, = , интервал ус-

реднения принят равным п = 30 . На горизонтальной оси графика рис. 3 отложены последовательные события в потоке, вдоль вертикальной оси - значения величины X, = А,.. Усреднённые значения вычисляются на интервале N - п + 1 < , < N с использованием трёх весовых функций Рв(г), р(г) и Рт(г). Из рис.3 видно, что

графики поведения усреднённых характеристик для разных весовых функций практически совпадают.

Заметное различие результатов использования весовых функций Рв(г), р (г) и Рт(г) появляется тогда, когда при вычислении статистических характеристик потока усреднение производится не для последних п событий, а для совокупности событий отстоящих от последнего события на заданную величину п0 в прошлое:

і N-n0

W(N-n )=-• X/(X, ) (6)

11

ri i=N-n0-n+1

Такая ситуация может возникнуть при необходимости сравнения текущих характеристик потока пакетов в сети с соответствующими характеристиками в прошлом: например при сравнении текущего трафика с загруженностью сети несколько часов назад.

В этом случае также можно воспользоваться весовыми функциями, рассмотренными в данной работе. Для этого при вычислении статистических характеристик W (N - n0 ) вначале используем формулу (1) для вычисления усреднённых значений на интервале [N - n0 - n +1, N], затем на интервале [N - n0 +1, N] и вычитаем полученные результаты один из другого:

w (n - n ) = X (f ((n - і )Д„+, )-F ((N - i )/T„ ))• / (X ) (7)

i=1

Использование тета-функции в качестве весовой Fq (z) для этого случая приводит к результату, соответствующему выражению (6).

В заключение данной статьи следует сказать, что использование предлагаемых весовых функций (3) (5) и соответствующих рекуррентных соотношений позволяет реализовать эффективные вычисления статистических характеристик потока пакетов в сети (1) (7) в течение заданного интервала времени.

При использовании интервала усреднения, состоящего из небольшого числа событий, лучше использовать тета-функцию Fq(z) в качестве весовой функции, так как хранение в памяти n характеристик последних событий и прямое вычисление суммы XI, г-„+, f (Xi ) может быть более эффективно с вычислительной точки зрения, чем использование рекуррентных соотношений.

Если число событий на интервале усреднения велико, то использование весовых функций Fs(z) и Fß(z) становится более эффективным, так как в этом случае

вычисление нескольких коэффициентов в рекуррентных соотношениях будет более эффективным, чем хранение и обработка нескольких сотен или тысяч событий в потоке пакетов.

БИБЛИОГРАФИЧЕСКИЙ СПИСК

1. Roland Kwitt. A Statistical Anomaly Detection Approach for Detecting Network Attacks. 14th December 2004/ 6QM Workshop, Salzburg.

2. L.Feinstein and D.Schnackenberg. Statistical Approaches to DDoS Attack Detection and Response. Proceedings of the DARPA Information Survivability Conference and Expostion (DIS-CEX’03), April 2003.

3. Vinay A.Mahadik, Xiaoyong Wu and Douglas S.Reeves. Detection of Denial-of-QoS Attacks Based On C Statistic And EWMA Control Charts. http://arqos.csc.ncsu.edu/papers/2002-

02-usenixsec-diffservattack.pdf, NC State University, Raleigh.

4. Nong Ye and Qiang Chen. An Anomaly Detection Technique Based on a Chi-Square Statistic for Detecting Intrusions into Information Systems. Quality and Reliability Eng. Int'l, Vol 17, No. 2, pp. 105-112, 2001.

5. Нестеренко В.А. Определение локальных статистических характеристик потока пакетов в сети // Изв. вузов. Сев.-Кавк. регион. Естеств. науки, 2006, в. S5, С 20-26.

6. Нестеренко В.А. Статистические методы обнаружения нарушений безопасности в сети. // Информационные процессы, 2006, Т. 6, в. 3, - С 208-217.

i Надоели баннеры? Вы всегда можете отключить рекламу.