Литература
1. Руководство по проектированию оснований зданий и сооружений. М., 1977.
2. Мусхелишвили Н.И. Некоторые основные задачи математической теории упругости. М., 1966.
3. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М., 1971.
Ростовская-на-Дону государственная академия сельскохозяйственного машиностроения,
Ростовский институт сервиса ЮРГУЭС 3 февраля 2006 г.
УДК 519.254
ВЫБОР ВРЕМЕННЫХ ИНТЕРВАЛОВ ПРИ СТАТИСТИЧЕСКОМ АНАЛИЗЕ ПОТОКА ПАКЕТОВ В СЕТИ
© 2006 г. В.А. Нестеренко
In this article we consider some aspects of statistical methods of detection of abnormal events in a network. We offer a method of definition of local statistical characteristics of a stream in a network during some time interval and definition of size of this interval depending on statistical characteristics of a stream of packages in a network on the big time interval.
Статистические методы обнаружения аномальных событий в сети основаны на сравнении текущих, локальных характеристик потока пакетов в сети с усреднёнными, глобальными характеристиками [1, 2]. Так, например, если количество пакетов некоторого типа в единицу времени сильно отличается от соответствующего среднего значения за большой промежуток времени, то вполне вероятна попытка сканирования сети или сетевой атаки. Таким образом, возникают задачи определения локальных статистических характеристик потока в течение некоторого ограниченного интервала времени и определения величины этого интервала в зависимости от статистических характеристик потока пакетов в сети на большом промежутке времени. В англоязычной литературе эти глобальные и локальные статистические характеристики обычно называют long-term и short-term [3] соответственно.
Пусть величина xi характеризует некоторое событие из потока событий, произошедшее в момент времени ti. Весь набор событий характеризу-
— 2
ется средним значением x и дисперсией yx. Среднее значение для N собы-
N
тий определяется выражением: |(N) = 1/N^£ xi.
i=1
Введём функцию F(z) и определим величину
N
5(N) = VNorm(N) ■ £ F^ - tt)x, (1)
i=1
N
где Norm(N) = £ F(tN - tt).
i=1
Простым примером такой функции может быть F(z) = 6(х - z); здесь 6^) - обычная тета-функция
Г1, если z > 0 6( z) = \ .
[ 0, если z < 0
п
В случае п < N ^(Л) и 1/Norm(N) • £ xi, Логт(Л) ~ п, где п = 6/Д; Д и
г=1
- - среднее время между двумя соседними событиями.
Использование весовой функции позволяет находить усреднённое значение не на всём интервале а на некотором ограниченном отрезке времени, определяемом конкретным видом функции Е^). Кроме того, подбор специального вида функции Е^) позволяет получить простые рекуррентные соотношения для программной реализации вычисления Так, например, если в качестве весовой функции взять
Ео^) = ехр(—г/то) (2)
и §о(Л/) представить в виде §о(Л/) = а0(Л)/Ь0(Л), то рекуррентные соотношения для величин а0(Л и Ь0(Л имеют вид:
ао(1) = Х1,
а0(Л) = хм + ехр(-Дм /то) • ао(Л-1), (3)
Ьо(1) = 1, Ьо(Л) = 1 + ехр(-Дм /то) Ьо(Л-1),
где Дл = tN — ¿лч .
Эти соотношения позволяют организовать вычисление величины ^о(Л) в режиме реального времени, по мере поступления новых пакетов из сети.
Параметр то в используемой весовой функции определяет значение интервала времени, на котором вычисляется усреднённая величина ^о(Л). Этот интервал желательно выбирать минимально возможным, так как в этом случае увеличивается чувствительность метода обнаружения аномалий в потоке. С другой стороны, чрезмерное уменьшение интервала усреднения приводит к увеличению числа ложных срабатываний при выявлении аномалий. Для оценки возможных значений параметра то по-
N
ступим следующим образом: рассмотрим статистику у( хл,...,х1) = £ kixi,
i=\
К = exp(-(tN-tI)/ то)/Ь(Л).
Математическое ожидание и дисперсия будут равны
— — N _ 2 2 N 2 У=х' £ К =x, =&2 •£ кг .
г=1 г=1
Используя конкретное выражение и полагая Дп = 4-4—1«Д, получаем (1 - ехр (-Д /то) 1 - ехр (• Л Д/т0) Стх2 1 - ехр(Д/то) (1 - ехр (-N ■ Д/т0))
При больших значениях параметра N вклад членов, содержащих N экспоненциально мал и этими членами можно пренебречь. Так, например, при N > 7,6-т0/Д относительный вклад членов, содержащих N, не превышает 0,001. Полученное соотношение можно рассматривать как верхнюю границу значения параметра т при фиксированном значении N.
с2
С учётом приведённых ограничений получаем
аТ, _(1 -exp(-A/xo))
__
2 1 - exp(- 2-A/xo)
или, полагая А/т0 < 1, находим
а2 ~ 2 To
2 (4)
A
Таким образом, можно считать, что с точки зрения полученных значений математического ожидания и дисперсии статистика эквивалентна выборке п независимых событий, где
п = 2 А (5)
Д
или, другими словами, использование весовой функции F0(z) = ехр(-г/т0) с учётом приведённых ограничений эквивалентно использованию функции F(z) = 9(2-Т0 - z).
Если считать, что признаком отсутствия аномалии в сети является отклонение параметра от среднего значения х на величину, не превышающую ох, то для вероятности отсутствия аномалии а справедлива оценка
4п > иа , где иа - а-значение нормального отклонения; иа можно найти из
уравнения а = 1_ | ехр(-12Д) Ж. л/2л -и
иа
Учитывая полученные ранее соотношения (4) и (5), находим нижнюю оценку параметра т0
Т0 >Ди2. (6)
Основное отличие весовой функции F0(z) от F(z) в том, что для F(z) все события имеют одинаковый вес при вычислении статистических характеристик на интервале 0 < z < т. Для F0(z) событие при значении z = 0 даёт значительно больший вклад по сравнению с остальными.
В качестве другой весовой функции F1(z) можно выбрать функцию, «больше похожую» на F(z), чем функция F0(z).
Fl(z) = (1 + z/тl)•exp(-z/тl). (7)
На рисунке представлены графики функций F(z), F0(z) и F1(z) с учётом нормирующего множителя: Fk(z)^Fk(z)/Norm. Использование весовой функции F1(z) позволяет «выровнять» относительный вклад отдельных событий на интервале 0 < z < т по сравнению с применением F0(z). С дру-
гой стороны, использование функции несколько усложняет про-
граммную реализацию вычисления |(Л) (1). Если ^(Л) представить как ^(Л) = а1(Л)/Ь1(Л), то соответствующие рекуррентные соотношения для величин а^Л) и Ь1(Л) будут иметь вид: а^1) = хь а^Л) = хЛ + (а^Л) + + ао(Л)-Дл/тО •ехр(-Дл/т1), Ь^Л) = 1, Ь^Л) = 1 + (Ь^Л) + Ьо(Л) -ДЛтО •ехр(-Дл/т1), где ДЛ = tЛ-tN—l и а0(Л), Ь0(Л) вычисляются по формуле (3).
Используя рассуждения, аналогичные тем, что привели к соотношени-
ст2 т
ям (4) и (6), для весовой функции Е^) находим -х- и 3,2—,
-2 Д
(8)
Ua •
д
т >—
1 3,2
На основании [3], (6), (8) получаем таблицу
a U„ n Х0/Д Х1/Д
0,99 2,58 > 6 > 3,3 > 2,1
0,999 3,29 > 10 > 5,4 > 3,4
0,9999 3,89 > 15 > 7,6 > 4,7
0,99999 4,42 > 19 > 9,8 > 6,1
Таким образом, применение весовых функций типа (2) и (7) при вычислении средних значений (1) в некотором смысле эквивалентно использованию выборки из n последовательных событий на временном промежутке tN > t >tN - т (n = т/Д). Это позволяет связать параметры т0 и т1 весовых функций F0(z) и F1(z) с интервалом т: т0 » т/2, т1 » т/3,2; получить ограничения (6), (8) и численные оценки для параметров т0 и т1 (таблица). Полученные результаты могут быть использованы при создании системы обнаружения нарушений безопасности в сети.
Литература
1. Kwitt R. A Statistical Anomaly Detection Approach for Detecting Network Attacks. 14th December 2004/ 6QM Workshop.
2. Feinstein L., Schnackenberg D. Statistical Approaches to DDoS Attack Detection and Response. Proceedings of the DARPA Information Survivability Conference and Expostion (DISCEX'03), April 2003.
3. Mahadik V.A., Wu X., Reeves D.S. Detection of Denial-of-QoS Attacks Based On x2 Statistic And EWMA Control Charts. http://arqos.csc.ncsu.edu/papers/2002-02-usenixsec-diffservattack.pdf.
4. Абрамовиц М., Стиган И. Справочник по специальным функциям. М., 1979.
Ростовский государственный университет 3 февраля 2006 г.
УДК 519.710.73
РЕПЛИКАЦИОННЫЕ ПРИЛОЖЕНИЯ РАСПРЕДЕЛЕННЫХ БАЗ ДАННЫХ В ИНФОРМАЦИОННЫХ СИСТЕМАХ С НИЗКОСКОРОСТНЫМИ КАНАЛАМИ СВЯЗИ
© 2006 г. О.М. Омаров, А. А. Абдулгамидов
In article is given benchmark analysis of the most wide-spread models to organizations of the access to database and different model репликации and synchronizing database. The Offered model репликации on base two parallel transactionses with introduction mechanism репликационного exhibits that allows to organize efficient work in portioned information system in inferior condition channel relationship.
Одним из путей развития технологий распределенных вычислений и параллельной обработки является внедрение механизмов репликации, основная идея которой заключается в том, чтобы создать и поддерживать несколько копий разделяемого хранилища данных. Репликация рассматривается как средство распределения данных разделяемого хранилища. Ее основная задача - поддержание всех реплик в согласованном состоянии, что в условиях проблемных каналов связи становится довольно сложной и проблемной задачей.
Анализ состояния. Репликационные приложения (РП) в данной статье рассматриваются как наиболее эффективное средство управления трансакциями при построении распределенной системы в условиях слабой инфраструктуры - при отсутствии качественных, высокоскоростных каналов связи.
Основные задачи, решаемые при выборе стратегии репликации в распределенной системе: обеспечение отказоустойчивости (при отказе любой или даже нескольких реплик система должна продолжать работать); повышение производительности, позволяющее эффективнее использовать сетевые и вычислительные ресурсы (достигается за счет статистического распределения запросов чтения между многими репликами); локализация трафика (уменьшение задержки при обращении к базам данных (БД) и снижение загрузки дорогостоящих «дальнобойных» или перегруженных магистральных каналов).
Исследование проблем репликации сводится к решению этих трех основных вопросов. От эффективности этого решения зависит эффективность модели распределенной системы.