Сравнительный анализ алгоритмов обнаружения аномалий трафика методами дискретного вейвлет-анализа
Ключевые слова: аномалии сетевого трафика; методы обнаружения; вейвлет декомпозиция; коэффициенты детализации и аппроксимации.
Для решения задач обнаружения аномалий трафика предлагается метод, основанный на дискретном вейвлет-разложении данных трафика и статистическом алгоритме обнаружения, использующем различные статистические критерии. В качестве характеристик, характеризующих качество алгоритмов обнаружения аномальных выбросов трафика рассматриваемых алгоритмов обнаружения были выбраны вероятности ошибок первого и второго рода . В качестве исходных данных использовались наборы данных DARPA, представляющие собой сетевой трафик, собранный на пограничном маршрутизаторе сети. Для адаптации предложенного метода к онлайн-обнаружению использована техника одного или нескольких скользящих окон. Вопрос выбора размера такого окна является одним из ключевых, поскольку влияет на результаты обнаружения аномалий различной продолжительности. Производился сравнительный анализ двух алгоритмов обнаружения аномалий трафика базирующихся на обработке квадратов вейвлет-коэффициентов в одном скользящем окне. При первом используются квадраты коэффициентов детализации и аппроксимации вейвлет- разложения наблюдаемого трафика. Исследования показывают, что при подобном анализе наиболее информативными являются коэффициенты аппроксимации. При втором, основанном на сумме квадратов коэффициентов детализации и аппроксимации вейвлет декомпозиции анализе указанные коэффициенты разложения возводятся в квадрат, а затем суммируются. В качестве базисных использовались вейвлеты Хаара и Добеши. Найдено, что при высокой достоверности обнаружения тип вейвлета оказывает существенное влияние. Так при использовании вейвлетов Хаара наибольший эффект наблюдается на верхних уровнях разложения. Тип материнского вейвлета слабо влияет на вероятность ложных срабатываний. Аналогичные результаты получены для атак Flash-crowd, Flash-crowd attack, Icmpflooding, icmp-flooding, Smurf, Synflooding, Udpstonm. Показано, что алгоритм основанный на сумме квадратов коэффициентов детализации и аппроксимации вейвлет коэффициентов полученных в результате декомпозиции исходного трафика обладает большей эффективностью по сравнению с алгоритмами без накопления (без суммирования). Наибольший эффект в задаче обнаружения аномалий трафика наблюдается при использовании коэффициентов аппроксимации для вейвлетов Хаара. Увеличение размера окна анализа приводит к возрастанию вероятности правильного обнаружения, при этом возрастает вероятность ложного обнаружения. Сравнительный анализ характеристик достоверности обнаружения аномальных выбросов показывает, что с увеличением номера уровня разложения возрастает вероятность правильного обнаружения.
Шелухин О.И.,
Заведующий Кафедрой "Информационная безопасность и автоматизация", МТУСИ, профессор, д.т.н., sheluhin@mail.ru
Филинова А.С.,
аспирант кафедры "Информационная безопасность и автоматизация", МТУСИ,
schneeglockchen@mail.iv
Постановка задаче.
Одним из перспективных методов обнаружения аномалий сетевого трафика являются методы вейвлет-анализа [I осуществляемые на основе вейвлет декомпозиции анализируемого, в общем случае нестационарного сигнала.
Вейвлет-декомпозиция позволяет представить анализируемый сетевой трафик в виде набора вейвлет-коэффициентов, которые представляют собой новую статистическую выборку, имеющую свои собственные характеристики. В работах 12,3,4,5] предлагается использовать изменения дисперсии как признаки наличия аномальных выбросов, а также предлагаются д специальные критерии ICSS (итеративный алгоритм кумуллятивных сумм квадратов) [6| и SIC (информационный критерий Шварца) [7] для их определения. В [8] представлен алгоритм, основанный на дискретном вей влет-преобразовании и байесовом анализе, позволяющий обнаружить и определить местоположение любых изменений в различных частотных полосах данного временного ряда, однако масштаб разложения ограничен.
В [9] представлен \VADeS (вей в лет-алгоритм, базируемый на подписи обнаружения атаки) механизм, основанный на вейвлет-анализе обнаружения атаки ООов. Этот алгоритм вначале выполняет вей влет-преобразование трафика, а затем для оценки момента атаки вычисляет различие вейвлет- коэффициентов на различных интервалах времени. Недостатком этого метода является высокая вычислительная сложность. В [10| предложен метод обнаружения аномалии графика, основанный на анализе корреляции целевых 1Р-адресов в исходящем трафике в выходном маршрутизаторе. Данный метод может использоваться для анализа в режиме реального времени исходящего сетевого трафика, однако у него отсутствует возможность обнаружения различных частотных аномалий.
В [11] предложено использовать энергетическое распределение, основанное на вейвлет-анализе для обнаружения 00о8 атак. Алгоритм рассчитывает энергетические изменения различий в распределении трафика, вызванные порождением аномального выброса из-за влияния ООо5-атаки.
Исходя из рассмотренных работ, можно сделать вывод, что методы обнаружения аномалий, основанные на венвлет-преобразовании представляются наиболее эффективными. Для адаптации таких методов к онлайн-обнаружению нужно использовать технику одного или нескольких скользящих окон, при этом вопрос выбора размера такого окна является одним из ключевых, так как он влияет на результаты по обнаружению аномалий различной продолжительности.
Будем предполагать также, что существует отдельный период на начальном этапе работы системы, в течение кото-
poro можно утверждать, что система работает в нормальном режиме.
Если такой интервал времени существует, то назовем его периодом обучения. В течение периода обучения будем на базе накопленной информации осуществить выбор пороговых уровней задающих заданный уровень ложных срабатываний.
Исходя из рассмотренных методов обнаружения аномалий сетевого трафика, в данной работе для решения задач обнаружения аномалий трафика предлагается метод, основанный на дискретном вейвлет-разложении данных трафика и статистическом алгоритме обнаружения, использующем различные статистические критерии [2,3,4]. За характеристику рассматриваемых алгоритмов обнаружения были взяты вероятности ошибок первого и второго рода (вероятность пропуска и ложного обнаружения аномалий соответственно), а в качестве исходных данных были взяты наборы дан-пых DARPA [12,13], представляющие собой сетевой трафик, собранный на пограничном маршрутизаторе сети.
Алгоритм обнаружения аномалий
При конечном числе уровней разложения М, любую последовательность дискретных отсчетов анализируемого графика ) можно представить в виде упорядоченной
совокупности коэффициентов разложения по системе масштабирующих функций и вейвлет-функций:
к=I ffl=I í=l
где ^ ,.(/.) — базисная масштабирующая функция; у Д/) -базисная вейвлет-функция; а ()£/ ( — аппроксимирующие и детализирующие коэффициенты; щ,к — параметры масштаба и сдвига в пространстве целых чисел /.
Интервал длительности аномалии и масштабы несут важную информацию о происходящем физическом процессе. Зная момент возникновения особенности, ее длительность и масштабные уровни ее проявления, можно выполнить следующую оценку параметров аномалии: длительность аномалии: , , где / — наибольший масштаб ее
Jmax
проявления; длительность аномалии на масштабе: j:t '->
масштабные уровни аномалии: = / ; момент возник* г Jmen = ' j,n
новенияаномалии: ¡ =h,
'тек 1
В качестве материнского вейвлета будем использовать вейвлет Хаара и Добеши.
Статистические характеристики коэффициентов
аппроксимации и детализации
Анализ статистических характеристик коэффициентов аппроксимации и детализации показывает, что плотность распределения вероятностей (ПРВ) мгновенных значений коэффициентов детализации хорошо описывается гауссовским законом с параметрами Л'(О, МУ). а ПРВ аппроксимирующих коэффициентов хорошо описывается распределением
2Г\-\
где о < р < +оо параметр формы, Л - дисперсия распределения, т - среднее значение и r[z)= ^t7~'e~'dí. z>0-
Параметр формы р определяет вид распределения. При различных р распределение имеет вид: р = 0 — Дельта-функция Дирака; р = 1 - Распределение Лапласа; р = 2— Гауссовское распределение; р-+ао ~ Равномерное распределение.
Из представленных данных видно, что IIPB деталей разложения достаточно хорошо описывается распределением экспоненциального вида. Набольшее распространение для описания распределения характеризующего коэффициенты аппроксимации Получило Гамма-распределение [14]
гДе Г(и) является стандартной Гамма функцией. Математическое ожидание и дисперсия случайной величины, имеющей гамма-распределение, равны соответственно и—а/} и
сг2 = ар2-
Алгоритм, основанный на сумме квадратов вейвлет-коэффициентов
Определим алгоритмы обработки для коэффициентов детализации
(За)
И аппроксимации
-1.
(36)
Рассмотрим алгоритм (За).
Для используемых типов вейвлетов можно считать, что коэффициенты детализации являются совместными, независимыми стандартными нормальными случайными величинами ¿/М е лг{0,1)- В результате случайная величина (За)
имеет распределение хи-квадрат с К степенями свободы, то есть
Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:
У/Л^2 V ./ где К
"VA*"/ У{2,2) Н^Л
(1)
- Гамм а-распределен не, а ¡-^Ку'^ —Гамма-функция.
При Т—>ю статистика (За) имеет асимптотически %2 ~ распределение как сумма квадратов независимых стандартных гауссовскнх величин.
Критерий обнаружения разладки последовательности (1), основанный на алгоритме (За), определяется для каждого уровня разрешения как
Здесь ~
функция распределения.
На каждом уровне разрешения ¡— /_д,/ проверяются гипотезы ¡-¡,, . и Н, ■ Решающее правило состоит в следующем.
5 t
|оЛ> I 0.8
I 07 | 06
| 05
| 0.4 Ё 0.3 • 0.1 I 0.1 a n
3
/ / / V /'
--
4 . -
з
Уровни разложения
—.........у—
* 3
4
■ /У
X*
У
\
S"
Рис. 15. Для Н"> 1,2 а 0,01 (15а), а* = 0,05 (156); I - алгоритм (6), вей влет Добеши, 2 - алгоритм (3), вей влет Добеши;
3 - алгоритм (3) вей влет Хаара; 4 - алгоритм (6), всйвлет Хаара
Величина порогового уровня для каждого уровня разложения осуществлялась исходя из доверительной вероятности /; = 0.95> что соответствует величине коэффициента а*-0,05, и доверительной вероятности р - 0.99, что соответствует величине а" =0,01. На рисунке 7-9 показаны зависимости вероятности правильного обнаружения от уровня разложения.
Из рисунка видно, что при увеличении уровня разложения вероятность правильного обнаружения возрастает от 0 J = 2 до I при J = 6. Увеличение размера окна приводит к увеличению вероятности правильного обнаружения, но это также сказывается на увеличении максимального значения вероятности ложного обнаружения 0,08 для окна = 500 до 1,2 для окна 1500. Анатогичные зависимости имеют место для вей влетов Добеши, Сравнительный анализ зависимостей показывает, что с увеличением уровня разложения возрастает вероятность правильного обнаружения, однако при этом возрастает вероятность ложной тревог и как это видно из рисунков 10-12.
Сравнительный анализ алгоритмов
При высокой достоверности (а* = 0,01) тип вейвлета оказывает существенное влияние. Вейвлеты Хаара оказываются эффективне в то время как при а* = 0,05 тип вейвлета практически не оказывает влияния. В целом алгоритмы с накоплением (2) оказываются эффективнее алгоритмов без накопления (5). Зависимости показывают, что тип материнского вейвлета слабо влияет на вероятность ложных срабатываний. При этом алгоритм (5) дает лучшие результаты по этому показателю. Аналогичные результаты были подучены для следующих трасс: Flash-crowd, Flash-crowd attack, Icrap-flooding, icmp-flooding, Smurf, Synflooding, Udpstorm.
Выводы
Проведенные исследования показывают, что алгоритм основанный на сумме квадратов коэффициентов детализации и аппроксимации вей влет-коэффициентов полученных в результате декомпозиции исходного трафика обладает большей эффективностью по сравнению с алгоритмами без накопления (без суммирования). 11аибольший эффект в задаче обнаружения аномалий трафика наблюдается при использовании коэффициентов аппроксимации для вейвлетов Хаара. Показано, что увеличение размера окна анализа приводит к возрастанию вероятности правильного обнаружения, однако при этом возрастает вероятность ложного обнаружения.
Сравнительный анализ характеристик достоверности обнаружения аномальных выбросов показывает, что с увеличением номера уровня разложения возрастает вероятность правильного обнаружения.
Литература
1. Paul Harford. Jeffery Kline. David Plonka and Amos Ron. A Signal Analysis of Network Traffic Anomalies / in Proceedings of the 2nd ACM S1GCOMM Workshop on Internet Measurement. New York, NY, U SA, 2002, ISBN: 1 -58113-603-X. Pp 71 -82.
2. Шеяухин О.И.. Г'армашев А. В. Обнаружение аномальных выбросов телекоммуникационного трафика методами дискретного вейвлст-анализа // Электромагнитные волны и электронные системы, №2, 2012. - С. 15-26.
3. Sheluhin О.!.. Atayero A.A. Detection of DoS and DDoS Attacks in Information Communication Networks with Discrete Wavelet Analysis/International Journal of Computer Seiencc and Information Security (IJCSIS), Vol. 10, No. 1,2012.
4. Sheluhin O.I., Pankrushin A. V. Measuring of Reliability of Network Anomalies Detection Using Methods of Discrete Wavelet Analysis / Science and Information (SA!), Conference 2013, London, UK. Pp.393-397.
5. D.W. Kwon, К. Ко, M Vannucci, A. L. N. Reddy and S. Kim. Wavelet Methods for the Detection of Anomalies and their Application to Network Traffic Analysis / Qual, Reliab. Engng. Int. 2006;22:953-969.
6. ICSS procedure for searching for breaks in variance using the algorithm described in Inclan and Tiao. Use of Cumulative Sums of Squares for Retrospective Detection of Changes in Variance / JASA 1994, vol 89. Pp. 913-923.
7. O. Ye. Rodionova, A.L. Pomerantsev. Principles of Simple Interval Calculations / In: Progress In Chemometrics Research, Ed.: A.L. Pomerantsev, NovaScicncc Publishers, NY, 2005 (ISBN: 1-59454-257-0). Pp 43-64.
8. V. Alarcon-Aqttino and A. Barria. Anomaly detection in communication networks using wavelets/IEEEProc-Commun, vol. 148, No6,2001.
9. A. Ramanathan. Wades: A tool for distributed denial of service attack detection / TAMU-ECE-2002-02, Master of Science Thesis, 2002.
10. S. Kim and A. Reddy. Detecting traffic anomalies at the source through aggregate analysis of packet header data / Proceedings of Networking, 2004.
11. Образцы сетевого трафика, включающие аномалии. http://www.lLmit.edU/mission/eommiinications/ist/corporaiideval/data/i ndex.html.
12. DARPA Intrusion Detection Evaluation. Intrusion Detection Attacks Database - http://www.il.mit.edu/mission/communications/ ist/corpora/ideval/docs/attackDB.html.
13. A. Scherrer, N. Larrieu, P. Owezarski. P. Borgnat. P. Abry, Non Gaussian and Long Memory Statistical Characterisations for Internet Traffic with Anomalies / IEEE Transacnions on Dependable and Secure Computing, Vol. XX, No V, JUNE, 2006. Pp. 1-13.
The comparative analysis of detection algorithms detection of traffic anomalies methods of the discrete wavelet-analysis
Oleg I. Sheluhin, professor, Department of Information Security Moscow Technical Univ of Communication & Informatics, Moscow, Russia,
sheluhin@mail.ru
Anastasia S. Filinova, aspirant, Department of Information Security Moscow Technical Univ. of Communication & Informatics, Moscow, Russia, schnee-
glockchen@mail.ru
Abstract
To solve the problems of traffic anomaly detection method is proposed based on discrete wavelet decomposition and statistical traffic data detection algorithm that uses different statistical criteria. As indicators of the quality of algorithms for detecting abnormal traffic emissions considered detection algorithms were chosen error probabilities of the first and second kind. The initial data used datasets DARPA representing network traffic collected on the border router network. To adapt the method to online detection technique used one or more sliding windows. Question of the window size selection is one of the key because it affects the results of the detection of anomalies of varying duration. The work was carried out a comparative analysis of two algorithms for traffic anomaly detection based on the processing of the squares of the wavelet coefficients in a sliding window. In the first squares coefficient detailed and approximation wavelet - decomposition of the observable traffic are used. The Researches show that the approximation coefficients are the most informative at the similar analysis. In the second the specified coefficient decomposition based on the sum squares coefficient detail and approximation wavelet decomposition the analysis are squared and then summarized. As the basic wavelet were used Haar wavelets and Daubeshi. Found that at high detection reliability wavelet type has a significant influence . So when using the Haar wavelet greatest effect was observed at the upper levels of decomposition. Mother wavelet type has little effect on the probability of false positives. Similar results were obtained for attacks Flash-crowd, Flash-crowd attack, Icmpflooding, icmp-flooding, Smurf, Synflooding, Udpstorm. It is shown that the algorithm based on a sum of squares approximation and detail coefficients of the wavelet coefficients resulting from decomposition traffic source has a higher efficiency as compared with algorithms without accumulation (without summation). The greatest effect in the problem of traffic anomaly detection observed using approximation coefficients for the Haar wavelets. It is shown that increasing the size of the analysis window increases the probability of correct detection , but it increases the probability of false detection. Comparative analysis of the reliability characteristics of the detection of abnormal emissions shows that an increase in the level number of decomposition increases the probability of correct detection.
Keywords: anomalies the network traffic; detection methods; wavelet decomposition; coefficients detailed and approximation.
References
1. Paul Barford, Jeffery Kline, David Plonka and Amos Ron. A Signal Analysis of Network Traffic Anomalies / in Proceedings of the 2nd ACM SIGCOMM Workshop on Internet Measurement. New York, NY, USA, 2002, ISBN:1-58113-603-X. Pp 71-82.
2. Shelukhin O.I., GarmashevA.V. Detection of anomalous emission of telecommunications traffic methods discrete wavelet analysis / Electromagnetic waves and electronic systems, No2, 2012. Pp 15-26.
3. Sheluhin O.I., Atayero AA Detection of DoS and DDoS Attacks in Information Communication Networks with Discrete Wavelet Analysis / International Journal of Computer Science and Information Security (IJCSIS), Vol. 10, No. 1, 2012.
4. Sheluhin O.I., Pankrushin AV. Measuring of Reliability of Network Anomalies Detection Using Methods of Discrete Wavelet Analysis / Science and Information (SAI), Conference 2013, London, UK. Pp.393-397.
5. D.W. Kwon, K. Ko, M. Vannucci, A L. N. ReddyandS. Kim. Wavelet Methods for the Detection of Anomalies and their Application to Network Traffic Analysis / Qual. Reliab. Engng. Int. 2006; 22:953-969
6. ICSS procedure for searching for breaks in variance using the algorithm described in Inclan and Tiao. Use of Cumulative Sums of Squares for Retrospective Detection of Changes in Variance / JASA 1994, vol 89. Pp. 913-923.
7. O.Ye. Rodionova, A.L. Pomerantsev: Principles of Simple Interval Calculations / In: Progress In Chemometrics Research, Ed.: A.L. Pomerantsev, NovaScience Publishers, NY, 2005, (ISBN: 1-59454-257-0). Pp 43-64.
8. V. Alarcon-Aquino and A Bairia. Anomaly detection in communication networks using wavelets / IEEE Proc-Commun, vol. 148, No 6, 2001.
9. A. Ramanathan. Wades: A tool for distributed denial of service attack detection / TAMU-ECE-2002-02, Master of Science Thesis, 2002.
10. S. Kim and A. Reddy. Detecting traffic anomalies at the source through aggregate analysis of packet header data / Proceedings of Networking, 2004.
11. Образцы сетевого трафика, включающие аномалии. http://www.ll.mit.edu/mission/communications/ist/corpora/ideval/data/index.html
12. DARPA Intrusion Detection Evaluation. Intrusion Detection Attacks Database. http://www.ll.mit.edu/mission/communications/ist/corpora/ ideval/docs/attackDB.html.
13. A Scherrer, N. Larrieu, P Owezarski, P Borgnat, P Abry. Non Gaussian and Long Memory Statistical Characterisations for Internet Traffic with Anomalies / IEEE Transacnions on Dependable and Secure Computing, Vol. XX, No V, JUNE, 2006. Pp.1-13.