с1сн: 10.36724/2409-5419-2022-14-2-44-51
КОМПЛЕКСНАЯ МЕТОДИКА ОБНАРУЖЕНИЯ КИБЕРАТАК НА ОСНОВЕ ИНТЕГРАЦИИ ФРАКТАЛЬНОГО АНАЛИЗА И СТАТИСТИЧЕСКИХ МЕТОДОВ
ПЕРОВ
Роман Александрович1 ЛАУТА
Олег Сергеевич2 КРИБЕЛЬ
Александр Михайлович3 ФЕДУЛОВ
Юрий Владимирович4
Сведения об авторах:
1адъюнкт 32 кафедры Военной академии связи имени маршала Советского союза С.М. Буденного, Санкт-Петербург, Россия, [email protected]
2профессор кафедры Государственного университета морского и речного флота им. адмирала С.О. Макарова (ГУМРФ), д.т.н., Санкт-Петербург, Россия, [email protected]
3соискатель 32 кафедры Военной академии связи имени маршала Советского союза С.М. Буденного, Санкт-Петербург, Россия, [email protected]
4соискатель АО "НИИ "Рубин", Санкт-Петербург, Россия, [email protected]
АННОТАЦИЯ
Введение: Применение в современных компьютерных сетях информационных и коммуникационных технологий сбора информации дает возможность злоумышленнику воздействовать на сетевую инфраструктуру путем реализации кибе-ратак [1]. Кибератаки могут достигать цели за счет массового использования устаревших операционных систем, малоэффективных механизмов защиты и наличия множественных уязвимостей в незащищенных сетевых протоколах. Подобные уязвимости дают потенциальному злоумышленнику возможность изменять настройки сетевых устройств, прослушивать и перенаправлять трафик, блокировать сетевое взаимодействие и получать несанкционированный доступ к внутренним компонентам компьютерных сетей. Цель работы заключается в разработке методики выявления аномалий в сетевом трафике за счет определения степени самоподобия трафика с использованием фрактального анализа и статистических методов. Используемые методы: программная реализация предложенной методики и формирования набора данных, содержащего сетевые пакеты. Результаты экспериментов продемонстрировали наличие самоподобия сетевого трафика и подтвердили высокую эффективность предложенной методики, которая позволяет обнаруживать кибератаки в реальном или близком к реальному времени. Научная новизна заключается в том, что предложенная методика предусматривает три этапа, в рамках которых выполняются анализ свойства самоподобия для эталонного трафика (с применением теста Дики-Фуллера, R/S анализа и метода DFA), анализ свойства самоподобия для реального трафика (теми же методами) и дополнительной обработки временных рядов статистическими методами (методы скользящего среднего (MA), Z-Score и CUSUM). Результат: представленная методика позволяет выявлять в реальном и близко к реальному масштабу времени воздействие кибератак, а использование статистических методов повышает точность определения кибератак. Практическая значимость: представленная методика является универсальной и может быть применена в системах информационного обмена органов государственного управления выполняя задачи обеспечения безопасности страны.
КЛЮЧЕВЫЕ СЛОВА: фрактальный анализ, кибератаки, статистические методы, самоподобие, сетевой трафик.
Для цитирования: Перов Р.А., Лаута О.С., Крибель А.М., Федулов Ю.В. Комплексная методика обнаружения кибератак на основе интеграции фрактального анализа и статистических методов // Наукоемкие технологии в космических исследованиях Земли. 2022. Т. 14. № 2. С. 44-51. Coi: 10.36724/2409-5419-2022-14-2-44-51
Общее описание предлагаемого метода
К основным методам, позволяющим выполнить все этапы обнаружения кибертак, относятся расширенный тест Дики-Фуллера, R/S анализ и метод DFA [2].
Предлагаемый метод детектирования кибератак предусматривает три этапа:
• вспомогательный (анализ самоподобия в эталонном трафике);
• основной (анализ самоподобия в реальном трафике);
• заключительный (классификация атак с помощью дополнительного статистического анализа).
На первом этапе, вспомогательном, анализируются самоподобные свойства эталонного сетевого трафика. В эталонном трафике отсутствуют аномалии. В результате этого анализа определяется значение показателя Херста, соответствующее эталонному трафику. Этот этап можно назвать этапом обучения. Для определения значений показателя Херста используются рассмотренные выше методы тестирования Дикки-Фуллера, R/S анализа и DFA.
На втором этапе, основном, анализируются самоподобные свойства реального трафика, для которого могут быть характерны аномалии, вызванные воздействием кибератак. При этом также используются рассмотренные выше методы определения значений показателя Херста. Если выявленное значение показателя Херста отличается от значения, полученного для эталонного трафика, принимается решение о наличии аномалий в реальном трафике, которые могут быть вызваны воздействием кибератак. Кроме того, на этом же этапе определяется минимальный размер группы пакетов, достаточный для точной оценки показателя самоподобия. Чем скромнее размер этой группы, тем меньшее время требуется для детектирования кибератаки.
На третьем этапе на основе методов математической статистики осуществляется классификация кибератак в целях реализации мер защиты.
Реализация метода
В качестве исследуемого сценария был выбран трафик, соответствующий существующей компьютерной сети, состоящей из узловых элементов (четырех маршрутизаторов и восьми персональных компьютеров), а также сетевых элементов, включающих семь маршрутизаторов. В этом сценарии процесс передачи пакетов сообщений является стационарным. В качестве реализуемых атак учитывались кибератаки типов DDoS и "Сканирование сети и ее уязвимостей".
Учитывая вышеизложенное, в качестве основных исследуемых характеристик в наборе данных рассматривались структура трафика, длина заголовка пакета, флаги, контрольная сумма и некоторые другие.
С целью проведения эксперимента были сформированы два датасета. Первый датасет включал эталонный трафик и использовался для обучения системы и анализа трафика без аномалий. Второй датасет, включающий кибератаки типов DDoS и "Сканирование сети и ее уязвимостей", применялся для проверки эффективности рассматриваемого метода и
обнаружения его преимуществ перед другими методами.
Для демонстрации возможности выявления самоподобия трафика компьютерной сети было смоделировано и исследовано несколько выборок, содержащих 1024 точки, распределенные по закону фрактального броуновского движения с различными значениями показателя Херста: 0,3, 0,5 и 0,8.
Программная реализация предложенного метода обнаружения кибератак была выполнена на языке Python с использованием следующих библиотек и инструментов: Pandas, NumPy, Matplotlib и Jupiter Notebook.
Библиотека Pandas обеспечивает работу с высокоуровневыми сводными таблицами, их группировку и другие манипуляции с ними, а также легкий доступ к табличным данным. Библиотека NumPy - инструмент низкого уровня для работы с математическими функциями высокого уровня, а также с многомерными массивами. Модуль Matplotlib предоставляет возможности формирования графиков на основе полученного набора данных. Jupiter Notebook служил командной оболочкой для интерактивных вычислений [3].
Экспериментальная проверка метода
При экспериментальной проверке метода на первых двух этапах для нахождения показателя Херста (H) использовались R/S анализ и метод DFA. Многие исследователи применяют R/S анализ для нахождения показателя H в сетевом трафике. Однако R/S анализ дает большую погрешность, достигающую 20-30% в случае нестационарных процессов. Это свидетельствует о нежелательности применения R/S анализа в такой ситуации [4]. Поэтому для нахождения показателя скейлинга в нестационарном трафике предлагается использовать метод DFA, а для нахождения H в стационарных процессах - как DFA, так и R/S анализ.
Следует заметить, что при изменении H преследовалась цель получения как можно более разнообразного случайного сигнала, не похожего на предыдущий, с целью максимально полной проверки работоспособности алгоритмов, необходимых для выявления различных кибератак. Поэтому границы интервалов по оси времени не фиксировались. Изменение H в ходе имитации осуществлялось программным способом. Для этого использовалось средство Matplotlib. Затем выполнялся анализ самоподобия смоделированного сигнала с помощью рассмотренных выше алгоритмов оценки H. Найденное значение параметра H сравнивалось с эталонным. Только после проверки работоспособности алгоритмов осуществлялся переход к работе с реальным трафиком [5].
При исследовании нестационарного временного ряда в нем обычно отмечают три компоненты:
• тренд Tt, который описывает плавное изменение
уровней ряда, вызванное долгосрочными факторами;
• сезонная компонента St, которая определяет периодические колебания уровней ряда;
• случайная компонента Et, которая описывает
влияние случайных, неучтенных факторов или ошибок измерения.
Каждый уровень ряда Xt таким образом можно
представить в виде функции ^ = (Т1,, Е{). Вид этой функции определяет взаимосвязь компонент уровня ряда и указывает на следующую модель ряда:
• аддитивная: X, = Т + Б, + Е{;
• мультипликативная: Х1 = Т1 * * Е1;
• смешанная: X, = Т * Б, + Е,.
При выраженных компонентах Т, и , а также незначительном шуме можно визуально идентифицировать модель ряда. Поэтому будем полагать, что сетевому трафику
соответствует смешанная модель, в которой учитываются все три ее компоненты.
Первоочередная задача перед обработкой временного ряда - определение его стационарности. Для того, чтобы определить стационарен ряд или нет, применялся тест Дики-Фуллера [6]. Результат тестирования временного ряда, отображающего интенсивность сетевого трафика, представлен на рисунке 1. На рисунке 1а отображена функция автокорреляции, а на рисунке \Ъ — функция частичной автокорреляции.
а) Автокорреляция
Т Т Т Г Т Г Т Т Т Т Т Г т г Г
_I_1_
10 15 20
Ь) Частичная автокорреляция
, 1 [ Г
тт
10 15 20 25
Рис. 1. Результат применения теста Дики-Фулера
Поясним смысл этих функций. Одно из главных отличий последовательности наблюдений, образующих временной ряд, от случайной выборки заключается в том, что члены временного ряда являются статистически взаимозависимыми. Степень тесноты статистической связи между двумя случайными величинами может быть измерена парным коэффициентом корреляции.
На рисунке 1 коэффициент корреляции измеряет корреляцию, существующую между членами одного и того же временного ряда. Поэтому его принято называть коэффициентом автокорреляции, а при анализе изменения коэффициента автокорреляции в зависимости от значения интервала между членами ряда говорят об автокорреляционной функции. Ее график называют коррелограммой. Автокорреляционная функция безразмерна. Ее значения изменяются в диапазоне от -1 до +1.
Близость значений автокорреляционной функции к нулю свидетельствует о слабой зависимости между уровнями ряда или ее отсутствии, близость к единице - о сильной зависимости. По значениям автокорреляционной функции можно судить о тренде или сезонной компоненте. Так, если наибольшее значение среди значимых коэффициентов корреляции набирает первый коэффициент (как на рис.1а), то можно
говорить о наличии тренда, который является доминирующим в этом временном ряде.
Если наибольшее значение набирает коэффициент порядка к, то ряд имеет повторяющиеся колебания с периодом к наблюдений. Если среди коэффициентов корреляционной функции нет значимых, то это свидетельствует об отсутствии тренда и сезонной компоненты.
Для нахождения чистого влияния периодических явлений можно также использовать частичную автокорреляцию. Как видно из рис.1Ь, местами она очень высокая. Поэтому не исключается влияние промежуточных уровней временного ряда. Таким образом, тест Дики-Фуллера и графики коррело-грамм не отвергают гипотезу о нестационарности ряда. Ряд является нестационарным.
Теперь рассмотрим результаты применения метода скользящего среднего (МА). На рисунке 2 представлены результаты вычисления скользящего среднего для различных временных рядов, полученных из сетевого трафика: интенсивность трафика (рис. 2а), количество байт в сети (рис. 2Ь), иБР поток (рис. 2с) и нефильтрованный сетевой трафик (рис. 2ф. Синие линии показывают исходный трафик, а красные -скользящее среднее.
Рис. 2. Результат применения метода скользящего среднего
Для метода МА характерны два недостатка, которые были обнаружены в ходе экспериментальной проверки предлагаемого метода. Первый заключается в том, что с помощью этого метода можно прогнозировать поведение трафика только на ближайшие периоды времени. Прогноз актуален всего лишь в течение 15-20 минут. Второй недостаток обусловлен тем, что метод МА отличается повышенной чувствительностью к выбросам данных. Кратковременный, но очень сильный всплеск приводит к достаточно длительному и существенному изменению амплитуды скользящего среднего. Для устранения этого недостатка можно использовать модификацию метода МА, в которой каждое предыдущее значение имеет разный вес.
Данный метод можно назвать взвешенной скользящей средней (WMA). С его помощью можно указать, насколько важно конкретное историческое значение для нового прогноза.
Метод WMA позволяет учитывать временной контекст. Чем раньше произошло событие, тем меньше его влияние на прогнозируемое событие. Сдвиг в методе WMA меньше, чем в методе МА. Метод WMA более чувствителен к колебаниям.
Рассмотрим результаты применения других дополнительных методов, которые былиупомянуты выше.
Результат обработки исходного сигнала методом потокового окна
(Z-Score) представлен на рисунке 3.
а) Исходный сигнал
/ /
/ / / /
1« 1И л»
Ь) Обработка исходного сигнала методом Х-Хсоге
! /
/
/! / л
/ /
/
Рис. 3. Обработка сигнала методом 2-8соге
Рис. 4. Обработка сигнала методом СШЦМ
На рисунке За представлен исходный сигнал, для которого характерна аномалия в районе 150 минут. На рисунке ЗЬ показан результат обработки исходного сигнала методом Z-Score. Видно, что данный метод помогает выделить периодичность сигнала, а также обнаружить аномалию (отражена красным цветом). Однако выявляется аномалия с запаздыванием в 100 минут. Продолжительность запаздывания равняется величине установленного временного окна.
Результаты обработки сигнала методом кумулятивных сумм CUSUM показаны на рисунке 4. Экспериментальные данные приведены для различных значений порога и количества аномалий. На рисунках 4Ь и 4с представлены результаты, в которых содержатся две аномалии. Однако пороговые значения для этих случаев различны. На рисунке 4Ь порог равен двум, а на рисунке 4с - четырем. На этих же рисунках представлены результаты обнаружения аномалий. Начало и конец выявленных аномалий помечены зелеными стрелками. Красная точка показывает наиболее вероятный элемент временного ряда, который содержит аномалию.
На рисунке 4а представлен наиболее "трудный" случай, который рассматривался в ходе экспериментальной проверки метода. Видно, что временной ряд содержит 62 аномалии. Все эти аномалии были успешно выявлены. Как и для двух предыдущих случаев, для каждой аномалии были установлены начало и конец, а также наиболее вероятный элемент, содержащий эту аномалию.
Таким образом, экспериментальные результаты показали, что дополнительное применение методов MA, WMA, Z-Score и CUSUM на третьем этапе позволяет успешно обнаруживать как однократные, так и множественные аномалии в сетевом трафике. Следовательно, предложенный метод может применяться для выявления аномалий, вызванных реализацией различных компьютерных атак, включая атаки вида DDoS и сканирования.
Заключение
Для проектирования систем потоковой аналитики и потоковой обработки данных характерны свои нюансы, проблемы и свой технологический стек. Анализ результатов сравнительной оценки показывает, что среди главных преимуществ фрактального анализа - скорость его работы, а также возможность обнаружения аномалий при любом виде трафика. К увеличению времени расчета приводит только рост количества обрабатываемых параметров заголовка протокола передачи данных (длина пакета, флаги и т. д.).
При тестировании фрактальных методов, позволяющих исследовать долговременные зависимости в трафике компьютерной сети, метод DFA является более эффективным, чем R/S анализ, из-за его возможности обрабатывать не только стационарные, но и нестационарные ряды с высокой точностью. Для компьютерных сетей преимущества DFA, по сравнению с более старым методом R/S, заключаются в том, что
он устраняет локальные тренды посредством регрессионного соответствия методом наименьших квадратов и относительно невосприимчив к нестационарности. Следовательно, DFA позволяет обнаруживать корреляции на большие расстояния, встроенные в нестационарные ряды. Это характерно для компьютерных сетей и можно избегать ложного обнаружения явных корреляций на большие расстояния, которые являются артефактами нестационарности.
Кроме того, проведена экспериментальная оценка ряда статистических методов, которые включены в третий этап предлагаемого метода раннего обнаружения атак. Данные методы предназначены для проверки отклонения исходного сигнала от некоторого опорного значения (чаще всего от среднего арифметического). К таким методам относятся методы скользящего среднего, потоковых окон и кумулятивных сумм.
Основываясь на результатах экспериментальной проверки, можно сделать вывод, что предложенный метод является достаточно корректным. Дальнейшие исследования предполагают интеграцию предлагаемого метода раннего выявления атак с другими известными и имеющимися в арсенале компьютерной безопасности методами детектирования атак.
Литература
1. Котенко Д.И., Котенко И.В., Саенко И.Б. Методы и средства моделирования атак в больших компьютерных сетях: состояние проблемы II Труды СПИИРАН. 2012. № 3(22). С. 5-30.
2. Крупенин C.B. Фрактальные излучающие структуры и аналоговая модель фрактального импеданса. Дис. канд. физ.-мат. наук: 01.04.03, 01.04.04 / [Место защиты: Моск. гос. ун-т им. М.В. Ломоносова. Физ. фак.]. Москва. 2009. 157 с.
3. Карпов М.А., Митрофанов М.В., Лаута О.С., Пальцин Д.А. Методика управления защитой информационнотелекоммуникаци-онной сети// Электросвязь. 2021. № 12. С. 49-57.
4. Котенко И.В., КрибельА.М., Лаута О.С., Саенко И.Б. Анализ процесса самоподобия сетевого трафика как подход к обнаружению кибератак на компьютерные сети II Электросвязь. 2020. № 12. С. 54-59.
5. Карпов М.А., Коцыняк М.А., Нечепуренко А.П. Модель функционирования информационнотелекоммуникационной сети специального назначения в условиях информационного воздействия II Актуальные проблемы защиты и безопасности : Труды XXIV Всероссийской научно-практической конференции РАРАН. В 7-ми томах, Санкт-Петербург, 31 марта - 03 2021 года. Москва: Российская академия ракетных и артиллерийских наук, 2021. С. 458-462.
6. Лепешкин О.М., КарповМ.А., Остроумов O.A., СинюкА.Д. Методологический подход управления обеспечением функциональной безопасности и функциональной устойчивости системы связи критически важных объектов и объектов критической информационной инфраструктуры II FISP-2021: Фундаментальные проблемы информационной безопасности в условиях цифровой трансформации : Сборник докладов III Всероссийской научной конференции (с приглашением зарубежных ученых), Ставрополь, 30 ноября 2021 года. Ставрополь: Северо-Кавказский федеральный университет, 2021. С. 105-110.
A COMPREHENSIVE TECHNIQUE FOR DETECTING CYBER AT-TACKS BASED ON THE INTEGRATION OF FRACTAL ANALYSIS AND STATISTICAL METHODS
ROMAN A. PEROV,
St. Petersburg, Russia, [email protected]
OLEG S. LAUTA,
St. Petersburg, Russia, [email protected]
ALEXANDER M. KRIBEL,
St. Petersburg, Russia, [email protected]
KEYWORDS: fractal analysis, cyberattacks, statistical methods, self-similarity, network traffic
YURI V. FEDULOV,
St. Petersburg, Russia, [email protected]
ABSTRACT
The article discusses a method for detecting cyber attacks on computer networks based on detecting anomalies in network traffic by assessing its self-similarity and determining the impact of cyber attacks using statistical methods. The proposed methodology provides for three stages, within which the analysis of the self-similarity property for reference traffic is performed (using the Dickey-Fuller test, R/S analysis and the DFA method), the analysis of the self-similarity property for real traffic (by the same methods) and additional processing of time series by statistical methods (moving average, Z-Score and CUSUM). The issues of software implementation of the proposed approach and the formation of a data set containing network packets are considered. The results of the experiments demonstrated the presence of self-similarity of network traffic and confirmed the high efficiency of the proposed method, which allows detecting cyber attacks in real or near real time. Introduction: The use of information and communication technologies for information collection in modern computer networks makes it possible for an attacker to influence the network infrastructure by implementing cyber attacks [1]. Cyberattacks can achieve their goals due to the massive use of outdated operating systems, ineffective protection mechanisms and the presence of multiple vulnerabilities in unsecured network protocols. Such vulnerabilities give a potential attacker the ability to change the settings of network devices, listen and redirect traffic, block
network interaction and gain unauthorized access to internal components of computer networks. The purpose of the work is to develop a methodology for detecting anomalies in network traffic by determining the degree of self-similarity of traffic using fractal analysis and statistical methods. Methods used: software implementation of the proposed methodology and the formation of a data set containing network packets. The results of the experiments demonstrated the presence of self-similarity of network traffic and confirmed the high efficiency of the proposed technique, which allows detecting cyber attacks in real or near real time. The scientific novelty lies in the fact that the proposed methodology provides for three stages, within which the analysis of the self-similarity property for reference traffic is performed (using the Dickey-Fuller test, R/S analysis and the DFA method), the analysis of the self-similarity property for real traffic (by the same methods) and additional processing of time series by statistical methods (methods moving Average (MA), Z-Score and CUSUM). Result: the presented methodology allows detecting the impact of cyberattacks in real and close to real time, and the use of statistical methods increases the accuracy of determining cyberattacks. Practical significance: the presented methodology is universal and can be applied in the information exchange systems of public administration bodies performing the tasks of ensuring the security of the country.
REFERENCES
1. Kotenko D.I., Kotenko I.V., Saenko I.B. (2012). Methods and means of modeling attacks in large computer networks: the state of the problem. Proceedings of SPIIRAN. No. 3(22), pp. 5-30. (In Russian)
2. Krupenin S.V. (2009). Fractal radiating structures and analog fractal impedance model. Dis. Candidate of Physical and Mathematical Sciences: 01.04.03, 01.04.04. [Place of protection: Moscow State University named after M.V. Lomonosov. Phys. fac.]. Moscow. 157 p. (In Russian)
3. Karpov M. A., Mitrofanov M. V., Lauta O. S., Paltsin D. A. (2021). Methods of managing the protection of the information and telecommunications network. Electrosvyaz. No. 12, pp. 49-57. (In Russian)
4. Kotenko I. V., Kribel A.M., Lauta O.S., Saenko I.B. (2020). Analysis of the process of self-similarity of network traffic as a way to detect cyber attacks on computer networks. Telecommunication. No. 12. pp. 54-59. (In Russian)
5. Karpov M. A., Kotsynyak M. A., Nechepurenko A. P. (2021). The model of functioning of the information and telecommunications net-
work of special purpose in the conditions of information action. Actual problems of protection and security. Proceedings of the XXIV All-Russian Scientific and Practical Conference RARAN. 7 vol., St. Petersburg, March 31-03, 2021. Moscow: Russian Academy of Rocket and Artillery Sciences, 2021, pp. 458-462. (In Russian)
6. Lepeshkin O.M., Karpov M.A., Ostroumov O.A., Sinyuk A.D. (2021). Methodological approach to managing functional security and
functional stability of the communication system of critical facilities and critical information infrastructure. FISP-2021: Fundamental problems of information security in the conditions of digital transformation. Collection of reports of the III All-Russian Scientific conference (with the invitation of foreign scientists), Stavropol, November 30, 2021. Stavropol: North Caucasus Federal University, 2021, pp. 105-110. (In Russian)
INFORMATION ABOUT AUTHORS:
Roman A. Perov, postgraduate of the 32 department of the Military Academy of Communications named after Marshal of the Soviet Union S.M. Budyonny, St. Petersburg, Russia, [email protected]
Oleg S. Lauta, professor of the Department of Admiral S.O. Makarov State University of Marine and River Fleet, Doctor of Technical Sciences, St. Petersburg, Russia, [email protected]
Alexander M. Kribel, candidate of the 32 department of the Military Academy of Communications named after Marshal of the Soviet Union S.M. Budyonny, St. Petersburg, Russia, [email protected]
Yuri V. Fedulov, candidate of JSC "Research Institute "Rubin", St. Petersburg, Russia, [email protected]
For citation: Perov R.A., Lauta O.S., Kribel A.M., Fedulov Yu.V. Complex method for detecting cyber attacks based on integration of fractal analysis and statistical methods. H&ES Reserch. 2022. Vol. 14. No. 2. P. 44-51. doi: 10.36724/2409-5419-2022-14-2-44-51 (In Rus)
ASIC
АНИК
V ПРИ ПОДДЕРЖКЕ
ш
к. 1м -"it "I
Л Международная Ассамблея
/3 «Каспийский Диалог
m 2022»
МОСКВА
11 M A 51
2 0 2 2
ЦшЩЁ
! ОДн,
>• 'V WK
культурный центр главупдк
ПРИ МИД РОССИИ *
WWW.CASPIANSOVET.R
'. '(*< ri ' лД,
ч ■ .
Ж
www.caspiandialogue.ru