PROTECTING WEB APPLICATIONS FROM VULNERABILITY IFRAME-INJECTION
G.VBelikov, I.D. Krylov, VA. Selishchev
The vulnerability of iframe-injection HTML pages is considered as the most common threat to modern web services. The main methods of protection are described.
Key words: information security, web pages, web vulnerability, penetration testing.
Belikov Georgy Vitalievich, student, belikvita@,mailru, Russia, Tula, Tula State University,
Krylov Ilya Dmitrievich, student, [email protected], Russia, Tula, Tula State University,
Selishev Valeryi Anatolievich, сandidate of technical sciences, docent, [email protected], Russia, Tula, Tula State University
УДК 621.37.39
DOI: 10.24412/2071-6168-2022-5-228-240
МОДЕЛЬ ВЫЯВЛЕНИЯ АНОМАЛИЙ В СЕТЕВОМ ТРАФИКЕ СЕТИ
ПЕРЕДАЧИ ДАННЫХ В УСЛОВИЯХ КОМПЬЮТЕРНЫХ АТАК
А.М. Крибель, Р.А. Перов, О.С. Лаута, С.Ю. Скоробогатов
В статье предложена модель выявления аномалий, вызванные воздействием компьютерных атак в сети передачи данных, позволяющая в реальном или близком к реальному масштабу времени их выявлять. Экспериментальные результаты также свидетельствуют о том, что при появлении сетевых аномалий, вызванных, например, кибератаками типа DDoS и «сканирование сети и ее уязвимостей», характер этих свойств начинает существенно отличаться от нормального трафика.
Ключевые слова: Аномалии, компьютерные атаки, сеть передачи данных, показатель Херста, самоподобие, временной ряд.
Современный этап развития общества характеризуется повышением роли информационной сферы, представляющей собой совокупность информации и информационных технологий, что позволило осуществлять сбор, формирование, хранение, обработку и распространение информации в таких объемах и с такой оперативностью, которые были немыслимые раньше.
Именно новые технологии привели к бурному распространению сетей передачи данных (СПД), открывающих принципиально новые возможности международного информационного обмена. Происходит интеграция и конвергенция сетей и служб. Это обеспечивает доступ пользователей к любой услуге, имеющейся во множестве сетей, за счет гибких возможностей по их обработке и управлению.
Несмотря на удобство, экономическую выгоду и эффективность использования СПД, а также, темпы, с которыми развивается современная сфера информационных технологий, подвергают мировое сообщество целому ряду беспрецедентных угроз и факторов уязвимости, которые злоумышленнику открывают возможность реализации компьютерных атак (КА).
Структура модели сетевого трафика СПД. Для постоянного мониторинга и обнаружения аномальной активности трафика в СПД необходимо учитывать наличие большого количества сетевых маршрутов, на которых периодически возникают резкие колебания задержки в передаче данных и большие потери пакетов, появление новых свойств сетевого трафика, а также необходимость обеспечения высокого качества обслуживания приложений [1]. Именно поэтому на первоначальном этапе важно определиться с моделью, которая будет максимально точно описывать сетевой трафик.
Для создания адекватной модели требуется использование наиболее подходящего математического аппарата. Принимаемая для описания модель должна быть, по возможности, максимально близка к описываемому реальному процессу [2]. Оценить степень близости модели и реального процесса не всегда возможно, поскольку в некоторых случаях реальные процессы попросту недоступны для проведения и наблюдений. В таких случаях приходится полагаться на те логические и иные доводы, которые принимаются при выборе определенной модели и ее параметров.
Трафик как случайный процесс характеризуется параметрами, которые определяют его основные, наиболее важные для моделирования, свойства [3]. Основной задачей модели трафика является описание поступающего потока при помощи набора параметров таким образом, чтобы эти выбранные значения параметров можно было бы применить для нахождения аномалий и вредоносной активности в сети.
Существуют модели, которые описывают сетевой трафик с помощью методов теории вероятностей и математической статистики, а также теории массового обслуживания [4]. Как правило, такие процессы обладают свойством стационарности - вероятностные характеристики (среднее значение и дисперсия) не меняются с течением времени.
Наиболее простой, часто используемой стационарной моделью является модель простейшего (стационарного пуассоновского) потока [5]. Основным свойством потока является то, что количество пакетов, поступающих за заданный интервал времени, случайная величина, которая подчиняется распределению Пуассона, а интервалы времени между пакетами случайны и подчиняются экспоненциальному распределению. Модель простейшего потока часто применяется для описания трафика, производимого большим количеством независимых источников, например, трафика в сетях с коммутацией каналов.
В сетях с коммутацией пакетов свойства потоков не всегда могут быть описаны распределением Пуассона [6], ввиду нестационарности потока.
Поэтому выделяют нестационарные модели, способные более корректно, описывать сетевой трафик для СПД с коммутацией пакетов. Такие модели основываются на фрактальном анализе и рассматривают сетевой трафик, как самоподобный нестационарный процесс. Под самоподобием понимается свойство сетевого трафика сохранять свой характер при изменении масштаба времени.
Впервые о самоподобном потоке заговорили еще в 1993 году Leland, Taqqu, Willinger и Wilson проводили исследования Ethernet-трафика в сети корпорации Bellcore и пришли к выводу, что на больших интервалах он обладает свойством самоподобия, то есть выглядит качественно одинаково при любых масштабах временной оси.
Самоподобие проявляется в том, что имеется медленно убывающая зависимость между величинами трафика в разные моменты времени, а число переданных пакетов имеет сходный вид в различных временных масштабах. Другими словами, самоподобные потоки зависят не только от времени, но и от предыдущих событий.
Постановка задачи исследования. При проектировании системы защиты, необходимо учесть все вышеперечисленное и разработать Модель выявления аномалий в сетевом трафике СПД в условиях КА, которая описывает сетевой трафик сразу двух видов: стационарный и нестационарный.
Рис. 1. Модель выявления аномалий в сетевом трафике СПД
Исходные данные модели:
Hurst - показатель Херста;
p - порядок авторегрессии (зависимость между наблюдениями и число интегрированных наблюдений);
q - порядок скользящего среднего (зависимость между наблюдениями и остатками при применении модели к интегрированным наблюдениям);
Z(t) - реальный сетевой трафик;
Y - конечное множество меток класса (аномалия, не аномалия).
Назначение и цель:
Модель выявления аномалий в сетевом трафике СПД предназначена для описания и проверки сетевого трафика на стационарность. После проверки выбирается метод, который будет производить оценку сетевого трафика на наличие аномалий.
Постановка задачи:
Требуется разработать модель, которая будет максимально точно описывать сетевой трафик в узлах СПД, учитывая, как случайный X (t ), так и стационарный (детерминированный) Xt процесс. Кроме того, модель должна производить проверку на стационарность H\.a< 1 не только сгенерированного трафика, но и реального Z (t ), полученного в ходе эксперимента. Также модель должна принимать решение по выбору алгоритма, с помощью которого будет производиться оценка сетевого трафика на наличие аномальной активности. В случае нестационраности H о : a = 0 сетевого трафика, оценка производиться на основании вычисления показателя Hurst. При Hi : a < 1 с помощью методов машинного обучения, находится целевая зависимость между аномалиями и признаками сетевых фреймов.
Выходные данные модели:
Hurst - показатель Херста;
A : X ^ Y- классификация объектов x е X, где X множество сетевых фреймов.
Стационарность и нестационарность временного трафика. Рассмотрим математическую модель авторегрессии-скользящего среднего ARMA:
xt = с + £ ф x _+Et +i е. et _. (i)
i=i i=i
где фp,е Ф 0 - параметры модели; С - константа; et - белый шум; p - порядок авторегрессии; q - порядок скользящего среднего.
Данная модель используется для анализа и прогнозирования стационарных временных рядов в статистике и обобщает две более простые модели: модель авторегрессии (AR) и модель скользящего среднего (МА).
Проинтерпретировать модель можно следующим образом: текущее значение зависит от прошлых значений до лага р и от текущего и прошлых внешних шоков до лага У. Запишем авторегрессионный процесс используя лаговый оператор Ь:
X = С +£+ е, 0!Ь е,, (2)
г=1 г=1
Перепишем в виде:
' p \ f q \
1 -X ф^
i=1
xt = C+
q i 1+ X eL
. i=1 У
6t , (3)
Теперь введем два многочлена степени p и q:
P i 2 p
ф(г) =1 -X ф jZJ =1 - Ф1* - Ф2z -...- ФpzP ' (4)
j=1
q i 2 P
9( z ) = 1 + X 0 jzj = 1+e1z+e2 z2 +... + e pzp, (5)
j=1
Тогда модель авторегрессии можно формально записать:
ф(L)xt = C + 0(L) et, (6)
где ф(Ь)х - авторегрессионная часть многочлена, а 0(L) et - часть скользящего среднего.
ф(z) = 1 - -... - фpZP , (7)
Временной ряд является стационарным если все корни авторегрессионного многочлена (7) лежат вне единичного круга комплексной плоскости | zj |> 1 (то есть по
модулю строго больше 1).
Если имеются корни, равные по модулю единице | zj |= 1, то авторегрессионный процесс является нестационарным.
Рассмотрим временной ряд описываемый моделью ARMA при p = 1
(рис. 2):
q
xt = C + фх-1 +et + X Qi et-i, (8)
i=1
где ф^ ф 0.
Тогда ф(z) = 1 -ф и его корень zq = —.
ф
Так как | zq |> 1 ф |< 1, то это и будет условием стационарности для этого ряда.
Кроме того, у стационарного процесса среднее постоянно по времени Ext = const т.е временной ряд не имеет тренда, а ковариация между различными элементами временного ряда зависит только от того, на сколько сильно они отдалены друг от друга по времени. Другими словами ковариация зависит только от лага h cov(xt, xt+h ) = y(h) . Величина h, характеризующая разницу во времени между элементами временного ряда, называется лаговой переменной или запаздыванием. Так как y(Q) = cov(xt, xt ) = Var (xt ), то дисперсия стационарного временного ряда также не меняется со временем.
Фрактальные свойства нестационарного временного трафика. Одна из наиболее корректных моделей, описывающих поведение нестационарного сетевого трафика - временного ряд, описанный через фрактальное броуновское движение.
Процесс Х(^ называется фрактальным броуновским движением с параметром
Н, 0 < Н < 1, если приращения случайного процесса гауссовское распределение:
1
P (АХ < x) =
где 50— коэффициент диффузии.
л/2п50
H Т
J exp
АХ (т) = Х (t + т) - Х (t)
dz
~ 5*2 2 H
2о0т
имеют
(10)
Original
ю -свое-
0.4 -02-
Autocorrelation
"1—г_
10-ое-
0S-0402 -
Partial Autocorrelation
f. Е
5 .
Theo rental Ouantiles
Рис. 2. Стационарный временной ряд
Процесс нестационарен, если эти условия нарушаются (рис. 3).
Проверка на стационарность. Для проверки гипотезы о стационарности ряда используется расширенный тест Дики-Фуллера.
При помощи этого теста проверяют значение коэффициента авторегрессии а в авторегрессионном уравнении AR. Рассмотрим авторегрессионное уравнение первого порядка АВ.(1):
ух =а- У( _1 + £,
где у(-временной ряд, а £ - белый шум, t = 1,...,Т .
2
Original
Autocorrelation
-
1 1 I III 1 1 m i i
10 -08 -
D4 -02 -
Partial Autocorrelation
Theoretical Quantiles
Рис. 3. Нестационарный временной ряд
1. Если Н : а < 1, то ряд у, будет стационарным, у, ~ I(0) и OLS-оценка а
2
будет иметь нормальное распределение с нулевым средним и дисперсией 1 — а Для тестирования гипотезы единичного корня строится OLS-оценка а :
Т
Т У,—1 У,
а=м-,
Ту2—1
,=1
И соответствующая ей ^статистика
а—1
(12)
tа
s и i£y?_i
(13)
T
9—1 9
где $ = Т X (У, — —1) - оцененная дисперсия остатков.
t=1
.5%
Если t < t с- -
а табл
г - временной ряд стационарен на уровне значимости 5%.
2. Если Но : а = 1, то распределение этой оценки больше не будет нормальным, и процесс у, будет нестационарным с зависящей от времени дисперсией у, ~ I(1) . В этом случае для моделирования динамики такого ряда необходимо исполь-
233
зовать его первую разность Ау, = Уу — у,—1. При нулевой гипотезе статистика нормализованного смещения Т(а — 1 распределения Дики-Фуллера:
лизованного смещения T(а 1 и t-статистика ta имеют нестандартные предельные
1
J W (r )dW (r)
T (а -1) ^ ^-> (14)
J W 2(r )dr 0
1
JW(r)dW(r)
ta ^ % , (15)
|0 W 2 (r )dr
где W (r) - стандартный Винеровский процесс (Броуновское движение). 5%
Если t > t^fa - временной ряд нестационарен на уровне значимости 5%.
Вычисление и оценка показателя херста с помощью R/S. Для расчета показателя Херста в нестационарном трафике на малых выборках используется R/S анализ. Многие исследователи [7-8] применяют R/S анализ для нахождения показателя Херста в сетевом трафике. Одно из основных преимуществ R/S-анализа заключается в том, что в отличие от многих широко распространенных статистических критериев, он не основан на каких бы то ни было предположениях об организации исходных данных (о том, какому закону распределения они подчиняются). Очень быстрый и легко реализуемый. Алгоритм R/S:
S = (aN У, (16)
откуда
н = MR/S), (17)
log(aN) V ;
где H - показатель Херста; S - среднеквадратичное отклонение ряда наблюдений x; N - число периодов наблюдений; a - заданная константа, положительное число.
s, (18)
X - среднее арифметическое ряда наблюдений x за N периодов
1 N
x = N X X, (19)
N i=1
Размах накопленного отклонения R это разность между максимальным и минимальным накопленными отклонениями:
R = max Zu - mm ZM , (20)
1<u<N 1<u < N _
где Zu - накопленное отклонение ряда x от среднего x :
Zu = X (Xi - X), (21)
i=1
Из формулы видно, что на рост показателя Херста влияют:
увеличение размаха колебаний R;
уменьшение среднеквадратичного отклонения S;
Системный анализ, управление и обработка информации уменьшение количества наблюдений N.
При 0,5 < Н < 1,0 мы наблюдаем персистентные, или трендоустойчивые ряды. Если ряд возрастает (убывает) в предыдущий период, то вероятно, что он будет сохранять эту тенденцию еще какое-то время в будущем. Наблюдения не являются независимыми. Каждое наблюдение несет память обо всех предшествующих событиях. Процесс обладает длительной памятью. Эта память долговременная, теоретически она сохраняется навсегда. Трендоустойчивость поведения, или сила персистентности, увеличивается при приближении Н к единице. Обычно тот факт, что 0 5 < Н < 1, считается достаточным основанием для признания процесса самоподобным.
При H = 0.5 ряд является случайным (последующие значения временного ряда не связаны с его предыдущими значениями).
При 0 < Н < 0.5 ряд является антиперсистентным (последующие изменения значений временного ряда противоположны его предыдущему поведению.
Для проверки R/S сформирован датасет состоящий из легитимного (рис 4.) и аномального (рис. 6) сетевых трафиков.
2500 -
Ä00-
0 200 400 600 800 1000
Рис. 4. Легитимный сетевой трафик
После применения R/S анализа для легитимного трафика, построена логарифмическая регрессия (рис. 5) и вычислен показатель Херста равный 0.56.
1-" - , ^^^ 2.5 30 35 4 0 45 50 5 5 60
Рис. 5. Зависимость R/S от времени в логарифмической шкале (Херста = 0.56)
Далее R/S применялся к аномальному сетевому трафику (рис. 6). Применив R/S анализ для аномального трафика, построена логарифмическая регрессия (рис. 7) и вычислен показатель Херста равный 1.378.
Как видно из рис.7 показатель Херста превышает максимальное константное значение 1, что подтверждает наличие аномалий в сетевом трафике.
Рис.6. Аномальный сетевой трафик
Рис. 7. Зависимость R/S от времени в логарифмической шкале (Херста = 1.378)
Вычисление и оценка показателя херста с помощью БЕА. Для расчета показателя Херста в нестационарном трафике на зашумленных и больших объемах данных, для более точных вычислений, предпочтительнее использовать DFA анализ:
1. Преобразование временного ряда х(г) в функцию кумулятивных сумм (профиль функции) путем суммирования значений временного ряда:
N
х(0 = У( (0 - х) (22)
г=1
N
(23)
1
х = — У хг и),
2. Временной ряд, разбивается на ^ непересекающихся интервалов.
п
3. В пределах каждого интервала осуществляется линейная аппроксимация ряда х(г) методом наименьших квадратов - выделяется локальный тренд:
Уj (г) = а^ + bj, где а^ и bj - константы для каждого интервала.
4. Для каждого интервала устраняется локальный тренд путем перехода к разности X (г) - yj (г) и проводится анализ среднеквадратичного отклонения от локального тренда, т.е вычисляется функция:
Е/(п) = -(]У)П (х(г) - у] (г)) , (24)
п г=jn+1
5. Далее вычисляется среднее значение:
7-1
Р2(П) = 7ПТ Р}(П); * ]=0
(25)
Если исследуемый ряд сводится к самоподобному множеству, проявляющему
дальнодействующие корреляции, то флуктуационная функция Р(п) степенной зависимостью:
представляется
H
Р(п) ~ п" (26)
где Н - показатель Херста. Н может быть вычислен с помощью метода наименьших
квадратов как угловой коэффициент прямой, определяющей зависимости Р (п) от 1о§(п)
С помощью алгоритма DFA проведен расчет показателя Херста нестационарного трафика описываемого моделью с заранее заданным показателем Херста = 0.5, что соответствует зашумленному временному ряду (рис. 8).
Рис. 8. Фрактальное броуновское движение при Н= 0.5
С помощью DFA, построена логарифмическая регрессия и найден показатель Херста, равный 0.49 (рис. 9). Полученный результат почти полностью совпадает с заданной величиной, что подтверждает эффективность текущего метода на зашумленных рядах.
• ttata - régression lifve
bg(n)
Hurst=3.496
Рис. 9. Зависимость F(n) от времени в логарифмической шкале (Херст = 0.496)
Анализ показал, что метод DFA исключает линейный тренд из каждого анализируемого фрагмента временного ряда, что позволяет повысить точность в условиях низкочастотных помех или на больших объемах данных. В тоже время R/S является более быстрым алгоритмом вычисления показателя Херста, не уступающим в точности на небольших объемах данных. Поэтому R/S является предпочтительным для дальнейшего исследования.
Таким образом, эксперименты, проведенные на эталонных выборках, состоящие из легитимного и аномального трафика, продемонстрировали наличие самоподобия трафика КС и возможность достаточно точного определения показателя самоподобия на основе рассмотренных алгоритмов.
Заключение. В статье проведен анализ существующих подходов к проектированию моделей описывающих сетевой трафик СПД и алгоритмов по оценке свойств самоподобия в нестационарном сетевом трафике в СПД.
Разработана модель выявления аномалий в сетевом трафике СПД в условиях КА, отличающаяся от известных возможностью описывать стационарный и нестационарный сетевой трафик, классифицировать его и в зависимости от вида трафика обосновать метод по выявлению аномалий.
Модель основана на использовании основных положений теории фракталов и предлагаемых этой теорией методов оценки самоподобия, R/S-анализ и метод DFA. При тестировании фрактальных методов, позволяющих проводить исследования долговременных зависимостей в трафике КС, метод DFA оказался более эффективен, чем R/S-анализ на зашумленных данных или больших выборках, из-за исключения линейного тренда из каждого анализируемого фрагмента временного ряда. Следовательно, DFA позволяет обнаруживать корреляции на большие расстояния, встроенные в нестационарные ряды, что характерно для КС, избегая ложного обнаружения явных корреляций на большие расстояния, которые являются артефактами нестационарности. Неоспоримым преимуществом R/S-анализа являются более быстрые вычисления показателя Херста, а эффективность алгоритма не уступает в точности DFA, на небольших объемах данных.
Основываясь на результатах тестирования, можно сделать вывод, что предложенная модель является достаточно адекватной. Эксперименты показали, что существует характерное время, после которого показатель Херста резко меняется. Это время указывает на объем системной памяти. Экспериментальные результаты также свидетельствуют о том, что самоподобные свойства присущи любому сетевому трафику на канальном уровне модели tcp/ip. При появлении сетевых аномалий, вызванных, например, кибератаками типа DDoS и «сканирование сети и ее уязви-мостей», характер этих свойств начинает существенно отличаться от нормального трафика.
Также реализованы программные модули для определения стационарности сетевого трафика с помощью расширенного теста Дики-Фуллера, а также вычисления и оценки показателя Херста с помощью R/S и DFA.
Список литературы
1. Kotenko I., Saenko I., Lauta O., Kribel A. An approach to detecting cyber attacks against smart power grids based on the analysis of network traffic self-similarity. Energies.
2020. Т. 13. № 19. С. 5031.
2. Kotenko I., Saenko I., Lauta O., Karpov M. Methodology for management of the protection system of smart power supply networks in the context of cyberattacks. Energies.
2021. Т. 14. № 18.
3. Ably, P.; Flandrin, P.; Taqqu, M.S.; Veitch, D. Self-Similarity and long-range dependence through the wavelet lens. In Theory and Applications of Long Range Dependence; Boston: Birkhauser Press, 2002. P. 345-379.
4. Canadian Smart Grid Framework. Canadian Electricity Association, March 25,
2010.
5. Крибель А.М., Лаута О.С., Филин А.В., Фень А.С. Метод обнаружения аномалий в сетевом компьютерном трафике на основе нейронной сети с использованием LSTM // Электросвязь. 2021. № 12. С. 43-48.
6. Карпов М.А., Лаута О.С., Коцыняк М.А., Крибель А.М.Подход к управлению системой защиты информационно-телекоммуникационной сети специального назначения // Известия Тульского государственного университета. Технические науки. 2020. Вып. 7. С. 216-226.
7. Federal Office for Information Security, "Protection Profile for the Security Module of a Smart Metering System, V.1.0," March, 2015.
8. Adnan Anwar, Deakin University, Abdun Mahmood. Cyber Security of Smart Grid Infrastructure. In book: The State of the Art in Intrusion Prevention and Detection Publisher: CRC Press, January 2014, DOI: 10.1201/b16390-9.
Крибель Александр Михайлович, адъюнкт, [email protected], Россия, Санкт-Петербург, Военная академия связи им. С.М.Буденного,
Перов Роман Александрович, адъюнкт, roma.perovglist.ru, Россия, Санкт-Петербург, Военная академия связи им. С. М. Буденного,
Лаута Олег Сергеевич, д-р техн. наук, профессор, [email protected], Россия, Санкт-Петербург, Военная академия связи им. С.М.Буденного,
Скоробогатов Сергей Юрьевич, адъюнкт, BagSA-VKA a yandex. ru, Россия, Санкт-Петербург, Военная академия связи им. С.М. Буденного
A MODEL FOR DETECTING ANOMALIES IN THE NETWORK TRAFFIC OF A DATA TRANSMISSION NETWORK IN THE CONDITIONS OF COMPUTER A TTACKS
M.A. Kribel, R.A. Perov, O.S. Lauta, S.Y. Skorobogatov
The article proposes a model for detecting anomalies caused by the impact of computer attacks on the data transmission network, which allows them to be detected in real or close to real time. Experimental results also indicate that when network anomalies appear, caused, for example, by cyber attacks such as DDoS and «scanning the network and its vulnerabilities», the nature of these properties begins to differ significantly from normal traffic.
Key words: Anomalies, computer attacks, data transmission network, Hurst index, self-similarity, time series.
Kribel Alexander Mikhailovich, postgraduate, [email protected], Russia, St. Petersburg, Military Academy of Communications named after S.M. Budyonny,
Perov Roman Aleksandrovich, postgraduate, [email protected], Russia, St. Petersburg, Military Academy of Communications named after S.M. Budyonny,
Lauta Oleg Sergeevich, doctor of technical sciences, professor, [email protected], Russia, St. Petersburg, Military Academy of Communications named after S.M.Budyonny,
Skorobogatov Sergey Yuryevich, postgraduate, BagSA - VKA @yandex. ru, Russia, St. Petersburg, Military Academy of Communications named after S.M.Budyonny