Научная статья на тему 'МОДЕЛЬ МНОГОУРОВНЕВОЙ ПОТОКОВОЙ АНАЛИТИКИ ДЛЯ ОБНАРУЖЕНИЯ ВЕРСИЙ ВПО «RANSOMWARE» С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ'

МОДЕЛЬ МНОГОУРОВНЕВОЙ ПОТОКОВОЙ АНАЛИТИКИ ДЛЯ ОБНАРУЖЕНИЯ ВЕРСИЙ ВПО «RANSOMWARE» С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
35
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
программы-вымогатели / машинное обучение / анализ данных / статический анализ / динамический анализ / ransomware / machine learning / data analysis / static analysis / dynamic analysis

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Веревкин Сергей Александрович, Трохимова Наталья Андреевна

В статье рассматривается актуальная задача, связанная с выявлением программ-вымогателей ransomware, которые приобрели широкое распространение в последние годы. На основе анализа существующих подходов, основанных на статическом и динамическом анализе вредоносного программного обеспечения, предложен набор признаков, характеризующих вредоносную активность ransomware. Итогом работы является многоуровневая модель потоковой аналитики программ-вымогателей на основе популярных методов машинного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Веревкин Сергей Александрович, Трохимова Наталья Андреевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A MODEL OF MULTI-LEVEL STREAMING ANALYTICS FOR DETECTING VERSIONS OF THE VPO "RANSOMWARE" USING MACHINE LEARNING TECHNOLOGIES

The article considers an urgent task related to the identification of ransomware ransomware programs, which have become widespread in recent years. Based on the analysis of existing approaches based on static and dynamic analysis of malicious software, a set of features characterizing the malicious activity of ransomware is proposed. The result of the work is a multi-level model of streaming analytics of ransomware based on popular machine learning methods.

Текст научной работы на тему «МОДЕЛЬ МНОГОУРОВНЕВОЙ ПОТОКОВОЙ АНАЛИТИКИ ДЛЯ ОБНАРУЖЕНИЯ ВЕРСИЙ ВПО «RANSOMWARE» С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ»

Горюнова Анна Владимировна, старший преподаватель, [email protected], Россия, Москва, Национальный исследовательский Московский государственный строительный университет (НИУ МГСУ)

APPLICATION OF TIM MODELING DURING ENGINEERING AND TECHNIKAL INSPECTION OF BUILDINGS AND

STRUCTURES

N.A. Bernik, T. V. Zhdanova, A. V. Goryunova

This article discusses the issue of performing an engineering and technical survey of buildings and structures in conjunction with the use of information modeling technology (TIM). At the time of the survey of buildings and structures, information about the main building structures is collected and processed, measurement work is carried out, defects and damage to structures are identified. All this in the future can be the basis for filling and detailing the future TIM model of the building under examination and will determine the cause of defects, will make it possible to track previously identified defects and their dynamics over time, as well as predict further deformations of the structure, issue recommendations for elimination and take error-free measures to avoid negative consequences. According to the results of the study, it was concluded that the use of information modeling technology (TIM) in the daily work of survey specialists together with software products provides significant opportunities and advantages at all stages of the life cycle of a construction object. The key value of these works is the possibility of obtaining a TIM model of a construction object with a high degree of accuracy, which will reduce the time required for the survey, increase their accuracy and reduce various costs.

Key words: inspection of buildings and structures, assessment of technical condition, building structures, TIM

modeling.

Bernik Nikita Alekseevich, master, berniknik@yandex. ru, Russia, Moscow, National Research Moscow State University of Civil Engineering (NRU MGSU),

Tatyana Vladimirovna Zhdanova, senior lecturer, ZhdanovaTV@mgsu. ru, Russia, Moscow, National Research Moscow State University of Civil Engineering (NRUMGSU),

Goryunova Anna Vladimirovna, senior lecturer, sokoreva_ev@mail. ru, Russia, Moscow, National Research Moscow State University of Civil Engineering (NRUMGSU)

УДК 004.72

DOI: 10.24412/2071-6168-2024-4-291 -292

МОДЕЛЬ МНОГОУРОВНЕВОЙ ПОТОКОВОЙ АНАЛИТИКИ ДЛЯ ОБНАРУЖЕНИЯ ВЕРСИЙ ВПО «RANSOMWARE» С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ

Н.А. Трофимова, С.А. Веревкин

В статье рассматривается актуальная задача, связанная с выявлением программ-вымогателей - ransomware, которые приобрели широкое распространение в последние годы. На основе анализа существующих подходов, основанных на статическом и динамическом анализе вредоносного программного обеспечения, предложен набор признаков, характеризующих вредоносную активность ransomware. Итогом работы является многоуровневая модель потоковой аналитики программ-вымогателей на основе популярных методов машинного обучения

Ключевые слова. программы-вымогатели, машинное обучение, анализ данных, статический анализ, динамический анализ.

Основываясь на отчетах компаний, специализирующихся в области аналитики инцидентов информационной безопасности, следует отметить возросшее в последние несколько лет количество атак, связанных применением программ-вымогателей (ransomware). Так, за период 2022-2023 г. на их развертывание приходится около 26% от общего числа инцидентов. Сюда также входят обеспечивающие удаленный доступ «дропперы» (загрузчики) и «бэк-доры», которые можно продать третьей стороне. В связи с тем, что киберпреступники используют программы-вымогатели для атаки на целевые компании, а не на массовый сегмент, это обуславливает необходимость создания и совершенствования стратегий защиты от подобных атак для организаций всех форм и размеров.

Принцип работы программ-вымогателей заключается в нарушении целостности и доступности данных в системе, посредством ее блокировки или шифрования информации.

Первоначально, целью атак типа ransomware были устройства на платформе MS Windows, однако, их современные реализации позволяют совершать атаки на множестве других платформ, таких как IOS, Android, Linux, а также затронуть ряд IoT устройств.

За последние десять лет, наиболее известными семействами программ-вымогателей являются:

Petya - появился в 2016 году, выделяется тем, что шифрует не только файлы, но и загрузочный сектор жесткого диска, блокируя доступ к системе. Получил широкое распространение посредством использования уязвимости MS Windows CVE-2017-0199;

WannaCry - обширно распространился в мае 2017 года, заразив сотни тысяч компьютеров в более чем 150 странах. Эксплуатировал уязвимости (CVE-2017-0143 и CVE-2017-0148) в SMB протоколе Windows, чему способствовало неприменение своевременных патчей;

Ruk (Ryuk) - с 2018 года, нацелен на бизнес-организации и государственные учреждения, осуществляет выборочное шифрование файлов и требует крупный выкуп для восстановления данных;

291

Magniber - представитель, появившийся в 2018 году и изначально атаковавший в основном пользователей в Азии, использует различные уязвимости CVE-2018-8174 CVE-2021-26411, CVE-2021-40444, CVE-2021-34527 для распространения и инфицирования системы;

RobbinHood - известен с 2019 года, использует уязвимость CVE-2018-19320 драйверов компании Gigabyte, после чего блокирует доступ к файлам, требуя выкуп за расшифровку. Получил известность атаками на городские инфраструктуры, в том числе на городское правительство Балтимора.

Каждая атака ransomware состоит из трех фаз, а именно: на первой фазе происходят скрытые операции, направленные на заражение системы; на второй - подозрительные действия с выполнением анализа сети, распространения вредоносного кода и установки клиента-вымогателя, который берет на себя управление; а на третьей -предпринимаются очевидные действия, такие как «замораживание» системы или шифрование данных.

Полный цикл работы программы-вымогателя представлен на рис. 1.

Рис. 1. Жизненный цикл программы-вымогателя

Успешные атаки на основе ransomware могут не только закрыть доступ к сети, блокировать внутренние операции и нанести ущерб компании, но и спровоцировать дальнейшие атаки, поскольку современные программы-вымогатели часто содержат дополнительные средства извлечения данных, а значит ими может быть выведена конфиденциальная информация, такая как имена пользователей и пароли.

Подходы к выявлению ransomware-атак. Чтобы противостоять вредоносному программному обеспечению, представляющему собой совокупность семейств программ-вымогателей, существуют различные технологии их выявления. Современные решения, основаны на различных решающих правилах при идентификации вариантов ransomware:

- подтверждение вредоносности ПО с использованием идентифицирующих его признаков («цифровых отпечатков»);

- выявление аномалий посредством изучения функциональности вредоносного ПО;

- гибридные инструменты, основанные на машинном обучении.

Технологии, основанные на соответствии идентифицирующих признаков «черным» или «белым» спискам (Kaspersky, Avast), анализируют версии ВПО для извлечения криптографических примитивов, подозрительных скриптов, встроенных функций, пути и расширения зараженных файлов.

Недостатки инструментов:

- возможность подменять содержимое списков;

- не способность выявления «О-Day» версий программ;

- большое количество ложных срабатываний;

- сложность поддержания актуального состояния базы данных.

Технологии, основанные на выявлении аномалий (R-Locker, RansomFlare), отслеживают действия ВПО во время выполнения, компьютерные процессы, действия сервера, использование ЦП и памяти с последующим созданием шаблона, определяющего уникальные поведенческие характеристики, а также дают динамическое представление о вредоносном коде.

Недостатки инструментов:

- низкая масштабируемость сетевого трафика;

- не способность выявления «О-Day» версий программ;

- сложность и непредсказуемость результатов в случае обработки больших объемов разнородных данных.

Стоит отметить, что при развивающихся угрозах безопасности представленные методы анализа не вполне

способны справляться со всеми вариантами вредоносных программ самостоятельно. Следовательно, основанные на машинном обучении гибридные подходы, которые объединяют аспекты как статического, так и динамического анализа, могут быть более эффективны при обнаружении неизвестных версий вредоносных программ и обеспечить комплексную аналитику безопасности.

Гибридные технологии, основанные на машинном обучении (HML), применяют с целью идентификации и классификации ВПО различные алгоритмы машинного обучения, использующие гибридные наборы статических и динамических признаков. Для вычленения признаков ВПО используются корпусы данных, сформированные на основе сетевого трафика, журналов безопасности, журналов системных вызовов и прочих показателей, определяющих состояние системы. Из полученного пространства признаков формируются наборы характерных черт, на основе которых осуществляется классификация ВПО. Технологии анализа ВПО на основе HML имеют множество преимуществ. При использовании оптимально репрезентативных и сбалансированных наборов исходных данных и отсутствии аномальных воздействий при обучении, алгоритмы HML позволяют выявлять известные версии ВПО с высокой точностью и низким уровнем ложных срабатываний. Также, они обеспечивают возможность использования эвристических методов для выявления новых версий ВПО (NetConverse, RansomWall).

Недостатки инструментов:

- сложности в отнесении версий ВПО к их предкам и в объединении версий ВПО множественного происхождения;

- неспособность работать на различных платформах;

- возможность атаки на модели HML, направленной на модификацию исходных данных, на основе которых происходит обучение. Например, в случае удаления или модификации значений выборки, предоставляется возможность обхода систем защиты информации с использованием конкретных версий ВПО.

Чтобы преодолеть проблемы существующих инструментов защиты от ВПО, такого как программы-вымогатели, необходима схема выявления подобных атак, предлагающая их целостную характеристику и учитывающая недостатки как статического, так и динамического анализа. Требуемое решение должно быть эффективным, обеспечивать снижение затрат на производительность, а также реализовывать возможность развертывания на различных платформах. Также, важно идентифицировать версию программы-вымогателя среди всех версий вредоносных программ и легитимных приложений, для последующей классификации в соответствующее семейство. Чтобы избежать процесса переобучения классификатора было бы полезно использовать корпусы данных постепенно и адаптивно, так как точность их обработки зависит от релевантности и избыточности классифицирующих признаков. Поэтому основной целью данной работы является создание гибридной облегченной и адаптивной системы обнаружения атак программ-вымогателей.

Применение технологий машинного обучения для решения проблем традиционных средств защиты от ВПО. Традиционно существует два основных подхода к анализу вредоносного ПО - статический и динамический анализ. Статический анализ подразумевает пассивный анализ исходного кода (без выполнения), а также его ресурсов, структуры и других атрибутов. Динамический анализ, заключающийся в изучении поведения ВПО при его выполнении в контролируемой среде (sandbox), дает возможность отследить локальную и сетевую активность ВПО, а также использовать методы поведенческого анализа.

1. Характеристика программ-вымогателей. В рамках данной работы, воспользуемся гибридным подходом, совмещающим статический и динамический методы анализа для извлечения векторов признаков ransomware. Определим набор наиболее характерных статических и динамических признаков программ-вымогателей (таблица 1).

Таблица 1

Особенности, используемые версиями универсальным семейств программ-вымогателей_

Статические признаки Динамические признаки

Расширения файлов Вызовы API Windows

Имена файлов Криптографические API Windows

Портативный исполняемый заголовок (изменение заголовка системных файлов) Ключи реестра

Встроенные ресурсы (загрузочные файлы и ключи реестра) Процесс системного файла

Упаковщики Действия с каталогом (поддельные ссылки) (путь, ссылка на определенные каталоги)

Энтропия Шеннона Папки приложений

Крипторы Настройки панели управления

Портативная исполняемая (цифровая) подпись Расположение системных файлов

Встроенные скрипты (сценарии) Полезная нагрузка/Загрузчики

Нечеткое хеширование Сервер управления и контроля

Теневой том Windows (vssadmin.exe и WMIC.exe)

«Отпечаток» файла

Запросы на листинг каталогов

Загрузка Windows в безопасном режиме (bcdedit.exe)

Перечисленные показатели, могут использоваться в рамках комплексного анализа исходного кода экс-плойтов, но без необходимости ограничиваться ими. Причиной этого является разнородность сред функционирования

и конфигураций информационных систем. На текущий момент, каждое семейство ransomware включает множество версий, каждая из которых может иметь свою собственную реализацию, основанную на различных эксплойтах и программных решениях, кроме того программы-вымогатели могут маскироваться под другое ВПО или легитимное ПО [1-3].

На рисунке 2, представлен пример структурированного набора данных в формате *. json, позволяющего выявлять одну из версий программы-вымогателя семейства Ре1уа.

Таким образом, версии и семейства программ-вымогателей требуют своих механизмов аналитики, с соответствующими компактными наборами статических и динамических признаков, чтобы точно распознавать их среди других вредоносных и легитимных приложений.

2. Атрибуция семьи предков и слияние нескольких предков программ-вымогателей Для реализации модели классификации программ-вымогателей выборка всех отслеживаемых признаков (Т) производится с использованием охарактеризованных образцов ransomware и их изучения алгоритмом МЬ. Соответственно сформирован-

ный обучающий набор данных представляет собой диагностированные и агрегированные в классы входные вектора признаков (Г,), т.е. помеченные как «программа-вымогатель» - класс R или «не программа-вымогатель» -класс R'.

{"entityId"" 1201146j "entityType"" "content", "event" "malware", "eventTime": "2016-12-15Т0Э;05:53.957+0000", "properties". {"file_3cces5": "8d6095a6 d41d8cd9 ea03fcb8 673bfaba", "pe_see_entropy": "687b3f90 dc8eea72 27be6316 54211762 111е4Ь9с", "peimports": "b26a3f55 7adfЗееЗ Ilfd3a98 719G60f1 b4cad430 dclla7db 3e6407d3 41a41103 61S8f543 a5136fl9 cc92565e e47d0a58", "sig_packer_entropy": "dec0119e"} "sig_antisandbox_restart": "" . "label": "Pansomware.Petya-120114S"j "file_write": "(MldScdS eadSfcbS 673bfaba", ' 5Ik bootkit": " ",

"pe_sec_character" "9271b23c 2f0acaf7 ad8225f3 2f0acaf7 f64ccb6c"

"str": "916e7571 ec73657d е4787ЬЬ1 If 9f 1073 7211bc06 d0245f8(t

cf7dedf2 2-FBb230e SBc32fe3 f6576B63 8e46e975 la41977d e8flae6a", "pe_sec_naine" г "91ье7571 e8997399 b7b66a0S lf9f1073 94ie2c55", "sig_in jection_rwsf": ' , "file_read": "d41d8cd9 ea©3feb8 673bfaba"J

"api_resolv"■ "aa9ee92a 3632648c 20654bac 9fbab5e5 d2bl34d2

c7fb6b0e fb8163f2 Ь60440с9 ed23cd27 5Slc6b57 55eafac6 b31a2f2e 46937ec4 S4f64bbc dec3713e 50Bfb4B9 eSceff7e 5cedl0SS 956f51d4 5d68b4bf 71d4a3S2 Ie27b6de f353449a 2aS2361d 83875788 7dbefa9c 7c291dac d62aflfd 9870677a a9d5B661 a4e02137 7ede2c2b 22921452 73d0b996 0f8fec0a S6ba66fa ff83fd67 a5cac3db 6008cbc2 8c70d8b3 4Ь03Ь39а d24f6fe0 Bde76ab3 elddc5e9 fadc6540 c43437ad Ь5В4е318 157026f7 Ь86с2е12 beS0c6ea 0S71d3d6 d4147083 6221288c ad20547b ac07a3e4 0a9fleb6"}}

Рис. 2. Пример json-файла с показателями для выявления одной из версий вымогателя Petya

Для последующих вычислений значения в векторе признаков нормализуем на «0» и «1» в зависимости от их существования. Метку класса R в векторе признаков представим цифрой «1», а метку класса R' представим «-1». В свою очередь, любая подозрительная версия, не принадлежащая R и R' (непроверенная версия, которая может быть вредоносной) помечается как «0». Также будем использовать данные заголовка (h) каждого характеризуемого вектора признаков с целью сравнительного анализа и определения его соответствия семейству программ-вымогателей в множестве других семейств. Заголовок каждого вектора признаков представим двумя цифрами в диапазоне от «01» до «99» и определим его в качестве атрибута семейства проверяемой версии. Следует отметить, что допущение «00» присваивается заголовкам всех векторов признаков легитимного программного обеспечения, а «99» предположительно присваивается заголовкам всех векторов вредоносных приложений в наборе данных. Это означает, что атрибут имеет высокое значение если вектор признаков присутствует в большинстве программ-вымогателей, но меньше в «хорошем» ПО. Когда атрибут имеет низкое значение, это означает, что вектор признаков присутствует в большинстве «хороших» программ и гораздо меньше в программах-вымогателях.

Для каждого признака в векторе признаков оценим информативность его значения. Считаем, что информативность рассматриваемого значения тем выше, чем чаще оно встречается в векторах признаков данного класса и чем реже оно встречается в векторах признаков из других классов. Числовое вычисление коэффициента атрибуции (Attribution Rate - ARt. ) соответствующего признака в векторе признаков произведем по формуле 1.

ht. R-ht-

ARt- ■ = И1}-!—----(1)

где R относится к векторам признаков программ-вымогателей и R~ относится ко всем векторам признаков, не связанных с программами-вымогателями, в пакете набора данных. Тогда ARt.. - это частота каждого признака tj, принадлежащего вектору признаков t,., среди всех векторов, включенных в R и R~, а данные его заголовка используются для прогнозирования соответствия конкретному семейству программ-вымогателей среди других семейств.

Тогда, в соответствии с формулой 2, используя предиктивную аналитику, вычислим апостериорную вероятность встретить заголовок вектора признаков (h,) среди всех векторов признаков (Г,), входящих в вектора программ-вымогателей и вектора, не являющиеся программами-вымогателями:

Pr(Jl | hi) = ---(2)

С другой стороны, данные заголовка «h» всех охарактеризованных векторов признаков (Tj) будут проверены по всем извлеченным векторам признаков из пакета набора данных, чтобы классифицировать их взаимное множественное происхождение от других семейств вредоносных программ и «хороших» семейств согласно уравнению (3).

MDR(Ti) = ^ОДОО (3)

Эту статистическую вероятность обозначим как коэффициент множественного происхождения (Multi-Descent Ratio - MDR(Ti)), определяющий приоритет версий программ-вымогателей, которые могут принадлежать к семействам с множественным происхождением, с учетом их относительной избыточности в семействах вредоносных и легитимных программ, на изученных векторах признаков (Т).

3. Классификация программ-вымогателей. Для принятия решения о классификации, используем два метода машинного обучения, DT (дерево решений) и NB (наивный байес). Концептуально DT выполняет быструю классификацию больших обучающих данных по всей древовидной структуре, так что прогнозирующие классы входных векторов признаков могут быть организованы как предшествующие узлы, а их признаки могут быть уста-

новлены как листья дерева. Однако,это не всегда позволяет расшифровать все узлы DT ввиду наличия упущенных из виду признаков. С другой стороны, N8 выполняет быстрое обучение данных; однако это непрактично для большого набора признаков и неоднородных значений признаков. Однако он тратит короткое время вычислений на изучение обучающих векторов признаков и прогнозирование их фактических классов с помощью вероятностной теоремы Байеса в предположении, что все исследуемые признаки независимы друг от друга[4-6]. Повысим точность классификатора за счет использования на листьях DT методов наивного байесовского классификатора, учитывающих как априорные распределения классов, так и вероятность появления признака для данного класса. Таким образом, N8 применяется НМЬ для отслеживания прогнозных классов всех пропущенных признаков в нерасшифрованных узлах DT, что оптимизирует адаптивную классификацию.

С этой целью обучающую выборку векторов признаков разделим на суб-векторы, отсекая границы решения DT с помощью их итеративной Ж-обрезки. Таким образом, матрица обучающих векторов признаков (Т = {Т1, . . ., Тк}) задается так, что Т =Тц, 1ЕК, ]'Е\Т\) с прогностическими метками (Рёшэ = {С1, С2} : С1 = 1 и C2 = -1). Каждый вектор признаков может быть представлен в виде Т' = {Ст, Ту}, ¡£\Тк\, т£\См\). Затем в соответствии с уравнением (4) вычислим априорную вероятность предшествующего класса Р(Ст), чтобы предсказать, как часто каждый класс встречается в (Т) относительно вектора признаков (Т). В то время как условную вероятность (Т') вычислим по уравнению (5) для прогнозирования релевантности между прогнозирующим классом (Ст) и его соответствующим признаком Тч), как указано в Р(Тц\Ст)).

Р(Т1, Ст) = Р(Ст) Пе=1^р Р(Ти\Ст) (4)

^т = ^ Рт5 (Т^, Ст) (5)

Таким образом, узлы DT обозначают все признаки во входном векторе, листья относятся к предсказаниям соответствующих признаков, а ветви DT относят каждый исследуемый признак к соответствующей категории. N8 предсказывает фактическую категорию упущенных из виду признаков в нерасшифрованных узлах DT. Любой, до сих пор неклассифицированный признак, классифицируется с помощью вероятностной теоремы Байеса в предположении, что все признаки независимы друг от друга.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Построение структуры модели многоуровневой потоковой аналитики программ-вышогателей. Предлагаемое решение структуры модели потоковой аналитики использует четыре уровня: извлечение признаков, классификацию программ-вымогателей, атрибуцию семей предков и слияние семей нескольких поколений, чтобы отличить версии программ-вымогателей от всех вредоносных программ и легитимных программ.

- на уровне извлечения формируется пространство признаков;

- на уровне классификации формируются и анализируются вектора признаков с маркировкой классов;

- на уровне атрибуции семейства извлеченные векторы признаков приписываются их родительским семействам путем нормализации данных заголовка каждого вектора признаков относительно его семейства;

- на уровне слияния нескольких поколений все векторы признаков исследуются на случаи определения семьи с несколькими предками, учитывая, что им присвоены атрибуты своей семьи.

Диагностику семей предков и семей, имеющих нескольких предков, которая осуществляется с помощью уровней семейной атрибуции и слияния нескольких предков, реализуем синхронно вместе с выполняемым обучением. Таким образом, в предлагаемой архитектуре многоуровневой потоковой аналитики входная (неизвестная) версия программы-вымогателя анализируется системой гибридного машинного обучения во время выполнения задачи тестирования так же, как и данные обучающего корпуса, во время выполнения задачи обучения. На рисунке 3 порядок выполнения задачи обучения представлен справа (по черному пути), тогда как порядок выполнения задачи тестирования - слева (по красному пути).

Рис. 3. Структура модели многоуровневой потоковой аналитики програл1м-вымогателей

Непрерывный перезапуск процесса после поступления новых данных, предполагающий обучение во время его фактического выполнения, решает проблему классификации, проверяемой в текущее время и помеченной как «подозрительная» версии р. При обновлении модели на основе новых входящих данных, р может быть классифицирована как версия программы-вымогателя в будущей итерации выполнения процесса.

5. Алгоритм классификации программ-вымогателей. Предлагаемый алгоритм изучает выборку векторов признаков, используя «обрезку» дерева решений DT, разделяющую обучающие векторы признаков на подобу-чающие с помощью границ принятия решений N8. При этом используется лишь небольшая часть предоставленной информации, и это приблизительная оценка структуры случаев (дерева). Однако наивный байесовский метод учитывает, как априорные распределения классов, так и вероятность появления признака для данного класса. Это позволяет гораздо лучше использовать имеющуюся информацию.

Определение семантических кодов.

Примем:

Б - поток версий программ-вымогателей и версий, не являющихся программами-вымогателями, такой, что Б = {&в}т£№

Т - компактный набор признаков;

Трасе - сгенерированное пространство извлеченных признаков, где Тзрасе = {Т,},^|Т\;

Т - вектор признаков, входящий в Трасе;

Ттее'Ыоёе - дерево решений Трасе;

Теа^о^Ье - листовой узел;

ТзиЬ разделение пространства Трасе так, что Тзрасе = {ТзиЬ} зиЬ£]|зиЬ|,

Ст - модель класса Т, где С = {Ст}т<?м, аМ- количество прогнозирующих классов;

К - векторы признаков программ-вымогателей;

К— векторы признаков, не связанных с программами-вымогателями;

Т - файл трассировки;

АКг.. - коэффициент атрибуции вектора признаков;

МВЯ(Т') - мультиуровневый коэффициент вектора признаков.

Ввод: Б и Т.

Вывод: К и К'.

Начало:

1. Создать Трасе из Б с заголовками.

2. Повторять действия (3)-(с).

3. а. Создать Ттее'Ыоёе

b. Если все {Т,},^|Т\ в Трасе имеют одинаковый класс (Ст), то Ттее^оЗе ^ Теа^о^Ье

c. До тех пор, пока Т = {}, присоединять Ттее'ЫоЗе к модели класса большинства Ст.

4. Для каждого Т. в Трасе

a. найти априорную вероятность С. в Тзрасе по уравнению (4)

b. Найти условную вероятность ^ относительно С. над Тзрасе по уравнению (5)

c. Обновить Т' в Тзрасе с максимальным Р(Т'.\Ст) таким, что Р(Ст\Ь); Ст ^ Рт(Ст\Ь.);

(1 Разделить Тзрасе на Тзрасе {ТзиЬ}шЬё\Т\ и Тзрасе {ТзиЬ}зиЬё\Т\

5. Повторять (6) до тех пор, пока (Тзрасе ^{}) и (Т^= {})

6. Сохранять все вычисленные вероятности в К и К~ для принятия решения о классификации.

7. Для каждого Т в К и К~

a. найти АК»

b. найти МВК(Т)

c. сохранить АК>.. и МБК(Т,) в файле трассировки Т.

Обоснование выбора методов машинного обучения, основанных на гибридных системах, объединяющих несколько взаимодополняющих технологий ML. В представленном алгоритме, используются два доминирующих метода машинного обучения, DT и N8, которые синхронно гибридизируются в НМЬ (система гибридного машинного обучения) для оптимизации адаптивной категоризации в процессе борьбы с версиями программ-вымогателей и вредоносных программ «нулевого дня» [5]. DT построено аналогично древовидной структуре, которая начинается от корня, проходит через ветви и, наконец, достигает листьев; что является решением или прогнозом DT. Концептуально DT выполняет быструю классификацию больших обучающих данных по всей древовидной структуре, так что прогнозирующие классы входных векторов признаков могут быть организованы как предшествующие узлы, а их признаки могут быть установлены как листья дерева. Однако это может быть неэффективно при прогнозировании класса невидимых значимых признаков [4-6]. С другой стороны, N8 выполняет быстрое обучение данных, однако это непрактично для большого набора признаков и их неоднородных значений. Однако он тратит короткое время вычислений на изучение обучающих векторов признаков и прогнозирование их фактических классов с помощью вероятностной теоремы Байеса с предположением, что все исследуемые признаки независимы друг от друга [4-6]. Таким образом, N8 применяется в НМЬ для отслеживания прогнозных классов всех пропущенных признаков в нерасшифрованных узлах DT, что оптимизирует адаптивную классификацию.

Главное преимущество предложенного подхода для целей обучения и прогнозирования заключается в комбинировании двух взаимодополняющих классификаторов, использующих как числовые, так и статистические показатели. Подобная схема позволяет получать интерпретируемые и точные результаты.

Выводы. Развитие и совершенствование кибератак приводит к обилию их версий, дисбалансу в классах этих версий, разнообразию семей-предков версий и существованию семьи с несколькими корнями, а также общности в их скрытых чертах и предполагаемом динамическом поведении. Чтобы обогатить классификацию программ-вымогателей проблемы предыдущих технологий защиты от ВПО могут быть улучшены, посредством реализации возможности (1) обработки разнообразия, неоднородности и количества используемого набора признаков, (2) использования общности среди семейств программ-вымогателей, (3) адаптивного обучения масштабируемому и переменному корпусу данных и (4) влияния изменяющихся периодов времени появления и агрегирования поступающих версий.

Целостная характеристика версий программ-вымогателей (определение как динамических, так и статических ключевых признаков) среди версий других кибератак в предлагаемой модели потоковой аналитики программ-вымогателей демонстрирует способность их обнаружения с минимальными затратами на производительность благо-

даря многоуровневой конструкции модели и компактному набору признаков. Предлагаемое решение, используя четыре уровня извлечения признаков, решает проблему классификации программ-вымогателей, атрибуцию семей предков и объединение семей нескольких поколений, чтобы отличить версии программ-вымогателей от версий вредоносных и легитимных программ. Это достигается (1) двойной индуктивной функцией, которая представляет собой гибрид функций NB и DT, и (2) регулируемой решающей границей, которая определяется числовыми и статистическими показателями ARt. и MDR(Ti). Вышеуказанные свойства конструкции модели в рамках преимущества во времени обработки данных и легкого использования компьютерных ресурсов могут стать решающим фактором для повышения точности обнаружения и уменьшения количества ложных обнаружений версий программ-вымогателей.

На данный момент требуется тестирование использования описанных выше возможностей работы предлагаемого HML в реальной среде против версий программ-вымогателей «нулевого дня».

Список литературы

1. Pathak P.B., Nanded Y.M. A dangerous trend of cybercrime: Ransomware growing challenge. Int. J. Adv. Res. Comput. Eng. Technol. 2016. 5. P. 371-373.

2. Herrera Silva J.A., Barona Lopez L.I., Valdivieso Caraguay A.L., Hernandez-Alvarez M. A survey on situational awareness of ransomware attacks -detection and prevention parameters. Remote Sens. 2019, 11, 1168.

3. Zavarsky P., Lindskog D. Experimental analysis of ransomware on windows and android platforms: Evolution and characterization. Proced. Comput. Sci. 2016, 94. P. 465-472.

4. Aburomman A.A., Reaz M.B.I. A survey of intrusion detection systems based on ensemble and hybrid classifiers. Comput. Secur. 2017, 65. P. 135-152.

5. Tsai C.-F., Hsu Y.-F., Lin C.-Y., Lin W.-Y. Intrusion detection by machine learning: A review. Expert Syst. Appl. 2009, 36. P. 11994-12000.

6. Shabtai A., Moskovitch R., Elovici Y., Glezer C. Detection of malicious code by applying machine learners on static features: A state-of-the-art survey. Inf. Secur. Tech. Rep. 2009, 14. P. 16-29.

Веревкин Сергей Александрович, младший научный сотрудник научной лаборатории, [email protected], Россия, Санкт-Петербург, Военно-космическая академия им. А.Ф. Можайского, аспирант, Санкт-Петербургского федерального исследовательского центра Российской академии наук,

Трохимова Наталья Андреевна, научный сотрудник научной лаборатории, Россия, Санкт-Петербург, Военно-космическая академия им. А.Ф. Можайского, аспирант, Санкт-Петербургского федерального исследовательского центра Российской академии наук

A MODEL OF MULTI-LEVEL STREAMING ANALYTICS FOR DETECTING VERSIONS OF THE VPO "RANSOMWARE" USING MACHINE LEARNING TECHNOLOGIES

N.A. Trofimova, S.A. Verevkin

The article considers an urgent task related to the identification of ransomware ransomware programs, which have become widespread in recent years. Based on the analysis of existing approaches based on static and dynamic analysis of malicious software, a set of features characterizing the malicious activity of ransomware is proposed. The result of the work is a multi-level model of streaming analytics of ransomware based on popular machine learning methods.

Key words: ransomware, machine learning, data analysis, static analysis, dynamic analysis.

Verevkin Sergei Alexandrovich, junior researcher at the scientific laboratory, [email protected], A.F. Mozhaisky Military Space Academy, postgraduate, St. Petersburg Federal Research Center of the Russian Academy of Sciences,

Trofimova Natalia Andreevna, research associate at the scientific laboratory, A.F. Mozhaisky Military Space Academy, postgraduate, St. Petersburg Federal Research Center of the Russian Academy of Sciences

i Надоели баннеры? Вы всегда можете отключить рекламу.