Научная статья на тему 'Технология интеллектуального анализа данных для выявления внутренних нарушителей в компьютерных системах'

Технология интеллектуального анализа данных для выявления внутренних нарушителей в компьютерных системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
279
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНЫЕ СЕТИ / ОБНАРУЖЕНИЕ ВТОРЖЕНИЙ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / ВЫЯВЛЕНИЕ АНОМАЛИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аникин Игорь Вячеславович

Проведены экспериментальные исследования ряда методов интеллектуального анализа данных и осуществлен их сравнительный анализ для решения задачи обнаружения вторжений в компьютерные сети, основанной на выявлении аномалий. Предлагается технология интеллектуального анализа данных для обнаружения событий, связанных с получением нарушителя доступа к системе под учетной записью другого пользователяI

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

n this paper we realize experiments and comparative analysis of some data mining methods for intrusion detection in computer networks based on anomaly detection. Suggested data mining technology for events detection when insider obtain access to system with another account

Текст научной работы на тему «Технология интеллектуального анализа данных для выявления внутренних нарушителей в компьютерных системах»

СПИСОК ЛИТЕРАТУРЫ

1. Воеводин, В.В. Параллельные вычисления [Текст]/В.В. Воеводин, Вл.В. Воеводин.-СПб.: БХВ-Петербург, 2002.-608 с.

2. Кононова, Н.В. Многокритериальная задача о раскраске на предфрактальных графах. Дисс. ...канд. физ.-мат. наук [Текст]/Н.В. Кононова.-Ставрополь: СГУ, 2008.-9 с.

3. Кочкаров, А.А. Параллельные алгоритмы на предфрактальных графах [Текст]/А.А. Кочкаров, Р. А. Кочкаров.-М.: Ин-т прикладной математики имени М.В. Келдыша РАН, 2003. -№ 84.

4. Кочкаров, А.М Распознавание фрактальных графов. Алгоритмический подход [Текст]/ А.М. Кочкаров.-Нижний Архыз: РАН САО, 1998.-170 с.

5. Кристофидес, Н. Теория графов. Алгоритмический подход [Текст]/Н. Кристофидес, Э.В. Вершкова, И.В. Коновальцева; пер. с англ.-М.: Мир, 1978. -432 с.

6. Асанов, М.О. Дискретная математика: графы, матроиды, алгоритмы [Текст]/М.О. Асанов, В.А. Баранский, В.В. Расин.-Ижевск: НИЦ «РХД», 2001. -288 с.

УДК 681.3

И.В. Аникин

ТЕХНОЛОГИЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ ВНУТРЕННИХ НАРУШИТЕЛЕЙ В КОМПЬЮТЕРНЫХ СИСТЕМАХ

Своевременное выявление инцидентов информационной безопасности (ИБ) в компьютерных системах и сетях — одна из важнейших задач для современного общества. При этом наибольшую актуальность приобретает выявление нарушений ИБ, реализуемых внутренними сотрудниками организации (инсайдерами).

Для выявления таких нарушений ИБ в настоящее время значительный практический интерес получают системы обнаружения вторжений (СОВ), работающие по принципу выявления аномалий. На первом этапе своей работы системы обнаружения аномалий (СОА) формируют эталонные профили, характеризующие нормальное поведение субъектов компьютерной системы (а при необходимости — и поведение при осуществлении атаки). На втором этапе происходит сравнение действительного поведения субъектов с эталонными профилями и сигнализация о выявленных отклонениях. Такой подход обладает рядом преимуществ перед сигнатурными анализаторами. Наибольшее распространение СОА получили для выявления сетевых атак [1—5], однако известно немало примеров использования СОА для выявления попыток злоупотребления пользователей своими полномочиями [6].

Один из основных компонентов СОА — база знаний (БЗ), содержащая эталонные профили поведения субъектов. Поэтому задача качественного формирования баз знаний является одной из важнейших при проектировании СОА. Для формирования таких БЗ часто применяют методы интеллектуального анализа данных (Data Mining) [7—8].

В настоящей статье предлагается технология интеллектуального анализа данных, предназначенная для выявления событий безопасности в компьютерной системе, связанных с получением доступа нарушителя к системе под учетной записью другого пользователя. При этом выполняется анализ работы пользователя с прикладными программами.

Технология интеллектуального анализа данных

Поставим задачу выявления фактов компрометации учетной записи пользователя, связанных с получением доступа нарушителя к компьютерной системе (КС) под учетной записью другого пользователя, например, через кражу злоумышленником эталонного пароля легального пользователя. Выявление факта компрометации учетной

записи будем осуществлять, используя технологию интеллектуального анализа поведения пользователя в КС и выявления аномалий в данном поведении.

Эталонный профиль поведения пользователя предлагается формировать путем анализа его работы с прикладными программами и выявления скрытых закономерностей, характеризующих такую работу. В качестве источника данных о поведении пользователя используется журнал событий Security EventLog ОС Windows. На рисунке представлена структура разработанной системы обнаружения аномалий (СОА), которая работает в двух режимах.

Обучение, в рамках которого формируются эталонные профили поведения пользователей и формирование БЗ СОА. В качестве способов представления знаний предлагается применять деревья решений, ассоциативные правила, а также совместно используемые наборы программ, полученные методами секвенциального анализа данных [4].

Выявление двух видов аномального поведения пользователей на узле компьютерной сети:

отклонения в атрибутах использования программ, например, запуск критичной процедуры не в установленные сроки;

отклонения в характере использования программ, например, после входа в систему не соблюдается последовательность их запуска.

Выявленным инцидентам назначается вес критичности, а информация о них вносится в БД. О наиболее критичных инцидентах извещается администратор безопасности с целью своевременного реагирования на них. Рассмотрим работу СОА в режимах обучения и выявления аномалий.

Работа СОА на этапе обучения

Здесь осуществляется формирование эталонных профилей поведения пользователей. Обозначим через S = {sj, ..., s^} множество записей в журнале регистрации событий Security EventLog, каждую из которых охарактеризуем тройкой элементов (dj, tj, type^j, где typei - тип события (вход в систему, запуск определенной программы и т. д.), dj, tj - дата и время фиксации события. Формирование БЗ СОА осуществляется подсистемой извлечения знаний при участии эксперта

Структура системы обнаружения аномалий

(см. рис. 1). Извлечение знаний предполагает реализацию последовательных шагов выборки данных, их подготовки, преобразования, получения знаний методами Data Mining, а также оценку полученных знаний экспертом.

1. Выборка данных. На данном шаге из множества S выделяется подмножество событий S с S, S = {,..., sn~}, относящихся к запуску/ завершению процессов или программ, а также к входу/выходу пользователя из системы.

2. Подготовка данных для анализа осуществляется путем решения следующих подзадач.

Очистка данных. Реализуется при построении дерева решений путем фильтрации множества S и удаления из него событий, не критичных относительно дня недели или времени запуска. Данная задача решается экспертом, а также путем определения факта корреляции между фактом возникновения события и данными параметрами.

Удаление избыточных данных. Появление одного события в множестве S может порождать появление других. В данном случае в S оставляют только одно головное событие, которое порождается активностью пользователя.

Удаление нерелевантных ко времени событий, порожденных ошибками пользователя. Критерием удаления события является условие ta- tb < 10, где ta - время запуска программы пользователем, tb - время завершения ее работы.

Склеивание повторяющихся событий. Реализуется при проведении секвенциального анализа. Часто в множестве S одинаковые события следуют друг за другом. Для секвенциального анализа данный вариант не представляет интереса, т. к. работа осуществляется с одной программой. Такие события склеиваются в одно, например, последовательность событий AAABBC преобразуется в последовательность ABC.

3. Преобразование данных осуществляется путем приведения событий множества S к требуемой для анализа форме.

Атрибуты di и ti преобразуются в дискретный вид с множествами значений №date и КЙ)Ж соответственно, где №date ={начало недели, середина недели, конец недели, выходные}; ^time ={раннее утро, утро, середина дня, конец дня, вечер, ночь, глубокая ночь}.

При проведении секвенциального анализа на данном шаге дополнительно выделяются пользовательские сессии (анализируемые транзакции). Точками, разделяющими сеансы работы пользо-

вателя в множестве S , считаются: события входа в систему под исследуемой учетной записью; запуск хранителя экрана; отсутствие активности в системе более 10 мин. 4. Data Mining.

Для построения дерева решений использован алгоритм C4.5. Формируемое дерево решений представляет полную систему правил классификации, определяющих день и время использования программ на узле компьютерной сети. К недостаткам данного способа представления знаний для СОА относится необходимость жесткого отбора на этапе фильтрации программ, критичных относительно дня недели или времени запуска. В ином случае может произойти необоснованное усложнение построенного дерева решений. Поиск ассоциативных правил Будем рассматривать в качестве транзакций элементы si е S . Данные транзакции представляют собой тройки элементов (di, ti, typei ^, где

di eNdate, ti eNtime, tyPei eNtype . В отличие °T

построения полной системы правил классификации, в данном случае осуществляется поиск в множестве транзакций небольшого количества продукционных правил вида (1), являющихся «полезными» для выявления рассматриваемых инцидентов:

X ^ Y, C, I, (1)

где X и Y — набор элементов множеств

К date, Ntiiïe , Ntype , встречаюЩИхся в 1ранзакцИЯх

совместно.; C - достоверность правила, показывающая вероятность того, что из наличия в транзакции набора X следует наличие в ней набора Y; I - улучшение, показывающее, полезнее ли правило случайного угадывания

с _ Support(x и У) j _ Support(x и У)

Support(x) ' Supporí(x ) ■ Support{y) '

где Support(F) = ^rÓ- — поддержка набора F, LS

а SF — количество транзакций, в которые входит набор F. Полезность ассоциативного правила (1) определяется выполнением условий С > Suppmm > suppy , 1 > 1.

Для построения ассоциативных правил в разработанной СОА использован алгоритм построения частотных деревьев. Ниже представлены ассоциативные правила, сформированные по результатам анализа одного из журналов Security EventLog, а также их интерпретация.

Ассоциативное правило Интерпретация

time =< Раннее утро > date =< Середина недели > Если работа пользователя начинается ранним утром, то это середина рабочей недели

type -< Вход в систему >, date =< Начало недели > —> time —< Утро > В начале недели работа пользователя начинается утром

type =< Nero > -> date -< Конец недели > Работа с программной Nero осуществляется в конце рабочей недели

Секвенциальный анализ

В данном случае в качестве транзакций рассматриваются пользовательские сессии (2), состоящие из последовательно запускаемых пользователем программ. Формирование пользовательских сессий осуществляется на этапе преобразования данных:

Session = {typej, ..., typej. (2)

Выполняется анализ транзакций (2) путем построения ассоциативных правил и выделения в них частых совместно используемых наборов программ. Конкретный набор из часто встречаемых к программ, назовем к-последовательностью. Для их построения в разработанной СОА использован алгоритм построения частотных деревьев

5. Оценка знаний

На данном этапе осуществляется интерпретация и анализ полученных знаний человеком-экспертом. Для сформированных ассоциативных правил и к-последовательностей осуществляется оценка полезности. Для к-последовательностей особенно полезными являются те, которые начинаются с событий {Вход в систему} или {Хранитель экрана}.

Работа СОА на этапе обнаружения аномалий

На этапе выявления аномального поведения пользователей СОА осуществляет сбор информации из журнала регистрации Security EventLog, сравнивает поведение пользователей со сформированными эталонными профилями и выявляет аномальные отклонения, которые назовем инцидентами. Выделены инциденты ij трех категорий.

Инциденты первого рода. Временные сроки и день запуска программы p не соответствуют правилам построенного дерева решений. Для данных инцидентов определяются расстояния

p(p) до ближайших листьев построенного дерева решений, помеченных р . Данные расстояния определяются на порядковой шкале значениями от 1 до 5. Далее степень критичности инцидентов первого рода определяется согласно выражению critical (ij) = critical (p)°min p critical (pj), где critical (p)е {1, ...,5} - степень критичности программы p, определяемая экспертным путем, ° — операция на порядковых шкалах.

Инциденты второго рода. Не выполняется условие A ^ B построенного ассоциативного правила при удовлетворении условия A. Степень критичности инцидентов второго рода определяется согласно выражению critical (ij) = = critical(A ^ B)C, где critical(A ^ B) — степень критичности ассоциативного правила, определяемая экспертным путем, C е [0;1] — достоверность правила.

Инциденты третьего рода. Нарушается последовательность использования программ в k-последовательностях. Степень критичности инцидентов третьего рода определяется согласно выражению:

criticalii,)=critical(lt) ■ min SuPPort{X , KJ/ k к Support(X uYk)

где lk — ¿-последовательность БЗ, начало которой совпадает с событием X ; Y' — теоретическое продолжение ¿-последовательности в БЗ; Yk — реальное продолжение ¿-последовательности в пользовательской сессии.

Обозначим через IA = {ip ..., ik} — множество инцидентов, порожденных конкретной учетной записью пользователя u за время T. Общий уровень инцидентов C(u) , исходящих от u, определяется согласно выражению к

С(и) = У critical(it).

(3)

f=i

Исходя из полученного уровня инцидентов C (и), принимается решение о наличии аномалии. Для администратора безопасности уровень инцидентов представляется в цвете путем определения значения показателя ЦИ (цвет инцидента):

зеленый, если С(и) < Сжелтый(и)

желтый,если Сжелтый(м) < С (и) < СЕрасны>)

красный,если С(и) > С^^См)

ЦИ =

зеленый - уровень инцидентов, исходящих от учетной записи (УЗ), является приемлемым и не свидетельствует о ее компрометации;

красный - уровень инцидентов, исходящих от УЗ, является неприемлемым, свидетельствует о ее компрометации. Данный факт требует немедленного реагирования администратора;

желтый - уровень инцидентов, исходящих от УЗ, не является ни приемлемым, ни критичным. Возможно, УЗ скомпрометирована и администратору следует обратить внимание на данный факт.

Формирование пороговых уровней инцидентов Сжелтый(и) и Скрасн^1й(и) осуществляется следующим образом. Обозначим через U = {u.} N™ множество УЗ пользователей, C(u) >0 — уровень исходящих инцидентов от УЗ пользователя и., вычисляемый согласно (3) на этапе обучения СОА. Обучение происходит в условиях, когда УЗ не скомпрометирована, поэтому значение C(u ) является допустимым для нее. K(u) — множество единиц знаний для и., сформированное на этапе обучения и определяющее профиль поведения пользователя. Эти единицы знаний представляют собой деревья решений, ассоциативные правила или наборы совместно используемых программ.

После обучения СОА производится настройка параметров процедуры принятия решений путем формирования пороговых уровней С желтый(и) и скрасный(и) для каждой из УЗ и. е U . Для этого набирается статистика работы пользователей в режиме тестирования работы СОА. Должно выполняться условие Ttest « Te, где Ttest — время сбора тестовых данных, Te — время обучения СОА.

Обозначим через E(u, K(u.)) расстояние между профилем поведения пользователя u (согласно K(u )) и поведением пользователя u j на этапе тестирования.

Используя информацию о поведении пользователя u в дискретные моменты времени 0 < T ^ Ttest, на этапе тестирования формируют-

ся и нормируются распределения расстоянии РДг) — от профиля поведения пользователя и^, и РДг) — от профилеИ поведения других пользова-телеи.

Тогда на этапе выявления аномалий Р'(г) является вероятностью того, что степень критичности инцидента - зеленая, а Р{(г) - вероятностью того, что степень критичности инцидента - красная.

Вычисление пороговых уровней инцидентов СжелтыИ(м) и СкРаснь1и(и) осуществляется согласно (4):

= г, при котором V/ ч = 2 j Р/{г)

£ красный = г> при которсш

РЦг) _ 1

(4)

Р/(г) 2

Для администратора безопасности палитра и цвет инцидентов определяется согласно (5):

Color — [ Р/ (г) ■ 255, Р' (г) • 255,0 ,

где P'(r)=P'(r)-k, P/{r) = P/{r)-k, (5) ' 1 1 1

где

к = шах<1

рЦгУР/{Г) V

где Р/ (г) ■ 255 - уровень красного цвета в палитре,

^'(г)-255 — уровень зеленого цвета в палитре.

Разработанная технология интеллектуального анализа данных для обнаружения внутренних нарушителей реализована в программном комплексе, который опробован для выявления аномального поведения пользователей на компьютерных системах с ОС Windows в условиях отсутствия попыток нарушителя маскировать свои действия в компьютерной системе. В ходе экспериментов уровень ошибок классификации первого рода получился равным 0,2, а уровень ошибок классификации второго рода — равным 0,1, что является, по нашему мнению, приемлемым результатом.

Разработанная технология интеллектуального анализа данных позволяет выявлять инциденты безопасности, связанные с компрометацией учетной записи пользователя (получения злоумышленником доступа к КС от имени данной учетной записи).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Практическое применение полученных результатов позволяет повысить уровень защищенности современных компьютерных систем от внутренних нарушителей.

СПИСОК ЛИТЕРАТУРЫ

1. Васильев, В.И. Интеллектуальные системы защиты информации [Текст]/В.И. Васильев.—М.: Машиностроение, 2010. -152 с.

2. ADAM: Detecting Intrusions by Data Mining [Текст]/ Proc. of the IEEE Workshop on Information Assurance and Security, West Point, NY, June 5-6, 2001. -Р. 11-16

3. Wang, H. Detection SYN flooding attacks [Текст]/ H. Wang, D. Zhang, K. Shin//Proc. of the IEEE Infocom. Conf., 2002.—P. 1530—1539.

4. Brugger, S.T. Data mining methods for network intrusion detection [Текст]/З.Т. Brugger.—University of California, Davis, 2004.-65 р.

5. Dewan Md., Farid Attacks Classification in Adaptive Intrusion Detection using Decision Tree [Текст]/ Far-id Dewan Md., Nouria Harbi, Emna Bahri [et al.]//World

Academy of Science, Engineering and Technology.-March 2010. -Iss. 63.-P. 86-90.

6. Гарусев, М.Л. Методы Data Mining в автоматизированном построении профиля пользователя защищаемой автоматизированной системы [Текст]/ М.Л. Гарусев//Научно-технический вестник СПбГУ-ИТМО.-2006.-№ 25.-С. 127-134.

7. Lee, W. Data mining approaches for intrusion detection [Текст]/Ж Lee, Salvatore J.Stolfo//Proc. of the 7th USENIX Security symp.-San ¿Antonio, Texas, Jan. 26-29, 1998.-Р.6.

8. Барсегян, А.А. Методы и модели анализа данных: OLAP и Data Mining [Текст]/ Барсегян А.А., Куприянов М.С., Степаненко В.В. [и др.]. -СПб.: БХВ-Петербург, 2004.-336 с.

УДК 004.732

А.А. Габдрахманов, Н.Т. Габдрахманова

НЕЙРОСЕТЕВАЯ ПРОГНОЗНАЯ МОДЕЛЬ ИНТЕНСИВНОСТЕЙ САМОПОДОБНОГО ТРАФИКА ТЕЛЕКОММУНИКАЦИОННОЙ СЕТИ С ПАКЕТНОЙ ПЕРЕДАЧЕЙ ДАННЫХ

Прогнозирование трафика телекоммуникационной сети с пакетной передачей данных играет значительную роль при разработке алгоритмов, повышающих качество обслуживания сети ^оБ). Провайдеры телекоммуникационных услуг, например, заинтересованы в возможностях долгосрочного прогнозирования загрузки собственной сети для планирования ее своевременного развития. В настоящее время переход к новым технологиям в сетях телекоммуникации сопровождается появлением новых, неизученных, сложных явлений. Исследования измерений интенсивностей трафика в сетях Интернет и в других сетях [1-4] показали, что трафик в них является самоподобным случайным процессом. Из этого следует, что широко используемые в настоящее время методы моделирования и расчета сетевых систем, основанные на использовании пуассоновских потоков, не дают полной и точной картины происходящего в сети. Данная статья посвящена исследованию процессов в сетях, построению прогнозных моделей и формированию на базе полученного

математического описания этих процессов предложений по управлению сетевым трафиком.

Для исследования на эффект самоподобия был взят пограничный коммутатор второго уровня организации, ориентированной на предоставление услуг магистральной связи. Трафик, поступающий на каждый порт устройства, представляет собой суммированный трафик от групп клиентов определенного района. Структурная схема проведения измерений приведена на рис. 1.

Статистика снята при помощи программы Cacti, протокол SNMP-Interface statistic. График интенсивностей, измеренных на порту GE 0, приведен на рис. 2. Измерения производились в течение недели.

Сетевой трафик, приведенный к эквидистантной форме по оси времени (с помощью процедуры агрегирования), представляет собой некоторый временной ряд (реализацию дискретного случайного процесса). Поэтому анализ сетевого трафика фактически сводится к задаче обработки временного ряда. На первом этапе решения

i Надоели баннеры? Вы всегда можете отключить рекламу.