УДК 004.056
МОДЕЛЬ СИНТЕЗА КОЛЛЕКТИВОВ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ РЕШЕНИЯ ЗАДАЧИ ОБНАРУЖЕНИЯ ИНЦИДЕНТОВ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ
(Работа выполнена при финансовой поддержке РФФИ, соглашение № 12-01-31123\13 от 28.05.2013 г.)
В.Г. Жуков, к.т.н.., доцент; В.В. Бухтояров, кт.н., доцент (Сибирский государственный аэрокосмический университет им., академика М.Ф. Решетнева, просп.. им.. газ. «Красноярский рабочий», 31, г. Красноярск, 660014, Россия, [email protected], [email protected])
Разработка эффективных методов обнаружения инцидентов информационной безопасности является актуальной задачей, значимость которой определяется современными тенденциями развития обмена данными в информационных системах и требованиями к их защищенности. Одно из направлений развития этих методов - использование интеллектуальных информационных технологий в качестве базового инструмента решения данной задачи. К подобным интеллектуальным технологиям, в частности, относятся искусственные нейронные сети, доказавшие свою эффективность при решении таких задач анализа данных, как классификация, моделирование и прогнозирование. В последнее время, следуя современным тенденциям развития информационных технологий, большую актуальность приобретают так называемые коллективные подходы, позволяющие обрабатывать информацию параллельно сразу несколькими нейронными сетями для получения более эффективных решений. В данной работе для обнаружения инцидентов информационной безопасности предлагается использовать трехступенчатый эволюционный подход, приводятся результаты его экспериментальных исследований на наборе данных KDDCup'99. Рассмотрен также вариант применения коллективов нейронных сетей в случаях распределенной работы индивидуальных классификаторов - коллективно-распределенный подход. В рамках описываемого подхода предлагается метод определения ситуаций, в которых задача решается индивидуальной нейронной сетью и используется весь пул нейронных сетей. Коллективно-распределенный метод апробирован на задаче обнаружений инцидентов информационной безопасности, проведены исследования влияния перераспределения вычислительной нагрузки на эффективность получаемых решений. Обозначены направления для дальнейшего исследования предлагаемых методов, в том числе в рамках рассматриваемой задачи обнаружения инцидентов информационной безопасности.
Ключевые слова: нейронные сети, коллективы интеллектуальных информационных технологий, обнаружение вторжений, классификация.
A MODEL FOR DESIGN OF ENSEMBLES OF INTELLIGENT INFORMATION TECHNOLOGIES
FOR DETECTING INFORMATION SECURITY INCIDENTS Zhukov V.G., Ph.D. Tech. Sc., Associate Professor; Bukhtoyarov V. V., Ph.D. Tech. Sc., Associate Professor (Academician M.F. Reshetnev Siberian State Aerospace University, Krasnoyarsky Rabochy Av., 31, Krasnoyarsk, 660014, Russian Federation, [email protected], [email protected])
Abstract. The development of effective methods to detect information security incidents is an urgent problem. The importance of this problem is determined by current trends in communication in information systems and by security requirements for such systems. One of the trends is using intelligent information technologies as basic tools for solving this problem. These intelligent information technologies also include artificial neural networks proved their efficiency when solving such problems as classification, modeling and forecasting. Due to the common trends of information systems, the so-called ensemble approaches became more popular for solving data mining problems. They allow processing the information in parallel by several neural networks to obtain more effective solutions. The authors propose to use a three-step evolutionary approach to detect information security incidents. The results of experimental studies of the proposed approach on a KDDCup'99 data set are presented. The paper also considers using individual neural networks in the case of individual classifiers distribution -the so-called ensemble-distributed approach. The authors propose a method for determining cases when the problem to be solved by individual neural network and when the entire ensemble of neural networks is used. Ensemble-distributed method efficiency is tested on the problem of detecting information security incidents. The ways for further studies of the proposed methods are marked.
Keywords: neural networks, ensembles of intelligent information technologies, intrusion detection, classification.
Система обнаружения вторжений (СОВ) как автоматизированная информационная система обнаружения инцидентов информационной безопасности на сегодняшний день является неотъемлемой частью комплексного решения задачи обеспечения информационной безопасности автоматизированных систем с развитой сетевой инфраструктурой. Под СОВ, согласно определению ФСТЭК России, будем понимать программные и программно-аппаратные технические средства,
реализующие функции автоматизированного обнаружения в информационных системах действий, направленных на преднамеренный несанкционированный доступ к информации, а также специальных воздействий на информацию в целях ее добывания, уничтожения, искажения или блокирования. В требованиях к средствам защиты данного класса (Профили защиты СОВ, представленные как методические документы ФСТЭК России) указано, что СОВ должна выполнять анализ соб-
ранных данных с целью обнаружения вторжений с одновременным использованием как сигнатурных, так и эвристических методов.
Среди существующих и активно применяющихся методов наиболее наукоемкими и перспективными для разработки алгоритмического обеспечения эвристических методов анализа данных СОВ являются методы, основанные на интеллектуальных информационных технологиях (ИИТ) -искусственные нейронные сети, нечеткие и ней-ронечеткие системы, эволюционные алгоритмы, иммунные и многоагентные системы. Анализ практического использования таких ИИТ в составе СОВ, в других задачах информационной безопасности и интеллектуального анализа данных в целом позволяет утверждать, что повышение эффективности использования ИИТ возможно за счет совместного использования в рамках одной системы сразу нескольких ИИТ. Повышение качества решения задач (в смысле выбранных критериев эффективности, например, количества ошибок первого и второго рода) достигается за счет ряда факторов, среди которых можно выделить следующие.
• Получение синергетического эффекта от использования сразу нескольких ИИТ (общепринятыми считаются термины «коллектив ИИТ» или «ансамбль ИИТ»). Причем в рамках одного коллектива ИИТ могут быть использованы как однотипные технологии (например, коллектив нейронных сетей), так и ИИТ различных типов. Разработка соответствующих методов для СОВ, отвечающих современным требованиям в плане скорости выработки решений и их качества, остается актуальной научной и исследовательской задачей.
• Согласованность схемы распределенного анализа данных и интеграции решений, полученных отдельными ИИТ, и вычислительной архитектуры современных информационных и автоматизированных систем, в которых они реализуются.
Коллективный метод обнаружения инцидентов информационной безопасности
Несмотря на большое количество исследований в области применения коллективов ИИТ, в частности в СОВ, актуальными с точки зрения повышения эффективности остаются вопросы формирования структуры отдельных ИИТ, настройки их параметров и выбор методов формирования общего решения в коллективах ИИТ.
В рамках такого традиционного коллективного подхода авторы предлагают использовать эволюционный трехуровневый метод с декомпозицией задачи в неявном виде на втором уровне. В целом он является расширением метода многоярусного обобщения за счет введения дополнительного промежуточного уровня в структуру процесса формирования решения задачи [1]. Идея заключается в том, чтобы дополнить характерную для первого уровня метода многоярусного обобщения декомпозицию задачи в неявном виде (назовем этот процесс первым шагом проектирования решения) декомпозицией задачи в явном виде на втором уровне (второй шаг проектирования решения) и агрегацией решений на новом, третьем, уровне (третий шаг проектирования решений). Общая схема проектирования решений с помощью предлагаемого подхода представлена на рисунке.
Далее описаны этапы предлагаемого трехэтап-ного эволюционного метода формирования коллективного классификатора.
Этап 1. Независимо формируется множество классификаторов - пул нейронных сетей, решения которых затем будут участвовать в формировании общего решения. Данный этап является общим для всех коллективных подходов. Для его выполнения в случае использования в качестве классификаторов первого уровня нейронных сетей предлагается применить вероятностный метод для автоматизированного формирования структуры
Схема трехэтапного подхода к формированию общего решения в коллективах нейронных сетей
для задачи классификации
нейронных сетей [2]. В общем же случае может быть использован любой доступный эффективный способ формирования отдельных классификаторов выбранного типа [3, 4].
Этап 2. Независимо друг от друга формируется набор из т классификаторов второго уровня, где т совпадает с числом классов в рассматриваемой задаче. Входами классификаторов этого уровня являются значения, получаемые на выходе классификаторов первого уровня. При этом для каждого у-го классификатора второго уровня, У = 1, т, обучение выполняется по следующему правилу: целевым значением на выходе классификатора для всех примеров, соответствующих классу с номером у, является единица; для всех остальных примеров целевым значением выхода клас-сификаторау является ноль.
Таким образом, на втором этапе выполняется декомпозиция задачи: каждый классификатор второго уровня формирует в пространстве поверхность, «отсекающую» объекты одного класса от объектов, относящихся к любому другому классу. Для решения этой задачи авторами предлагается использовать метод, основанный на применении гибридного генетического программирования [5] для комбинирования решений отдельных нейронных сетей.
Этап 3. Осуществляется агрегация решений классификаторов второго уровня с целью выработки общего решения - значения класса для входного набора. Выбор правила для формирования решения является предметом дальнейших исследований. В рамках предлагаемого подхода авторы использовали следующее простое и при этом очевидное правило: классифицируемый объект относится к тому классу, для которого соответствующий классификатор второго уровня выдал максимальное значение выходного сигнала.
Коллективно-р аспределенный подход к обнаружению инцидентов информационной безопасности
При рассмотрении ряда задач, в частности, обнаружения инцидентов информационной безопасности в распределенных системах, актуальным становится вопрос о возможности хотя бы частично решить задачу без проведения расчетов с использованием всех ИИТ, формирующих коллектив, ограничившись лишь применением отдельной технологии (например, построенного с ее помощью классификатора). Такое частичное перераспределение нагрузки в ряде случаев позволило бы сократить время на выработку решения и, возможно, привело бы к снижению нагрузки на передачу информации между отдельными узлами соответствующей вычислительной системы. Для использования подобной схемы должны быть разработаны методы, позволяющие определить, в ка-
ких случаях происходит обращение к коллективному классификатору, а в каких используется индивидуальный. Для решения этой задачи предложено использовать коллективно-распределенный подход.
В основе предлагаемого подхода лежит следующая модель формирования решения. На первом этапе реализуется решение задачи отдельным индивидуальным представителем ИИТ, входящим в коллектив, но без обращения к коллективу в целом. При этом, помимо собственно расчета решения, вычисляется оценка, которую можно охарактеризовать как степень уверенности (степень доверия) в том, что полученное решение является верным. Рассчитанное значение сравнивается с предварительно определенным пороговым значением Д. Далее по результатам этого сравнения принимается решение о том, следует ли обратиться к коллективному классификатору для принятия коллективного решения: если |<Д, то происходит обращение к коллективному классификатору для выработки общего решения; если §>Д, решение рассчитывается индивидуальным представителем ИИТ без обращения к коллективному классификатору.
Важным вопросом является определение способа расчета значения степени уверенности В данной работе использовалась двухфакторная оценка в основе которой лежит учет следующих двух параметров.
• Параметр ^ - степень уверенности /-го индивидуального классификатора в своем решении (индивидуальная степень уверенности). Очевидно, что для различных типов ИИТ способ определения такой оценки может варьироваться и в некоторых случаях быть затруднительным (например для деревьев решений). Так как в работе рассматриваются коллективы искусственных нейронных сетей, в качестве оценки индивидуальной степени уверенности было предложено использовать уровень сигнала на выходе нейрона, соответствующего классу, к которому индивидуальный классификатор отнес рассматриваемый паттерн. Были рассмотрены два варианта оценки индивидуальной степени уверенности:
- оценка формируется без учета значений уровня сигнала на остальных нейронах выходного
слоя, то есть
^ = &), (1)
где - значение сигнала на у-м нейроне выходного слоя /-й нейронной сети (индивидуального классификатора); данный вариант оценки степени индивидуальной уверенности не учитывает возможность формирования достаточно близких по уровню сигналов сразу на нескольких нейронах выходного слоя нейронной сети классификатора;
- в качестве альтернативного подхода был предложен второй вариант оценки ^ предпола-
гающий оценку относительного уровня сигнала на выходе нейрона, соответствующего классу, к которому индивидуальный классификатор отнес рассматриваемый паттерн:
^=maf (' )■ ^.
(2)
Очевидно, что формула (2) эквивалентна формуле (1) при условии, что на всех нейронах выходного слоя, за исключением того, который определяет класс для паттерна, уровень сигнала равен нулю, а на нейроне, определяющем класс, уровень сигнала равен единице.
Так как выходные значения нейронов нормированы, значения индивидуальной степени уверенности ^ лежат в интервале (0;1].
• Параметр р,- - степень доверия г-му индивидуальному классификатору, определяющая его эффективность. В данной работе степень доверия рассматривалась как величина, прямо пропорциональная доле верно классифицированных примеров в тестовой выборке:
Pi =
N
(3)
где №в - число примеров из тестовой выборки, верно классифицированных г-м классификатором; Мтв - общее число примеров в тестовой выборке. При таком способе расчета величина рг лежит в интервале [0;1].
Могут быть рассмотрены и другие подходы для оценки степени доверия индивидуальному классификатору, но это направление для дальнейших исследований.
Итоговая величина степени доверия рассчитывалась по формуле
^гр,. (4)
Значения степени доверия лежат в интервале [0; 1]. Предлагаемый подход определения степени доверия не предполагает необходимости проведения дополнительных вычислений, связанных с получением значений в точках выборки для индивидуальных и коллективного классификаторов. Значения рг рассчитываются при формировании коллектива и связаны с подсчетом значения ошибки индивидуальных классификаторов, значения ^ при использовании в качестве индивидуальных классификаторов нейронных сетей автоматически формируются на выходном слое каждой сети. Таким образом, затраты на дополнительные расчеты можно считать несущественными, что подтверждается оценкой времени работы предлагаемого подхода на тестовых задачах.
Для изучения применимости и эффективности представленной выше схемы на тестовых задачах были проведены статистические исследования, в ходе которых рассчитаны оценки, позволяющие эмпирически проверить то, что для задачи обна-
ружения инцидентов информационной безопасности использование предложенного метода позволяет сократить общее количество обращений к коллективному классификатору, часть примеров решается самостоятельно индивидуальными классификаторами.
Очевидно, что на частоту обращения к коллективному классификатору влияет пороговая величина Д, с которой сравнивается степень уверенности, рассчитанная по формуле (4). Изменяя эту величину, можно регулировать частоту обращения: чем больше значение Д, тем чаще при равных прочих условиях будет происходить обращение к коллективу классификаторов, и наоборот. Выбор способа определения оптимального значения Д с точки зрения минимизации ошибки моделирования является предметом дальнейших исследований. При определении порогового значения также могут в некотором виде учитываться и требования к интенсивности информационного обмена между распределенными индивидуальными классификаторами и коллективным классификатором.
В данной работе результаты получены при значении Д, определенном в ходе предварительного исследования эффективности подхода на рассматриваемых задачах.
Статистические исследования
эволюционного подхода к формированию
коллективов нейронных сетей
Для сравнения эффективности предлагаемого подхода с другими известными алгоритмами, применяемыми для решения подобных задач, был проведен ряд дополнительных экспериментов с целью определения эффективности альтернативных подходов на задаче, в основе которой лежит набор данных KDD Cup'99 [6]. Для этого исходный набор данных был разбит на бутстрэп-под-выборки. Для обучения нейронных сетей и настройки их параметров выборка была разбита в следующем соотношении: 67 % записей использовались как обучающая выборка, оставшиеся 33 % - как экзаменующая. Общее количество проведенных запусков для оценки эффективности подходов составило 50. В качестве альтернативных подходов были рассмотрены и реализованы следующие методы: одиночная нейронная сеть с архитектурой многослойный персептрон [7], деревья решений, построенные методом С4.5 [8], байесовский классификатор, алгоритм классификации на основе гиперсфер [9].
Результаты экспериментов приведены в таблице 1. Для оценки статистической значимости результатов были использованы метод ANOVA и критерий Вилкоксона. Использование обоих методов подтвердило статистическую значимость преимущества предлагаемого подхода по критерию минимизации ошибок первого рода.
k=1
Таблица 1
Результаты статистических исследований эффективности алгоритмов
Алгоритм
Много- Дере- Байесов- Алго- Кол-
Оценка слойный вья ский ритм лек-
персеп- реше- класси- гипер- тивный
трон ний фикатор сфер подход
Вероят-
ность
обнару- 0,818 0,796 0,862 0,810 0,972
жения
атаки
Вероят-
ность
ошибочного 0,007 0,011 0,117 0,010 0,004
обнару-
жения
Таблица 2
Результаты исследования эффективности коллективно-распределенного подхода
Номер серии экспериментов Доля нагрузки, перераспределенная в пользу индивидуальных классификаторов, % Оценка вероятности обнаружения атаки
1 ~50 0,680
2 ~40 0,784
3 ~30 0,846
4 ~20 0,912
5 ~9 0,968
Коллективный подход 0 0,972
Традиционный коллективный подход на рассмотренных задачах оказался в среднем не менее эффективным, чем конкурирующие подходы. Для исследования коллективно-распределенного метода обнаружения инцидентов информационной безопасности была проведена серия экспериментов, каждый из которых включал в себя следующие действия.
1. Формирование коллектива нейронных сетей.
2. Подбор порогового значения Д, обеспечивающего ошибку коллективно-распределенного классификатора, сходную с ошибкой, полученной при использовании традиционного коллективного метода. При этом пороговое значение было не индивидуальным, а общим для всего коллектива нейронных сетей, но полученные значения различались в каждом эксперименте (для каждого коллектива) - это не позволило в целом оценить влияние конкретных значений Д на качество решения задачи.
3. Определение распределения вычислительной нагрузки между отдельными классификаторами и коллективным классификатором. Вычислялись относительная частота решения задачи индивидуальным классификатором и соответствующая величина для коллективного классификатора. Данные, накопленные в ходе подбора порогового значения Д, также позволили оценить промежуточные значения распределения вычислительной нагрузки, соответствующие некоторому ухудшению результатов решения задачи.
Результаты серии экспериментов приведены в таблице 2.
Предлагаемый коллективно-распределенный подход на рассматриваемой задаче показал статистически неотличимые результаты при условии использования подбора граничного значения Д и перераспределения нагрузки в пользу индивидуальных классификаторов на уровне 9 %.
Очевидно, что вопрос настройки (а не подбора) оптимальной величины порогового значения требует дальнейших исследований, в частности, перспективными видятся использование индивидуального порогового значения для каждого отдельного классификатора и применение формализованных алгоритмов определения таких пороговых значений. Необходимо также более детально исследовать общую динамику зависимости ошибки классификации от изменения порогового значения и соответствующее перераспределение вычислительной нагрузки между индивидуальными классификаторами и коллективным.
В заключение отметим, что применение эволюционного подхода к формированию коллективов ИИТ на базе искусственных нейронных сетей как эвристического метода анализа СОВ позволяет эффективно решать задачу обнаружения инцидентов информационной безопасности в автоматизированных системах. В целом предлагаемый подход требует дальнейшего развития в плане создания соответствующей среды, позволяющей моделировать функционирование СОВ, основанной на использовании коллективов ИИТ. Кроме того, перспективным для исследования является определение частоты и интенсивности дообучения отдельных ИИТ для вычисления оптимального соотношения вызываемой этим процессом дополнительной нагрузки на сетевую инфраструктуру и вычислительной мощности. Важными представляются исследования на предмет определения оптимального соотношения различных ИИТ в коллективах различного размера, лежащих в основе реально функционирующих СОВ.
Литература
1. Kuncheva L.I. Combining Pattern Classifiers. Methods and Algorithms. John Wiley & Sons Publ., NJ, 2004, 300 p.
2. Bukhtoyarov V., Semenkina O. Comprehensive evolutionary approach for neural network ensemble automatic design. Proc. 2010 IEEE World Congress on Computational Intelligence. Barcelona, 2010, pp. 1640-1645.
3. Жуков В.Г. Модель эволюции дифференцированных адаптивных эволюционных систем // Информационные технологии, системный анализ и управление: сб. тр. VIII Всерос. науч. конф. молодых ученых. Таганрог: ЮФУ, 2010. С. 347-355.
4. Жуков В.Г. Автоматизация процесса построения и оптимизации математических моделей эволюционными алгорит-
мами на основе экспериментальных данных // Вестн. СибГАУ. 2011. Вып. 4 (37). С. 34-39.
5. Жуков В.Г. Дифференцированный адаптивный алгоритм генетического программирования // В мире научных открытий. Красноярск: Науч.-информ. издат. центр. 2012. Вып. 11.5 (35). С. 276-295.
6. Tavallaee M., Bagheri E., Lu Wei, Ghorbani A.A. A detailed analysis of the KDD CUP 99 data set. Proc. of the 2nd IEEE Symp. on Computational Intelligence for Security and Defence Applications, 2009.
7. Haykin S. Neural networks: a comprehensive foundation. Prentice Hall PTR, 1994.
8. Quinlan J.R. C4.5: programs for machine learning. Morgan Kaufmann Publ., 1993, vol. 1, 302 p.
9. Ong Y.S., Lim M.H., Zhu N., Wong K.W. Classification of adaptive memetic algorithms: a comparative study. Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on. 2006, vol. 36, no. 1, pp. 141-152.
References
1. Kuncheva L.I. Combining Pattern Classifiers. Methods and Algorithms. John Wiley & Sons Publ., Hoboken, NJ, 2004, 300 p.
2. Bukhtoyarov V., Semenkina O. Comprehensive evolutionary approach for neural network ensemble automatic design. Proc. of 2010 IEEE World Congress on Computational Intelligence. Barcelona, 2010, pp. 1640-1645.
3. Zhukov V.G. An evolution model for differentiated adaptive evolutionary systems. Sbornik trudov VIII Vserossiyskoy nauch. konf. molodykh uchenykh "Informatsionnye tekhnologii, sistemnyy analiz i upravlenie" [Proc. of the 8th All-Russian confe. of young scientists "Information technologies, system analysis and control"]. Taganrog, Southern Fed. Univ. Publ., 2010, pp. 347-355 (in Russ.).
4. Zhukov V.G. An automation of the process of composition and optimization of mathematical models using evolutionary algorithms based on experimental data. Vestnik SibGAU [Bulletin of SibSAU]. Krasnojarsk, Siberian State Aerospace Univ. Publ., 2011, vol. 37, iss. 4, pp. 34-39 (in Russ.).
5. Zhukov V.G. A differentiated adaptive algorithm of genetic programming. V mire nauchnykh otkrytiy [In the World of Scientific Discoveries]. Krasnojarsk, Publ. House Science and Innovation Center, 2012, vol. 5, iss. 11, pp. 276-295 (in Russ.).
6. Tavallaee M., Bagheri E., Lu Wei, Ghorbani A.A. A detailed analysis of the KDD CUP 99 data set. Proc. of the 2nd IEEE Symp. on Computational Intelligence for Security and Defence Applications, 2009.
7. Haykin S. Neural networks: a comprehensive foundation. Prentice Hall PTR, 1994, 716 p.
8. Quinlan J.R. C4.5: programs for machine learning. Morgan Kaufmann Publ., San Francisco, CA, 1993, vol. 1, 302 p.
9. Ong, Y.S., Lim M.H., Zhu N., Wong K.W. Classification of adaptive memetic algorithms: A comparative study. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics. 2006, vol. 36, iss. 1, pp. 141-152.