УДК 004.056:061.68
Ю.А. Брюхомицкий
МОНИТОРИНГ ИНФОРМАЦИОННЫХ ПРОЦЕССОВ МЕТОДАМИ ИСКУССТВЕННЫХ ИММУННЫХ СИСТЕМ*
Рассматривается задача мониторинга информационных процессов в компьютерных системах с целью их классификации на легитимные и нелегитимные процессы с применением аппарата искусственных иммунных систем. Поставленная задача решается на основе используемого в искусственных иммунных системах алгоритма отрицательного отбора. Отмечается, что важной особенностью такого решения является его высокая вычислительная трудоемкость, которая обусловлена экспоненциальным ростом числа детекторов, необходимых для реализации алгоритма отрицательного отбора, в зависимости от размерности задачи. Делается вывод о необходимости разработки более эффективных модификаций алгоритма отрицательного отбора.
Мониторинг информационных процессов; распознавание, классификация; искусственные иммунные системы; алгоритм отрицательного отбора; вычислительная трудоемкость.
Y.A. Bryukhomitsky
MONITORING INFORMATION PROCESSES METHODS OF ARTIFICIAL IMMUNE SYSTEM
The problem of monitoring information processes in computer systems for the purpose of classification for legitimate and illegitimate use of the machine with artificial immune systems. The problem is solved on the basis used in artificial immune systems, negative selection algorithm. It is noted that an important feature of this solution is its high computational complexity, which is caused by the exponential growth in the number of detectors required for the negative selection algorithm, depending on the dimension of the problem. It is concluded that a more effective modification of negative selection algorithm.
Monitoring of information processes; recognition; classification; artificial immune system; negative selection algorithm; computational complexity.
В информационных технологиях все большее внимание специалистов привлекает новое направление искусственного интеллекта - искусственные иммунные системы (Artificial Immune Systems), - которое основывается на использовании фундаментальных знаний в области иммунологии для решения прикладных задач [1].
В сфере компьютерной безопасности искусственные иммунные системы (ИИС) могут применяться для решения задач [2]:
♦ выявления неавторизованного использования информационных ресурсов;
♦ выявления вторжений (атак) на информационные системы;
♦ выявления аномалий в информационных процессах;
♦ поддержания целостности данных;
♦ подавления процессов распространения вредоносных программ;
♦ управления инцидентами информационной безопасности и др.
Значительная часть из перечисленных задач сводится, по существу, к проблеме нахождения отличий «своего» от потенциально опасного «чужого». В технической постановке это широко распространенные задачи распознавания и классификации образов.
* Работа выполнена при поддержке гранта РФФИ 12-07-00081-а. 82
При решении задач распознавания и классификации традиционными методами и средствами образы обычно описываются и выступают как целостные информационные комплексы, представленные в многомерном пространстве обучающих данных. Распознавание осуществляется централизованно, на системном уровне с применением различных методов сопоставления неизвестных образцов с эталонными образцами в пространстве обучающих данных. Для этого используются, в частности, геометрические методы определения меры близости (Хэмминга, Евклида, Махаланобиса и др.), параметрические методы, статистические методы, аппарат искусственных нейронных сетей и др. Точность решения задачи распознавания этими методами принципиально ограничена, если имеет место высокая вариативность образов, не позволяющий выполнить их точное описание. Принятие решения об отнесении неизвестного образца к одному или другому классу осуществляется лишь по окончанию всего цикла сопоставления образцов, что во многих случаях может оказаться уже запоздалой реакцией.
Решение задач распознавания и классификации с использованием подхода ИИС существенно отличается от традиционных подходов. Для этого используется другое представление и описание образов, другие методы сопоставления образцов, другие методы обработки данных и принятия решения. Как следствие, существенно другими становятся и свойства систем распознавания на основе ИИС, которые могут быть полезны и продуктивно использованы в сфере информационной безопасности.
Иммунная система живого организма осуществляет регулирование его взаимоотношений с внешней средой в сфере микробиологической безопасности. Она организует многоуровневую защиту организма от чужеродных клеток - антигенов. Основное ее свойство заключается в способности к выявлению антигенов и организации с помощью специальных клеток организма - иммуноцитов иммунного ответа, сводящегося к разрушению или нейтрализации антигенов. Ключевым механизмом появления такой способности у иммуноцитов является отрицательный отбор - сложный физико-химический процесс распознавания антигенов. Суть его в том, что иммуноциты, которые вступают в реакцию с собственными белками, уничтожаются, а остальные становятся чувствительными к антигенам. Циркулируя затем по всему организму, они выполняют функцию защиты от чужеродных клеток. При обнаружении «чужих» включаются механизмы нейтрализации и разрушения антигенов [3]. Причем принятие такого решения опосредовано коллективными действиями клеток иммунной системы без прямого вмешательства верхних отделов нервной системы организма.
С позиции информатики иммунная система интересна тем, что способна эффективно обрабатывать значительные объемы данных, используя для этого сложные высоко параллельные распределенные вычисления. При этом поведение иммунной системы в целом определяется большой совокупностью локальных взаимодействий. Попытки использовать эти принципы для решения разнообразных задач в области информационных технологий, в т.ч. информационной безопасности и привели к появлению ИИС. В отличие от традиционных информационных систем ИИС выполняют полностью децентрализованную обработку, в том числе и при решении задач распознавания.
Наиболее распространенной иммунологической моделью ИИС, применяемой в сфере компьютерной безопасности является алгоритм отрицательного отбора (АОО) [4, 5], который в самом общем виде формулируется следующим образом:
♦ определяется понятие «свой», как нормальная динамика поведения системы, которая описывается множеством строк символов фиксированной длины;
♦ создается набор детекторов «произвольных чужих», каждый из которых не должен совпадать с любой строкой нормальной совокупности строк символов «своего». При этом используется правило частичного совпадения, согласно которому две строки совпадают тогда и только тогда, когда они идентичны в определенном числе смежных позиций;
♦ производится непрерывное сопоставление новых поступлений строк в систему с детекторами. В случае совпадении строки с одним из детекторов она классифицируется как представитель «чужого».
Поставим задачу организации мониторинга информационных процессов в компьютерной системе с целью обнаружения присутствия нелегитимных процессов («чужих»), представляющих потенциальную угрозу нарушения информационной безопасности. Суть такого мониторинга сводится к решению задачи классификации протекающих информационных процессов на два класса: «свои» и «чужие». Поставленную задачу будем решать с использованием основных принципов и механизмов ИИС.
Пусть в компьютерной системе в нормальном состоянии может протекать к = 1, 2, ..., M легитимных («своих») информационных процессов Pk(t). В процессе функционирования компьютерной системы возможно появление нелегитимных информационных процессов («чужих») - P4(t), представляющих потенциальную угрозу нарушения информационной безопасности. Задача мониторинга состоит в том, чтобы своевременно обнаружить появление среди протекающих процессов P(t) нелегитимных процессов P4(t).
Формализуем решение этой задачи при условии использования АОО в его классическом виде.
Первый пункт АОО сводится к специальному построчному представлению информационных процессов P(t) и последующей регистрации легитимных процессов Pk(t), к = 1, М путем формировании для каждого из них соответствующего шаблона.
Представим информационные процессы P(t) конечными последовательностями событий: P(tj) = p1,p2,...,pi,..., pN, i = 1,N. При этом к = 1,М легитимным процессам будет соответствовать совокупность конечных последовательностей Pk{tj), i = 1 ,Nk. Конкретный вид представления и кодирования отдельных событий Pi,P2, ■■■,Pi, ■■■,Pn процессов P(ti) определяется приложением. В большинстве приложений информационной безопасности события p1,p2,...,Pi,...,pN процесса P(ti) могут быть представлены символами а±, а2,..., at, ..., aN некоторого алфавита А, кодирующими эти события в числовой форме. Количество символов d алфавита А, очевидно, будет соответствовать диапазону изменения чисел в каждой позиции последовательностей а1; а2,..., at, ■, aN, а, следовательно, - перечню всех возможных событий процессов P(ti).
Для определенности положим, что числовые значения аъ а2, .„, at, ■, aN, кодирующие события процессов P(ti), представлены действительными числами, нормированными к фиксированному диапазону d = (min ai, max a), определяемому приложением. Для реализации в АОО операции сопоставления символов a1,a2,.,aN по принципу частичного соответствия диапазон d удобно представлять m-разрядным двоичным кодом. При этом разрядность m задает точность двоичного представления исходного действительного числа. Очевидно, m-разрядным двоичным кодом можно закодировать 2m чисел от 0 до 2m-1. При этом весь диапазон d = (min ai, max a) будет содержать 2m-2 интервалов. Соответственно размер интервала равен 8 = (min ai, max a,) / (2m-2). В таком случае величина a, изменяющаяся в диапазоне min ai < ai < max ai, где max ai = min ai + (2m-2)-d, может быть отнесена к одному из интервалов 8j, j = 1, 2, ..., (2m-2) всего диапазона d с абсолютной ошибкой 8 и представлена двоичным кодом номера интервала 8j.
В том случае, если значения а по каким-либо причинам выходят за пределы нормированного интервала d, то эти значения следует исключить из анализа. Например, если а < min а, то двоично-кодированное значение at будет состоять из одних нулей, а если at > max а;, то двоично-кодированное значение at будет состоять из одних единиц. Обработка данных реализуется таким образом, что двоичные комбинации [00.. .0] и [11.. .1] из анализа исключаются.
Принцип кодирования событий информационных процессов P(tj), i = l,JVk поясняет рис. 1.
, | Двоичный код номера интервала
00...001 00.010 00...011 11..111
< > 1 < >< 2 3 • < > 2и-2
. 5 . , N Номер интервала
d \
Размер интервала
Диапазон изменения а,-
шах я,
Рис. 1. Принцип кодирования событий информационных процессов
После описанного представления информационных процессов Р(С) в системе мониторинга возможно создание шаблонов легитимных информационных процессов Рк (С;), к = 1, М, 1 = 1, Л/к, ориентированных на применение АОО.
Разобьем последовательности событий р1; р2, рМк каждого информацион-
ного процесса Рк(^), представленные символами а1,а2,...,аМк алфавита А, на множества строк равной длины по I событий в каждой строке. Для образования строк используем скользящее временное окно длиной I символов с шагом сдвига к символов. Каждое такое окно будет представлять порцию из I событий последовательности р1,р2, ■■■>Рмк. В конечном итоге каждый легитимный информационный процесс Рк(^), к = 1,М, 1 = 1,1\1к будет представлен набором из п строк по I событий в каждой строке. Каждый к-набор задает ориентированный на алгоритм отрицательного отбора шаблон легитимного процесса Рк(^).
Вид шаблона одного легитимного информационного процесса при I = 5 и к = 2 показан на рис. 2.
Рис. 2. Вид шаблона одного легитимного информационного процесса при I = 5 и к = 2
По описанному принципу формируются шаблоны для всей совокупности легитимных информационных процессов Рк(^), к = 1 ,М.
Второй пункт АОО - это создание набора детекторов для обнаружения «чужих» информационных процессов Рч(0. В терминах систем распознавания образов его можно назвать этапом обучения системы мониторинга. Кандидаты в детекторы генерируются в виде строк длиной I символов. Числовые значения
а1, а2,..., ам, кодирующие события р±,р2,..., рм информационных процессов Рч(0, генерируется случайно с равномерным законом распределения в заданном диапазоне й. Каждый образованный кандидат в детекторы поочередно сопоставляется со строками всех ранее сформированных к = 1, М шаблонов легитимных информационных процессов Рк(р{) по принципу частичного совпадения. Детектор «чужого» не должен совпадать ни с одной строкой всех к = 1, М шаблонов. В соответствии с принципом частичного совпадения две строки совпадают тогда и только тогда, когда они идентичны в г смежных позициях, где г - целочисленный параметр, выбираемый в зависимости от приложения. При установлении факта частичного совпадения соответствующий кандидат в детекторы уничтожается. Схема формирования набора детекторов «чужих» показана на рис. 3.
Рис. З. Схема формирования набора детекторов
Параметр r имитирует свойство аффинности иммунной системы, т.е. - прочности связи между чужеродным агентом (антигеном) и антителом, вырабатываемым иммунной системой организма. В набор включаются только те детекторы, аффинность которых по сравнению со строками эталонов к = 1,М меньше г. Процесс создания детекторов продолжается до тех пор, пока не будет сгенерировано их необходимое число. На этом процесс обучения системы заканчивается.
В рабочем режиме (режиме мониторинга) система функционирует в реальном масштабе времени и реализует третий пункт АОО. Все порожденные в компьютерной системе информационные процессы P(t) сначала приводятся к виду, аналогичному представлению шаблонов легитимных информационных процессов Pk(ti), к = 1,М, а затем контролируются на предмет аномалий путем непрерывного сопоставления входящих в них строк с детекторами. Активация детектора свидетельствует о появлении аномальной строки, т.е. такого сочетания событий, которое отсутствовало в шаблонах легитимных информационных процессов Pk(t), к = 1,М. В конечном итоге, это повышает вероятность появления в компьютерной системе «чужого» информационного процесса P4(t).
Статистическую вероятность присутствия в компьютерной системе «чужого» информационного процесса P4(t) можно отразить частотой срабатывания детекторов
p[P4(t)] =f = ^—, п
где p[P4(t)] - статистическая вероятность появления «чужого» информационного процесса P4(t); п+- число положительных исходов сравнений строк; п - общее число проведенных сравнений строк.
Принятие решения о присутствии в компьютерной системе «чужого» информационного процесса P4(t) в простейшем случае может быть принято по факту превышения частоты f некоторого порогового значения fn:
p(t) = рс(0,если f < /п;
Г(С) -[Рч(0,если />/п.
Причем, в соответствии с процедурой обучения, «чужим» будет признан любой процесс P(t), отличающийся от всех процессов Pk(t), к = 1,М.
Важным параметром, влияющим на качество и быстродействие системы мониторинга, является число детекторов NB, необходимых и достаточных для своевременного обнаружения «нарушителя». В свою очередь, для получения детекторов в количестве Nd необходимо сгенерировать N0 строк - кандидатов в детекторы.
Одна из возможных схем вероятностного расчета N0 была представлена в работе [6] и используется здесь в качестве основы для интерпретации поставленной задачи.
Вероятность того, что случайная строка не совпадет с одним из шаблонов легитимных информационных процессов Pk(t), к = 1, М, очевидно, можно определить как
Рм = (1- Ps)M Nk, (1)
где ps - вероятность совпадения двух случайно сгенерированных строк по правилу частичного соответствия.
Тогда необходимое число детекторов NB определится как
Nd = N0 • рм. (2)
Вероятность того, что NB детекторов не смогут обнаружить «чужой» информационный процесс соответствует ошибке второго рода, которую по аналогии с (1) можно определить как
P2 = (1-Ps)Nd . (3)
Из (3) следует, что Соответственно
иг 1 1п Р2 1п П,
«0 = Ю8(1-Р,) Р2—;«;—; = -—■ (4)
N ~ Цп — — 1п Р2 — 1п р2 (5)
0 ~ Рм РбРм Р5(1-Р5)М'Мк ■
Для практического использования формулы (5) необходимо знать вероятность совпадения двух случайно сгенерированных строк р5, которую для заданных параметров й, г, К можно приближенно рассчитать по формуле
р5 = к • й~г , (6)
где
к_ [Л(£_1) + 1]. (7)
Таким образом, число детекторов Мв, необходимое для обнаружения «чужо-
го» с вероятностью р2, потребует генерации Ы0 строк - кандидатов в детекторы, которое можно определить по формулам.
Анализ формул (5)-(7) позволяет выявить характер зависимостей Ыв — /(р2), N0 — /(к), — /(X), — /(г).
Зависимость Ыв — /(р2) при заданной постоянной величине р5 сводится к логарифмической зависимости /(р2) — 1п р2. При изменении вероятности р2, как ошибки второго рода, в диапазоне (1,0-10-1 - 1,0-10-5) изменяет N,3 лишь в 5 раз. То есть вероятность р2 в иммунологической схеме распознавания очень мало влияет на оценки Мв и Ы0.
Зависимость Ыв — /(К) при прочих равных условиях сводится к изменению размера множителя к (в квадратных скобках) в выражении (6). Можно предположить, что для реальных задач в области компьютерной безопасности количество символов й
алфавита А, соответствующее перечню всех возможных событий процессов Pk(ti), ограничено диапазоном значений 10-1000, а для большинства реальных практических приложений лежит в диапазоне 20-100. Размер шага h сдвига символов в большинстве случаев лежит в диапазоне (1-3). Учитывая, что d >> h, множитель к = h + 1. Из этого следует, что к, а, следовательно, и pd линейно зависят от h.
Зависимости ND = f(d) и ND = f(r') являются наиболее чувствительными, так как параметры d и г связаны показательной функцией ps = к ■ d~r, входящей в
выражения (5) и (6) для определения ND и N0 соответственно. Поэтому число де-
текторов Nd и число строк, необходимых для их формирования N0 определяются преимущественно параметрами d и г.
Для определения характера зависимости ND = f(d,r) представим ее в виде зависимости ND = f(ps). Из выражений (4), (6) следует
Nd S-^ = -—ln р2 •dr. (8)
D k-d~r к w
Показательную функцию dr, как известно, можно представить в виде экспоненты, в итоге получим:
ND == - i -ln р2 • e_r lnd. (9)
То есть число детекторов Nr растет в экспоненциальной зависимости от параметров d и г шаблона «своего».
Зависимость ND = f(d,r) для значений d = 20, 50, 100 и г = 2, 3, 4 в виде графика показана на рис. 4.
Расчет вероятности рм как функции от полученных выше значений вероятностей р5 при заданном произведении М-їїь = 20000 позволяет в конечном итоге получить зависимости Ив = [(р5) и Л/0 = /(рх), приведенные в виде графиков на рис. 5.
Рис. S. Графики зависимостей ND = f(ps), N0 = f(ps)
ВВ
Анализ проведенных расчетов позволяет сделать следующие выводы.
1. Важнейшими характеристиками, определяющими качество мониторинга информационных процессов методами ИИС, являются число детекторов ND для обнаружения «чужих» и число строк N0, необходимое для их формирования.
2. Характеристики ND и N0, в свою очередь, определяются параметрами p2,h,d,r, выбираемыми на стадии проектирования системы мониторинга в зависимости от решаемой задачи.
3. Функции Nd = f(p2), Nd = /(h), Nd = f(d), ND = f(r) имеют принципиально разный характер зависимостей от параметров р2 , h, d,r :
♦ функция Nd = f(p2) имеет логарифмическую зависимость от р2;
♦ функция Nd = /(h) имеет линейную зависимость от h;
♦ функция Nd = f(d) имеет степенную зависимость от d;
♦ функция Nd = /(г) имеет показательную зависимость от г.
Разный характер зависимостей ND = f(p2), ND = /(h), ND = f(d), ND = f(r) определяют и разную (возрастающую) степень влияния параметров p2,h,d,r на характеристики ND и N0.
4. Функция N0 = f(ps) имеет экстремальную точку N0 = min f(ps), в которой число генерируемых строк N0, необходимое для формирования Nd детекторов при определенном сочетании параметров р2, d, г, h оказывается минимальным.
5. В большинстве практических приложений сочетание задаваемых параметров р2, d, г, h приводит к экспоненциальному росту ND и N0.
Рассмотренный принцип реализации мониторинга информационных процессов в компьютерных системах методами искусственных иммунных систем с применение алгоритма отрицательного отбора показывает высокую вычислительную трудоемкость такой схемы. Сложность эта обусловлена, прежде всего, экспоненциальным ростом необходимых для реализации АОО числа детекторов в зависимости от размерности задачи. Поэтому дальнейшие исследования в этой прикладной области будут направлены на модификацию АОО в направлении снижения его вычислительной трудоемкости.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Искусственные иммунные системы и их применение / Под ред. Д. Дасгупты: Пер. с англ. / Под ред. А.А. Романюхи. - М.: Физматлит, 2006. - 344 с.
2. Брюхомицкий Ю.А. Использование принципов построения и функционирования иммунных систем в компьютерной безопасности / Материалы XII Международной научнопрактической конференции «Информационная безопасность». Ч. I. - Таганрог: Изд-во ТТИ ЮФУ, 2012. - С. 3-10.
3. Kuby J. Immunology. W.H. Freeman and Co., 2nd edition, 1994.
4. Forrest S., Perelson A.S., Allen L., Cherukuri R. Self-nonself discrimination in a computer // In: Proc. of Ieee symposium on research in security, Oakland, CA, 16-18 May 1994. - P. 202-212.
5. Dasgupta D., Forrest S. Tool breakage detection in milling operations using a negative-selection algorithm // Technical report CS95-5, Department of computer science, University of New Mexico, 1995.
6. Васильев В.И. Интеллектуальные системы защиты информации: Учеб. пособие. - М.: Машиностроение, 2010. - 163 с.
Статью рекомендовал к опубликованию к.т.н. М.Ю. Руденко.
Брюхомицкий Юрий Анатольевич - Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Южный федеральный университет»; e-mail: [email protected]; 347928, г. Таганрог, ул. Чехова, 2; тел.: 88634371905; кафедра безопасности информационных технологий; доцент.
Bryukhomitsky Yuri Anatol’evich - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; e-mail: [email protected]; 2, Chekhova street, Taganrog, 347928, Russia; phone: +78634371905; the department of security in data processing technologies; associate professor.
УДК 004.056.5 004.89
В.С. Аткина
МОНИТОРИНГ СОСТОЯНИЙ КАТАСТРОФОУСТОЙЧИВОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ С ПОМОЩЬЮ ГИБРИДНОЙ ИММУННОЙ СЕТИ
Цель исследования: разработка методики классификации состояний катастрофоустойчивой системы с использованием гибридной иммунной сети. В рамках данного исследования решены следующие задачи: обоснована значимость обеспечения катастрофо-устойчивости информационной системы в процессе управления информационной безопасностью организации в целом; предложен подход к процессу проведения мониторинга и контроля за показателями катастрофоустойчивости системы. Разработана и формально описана гибридная иммунная сеть, с применением алгоритмов клонального и «положительного» отбора и областью покрытия, образованной двумя типами детекторов. Сделан вывод о возможности применения разработанного подхода в процессе анализа катастро-фоустойчивости информационных систем.
Катастрофоустойчивость; информационные системы; искусственная иммунная сеть; клональный отбор; «положительный» отбор; мониторинг; информационная безопасность.
V.S. Atkina MONITORING THE STATES OF INFORMATION SYSTEM DISASTER RECOVERY WITH A HYBRID IMMUNE NETWORK
The purpose of the study is development of technique classification states of disaster recovery systems using a hybrid immune network. This study addressed the following objectives: to substantiate the importance of ensuring disaster recovery information system in the management of information security in general, the approach to the process of monitoring and performance monitoring disaster recovery system. The hybrid immune network is developed and formally described, using algorithms clonal and "positive" selection and coverage area formed by the two types of detectors. The conclusion about possibility of using the developed approach in the analysis of information systems disaster recovery.
Disaster recovery; information system; artificial immune network; positive selection algorithm; clonal algorithm; monitoring; information security.
На сегодняшний день все более необходимым и актуальным для успешного функционирования любой организации вне зависимости от принадлежности ее к государственному или частному сектору экономики является обеспечение непрерывности выполнения ее бизнес-процессов и защита информации от уничтожения, что достигается с помощью информационных систем (ИС) с высокими показателями доступности и катастрофоустойчивости. При этом важным этапов в процессе управления информационной безопасностью организации в целом будет являться деятельность, направленная на проведение периодического и своевременного контроля над текущим состоянием катастрофоустойчивости ИС и выработки по его результатам своевременных катастрофоустойчивых решений, позволяющих скорректировать текущие показатели катастрофоустойчивости.