Bondarenko Inna Sergeevna, candidate of technical sciences, docent, igortem-kin@yandex. ru, Russia, Moscow, The National University of Science and Technology "MI-
SiS",
Goncharenko Sergey Nikolaevich, doctor of technical sciences, professor, gsl6 a mail.ru, Russia, Moscow, The National University of Science and Technology "MI-
SiS",
Chan Ngok Fu, postgraduate, igortemkinayandex. ru, Moscow, Russia, The National University of Science and Technology "MISiS"
УДК: 004.75
МЕТОД БЕЗОПАСНОГО СБОРА ИНФОРМАЦИИ ОБ ЭЛЕМЕНТАХ
РАСПРЕДЕЛЁННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ
Д.О. Руднев, А.А. Сычугов
Описан метод безопасного сбора информации об элементах распределённой информационной системы. Основой предлагаемого метода предлагается использовать беспризнаковое распознавание образом. Подробно анализируются сольные и слабые стороны предлагаемого метода.
Ключевые слова: распределение системы, беспризнаковое распознавание образов, поиск аномалий, информационная безопасность.
В настоящее время большинство информационных систем строятся по распределенной архитектуре. Распределённая информационная система (РИС) - информационная система, в которой отсутствует единая точка хранения и обработки информации. Часто элементы РИС разнесены географически. Каждый элемент такой системы самодостаточен. К ключевым достоинствам распределённых информационных систем относятся высокая производительность, возможность масштабирования, параллельная обработка данных, повышенная отказоустойчивость.
Главной особенностью РИС является отсутствие единой точки обработки информации, то есть у владельца нет полного доступа к каждому элементу системы, а взаимодействие между элементами системы осуществляется по открытым каналам связи. При использовании распределённых информационных систем вся ответственность за безопасность ложится на владельцев элементов РИС, при этом со стороны владельца данных нет никакой технической возможности повлиять на безопасность своей информации. Таким образом, распределенные информационные системы требуют подхода к защите от удалённых атак, который отличается от под-
216
ходов, используемых в нераспределённых системах. Примером РИС может служить проект распределённых вычислений distributed.net [1], который использует в качестве элементов системы персональные компьютеры добровольцев, подключённые к сети Интернет, на которых запущено специальное программное обеспечение. Системы облачных вычислений, которые в настоящее время переживают своё бурное развитие, относятся к распределённым информационным системам.
Важной частью любой системы защиты от удалённых атак является система обнаружения аномалий, которая анализирует состояние информационной системы с целью обнаружения отклонений от "нормального" состояния. В нераспределённых информационных системах центральный элемент собирает информацию обо всех остальных частях системы и затем анализирует ее с целью обнаружения аномального поведения. Для обнаружения аномалий в РИС необходима максимально полная информация о конфигурации каждого отдельного элемента системы и его текущем состоянии. На практике эта информации является конфиденциальной, и ее утечка может негативно сказаться на безопасности системы в целом.
В распределённых информационных системах в процессе сбора информации об ее элементах возникают две задачи. Первая - обеспечение безопасности передачи конфиденциальной информации между элементами РИС, так как в большинстве случаев взаимодействие элементов РИС осуществляется по открытым каналам связи. Вторая задача заключается в обеспечении доверия элементов РИС между собой. Как уже было отмечено, служебная информация, которой должны обмениваться элементы, в данном случае относится к конфиденциальной и передача её в явном виде за пределы защищённого периметра каждого отдельного элемента в любом виде (в том числе в зашифрованном) недопустима.
Для решения первой задачи успешно используются современные достижения в криптографии, что позволяет закодировать информацию и безопасно передавать её по открытым каналам связи.
Для решения второй задачи необходимо разработать метод предварительной обработки служебной информации на каждом отдельном элементе, позволяющий получить его описание, которое может быть использовано в дальнейшем для анализа и поиска аномалий в конфигурации и поведении данного элемента. Кроме того, полученное описание не должно позволять восстановить исходную служебную информацию. Использование шифрования в данном случае невозможно, так как данные в зашифрованном виде не могут быть в дальнейшем использованы для анализа. Единственно возможным вариантом в настоящее время видится использование гомоморфного шифрования, однако в настоящее время не известно ни одной схемы полностью гомоморфного шифрования, что делает невозможным его применение.
В основу разрабатываемого метода авторы предлагают положить беспризнаковое распознавание образов (featurelesspatternrecognition) [2], при котором вместо линейного векторного пространства признаков объектов рассматриваются отсчеты проекционного пространства, опирающегося на проекционные признаки, роль которых играют похожести на некоторые заранее заданные (пространствообразующие или базисные) объекты [3]. Другими словами, при использовании беспризнакового распознавания образов для каждого объекта исходного пространства определяется функция похожести (функция расстояния). Затем вводится множество базисных объектов. После чего для каждого объекта вычисляются проекционные признаки (вторичные признаки), которые равны мере похожести объекта на базисные. После вычисления вторичных признаков можно использовать уже имеющиеся подходы поиска аномалий, основанные на анализе состояния системы.
Пусть Í2 - множество всех возможных элементов РИС:
Й = {С0ЬС02?...С0^}3 (1)
Каждый элемент РИС со7 е можно представить, как конечное множество характеристик:
Х(щ) = {xl, х2 9...xm}; Xf е I, (2)
где т - количество характеристик узла сети.
Состав множества (2) определяется специалистом по информационной безопасности на подготовительном этапе так, чтобы анализ его элементов в дальнейшем позволил выявить аномалии. Каждая характеристика, в общем случае, имеет произвольную природу.
Для каждой характеристики необходимо выбрать метрику, определяющую степень похожести значений характеристики:
r = Pk(4(<ai)>xk(<aj))> (3)
где Xfc (со,-) - £-ая характеристика узла со7. Для характеристик, которые возможно выразить вещественным числом, можно выбрать любую известную метрику расстояния, например, эвклидову. Для характеристик, представляющих собой множества, можно выбрать меру, построенную на коэффициенте сходства [4]. На практике для каждого вида характеристик можно заранее подобрать наиболее оптимальную меру похожести.
Меру похожести элементов РИС можно определить на основе мер похожести их характеристик (3):
р(со7,соу) =
i
N 2 Z (Norm (рд. (со,-, соj)))
к=0
где Norm - нормирующая функция. Важно, чтобы все расстояния были одного порядка.
На следующем этапе выбирается базис элементов РИС. Базис - выборка характеристик элементов РИС, покрывающая все наиболее вероятные состояния элемента РИС. В базис могут входить как характеристики реально существующих элементов РИС, так и гипотетические элементы. Базисную выборку можно обозначить следующим образом:
о0 = («0, ю°,...ю&}; о0 ей.
Стоит отметить, что задача выбора оптимального базиса относится к классу нетривиальных задач, и на настоящий момент не существует алгоритма выбора оптимального базиса. Это связано с тем, что исходные объекты имеют произвольную природу. Одновременно с этим такое допущение делает невозможным восстановление характеристик элемента РИС, что удовлетворяет одному из требований, предъявленных выше к разрабатываемому методу.
Вектор вторичных признаков представляет собой множество
= (X, Х2 ,...хк },
где Х^ - вектор вторичных признаков элемента системы ей. Каждый элемент вторичного вектора признаков равен значению меры похожести самого элемента и соответствующего базисного элемента:
X («) = Р(«, «0).
Таким образом, получив множество векторов X = (Х\, Х2,..., XN}, в дальнейшем можно провести анализ с целью обнаружения аномалий в сети, используя уже исследованные подходы, основанные на методах машинного обучения [5].
Итак, можно предложить метод, состоящий из пяти этапов. На рисунке изображена схема работы данного метода.
Схема работы данного метода: ю^, Ю2, «3 - узы РИС; ю * - узел инициирующий поиск аномалий; цифры 1 - 5 - этапы метода
1. Вычисляются характеристики элементов РИС. Обычно данные об элементах РИС представляют собойлоги операционной системы, логиТСР/1Р соединения, текущее состояние элемента РИС и его параметры, статистика использования программного обеспечения, данные с систем защиты (антивирусы, системы сетевой защиты) и так далее[6]. На основе характеристик элемента РИС формируется вектор признаков X. Так же необходимо предусмотреть, чтобы преобразования были одинаковы для всех элементов РИС.
2. Всем элементам РИС передаются базисные элементы й0.
3. Все узлы РИС рассчитывают вторичные признаки, основываясь на базисных элементах, полученных на предыдущем шаге.
4. Каждый элемент передает свой вектор вторичных признаков X) на контролирующий узел.
5. Поиск аномалий на основе полученных от узлов сети вторичных признаков.
Применение этого метода позволит сравнить элементы РИС, не передавая информацию об элементе за его пределы. Таким образом, безопасность информации будет гарантировать ее владелец, то есть элемент РИС. Информация об элементах РИС не будет сконцентрирована в одном месте, что в свою очередь не дает возможности злоумышленнику получить информацию обо всех узлах одновременно. Также из основных достоинств можно отметить параллельные вычисления на всех этапах работы алгоритма.
Одновременно с преимуществами алгоритма стоит отметить то, что для его применения на практике необходимо решить следующие задачи. Первая заключается в поиске алгоритма беспризнакового распознавания образов, который не допустил бы снижения точности процесса поиска аномалий. На настоящий момент был проведен численный эксперимент показывающий, что результат использования беспризнакового распознавания образов в значительной степени зависит от выбранных базисных элементов, в связи с чем одним из направлений дальнейших исследований, которые позволят эффективно реализовать предложенный метод, является поиск оптимального алгоритма выбора базисных элементов в случае беспризнакового распознавания образов. Вторая задача заключается в создании универсальной методики сравнения элементов распределённой информационной системы.
Таким образом, можно сделать вывод, что предложенный метод безопасного сбора информации об элементах распределённой информационной системы с целью поиска аномалий удовлетворяет предъявленным требованиям, однако требуется его дальнейшее развитие.
Список литературы
1. Проект распределенных вычислений Интернета [Электронный ресурс]. Режим доступа: http : //www. distributed.net/Main Page. Заглавие с экрана. (Дата обращения: 26.07.2014).
2. Feature lesspatternrecognitioninanimaginary Hilbert space. / Vadim Mottl, Oleg Seredin, Sergey Dvoenko, Casimir Kulikowski, Ilya Muchnik // Proceedings 16th International Conference. Tula, 2002. Vol. 2.
3. Середин О.С. Методы и алгоритмы беспризнакового распознавания образов: дис. ... канд. физ.-мат. наук. М., 2001.
4. Песенко Ю.А. Принципы и методы количественного анализа в фаунистических исследованиях. М.: Наука, 1982. 287 с.
5. Петренко С.А. Методы обнаружения вторжений и аномалий функционирования киберсистем // Труды ИСА РАН. 2009. Т. 41.
6. Khaled M. Khan and Qutaibah Malluhi. How can cloud providers earn their customers' trust when a third party is processing sensitive data in a remote machine located in various countries? Emerging technologies can help address the challenges of trust in cloud computing. [Электронный ресурс]. Режим доступа: http://www.cs.unh.edu/~it666/reading list/Virtualization/ establishing trust cloud computing.pdf. (Дата обращения: 26.07.2014).
Руднев Дмитрий Олегович, асп., [email protected], Россия, Тула, Тульский государственный университет,
Сычугов Алексей Алексеевич, канд. техн. наук, доц., [email protected], Россия, Тула, Тульский государственный университет
SECURITY METHODS OF GA THERING INFORMA TION ABOUT THE ELEMENTS OF A DISTRIBUTED INFORMATION SYSTEM
D.O. Rudnev, A.A. Sychugov
A method for the safe collection of information about the elements of a distributed information system is described. The proposed method is used, offering featureless pattern recognition. The solo and weaknesses of the proposed method is analyzed.
Key words: the distribution system featureless pattern recognition, anomalies detection, information security.
Rudnev Dmitry Olegovich, postgraduate, [email protected], Russia, Tula, Tula State University,
Sychugov Alexey Alexeevich, candidate of technical sciences, docent, [email protected], Russia, Tula, Tula State University