Научная статья на тему 'Анализ безопасности распределенных информационных систем на основе беспризнакового распознавания образов'

Анализ безопасности распределенных информационных систем на основе беспризнакового распознавания образов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
331
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЕНИЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ / ДОВЕРИЕ / БЕЗОПАСНОСТЬ / БЕСПРИЗНАКОВОЕ РАСПОЗНАВАНИЕ ОБРАЗОВ / DISTRIBUTED INFORMATION SYSTEMS / TRUST / SECURITY / FEATURELESS PATTERN RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Руднев Дмитрий Олегович, Сычугов Алексей Алексеевич

In the article the question of the security of distributed information systems in terms of confidence in the individual elements of the system. Studied approach allowing to estimate the level of trust, based on the methods featureless pattern recognition. Describes experiments conducted to verify the performance of this approach.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Руднев Дмитрий Олегович, Сычугов Алексей Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF THE SECURITY OF DISTRIBUTED INFORMA TION SYSTEMS BASED ON FEA TURELESS PA TTERN RECOGNITION

In the article the question of the security of distributed information systems in terms of confidence in the individual elements of the system. Studied approach allowing to estimate the level of trust, based on the methods featureless pattern recognition. Describes experiments conducted to verify the performance of this approach.

Текст научной работы на тему «Анализ безопасности распределенных информационных систем на основе беспризнакового распознавания образов»

Yakovlev Boris Sergeevich, candidate of technical sciences, docent, bor yak a mail. ru, Russia, Tula, Tula State University

УДК 004.891

АНАЛИЗ БЕЗОПАСНОСТИ РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ БЕСПРИЗНАКОВОГО РАСПОЗНАВАНИЯ ОБРАЗОВ

Д.О. Руднев, А.А. Сычугов

Рассмотрен вопрос безопасности распределённых информационных систем с точки зрения доверия к отдельным элементам системы. Исследован подход, позволяющий оценивать уровень доверия и основанный на методах беспризнакового распознавания образов. Описывается эксперимент, проведенный с целью проверки качества работы описанного подхода.

Ключевые слова: распределение информационные системы, доверие, безопасность, беспризнаковое распознавание образов.

В настоящее время активно развиваются технологии распределённых вычислений. Их популярность обоснована растущим объёмом информации, который необходимо обрабатывать за минимальное время. Помимо производительности распределенные информационные системы (РИС) имеют такие преимущества как отказоустойчивость и масштабируемость. Эти преимущества достигаются за счет разбиения информационной системы на множество независимых элементов, каждый из которых имеет свою программного-аппаратную инфраструктуру и может выполнять определённый набор операций. Такой подход позволяет оптимально распределять вычислительные ресурсы, быстро изменять конфигурацию системы в моменты пиковых нагрузок. С ростом популярности РИС увеличивается объем обрабатываемой информации и, как следствие, становится актуальной решение задачи обеспечения информационной безопасности РИС.

В традиционных информационных системах владелец информации может контролировать средства защиты, так как находится в пределах внешнего периметра защиты. В РИС понятие внешнего периметра защиты размыто, так как каждый элемент распределённых систем имеет собственный периметр защиты. Таким образом, становится невозможным управление и мониторинг средств безопасности со стороны владельца информации. На сегодняшний день актуальна задача разработки методов, позволяющих оценить владельцем информации элемент РИС с точки зрения безопасности и одновременно сохранить конфиденциальность сведений о средствах защиты и состоянии элемента РИС.

В распределённых информационных системах владелец информации может принимать решение только о передаче информации на конкретный узел РИС для вычислений и не может контролировать безопасность информации во время обработки на узле. Таким образом, в данном случае встает вопрос о доверии владельца информации к конкретному узу РИС. Согласно общему определению, доверие [1] - это субъективная вероятность со стороны A выполнения действия стороной B, которое A не может наблюдать и контролировать, при этом, действия B повлияют на благосостояние A, его выгоду. В распределённых информационных системах понятие доверия можно сформулировать как вероятность того, что данные, переданные на узел РИС и результаты вычислений не будут скомпрометированы и искажены, иными словами, за время обработки информации не будут нарушены её конфиденциальность, целостность и доступность.

Модель доверия в РИС можно описать следующим образом. Пусть W - множество всех узлов РИС:

W = {W о, W1,k, W N},

где N - количество элементов РИС.

Каждый элемент Wj в момент времени tj î T находится в состоянии sj î S, где S -множество всех возможных состояний элемента РИС,

которые определяют величину доверия к данному узлу в текущий момент времени и описываются некоторым набором признаков, обладающих свойством метрики.

Для каждого элемента Wj величина доверия pj в момент времени tj î T определяется множеством состояний системы

Pj = P(s0, s},..., si ), (1)

где pj - значение доверия к элементу РИС на интервале времени t = [0... j]. Отсюда можно определить вероятность искажения информации при обработке на узле Wj как qj = 1 - pj.

Можно утверждать, что величина доверия зависит от состояния элемента РИС во время наблюдения. Для анализа состояния элемента РИС, не нарушая при этом конфиденциальность сведений о нем, предлагается анализировать не множество значений признаков, описывающих состояние элемента РИС, а меру его похожести на заранее заданный базис, определяющий состояние элемента с известным значением доверия.

Множество базисных объектов

B = {bo, bb..., bM}, где bj î S ; M - количество базисных элементов.

Функцию похожести состояний элементов РИС

П, j =Р(st, sj X

где функция р - функция определения метрик и относительно множества S.

Тогда состояние элемента W^ в момент времени t можно описать следующим вектором:

s4i = {PCs/, bo), p(s/, bi),...p(s/, bM)}. (2)

Подставим (2) в (1) и получим

Pi = P(sf, sj ,..., 4).

К предлагаемому подходу можно применить математический аппарат, известный в машинном обучении как беспризнаковое распознавание образов [2], при котором вместо линейного векторного пространства признаков объектов рассматриваются отсчеты проекционного пространства, опирающегося на проекционные признаки, роль которых играют похожести на некоторые заранее заданные (пространство образующие или базисные) объекты. Другими словами, при использовании беспризнакового распознавания образов для каждого объекта исходного пространства определяется функция похожести (функция расстояния). Затем вводится множество базисных объектов. Для каждого объекта вычисляются проекционные признаки (вторичные признаки), которые равны мере похожести объекта на базисные. Затем возможно применение известных методов классификации, входными данными для которых являются вторичные признаки исходных объектов.

Переход от непосредственного анализа состояний элементов РИС к анализу метрик похожести решает проблему безопасности периметра РИС. Если состояние элемента РИС можно описать рациональными числами, то, в случае перехвата базисных объектов и метрик похожести, восстановление исходных признаков возможно только при условии, что количество базисных объектов на единицу больше количества признаков. Одним из преимуществ использования данного подхода является то, что использование метрик позволяет описывать состояние элемента РИС объектами произвольной природы, такими как множества или временные ряды. В последнем случае восстановление исходных признаков невозможно.

Одновременно с преимуществами описанного подхода возникает вопрос о выборе функции доверия P . В основу построения функции доверия предлагается заложить следующие принципы:

1) Существует период времени, для которого известны значения доверия;

2) Доверие выше к тому элементу, чьи состояния повторяются во времени, чье будущее состояние более предсказуемо.

Для проверки качества предложенного метода был поставлен численный эксперимент со следующей задачей: сохранив конфиденциальность работы узлов системы, выявить атаки, проводимые на эти узлы. Предполагается, что атака на элемент системы изменит его поведение.

147

Для исходных данных эксперимента были выдвинуты следующие требования:

1) данные должны содержать информацию о работераспределённой информационной системы, то есть о работе конкретных узлов системы и их взаимодействии;

2) Данные должны охватывать временной промежуток в несколько недель. Так как в работе информационных систем наблюдаются недельные периоды, то для обучения алгоритма необходимо несколько примеров каждого из дней недели;

3) данные должны быть размечены. То есть в данных должны присутствовать отметки начала и конца атаки.

Проведя анализ открытых данных, можно обнаружить, что под требования попадает лишь небольшое количество наборов данных [3]. Как правило, такие наборы содержат информацию о работе одного узла, и большинство данных отражают периоды времени меньше недели. Это связано с тем, что до последнего времени в информационной безопасности ставилась задача защиты одной единицы, а системы, анализирующие поведение РИС в целом, имели только теоретический характер.

Для эксперимента были взяты данные о работе компьютерной сети Лос-Аламосской национальной лаборатории 0, которые удовлетворяют предъявляемым требованиям. Данные представляют собой журналы событий, описывающие работу компьютерной сети за 58 дней. Данные представлены в виде 4 типов журналов событий: журнал событий авторизации, журнал событий сетевого взаимодействия, журнал работы DNS сервера и журнал процессов, запущенных на компьютерах. Так же данные содержат журнал активности, так называемой, redteam - условных злоумышленников, совершающих атаки на компьютеры в сети. В журнале событий redteam, содержатся метки времени начала атаки и идентификаторы компьютеров, на которые были направлены атаки. Необходимо отметить, что постановка задачи для эксперимента имеет допущение в том, что атака на узел изменит поведение элемента системы. Однако в данных не содержится прямого указания типа атаки и была ли она успешной.

Для эксперимента были взяты данные из журнала сетевого взаимодействия, каждая запись которого содержит следующие поля: метка времени, длительность соединения, сетевой адрес и порт отправителя и получателя, размер пакета. Для сокращения количества обрабатываемых данных был выбран временной промежуток в 3 недели, как оптимальный варианта между количеством исходных данных и ожидаемым результатом.

На первом шаге журнал сетевого взаимодействия был разбит на несколько независимых журналов, каждый из которых соответствует журналу одного компьютера. Таким образом, была промоделирована ситуация, когда каждый элемент имеет собственный периметр защиты и информация о сетевом взаимодействии на каждом компьютере не передается за преде-

148

лы данного компьютера. Затем в каждом журнале данные были сагрегиро-ваны по 10 минут. В результате состояние элемента РИС можно описать в

виде двух векторов. Первый вектор у^, размерностью И, показывает сколько раз элемент взаимодействовал с каждым из элементов системы. Второй вектор V* ^ - какие и сколько раз использовались порты из множества всех возможных портов системы. Таким образом, в данном эксперименте состояние элемента РИС определяется следующим набором признаков:

s

t ( t t ) t = {v/,1, vj,2}

Была выбрана следующая функция сравнения элементов: P(st, sj ) = d (V,1, vj,1 ) + d (V,2, vj,2) + d v,3, vj,3), где d - эвклидова метрика.

В качестве базисов в эксперименте были взяты состояния случайных элементов РИС в начальный момент времени. Затем были рассчитаны похожести состояния элементов РИС и базиса.

В основу функции доверия P предлагается использовать среднюю абсолютную ошибка в процентах (MAPE) прогнозирования временного ряда

= 1 -1 ^ p(s/,bo)-pXsf,bo) j • t 5 Jt=0 p(sj, bo)

где p - фактические значение похожести текущего состояния элемента на базис; рЛ - спрогнозированиие похожести текущего состояния элемента на базис. Из формулы видно, что чем выше ошибка прогнозирования, тем ниже доверие к данному элементу в данный промежуток времени.

Все исходные данные были разделены на две выборки: тренировочная и тестовая по две и одну неделю соответственно. Затем на тренировочной выборке была обучена рекуррентная нейронная сеть. Для нейронной сети была выбрана следующая структура: входной слой, слой с Longshort-termmemory (LSTM) [5] элементами и выходной слой. Нейронные сети с такой архитектурой показывают высокие результаты в задаче обнаружения вторжений [6] и не требуют настройки множества параметров алгоритма.

После проведения эксперимента на всей совокупности были получены ошибка второго рода, значительно превышающая точность распознавания, и ошибка первого рода, из чего можно сделать вывод, что для большинства элементов РИС атаки не влияют на сетевое взаимодействие самих элементов. И, как следствие, по одному сетевому взаимодействию нельзя делать вывод о происходящей атаке. Одновременно с этим для отдельных элементов алгоритм показывает высокую точность распознавания. Также в данных отмечаются одновременные изменения поведений в

149

различных группах элементов, которые, в свою очередь, являются причиной большого числа ложных срабатываний предложенного алгоритма. Отсюда можно сделать вывод о необходимости уточнения исходных данных для эксперимента или создания новых. Аналогичные результаты были получены в работе [7].

Одним из направлений дальнейших исследований является разработка алгоритма выбора оптимального базиса.

Предложенный метод не может являться единственным способом защиты информации в РИС. Но использование данного алгоритма позволит, с одной стороны, предотвращать передачу конфиденциальной информации на ненадежные с точки зрения информационной безопасности элементы РИС, и, с другой стороны, использование данного подхода потребует более внимательного отношения к средствам защиты отдельных узлов РИС, что в совокупности повысит сложность взлома информационных систем в целом.

Даная работа поддержана грантом РФФИ №16-07-01008 (Ц2115.1

ГРФ).

Список литературы

1. Mui L., Mohtashemi M., Halberstadt A. A computational model of trust and reputation // System Sciences, 2002. P. 2431 - 2439.

2. Середин О.С. Методы и алгоритмы беспризнакового распознавания образов: дис. ... канд. физ.-мат. наук. М., 2001.

3. Shiravi Ali, Shiravi Hadi, Tavallaee Mahbod, Ghorbani Ali A. Toward developing a systematic approach to generate benchmark datasets for intrusion detection // Computers & security. Elsevier. 31 (2012) P. 357 - 374.

4. Kent A.D. Comprehensive, Multi-Source Cybersecurity Events. Los Alamos National Laboratory. [Электронный ресурс] http://dx.doi.org/ 10.17021/1179829, 2015.

5. Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. 1997. 9(8). P. 1735 - 1780.

6. Staudemeyer Ralf C. Applying long short-term memory recurrent neural networks to intrusion detection // School of Computing, University of South Africa, Johannesburg, South Africa. SACJ No. 56, July, 2015.

7. Melissa J.M. Turcotte, Nicholas A. Heard, Alexander D. Kent. Modelling user behavior in a network using computer event logs // Dynamic Networks and Cyber-Security. Chapter 3. 2016.

Руднев Дмитрий Олегович, асп., dima [email protected], Россия, Тула, Тульский государственный университет,

Сычугов Алексей Алексеевич, канд. техн. наук, доц., [email protected], Россия, Тула, Тульский государственный университет

ANALYSIS OF THE SECURITY OF DISTRIBUTED INFORMA TION SYSTEMS BASED ON

FEA TURELESS PA TTERN RECOGNITION

D.O. Rudnev, А.А. Sychugov

In the article the question of the security of distributed information systems in terms of confidence in the individual elements of the system. Studied approach allowing to estimate the level of trust, based on the methods featureless pattern recognition. Describes experiments conducted to verify the performance of this approach.

Key words: distributed information systems, trust, security, featureless pattern recognition.

Rudnev Dmitry Olegovich, postgraduate, dima [email protected], Russia, Tula, Tula State University,

Sychugov Alexey Alexeevich, candidate of technical sciences, docent, [email protected], Russia, Tula, Tula State University

УДК 004.891

МЕТОД ПОВЫШЕНИЯ ДОВЕРИЯ В ОБЛАЧНЫХ ВЫЧИСЛЕНИЯХ

Д.О. Руднев, А.А. Сычугов

Рассматривается проблема доверия между владельцем информации и поставщиком облачных услуг. Проводится анализ способов решения данной проблемы. Описан метод, который позволяет реальном времени оценить облачные сервисы с точки зрения безопасности и, тем самым, повысить уровень доверия. Метод основан на безпризнаковом распознавании образов.

Ключевые слова: информационная безопасность, облачные технологии, доверие, машинное обучение, беспризнаковое распознавание образов.

На сегодняшний день одной из самых сложных и неоднозначных проблем безопасности в облачных технологиях [1] является проблема доверия [2, 3] между поставщиком облачных услуг и владельцем информации. Согласно общему определению доверие [4] - это субъективная вероятность со стороны A выполнения действия стороной B, которое A не может наблюдать и которое влияет на действия A. Действие B повлияет на благосостояние A, его выгоду. В терминах облачных вычислений проблему доверия можно сформулировать как отношение между поставщиком облачных услуг и владельцем информации, при котором владелец информации, доверяя поставщику, подразумевает, что тот своими действиями или бездействием не допустит нарушение целостности, доступности или конфиденциальности своей информации. Именно опасение за безопасность данных является наиболее частой причиной отказа от облачных технологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.