О препроцессинге данных при оценке эффективности коэволюционного иммунного алгоритма клональной селекции

Жуков В.Г.; Саламатова Т.А.

<Тешетневс^ие чтения. 2016

УДК 004.056

О ПРЕПРОЦЕССИНГЕ ДАННЫХ ПРИ ОЦЕНКЕ ЭФФЕКТИВНОСТИ КОЭВОЛЮЦИОННОГО ИММУННОГО АЛГОРИТМА КЛОНАЛЬНОЙ СЕЛЕКЦИИ

В. Г. Жуков, Т. А. Саламатова*

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Рассмотрен этап предобработки входных данных при оценке эффективности коэволюционного иммунного алгоритма клональной селекции искусственной иммунной системы, применяющегося в качестве эвристического метода обнаружения инцидентов информационной безопасности.

Ключевые слова: искусственные иммунные системы, коэволюционный алгоритм, системы обнаружения вторжений.

PREPROCESSING DATA FOR EFFICIENCY ASSESSMENT OF COEVOLUTIONARY IMMUNE ALGORITHM WITH CLONAL SELECTION

V. G. Zhukov, T. A. Salamatova*

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

The paper considers a step of preprocessing input data for further effectiveness assessment of the coevolutionary immune algorithm of the artificial immune system with clone selection used as a heuristic method in the framework of modular algorithmic for information security incident detection.

Keywords: artificial immune systems, coevolutionary algorithm, intrusion detection systems.

Для решения задачи обнаружения сетевых вторжений авторами был предложен эвристический алгоритм, построенный на базе аппарата искусственных иммунных систем (ИИС). В работах [1; 2] были представлены эмпирические результаты оценки эффективности коэволюционного иммунного алгоритма клональной селекции (коэволюционный алгоритм ИИС) на тестовых данных, которые показали, что разработанный алгоритм позволяет обнаруживать преднамеренные изменения (вредоносные образцы трафика) в контролируемых данных, а также делает возможным создание информационных структур для автоматического построения решающих правил (сигнатур) в заданном формате.

Однако для получения качественных результатов работы большинства интеллектуальных информационных технологий, в том числе и алгоритмов ИИС, использование «сырых» входных данных неприемлемо, требуется препроцессинг данных (нормализация, унификация, учет дубликатов, фиктивных значений и т. п.). Наиболее распространенным множеством тестовых данных являются данные общедоступной базы образцов сетевого трафика KDD Cup 1999 (база «KDD'99»), которые за годы научных исследований доказали свою эффективность при решении широкого спектра задач.

Следующим закономерным этапом исследования является оценка эффективности разработанного алгоритма на «реальных данных» сетевого трафика,

содержащих/не содержащих вредоносное наполнение. Для создания дампов сетевого трафика обычно используются сетевые анализаторы (например, CommView, Wireshark), которые в качестве формата хранения перехваченного трафика используют распространенный формат Packet Capture (pcap). В результате исследования открытых источников было сформировано множество данных для проведения исследования: образцы сетевого трафика в формате pcap с международных киберучений Locked Shields [3] и соревнований DEF CON [4].

Вследствие появления новых входных данных в работе появилась задача согласования данных формата pcap и базы «KDD'99» (выделения значений параметров из образцов трафика), которая была успешно решена сотрудниками Университета Бергена [5] -утилита «KDD'99 feature extractor», распространяемая в сети Интернет под лицензией MIT. Особенностью утилиты является способность выделения 28 из 41 информационных признаков, характерных для базы «KDD'99», не только из файлов формата pcap, но и из сетевого трафика, перехватываемого в режиме реального времени. По итогам работы утилиты для исследования было преобразовано 60 файлов формата pcap, содержащих вредоносное наполнение (эксплойты, атаки, вирусы и т. п.), предназначенных для базы данных нештатных событий, и 20 файлов формата pcap, предназначенных для базы данных штатных событий.

Методы и средства защиты информации

100 80 60 40 20 О

1- 96,7

29,58 29,47

TEST

REAL

TEST

С предпроцессингом Без предпроцессинга

■ Количество обнаруженных нештатных событий (в %) Среднее количество ошибок I рода (в%)

Фрагмент исследования: процентное соотношение количества обнаруженных нештатных событий и среднего количества ошибок I рода

Ранее в работе [2] была озвучена проблема преждевременной сходимости коэволюционного алгоритма в процессе исследования. После анализа зависимостей алгоритма было выявлено, что причиной данного эффекта явился некорректный формат входных данных - эффект «схлопывания» был обусловлен разреженностью массива входных данных. В процесс апробации некоторых функций преобразования данных (алгоритмов кодирования, хеш-функций), было определено, что наиболее качественные решения коэво-люционного алгоритма ИИС получаются в результате преобразования формата входных данных с помощью циклического кода.

На рисунке представлен фрагмент результатов оценки эффективности коэволюционного алгоритма ИИС при исследовании на реальных образцах вредоносного и «нормального» трафика формата pcap (REAL) и результатов, полученных при тестировании на данных базы «KDD'99» (TEST), с применением и без применения препроцессинга данных.

Предварительные результаты показали, что процент обнаружения вредоносных образцов и уровень ошибок II рода остались на прежнем уровне (100 % и 0 % соответственно), а уровень ошибок I рода уменьшился 2,3 раза. Таким образом, предлагаемый способ препроцессинга входных данных обеспечил получение более качественных решений работы алгоритма искусственного интеллекта.

Несмотря на то, что в публикациях и исследованиях предобработке данных не уделяется должного внимания, этап препроцессинга - важный и критичный шаг, который занимает значительную часть времени и усилий. Как показывает статистика, правильная подготовка данных позволяет алгоритмам искусственного интеллекта быстрее и качественнее обучаться и функционировать, а неправильная - затрудняет анализ полученных решений или делает их вовсе неприменимыми.

В целом коэволюционный алгоритм ИИС с применением препроцессинга входных данных показал свою работоспособность и на тестовых, и на «реальных» данных, однако требуются дальнейшие исследования, направленные на уменьшение ошибок первого рода (повышения качества получаемых решений) и оптимизацию алгоритма по скорости его сходимости и ресурсоемкости. В дальнейшем планируется провести согласно опубликованной ранее методике тес-

тирование коэволюционного алгоритма, представить сравнительный анализ полученных результатов исследования с собственными предыдущими и результатами работы других алгоритмов и выработать рекомендаций по улучшению работы алгоритма.

Библиографические ссылки

1. Жуков В. Г., Саламатова Т. А. Обнаружение сетевых вторжений эволюционным иммунным алгоритмом клональной селекции // Вестник СибГАУ. 2014. № 4 (56). С. 41-47.

2. Жуков В. Г., Саламатова Т. А. О применении алгоритмов искусственного интеллекта в системах обнаружения вторжений // Актуальные проблемы авиации и космонавтики : материалы XI Междунар. науч.-практ. конф. / СибГАУ. Красноярск, 2016.

3. NATO Cooperative Cyber Defence Centre of Excellence [Электронный ресурс]. URL: https://ccdcoe. org/index.html (дата обращения: 05.07.2016).

4. DEF CON Communications [Электронный ресурс]. URL: https://defcon.org/ (дата обращения: 05.07.2016).

5. Kdd99_feature_extractor [Электронный ресурс]. URL: https://github.com/AI-IDS/kdd99_feature_extractor (дата обращения: 25.07.2016).

References

1. Zhukov V. G., Salamatova T. A. [The detection of network intrusion by evolutionary immune algorithm with clonal selection]. Vestnik SibGAU. 2014, No. 4 (56), рр. 41-47. (In. Russ.)

2. Zhukov V. G., Salamatova T. A. [The initialization value of the parameters evolutionary immune algorithm with clonal selection]. Materialy II Mezhdunarodnoj nauchno-parkticheskoj konferencii, posvjashhennoj Dnju kosmonavtiki. [Abstracts of XI Intern. Scient.-practical conf. "Actual problems of aviation and cosmonautics"]. Krasnoyarsk, 2016. (In. Russ.)

3. NATO Cooperative Cyber Defence Centre of Excellence Available at: https://ccdcoe.org/index.html (accessed 05.07.2016). (In Eng.)

4. DEF CON Communications. Available at: URL: https://defcon.org/ (accessed 05.07.2016). (In Eng.)

5. Kdd99_feature_extractor Available at: https:// github. com/AI-IDS/kdd99_feature_(accessed 25.07.2016). (In Eng.)

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жуков В. Г., Саламатова Т. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жуков В. Г., Саламатова Т. А.

PREPROCESSING DATA FOR EFFICIENCY ASSESSMENT OF COEVOLUTIONARY IMMUNE ALGORITHM WITH CLONAL SELECTION

Текст научной работы на тему «О препроцессинге данных при оценке эффективности коэволюционного иммунного алгоритма клональной селекции»