Научная статья на тему 'Обработка «Больших данных» в телекоммуникационных компаниях'

Обработка «Больших данных» в телекоммуникационных компаниях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
192
47
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соболь А. С., Сенашов С. И.

Анализируются вопросы обработки «больших данных» на примере задачи о сборе, хранении и анализе информации SIEM системой посредствам СУБД, с учётом требования обработки информации в реальном времени. Формализуются требования к аппаратно-программной платформе. Разрабатываются и апробируются методики по использованию СХД и СУБД в рамках поставленной задачи. Описывается результат работы готового решения в production-среде.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обработка «Больших данных» в телекоммуникационных компаниях»

Секция «Информационно-экономические системы»

УДК 004.652

А. С. Соболь Научный руководитель - С. И. Сенашов Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ОБРАБОТКА «БОЛЬШИХ ДАННЫХ» В ТЕЛЕКОММУНИКАЦИОННЫХ КОМПАНИЯХ

Анализируются вопросы обработки «больших данных» на примере задачи о сборе, хранении и анализе информации Б1ЕМ системой посредствам СУБД, с учётом требования обработки информации в реальном времени. Формализуются требования к аппаратно-программной платформе. Разрабатываются и апробируются методики по использованию СХД и СУБД в рамках поставленной задачи. Описывается результат работы готового решения в ргоёисйоп-среде.

Технологии «больших данных» успешно реализуются в различных индустриях, таких как банки, телеком, ритейл, энергетика, медицина и управление городской инфраструктурой. В секторе телекоммуникаций более 45 % компаний ведут активные проекты с участием «больших данных» [1]. Основными задачами в данном секторе являются бизнес-аналитика, «умные» маркетинговые кампании, выявление мошенничества, улучшение качества связи. Интересно, что при всем разнообразии задач вендорские решения в сфере «больших данных» пока не приобрели ярко выраженной отраслевой направленности. Рынок находится не просто на стадии активного формирования, а в самом начале этой стадии.

Под задачами выявления мошенничества в первую очередь понимаются задачи, связанные с анализом поступающей информации от различных систем (таких как DLP, IDS, антивирусов, файерволов, маршрутизаторов) для дальнейшего выявления отклонения от норм по каким-либо критериям и последующей генерацией инцидентов.

Сама по себе данная задача не является наукоёмкой и решается при помощи SIEM-систем (с англ. -Security Information and Event Management - система сбора и корреляции событий). Основная проблема стоит в том, что при расширении информационной инфраструктуры (равно как и при перенаправлении потока событий на SIEM-систему с других ИС) количество событий генерируемое в единицу времени становится больше, что в итоге сказывается на увеличении времени обслуживания БД в общем, и к пропуску каких-либо важных инцидентов безопасности в частности, что в свою очередь недопустимо.

В статье ставится задача: проанализировать объём, источники и типы генерируемых событий информационной инфраструктурой, сформулировать критерии к аппаратно-программной части комплекса и настроить СУБД и СХД (систему хранения данных) таким образом, чтобы SIEM система при помощи данной СУБД могла обеспечивать обработку всех событий в режиме реального времени.

В ходе работы над задачей было определено среднее количество генерируемых в день событий (порядка одного миллиарда) и объём, занимаемый событиями в СХД (порядка 20 Тб). На основании требования

обеспечения обработки событий в реальном времени с учётом роста нагрузок в среднесрочной перспективе было принято решение выбрать СХД «Mid-Range» сегмента, обладающего таким функционалом как «Tiering» (перемещение данных между дисками и/или дисковыми массивами различных классов стоимости и производительности) и «Thin provisioning» (динамические тома).

СХД была настроена с учётом использования RAID 6 массива. Данная структура массива обеспечивает приемлемую скорость при относительно небольшой потери места в СХД, что с учётом требуемых объёмов является очень значимым фактором.

Для реализации задачи была выбрана СУБД Mon-goDB. Основным фактором выбора данной СУБД явилась поддержка вычислительной парадигмы, известной как MapReduce. Преимущество MapReduce заключается в том, что она позволяет распределенно производить операции предварительной обработки и свертки. Операции предварительной обработки работают независимо друг от друга и могут производиться параллельно (хотя на практике это ограничено источником входных данных и/или количеством используемых процессоров). MapReduce может быть применена к большим объемам данных, которые могут обрабатываться большим количеством серверов [2].

К самой СУБД были применены оптимизационные алгоритмы чтения и записи, которые в первую очередь повысили производительность, а так же позволили снизить нагрузку на аппаратную часть.

Результатом стала рабочая программно-аппаратная платформа с SIEM-системой, способная обрабатывать «большие данные» в режиме реального времени, снизив тем самым риск пропуска значимых инцидентов до нуля.

Библиографические ссылки

1. URL: http://www.tadviser.ru/images/3/3d/Cnews_ infa_bigdata_4.jpg (дата обращения: 15.04.2014).

2. URL: http://www.tadviser.ru/index.php/%D0%9F %D 1%80%D0%BE%D0%B4%D1%83%D0%BA%D1% 82:MapReduce (дата обращения: 15.04.2014).

© Соболь А. С., 2014

i Надоели баннеры? Вы всегда можете отключить рекламу.