УДК 004.94
С.С. Ковалёв, М.Г. Шишаев
ФГБУН Институт информатики и математического моделирования технологических процессов КНЦРАН
Кольский филиал ПетрГУ
ИДЕНТИФИКАЦИЯ СПАМ-РАССЫЛОК НА ОСНОВЕ МАРШРУТНОЙ ИНФОРМАЦИИ СООБЩЕНИЙ
Аннотация
В статье предложена концепция идентификации источников рассылок почтового спама в сети Интернет (ботнетов), с помощью кластеризации множества получаемых сообщений, на основе содержащейся в них маршрутной информации. Дано описание используемой меры сходства объектов и алгоритма кластеризации и обоснована их применимость в контексте поставленной задачи.
Ключевые слова:
кластеризация, e-mail, спам, меры сходства, информационная безопасность.
S.S. Kovalev, M.G. Shishaev
IDENTIFICATION OF SPAM CAMPAIGNS ON THE BASIS OF MESSAGES ROUTING INFORMATION
Abstract
This article proposes the method for identification of sources of email spam campaigns (botnets) by means of clustering the set of received messages based on their routing information. There were described similarity measure and clustering algorithm which applicable for this task.
Key words:
dustering, e-mail, spam, similarity measures, information security.
Введение
Будучи одним из самых простых и дешёвых способов массового распространения информации, спам является как мощным маркетинговым средством, так и излюбленным инструментом мошенников и киберпреступников. Интернет-сервисы, в первую очередь электронная почта, предоставляя широчайшие возможности для коммуникаций, давно являются привлекательной средой для распространения спама: по статистике, спам составляет от 60% до 80% почтового трафика [1, 2]. В лучшем случае спам оказывается неприятностью, отнимающей у человека время на его прочтение и удаление, однако он может быть причиной и куда более серьёзного ущерба. Сейчас сервисы Интернет-коммуникаций активно используется в личной, рабочей и финансовой сфере жизни человека. Многие критически важные коммуникации в них осуществляются именно через электронную почту, что вызывает доверие к получаемой с её помощью информации и вынуждает обращать на неё повышенное внимание. Этим активно пользуются мошенники, рассылая сообщения, заставляющие пользователя непреднамеренно загружать вредоносное программное обеспечение, компрометировать свои личные данные или перечислять злоумышленникам денежные средства. Кроме того, спам
наносит урон и владельцам почтовых сервисов, подрывая их репутацию и вынуждая их тратить большие ресурсы на защиту пользователей.
Задача фильтрации почтового спама не нова, однако статистика показывает, что существующие её решения не всегда эффективны. В последние годы отмечен бурный рост числа пользователей Интернет-сервисов [3], что создаёт благодатную почву для получения высоких прибылей от распространения спама. Этот факт мотивирует распространителей спама изобретать всё новые средства обхода существующих фильтров, провоцируя этим «гонку вооружений» между средствами распространения спама и средствами его блокировки.
Одним из главных и самых распространённых на сегодняшний день инструментов киберпреступников являются ботнеты - группы сетевых узлов, на которых скрытно функционирует программное обеспечение, объединяющее эти устройства в логическую сеть под управлением некоторого «командного центра» и использующее их ресурсы для выполнения различных задач. Сегодня ботнеты могут состоять из сотен тысяч заражённых вредоносным программным обеспечением обычных компьютеров [4], или мобильных устройств (смартфонов и планшетов), подключенных к сети Интернет [5-6]. Большие вычислительные ресурсы и распределённая структура ботнетов обеспечивают их «живучесть» при обнаружении и блокировке отдельных их членов, что делает их идеальным средством распространения спама и позволяет производить спам-рассылки очень больших объёмов.
В этой работе предложена технология борьбы с почтовым спамом посредством идентификации ботнетов, используемых для его распространения. Ключевая идея этой технологии заключается в определении принадлежности сетевых узлов-источников сообщений электронной почты к определённым ботнетам на основе анализа содержащейся в этих сообщениях маршрутной информации. Применение такой технологии позволит блокировать нежелательные и вредоносные сообщения, отправленные узлами ботнетов, повышая тем самым устойчивость спам-фильтра к попыткам его обхода.
Описание технологии
Идея использования содержащейся в сообщениях электронной почты маршрутной информации для идентификации принадлежности их источников к определённому ботнету основана на том очевидном факте, что на всех узлах ботнета работает однотипное программное обеспечение, реализующее общие алгоритмы осуществления рассылок. Этот факт обусловливает наличие в маршрутной информации рассылаемых узлами ботнета сообщений общих характерных признаков. При этом вследствие того, что изменение инфраструктуры и логики работы ботнета является дорогостоящим и трудоемким процессом, такие признаки будут многократно повторяемы и неизменны в течение длительного времени, что даёт возможность их эффективного использования для автоматической идентификации этих ботнетов и фильтрации рассылаемых ими сообщений.
Предлагаемая технология идентификации ботнетов на основе маршрутной информации почтовых сообщений строится на решении трёх основных задач:
1. Подготовка исходных данных. Накапливается обучающая выборка -коллекция образцов почтовых сообщений, содержащая большое количество примеров, как спама, так и легитимных сообщений. Каждое сообщение из этой выборки представляется в виде вектора значений определённых характеристик, извлечённых из содержащейся в них маршрутной информации (характеристического вектора);
2. Кластеризация обучающей выборки. Производится кластеризация множества полученных характеристических векторов для обнаружения в обучающей выборке подмножеств образцов сообщений, имеющих схожую маршрутную информацию;
3. Идентификация ботнета. Полученные кластеры подвергаются анализу на предмет выявления среди них таких, которые содержат сообщения, потенциально исходящие от некоторого ботнета. Характеристики маршрутной информации образцов сообщений, составляющих найденные «ботнет-клас-теры», в дальнейшем используются для блокировки рассылаемых посредством ботнетов сообщений.
Очевидно, что ключевой задачей, в наибольшей степени, влияющей на получаемый результат, является задача кластеризации обучающей выборки. Эта задача сводится к разбиению исходного множества объектов (образцов сообщений) на подмножества таким образом, что элементы одного подмножества существенно отличаются по некоторому набору свойств от элементов всех других подмножеств. Успешное решение задачи кластеризации основывается на решении двух основных проблем:
• выбор способа определения меры сходства между объектами множества (метрики);
• выбор алгоритма кластеризации.
Этот выбор критичен, поскольку непосредственно влияет на качество получаемого в результате кластеризации результата и зависит в первую очередь от природы используемых данных.
Природа используемых данных и мера сходства
Объекты обучающей выборки представляют собой векторы значений характеристик, описывающих маршрутную информацию сообщения электронной почты. Используемые характеристики и типы их значений перечислены в табл.
Используемые характеристики и типы их значений
Характеристика Тип данных
Географическая принадлежность IP-адреса узла из первого заголовка Received Категориальный
Наличие reverse DNS узла из первого заголовка Received Категориальный
Количество узлов маршрута Числовой
Максимальное время перехода между узлами маршрута Числовой
Наличие узлов маршрута, принадлежащих абонентским подсетям операторов связи Логический
Наличие узлов маршрута, которые являются открытыми прокси-серверами Логический
Из табл. видно, что объекты пространства данных являются гетерогенными - представляют собой точки в многомерном пространстве данных с неоднородными измерениями, соответствующими характеристикам объекта.
Ключевой проблемой вычисления сходства между гетерогенными объектами данных является тот факт, что типы атрибутов различны по своей природе, обладают различными свойствами, и к ним не может быть применена единая метрика. Как следствие, возникает необходимость решения двух задач:
1. Определение используемой метрики для каждого типа характеристик и вычисление сходства пары объектов по каждой из характеристик отдельно.
2. Объединение полученных значений сходства объектов по каждой из характеристик в общее значение меры сходства объектов.
Метрика для каждого типа атрибутов может вычисляться различными способами в зависимости от специфики предметной области. Чтобы сделать возможным последующее объединение полученных значений сходства объектов по каждой из характеристик, необходимо чтобы эти значения лежали в одном диапазоне, то есть требуется нормализация области значений всех измерений пространства данных. Нормализация представляет собой отдельную проблему, особенно сложную в случае с категориальными измерениями.
В [7] авторы предложили метрику Value Difference Metric (VDM),
которая учитывает информацию о классовой принадлежности объектов данных.
При использовании метрики VDM сходство значений атрибута считается тем
больше, чем теснее их корреляция с заданным классом. Для значений x и у
атрибута а эта метрика определяется как с
vdma(_x,y) = У \Р(с\ха)- P(cvxbW
т (1)
где С - число классов в рассматриваемой предметной области;
P(c\xa) - условная вероятность того, что при условии принадлежности объекта к классу с значение атрибута x будет равно a; q - константа (обычно берётся равной 1 или 2).
Очевидно, что в контексте идентификации источников спама при вычислении сходства значений характеристик рассматриваемых классов будет два: «спам» и «не спам».
Общая мера сходства объектов будет определяться как
■и
ус1т(А, В) = У усЬпс
7=1 ' (2)
где А, В - объекты данных;
( - компонент характеристического вектора.
Ключевое достоинство метрики VDM заключается в возможности объединить сходства объектов по каждому компоненту характеристического вектора без необходимости нормализации областей их значений, поскольку при вычислении значения меры сходства используется вероятностное представление корреляции с классами (в виде условной вероятности принадлежности объекта к классу). Кроме того, вычисление сходства компонентов характеристического вектора как степени тесноты корреляции с заданным классом обеспечивает единый смысл меры сходства для каждого компонента независимо от его типа.
Таким образом, метрика VDM решает проблемы вычисления сходства гетерогенных объектов данных и может быть использована для вычисления сходства маршрутной информации сообщений из обучающей выборки.
Метод кластеризации на основе поиска А-сетей
Перед изложением предлагаемого алгоритма кластеризации, множества образцов сообщений из обучающей выборки, необходимо ввести следующие определения.
Пусть:
О = (V, Е) - неориентированный граф;
V = {VI, V2, ..., V„} - множество вершин в О;
Е = {е1, е2, ..., ет} - множество рёбер в О;
|О| - количество вершин в О; degО(v) - степень вершины V в О;
О[Б] = (Б, Е П Б х Б) - подграф, индуцированный множеством вершин
5 ^V.
Определение 1. Подмножество вершин Б ^ V называют кликой, если все вершины в нём попарно смежные.
Определение 2. Подмножество вершин Б ^ V называют к-сетью (к-р1ех) [8] , если degО[S](v) > |Б| - к для любой вершины V из Б.
Иными словами, любая вершина в к-сети является смежной всем, кроме к - 1 других вершин. Таким образом, 1-сеть является кликой, а при к > 1 -релаксацией клики. Так, граф, изображённый на рис. 1а является кликой, а на рис. 1Ь - 2-сетью.
Определение 3. Клика (к-сеть) является максимальной, если она не является подграфом другой клики (к-сети).
(=0 (Ь)
Рис. 1. Клика и 2-сеть
Для выявления в обучающей выборке подмножеств образцов сообщений со схожей маршрутной информацией требуется произвести кластеризацию исходного множество образцов сообщений таким образом, чтобы в результирующих кластерах попарное значение меры сходства любых его членов было наибольшим.
Добиться отыскания удовлетворяющих поставленным требованиям кластеров можно с помощью алгоритмов кластеризации, построенных на теории графов. В их основе лежит представление рассматриваемого множества
объектов в виде графа с последующим извлечением из него подграфов, обладающих заданными характеристиками. Эти подграфы и будут представлять искомые кластеры.
Очевидным алгоритмом кластеризации с помощью графов, находящим удовлетворяющие поставленным условиям кластеры, является алгоритм на основе поиска клик:
1) Для всех образцов сообщений в обучающей выборке попарно вычисляется значение меры сходства маршрутной информации.
2) Множество образцов сообщений представляется в виде полного неориентированного взвешенного графа, в котором вершинами являются образцы сообщений, а веса рёбер между ними равны значению меры их сходства.
3) Из графа удаляются все рёбра, вес которых не достигает некоторого заданного порогового значения.
4) В оставшемся графе находятся максимальные клики, которые и будут являться искомыми кластерами.
Нахождение клик - идеальная ситуация, когда в найденных кластерах попарное значение меры сходства между любыми членами кластера не будет превышать заданного порогового значения. Однако на практике это требование может оказаться чрезмерно строгим и привести к обнаружению или очень малого количества групп, или большого количества групп, состоящих из очень маленького числа членов, которые будут неинформативны и бесполезны.
Во избежание такой ситуации требование поиска максимальных клик предлагается смягчить и вместо поиска максимальных клик предлагается использовать поиск к-сетей. Тогда будут найдены такие группы образцов сообщений, для любого члена которых сходство маршрутной информации со всеми остальными членами группы кроме к - 1 находится в пределах заданного порогового значения. Это предложение основано на том предположении, что если значение меры сходства маршрутной информации пары образцов сообщений не достигает заданного порогового значения, то при малых значениях к (к = 2, 3) косвенно их восприятие спама всё равно можно считать сходным на основании наличия большого числа общих схожих образцов. Такой подход позволит определять в обучающей выборке сообщений большие и информативные кластеры, характеристики которых потенциально могут описывать некоторый ботнет.
Поиск максимальных клик в графе - хорошо известная задача, одним из самых популярных алгоритмов решения которой является алгоритм Брона-Кербоша [9]. Для поиска максимальных к-сетей в графе может быть применён модифицированный алгоритм Брона-Кербоша, описанный в [10].
Заключение
В данной работе предложена концепция идентификации ботнетов-источников рассылок почтового спама с помощью кластеризации обучающей выборки сообщений, на основе, содержащейся в них маршрутной информации. Такой подход потенциально обеспечивает большую эффективность в сравнении с методами идентификации спама, основанными на рассмотрении собственно тела письма как объекта идентификации. Эта эффективность обусловлена тем фактом, что характеристики источника нежелательных рассылок существенно
более стабильны во времени по сравнению с параметрами спам-корреспонденции как таковой.
В рамках работы были проанализированы и определены требования, к используемым для осуществления кластеризации способу вычисления меры сходства, между объектами и алгоритму кластеризации. В результате было предложено использование метрики VDM и алгоритма кластеризации на основе поиска k-сетей в графе как полностью удовлетворяющие предъявленным требованиям. В дальнейших исследованиях необходимо экспериментально оценить применимость предложенной технологии в реальных условиях и оценить достигаемую с её помощью эффективность блокировки рассылок спама. Также необходимо определить оптимальные значения k в алгоритме кластеризации на основе поиска k-сетей для достижения как можно более качественной кластеризации.
Литература
1. Спам во втором квартале 2013 г. - Режим доступа: http://www.securelist.com/ru/analvsis/208050806/Spam vo vtorom kvartale 2013
2. Спам в третьем квартале 2013 г. - Режим доступа: http://www.securelist.com/ru/analvsis/208050817/Spam v tretem kvartale 2013
3. Internet Usage Statistics. -Режим доступа: http://www.internetworldstats.com/stats.htm
4. The World’s Biggest Botnets. - Режим доступа: http://www.darkreading.com/management/the-worlds-biggest-botnets/208808174
5. The Most Sophisticated Android Trojan. - Режим доступа: http://www.securelist.com/en/blog/8106/The_most_sophisticated_Android_Trojan
6. В России нашли крупнейшую в мире сеть заражённых смартфонов на Android. - Режим доступа:
http://www.cnews.ru/top/2013/09/20/v rossii nashli krupnevshuvu v mire set z arazhennvh smartfonov na android 543785
7. Cover, T. Nearest neighbor pattern classification / T. Cover, P. Hart //IEEE Transactions on Information Theory.- 1967. - Vol. 13. - С.21-27.
8. Seidman, S.B. A graph-theoretic generalization of the clique concept / S.B. Seidman, B.L. Foster / Journal of Mathematical Sociology. - 1978. - Vol. 6. -С.139-154.
9. Bron, C. Algorithm 457 — Finding all cliques of an undirected graph / C. Bron, J. Kerbosh //Comm. of ACM, 16, 1973. - Р.575-577.
10. Wu, B. A parallel algorithm for enumerating all the maximal k-plexes / B. Wu, X. Pei //PAKDD'07 Proceedings of the 2007 international conference on Emerging technologies in knowledge discovery and data mining, 2007. - С.476-483.
Сведения об авторах
Ковалёв Сергей Сергеевич - стажер-исследователь,
е-mail: [email protected]
Sergey S. Kovalev - Probationer-researcher
Шишаев Максим Геннадьевич - д.т.н., заведующий лабораторией,
е-mail: [email protected]
Maksim G. Shishaev - Dr. of Sci (Tech), Head of laboratory