Вероятностный метод идентификации спама

Корелов Сергей Викторович; Ротков Леонид Юрьевич; Рябов Аркадий Анатольевич

УДК 004.042

С.В. Корелов, Л.Ю. Ротков, А.А. Рябов

Вероятностный метод идентификации спама

Анализируется метод определения вероятностных характеристик текстов и их использование для идентификации спама. Исследовались вероятностные характеристики для двух типов текста: спам и легальные рассылки. По значениям рассчитанных характеристик принималось решение о применении процедуры фильтрации. Ключевые слова: информационная безопасность, спам, идентификация.

Борьба со спамом является актуальной задачей в сфере компьютерной безопасности. Спам превратился из легкого раздражающего фактора в одну из самых серьезных угроз информационной безопасности. Непрошеные почтовые сообщения переполняют индивидуальные почтовые ящики и парализуют работу корпоративных серверов. Время, которое сотрудники вынуждены тратить на разбор и чтение спама, постоянно растет, а с ним и финансовые потери компаний, составляющие уже, по разным оценкам, от 50 до 200 долл. в год в расчете на одного сотрудника [1].

Спам является одним из важных каналов распространения вредоносных программ. Наблюдается слияние деятельности спамеров и хакеров, которые захватывают компьютеры пользователей при помощи вирусов-троянцев и продают спамерам доступ к захваченным компьютерам для рассылки спама. Подавляющее большинство спамерских рассы-лок осуществляется именно с таких компьютеров-«зомби», причём только в США еженедельно обнаруживается от 80 000 до 100 000 таких машин [2].

Одним из основных классов задач, связанных с защитой компьютерных систем от различных угроз, является проблема различения «своих» и «чужих» элементов, присутствующих в этих системах. В данной работе рассматривается проблема борьбы со спамом, точнее, с нелегальными рассылками по электронной почте. Основной целью является исследование методов цифровой обработки текстовых сообщений и выяснение наиболее эффективных методов различения «хороших» (т.е. «своих») и «спамерских» («чужих») электронных писем.

Сегодня на рынке существует ряд программ (спам-фильтров): Anti-Spam Filter (ASF), SpamKiller, Spam Eater Pro, Spamassassin, Spam Buster, фильтры, интегрированные в антивирусные программы. Основные принципы работы антиспамерских программ таковы: «черные» и «белые» списки, фильтрация по заголовкам письма, эвристический анализ, вычисления IP-адреса отправителя и ответ «нет такого адреса».

Каждый из этих принципов имеет очень серьёзные недостатки.

Ведение чёрных и белых списков, а также вычисление IP-адреса отправителя полезно лишь в тех случаях, когда спамеры используют одни и те же серверы для отправки писем. С учётом нынешнего распространения технологии троянцев, делающих из обычных компьютеров «зомби», эффективность принципа ведения чёрных и белых списков как минимум сомнительна. Фильтрация по заголовкам письма и эвристический анализ любой программы становятся бесполезными, как только алгоритм продукта оказался в руках «интересующихся» людей. А ответ «нет такого адреса» может быть просто проигнорирован.

В данной работе рассматривается метод вероятностного анализа текстовых сообщений для различения спама и легальных рассылок.

В первом подходе анализируется частота использования заглавных и строчных букв кириллицы, цифр, а также знаков препинания. Каждой букве и знаку препинания ставится в соответствие число и рассчитывается относительная частота pn использования n-го символа в текстовом документе:

Pn = ^ , (1)

n Mz

где Mn - число вхождений n-го символа; M - общее число символов в документе.

Для каждого типа документов (спамерское письмо или легальная рассылка) на основе обучающих образцов формируется свое распределение вероятности р. При этом нумерованный алфавит состоит из строчных и прописных букв кириллицы, знаков препинания и символа, соответствующего всем остальным.

С.В. Корелов, Л.Ю. Ротков, АА. Рябов. Вероятностный метод идентификации спама

151

На рис. 1, а и б приведены диаграммы относительных частот использования символов в спамерских письмах и легальных рассылках.

0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77

Рис. 1а. Диаграмма частоты букв в спамерских письмах

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 5 8 61 64 67 7 0 73 76

Рис. 1б. Диаграмма частоы букв в легальных рассылках

Получив данные распределения, можно рассчитать абсолютную и относительную разность частот использования букв в спамерских и легальных письмах:

Д_а,Ып =рп8 -рпЬ , (2)

Д _ otnn =-

pnS - pnL

(3)

Рпз + юьРпЬ

где рп§ - вероятность символа в спаме; рп^ - вероятность символа в легальной рассылке;

и ю^ - весовые коэффициенты, учитывающие разную длину сообщений соответственно спама и легальной рассылки.

При данном подходе для каждого тестового текста вычислялось распределение р, и с помощью метода наименьших квадратов принималось решение о принадлежности текста к спаму или легальной рассылке.

Кроме распределения вероятностей, рассматривались другие вероятностные характеристики текста.

Текстовый документ может быть представлен в виде отсчётов хп, где каждый из отсчётов представляет собой код символа соответствующего номера.

Для обучающих и тестовых текстов спама и рассылок определялось значение среднего и дисперсии символов алфавита, определенного ранее:

N

. ХП

M =< x >=

где N - количество символов в тексте, и

п=1

N

D =<x2 >-<x >2 ,

(4)

(5)

По величине отклонения среднего значения и дисперсии символов тестового письма от определенных для спама и рассылок значений принималось решение о принадлежности текста к спаму или легальной рассылке. Предельное значение этого отклонения может выбираться из величины вероятности ошибочного решения.

Разработана тестовая программа, осуществляющая проверку текстового документа произвольной длины и вырабатывающая решение об отнесении письма к тому или иному классу документов. В ходе проведения тестирования программа сортировала документы по двум классам: Legal (легальная рассылка) и Spam (спамерское письмо).

Для спама и легальной рассылки введены вероятности ошибки:

PS = , (6)

N

Spam

Pl =-

N

Spaml

N

(7)

Legal

где N1^13 - число сообщений, отнесенных к легальным, Nspam - общее число спам-сообщений; Nspaml - число сообщения, отнесенных к спаму; N^^1 - общее число легальных сообщений.

Для определения вероятности ошибки идентификации спама использовалась выборка из 204 спам-писем и 232 писем легальных рассылок. В результате были получены значения вероятности ошибки идентификации. Для подхода, использующего распределение вероятности, Р$ = 0,222, Р£ = 0,0395; для подхода с использованием среднего Р$ = 0,32, Р£ = 0,25, и, если в качестве идентифицирующего параметра использовалась дисперсия, Р3 = 0,198, Р£ = 0,105.

Применение данного метода не накладывает ограничений на возможность модификации и создания новых объектов, соответствующих спаму и легальным рассылкам. Нет ограничений также и на накопление, отслеживание и постоянное обновление (для новых или не похожих на существующие) образцов рассылок и спама.

Литература

1. Спам [Электронный ресурс]. - Режим доступа: http://www.kaspersky.ru/spam, свободный (дата обращения: 11.05.2010).

Корелов Сергей Викторович

Ст. преп. центра «Безопасность информационных систем и средств коммуникаций» радиофизического факультета Нижегородского госуниверситета, г. Нижний Новгород Тел.: (+7 831) 462-32-84 Эл. адрес: [email protected]

Ротков Леонид Юрьевич

Кандидат техн. наук, доцент, проректор по безопасности Нижегородского госуниверситета, г. Нижний Новгород Тел.: (+7 831) 462-30-06 Эл. адрес: [email protected]

Рябов Аркадий Анатольевич

Ассистент центра «безопасность информационных систем и средств коммуникаций» радиофизического фагультета Нижегородского госуниверситета, г. Нижний Новгород Тел.: (+7 831) 462-32-84 Эл. адрес: [email protected]

S.V. Korelov, L.Yu. Rotkov, A.A. Ryabov Probabilistic method of spam detection

The method of definition of probabilistic characteristics of texts and their use for spam identification is analyzed. Probabilistic characteristics for two text types were investigated: a spam and legal dispatches. On values of the calculated characteristics the decision on application of procedure of a filtration was made.

Keywords: information security, spam, identification.

Вероятностный метод идентификации спама Текст научной статьи по специальности «Компьютерные и информационные науки»

Текст научной работы на тему «Вероятностный метод идентификации спама»