УДК 004.891.3
А. С. Катасёв, Д. В. Катасёва, А. П. Кирпичников
НЕЙРОСЕТЕВАЯ ТЕХНОЛОГИЯ КЛАССИФИКАЦИИ ЭЛЕКТРОННЫХ ПОЧТОВЫХ СООБЩЕНИЙ
Ключевые слова: нейронная сеть, спам-фильтрация, информационная безопасность.
В работе решается задача разработки нейросетевой технологии для классификации электронных почтовых сообщений. Предлагается схема применения данной технологии для классификации сообщений на категории «спам»/«не спам». Построение эффективной нейросетевой модели спам-фильтрации выполняется в рамках технологии обнаружения знаний в базах данных. Для этого формируется обучающая выборка, производится обучение нейросетевой модели, оценивается ее адекватность и классифицирующая способность. Показывается возможность эффективного использования нейросетевой модели в составе интеллектуальной системы фильтрации нежелательных почтовых сообщений.
Keywords: neural network, spam-filtering, information security.
We solve the problem of development of neural network technology for the classification of e-mail messages. Offered the scheme of this technology for the classification of e-mail messages into "spam" / "not spam". Creation of effective neural network model of spam filtering is performed within the technology knowledge discovery in databases. For this training set is formed, are trained neural network model, estimated its value and classifies the ability. Shows the possibility of the effective use of neural network model composed of intelligent system to filter unwanted e-mail messages.
Одной из задач обеспечения информационной безопасности является задача классификации электронных почтовых сообщений на категории «спам» / «не спам» [3]. Избыточные нежелательные почтовые сообщения нарушают доступность информационных ресурсов, необходимых пользователям, поскольку потребляют значительные ресурсы канала входящей связи. Кроме того, они могут стать причиной нарушения целостности информации в случае утери электронного сообщения при фильтрации его человеком или специальной программой. Вместе со спамом могут рассылаться вредоносные программы, способные привести к полному или частичному уничтожению информации или ее искажению. Ряд вредоносных программ может быть использован для кражи персональных данных: номеров кредитных карт частных пользователей, имен пользователей и паролей для доступа к системам удаленного управления банковскими счетами организаций. Таким образом, спам-фильтрация является актуальной задачей в области защиты информации и требует поиска эффективных решений [7].
Поскольку спам, как правило, отличается от обычной корреспонденции, распространенным методом борьбы с ним является отсеивание (фильтрация) его из входящего почтового потока. В настоящее время этот подход широко используется при фильтрации нежелательных электронных почтовых сообщений [5,12]. Задачу фильтрации спама можно рассматривать как задачу классификации входящего потока электронных сообщений на категории «спам» и «не спам» [8].
Как известно, для решения задачи классификации широкое применение получили нейронные сети [1,2,4]. Их использование для решения задачи классификации состоит в указании принадлежности входного образа, представленного вектором входных признаков, одному или нескольким заранее определенным классам.
На рисунке 1 показана обобщенная схема применения нейросетевой технологии для классификации электронных почтовых сообщений на категории «спам» и «не спам» [7].
Рис. 1 - Схема нейросетевой технологии классификации электронных почтовых сообщений
Как видно из данного рисунка, применение нейросетевой технологии классификации электронных почтовых сообщений предусматривает выполнение следующих основных этапов:
1) выбор структуры нейронной сети (задание входных, выходных параметров сети, определение числа ее слоев и нейронов в каждом слое);
2) обучение нейронной сети выбранного типа на данных, сформированных из базы электронных почтовых сообщений;
3) применение обученной нейронной сети для классификации новых почтовых сообщений на категории «спам» / «не спам».
Особенность использования обученной нейронной сети для решения поставленной задачи заключается в ее обобщающей способности, которая заключается в возможности точно классифицировать не только ранее выявленные спамовые электронные почтовые сообщения, но и распознавать новые виды спамовых писем. Веса обученной нейронной сети хранят достаточное количество информации о спамовых письмах, что определяет эффективность применения данной технологии.
Непосредственное построение эффективной нейросетевой модели спам-фильтрации возможно в рамках использования технологии обнаружения знаний в базах данных, включающей следующие этапы [6,10,13]:
1) получение исходных данных электронных почтовых сообщений, включающих примеры спамовых и не спамовых писем;
2) предварительная обработка исходных данных и формирование обучающей выборки для обучения нейронной сети;
3) разработка структуры нейронной сети: задание входов, выходов, числа слоев сети и нейронов в каждом слое;
4) обучение нейронной сети для построения модели спам-фильтрации;
5) тестирование и оценка нейросетевой модели спам-фильтрации.
При неудовлетворительных результатах оценки модели необходимо вернуться к одному из этапов и выполнить все последующие этапы в указанной последовательности. Выбор исходного этапа определяется экспериментально.
Поскольку исходные письма представляют собой тексты в электронном виде, необходимо из исходной текстовой информации предварительно выделить значимые параметры для анализа. Другими словами, необходимо выработать четкий набор числовых параметров, характеризующих электронные почтовые сообщения и позволяющих производить их классификацию по категориям «спам» / «не спам». Значения выделенных параметров затем войдут в обучающую выборку.
Из множества признаков электронных почтовых сообщений выделим наиболее информативные признаки, влияющие на результат классификации писем на категории «спам» / «не спам»:
- частота встречаемости слов верхнего регистра;
- частота встречаемости цифр в письме;
- количество разных цветов в тексте письма;
- размер текста письма;
- количество пустых строк в тексте письма.
Оценка информативности данных признаков проводилась экспериментально с применением методов математической статистики.
Далее необходимо создать набор данных из различных источников, на основании которого будет строиться решение поставленной задачи. Полученные исходные данные представлены в табличном виде, где каждая строка соответствует отдельному письму, а каждый столбец соответствует отдельному признаку письма. В ячейках таблицы представ-
лены значения признаков, характеризующих конкретное электронное почтовое сообщение.
Таблица с исходными данными является еще сырым материалом для применения методов интеллектуального анализа, поэтому данные, входящие в нее, необходимо предварительно обработать. Во-первых, таблица может содержать параметры, имеющие одинаковые значения для всего столбца. Если бы исследуемые объекты характеризовались только такими признаками, они были бы абсолютно идентичны, а, значит, эти признаки никак не индивидуализируют исследуемые объекты. Следовательно, их надо исключить из анализа. Во-вторых, таблица может содержать некоторый категориальный признак, значения которого во всех записях различны. Очевидно, что это поле нельзя использовать для анализа данных и его надо исключить.
Параллельно с очисткой данных по столбцам таблицы (признакам), также необходимо провести предварительную очистку данных по строкам таблицы (записям). Любая реальная база данных обычно содержит ошибки, неточно определенные значения, соответствующие каким-то редким, исключительным ситуациям, и другие дефекты, которые могут снизить эффективность фильтрации спа-ма. Такие записи необходимо отбросить, поскольку даже если подобные «выбросы» не являются ошибками, а представляют собой редкие исключительные ситуации, они все равно вряд ли могут быть использованы, поскольку по нескольким точкам статистически значимо невозможно судить об искомой зависимости в данных.
Для реализации описанных процедур очистки исходных данных использовались инструменты, входящие в состав аналитической платформы Deductor Studio 5.3 [9,11]. После проведения описанных процедур получаем пригодную к применению обучающую выборку, фрагмент которой представлен на рисунке 2.
PI Р2 РЗ Р4 Р5 Туре
0 0 1 57 2 0
0 0 1 334 2 0
0 0,001 1 3 2 0
0 0,008 1 2 2 0
0 0,01 1 6 2 0
0 0,01 1 334 2 0
0 0,02 1 4 2 0
0,01 0,032 2 31 2 0
0,4 0 1 2 0 1
0 0 3 2 0 1
0 0 2 2 0 1
0,04 0 2 2 0 1
0,14 0 2 2 0 1
0,25 0 2 2 0 1
0,07 0 2 2 0 1
0,08 0 2 3 0 1
Рис. 2 - Фрагмент обучающей выборки
Столбец P1 характеризует частоту встречаемости в электронном почтовом сообщении слов
верхнего регистра, P2 - частоту встречаемости цифр в письме, P3 - количество разных цветов в тексте письма, P4 - размер письма в килобайтах, P5 - количество пустых строк в письме. Последний столбец в обучающей выборке TYPE характеризует тип письма (1 - «спам», 0 - «не спам»).
Ниже представлены формулы, используемые для расчета значений параметров электронных почтовых сообщений:
- частота встречаемости слов верхнего регистра в тексте письма:
P1 = i-,
N1
где n1 - количество слов верхнего регистра, N1 -общее количество слов в письме;
- частота встречаемости цифр в письме:
P2 =
N2
где n2 - количество цифр в письме, N2 - общее количество символов в письме;
- количество разных цветов в тексте письма:
P3 = N3,
где N3 - число разных цветов в письме;
- размер письма в килобайтах:
P4 =
1024
- количество пустых строк в тексте письма:
P5 = N4,
где N4 - число пустых строк в письме.
Для построения нейросетевой модели фильтрации электронных почтовых сообщений воспользуемся мастером обработки «Нейросеть», входящим в состав аналитической платформы Deductor Studio 5.3.Определим в качестве входов нейронной сети поля Р1, Р2, Р3, Р4, Р5. Выходом сети будет являться единственное поле TYPE (см. рис. 3).
Рис. 3 - Структура нейронной сети
Произведем обучение нейронной сети на базе созданной ранее обучающей выборки. Результатом обучения является нейросетевая модель клас-
сификации электронных почтовых сообщений. Адекватность модели можно оценить по таблице сопряженности, показывающей результаты классификации на исходных данных из обучающей выборки (см. табл. 1).
Таблица 1 - Таблица сопряженности для оценки адекватности нейросетевой модели
Фактически Классифицировано
0 1 Итого
0 240 15 255
1 2 243 245
Итого 242 258 500
Как видно из таблицы, 17 писем из 500 классифицированы неверно, т.е. общая ошибка модели составила 3,4%. При этом ошибка 1-го рода (пропуск спама) получилась равной 0,8%, а ошибка 2-го рода (ложный спам) 5,9%.
Для оценки обобщающей способности ней-росетевой модели построена таблица сопряженности, показывающая результаты классификации на тестовых данных (см. табл. 2).
Таблица 2 - Таблица сопряженности для оценки обобщающей способности нейросетевой модели
Фактически Классифицировано
0 1 Итого
0 96 4 100
1 1 99 100
Итого 97 103 200
Из таблицы видно, что 5 писем из 200 классифицированы неверно, т.е. ошибка обобщения модели составила 2,5%. При этом ошибка 1-го рода (пропуск спама) получилась равной 1%, а ошибка 2-го рода (ложный спам) 4%.
Таким образом, экспериментальные исследования показали, что разработанная нейросетевая модель является адекватной и ее можно эффективно использовать для классификации электронных почтовых сообщений.
Практическая ценность предложенного подхода заключается в возможности построения на базе нейросетевых систем эффективных спам-фильтров. На рисунке 4 представлена схема использования нейросетевой модели в составе интеллектуальной системы фильтрации нежелательных почтовых сообщений.
Рис. 4 - Схема использования нейросетевой модели в составе системы спам-фильтрации
Как видно из данного рисунка, плагин почтового сервера (клиента) извлекает электронное почтовое сообщение и выделяет значения его параметров по приведенным выше формулам. Сформированный образ почтового сообщения поступает на вход модуля принятия решений, который непосредственно взаимодействует с обученной нейросетевой моделью спам-фильтрации. Далее решается задача классификации электронного почтового сообщения на категории «спам» / «не спам». В зависимости от результата классификации производится конкретное действие по фильтрации электронного почтового сообщения на почтовом сервере (клиенте).
Подобная схема может быть применена как к целому сервису, так и к отдельному электронному почтовому ящику. Следует отметить, что функционирование системы может быть адаптивным. В случае неправильной классификации очередного электронного почтового сообщения информация о правильной классификации может поступать в базу данных, и система будет либо корректировать веса нейронной сети с учетом нового входного образа, либо переобучаться на обновленной выборке для построения новой нейросетевой модели.
В настоящее время интеллектуальная система, построенная на базе описанных принципов, проходит апробацию на рабочих станциях информационных систем Центра информационных технологий, связи и защиты информации Министерства
внутренних дел по Республике Татарстан. Нейросетевой модуль будет использован в составе диагностической экспертной системы предварительного выявления электронных писем несанкционированной массовой рассылки.
Литература
1. Глова В.И., Аникин И.В., Катасёв А.С., Кривилёв М.А., Насыров Р.И. Мягкие вычисления: учебное пособие. Казань: Изд-во Каз. гос. технич. университета им. А.Н. Туполева, 2010. - 206 с.
2. Головко В.А. Нейронные сети: обучение, организация и применение. Кн. 4: Учебное пособие для вузов / Общая ред. А.И. Галушкина. М.: ИПРЖР, 2001. - 256 с.: ил.
3. Гуров В.В. Спам-фильтры для предприятий // Сети и системы связи. - 2007. - № 6. - С. 80-89.
4. Емалетдинова Л.Ю., Катасёв А.С., Кирпичников А.П. Нейронечеткая модель аппроксимации сложных объектов с дискретным выходом // Вестник Казанского технологического университета. - 2014. - Т. 17, № 1. - С. 295-299.
5. Катасёв А.С. Математическое и программное обеспечение формирования баз знаний мягких экспертных систем диагностики состояния сложных объектов: монография. -Казань: ГБУ «Республиканский центр мониторинга качества образования», 2013. - 200 с., ил.
6. Катасёв А.С. Математическое обеспечение и программный комплекс формирования нечетко-продукционных баз знаний для экспертных диагностических систем // Фундаментальные исследования. - 2013. - № 10 (часть 9). - С. 1922-1927.
7. Катасёв А.С. Формирование базы знаний системы фильтрации электронных почтовых сообщений // Научно-технический вестник Поволжья. - 2013. - № 5. - С. 191194.
8. Катасёв А.С. Аппроксимация объектов с дискретным выходом на основе нечетко-продукционных баз знаний // Вестник КГТУ им. А.Н. Туполева. - 2013. - № 4. - С. 212217.
9. Кацко И.А., Паклин Н.Б. Практикум по анализу данных на компьютере: Учеб. пособие. - М.: Изд-во «КолосС», 2009. - 278 с.
10. Кирпичников А.П., Осипова А.Л., Ризаев И.С. Повышение аналитических возможностей баз данных // Вестник Казанского технологического университета. - 2012. - № 3. - С. 157-160.
11. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: учебное пособие. - 2-е изд., испр. - СПб.: Питер, 2013. - 704 с.: ил.
12. Семенова М.А., Семенов В.А. Метод автоматической фильтрации при борьбе со «спамом» // Известие вузов. «Приборостроение». - 2009. Т. 52, - № 9. - С. 32-34.
13. Frawley M.J., Piatesky-Shapiro G., Matheus C.J. Knowledge discovery in databases: An overview. AI Magazine, 1992. - P. 1-27.
© А. С. Катасёв - д-р. техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, [email protected]; Д. В. Катасёва - аспирант кафедры систем информационной безопасности КНИТУ-КАИ, [email protected]; А. П. Кирпичников - д-р. физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, [email protected].
© A. S. Katasev - Dr. Sci., Associate Professor of the Information Security Systems Department, KNRTU named after A.N. Tupolev, [email protected]; D. V. Kataseva - Postgraduate Student of the Information Security Systems Department, KNRTU named after A.N. Tupolev, [email protected]; А. P. Kirpichnikov - Dr. Sci., Prof, Head of the Department of Intelligent Systems & Information Systems Control, KNRTU, [email protected].