УДК 004.891.3
РАЗРАБОТКА НЕЙРОСЕТЕВОЙ СИСТЕМЫ КЛАССИФИКАЦИИ ЭЛЕКТРОННЫХ ПОЧТОВЫХ СООБЩЕНИЙ
Катасёв А.С., КНИТУ-КАИ, д-р техн. наук, доцент, [email protected] Катасёва Д.В., КНИТУ-КАИ, ассистент, [email protected]
В работе решается задача разработки нейросетевой технологии для классификации электронных почтовых сообщений. Предлагается схема применения данной технологии для классификации сообщений на категории «спам»/«не спам». Построение эффективной нейросетевой модели спам-фильтрации выполняется в рамках технологии обнаружения знаний в базах данных. Для этого формируется обучающая выборка, производится обучение нейросетевой модели, оценивается ее адекватность и классифицирующая способность. Показывается возможность эффективного использования нейросетевой модели в составе интеллектуальной системы фильтрации нежелательных почтовых сообщений.
Ключевые слова: нейронная сеть, спам-фильтрация.
Одной из задач защиты информации является классификация электронных сообщений на категории «спам» / «не спам» [ 1]. Избыточные нежелательные почтовые сообщения нарушают доступность информационных ресурсов, необходимых пользователям, поскольку потребляют значительные ресурсы канала входящей связи. Кроме того, они могут стать причиной нарушения целостности информации в случае утери электронного сообщения при фильтрации. Вместе со спамом могут рассылаться вредоносные программы, способные привести к уничтожению информации или ее искажению. Ряд вредоносных программ может быть использован для кражи персональных данных. Таким образом, спам -фильтрация является актуальной задачей в области защиты информации и требует поиска эффективных решений [ 2; 3].
Поскольку спам, как правило, отличается от обычной кор-
68
респонденции, распространенным методом борьбы с ним является отсеивание (фильтрация) его из входящего почтового потока. В настоящее время этот подход широко используется при фильтрации нежелательных электронных почтовых сообщений [4; 5]. Задачу фильтрации спама можно рассматривать как задачу классификации входящего потока электронных сообщений на категории «спам» и «не спам».
Как известно, для решения задачи классификации широкое применение получили нейронные сети [6; 7]. Их использование для решения задачи классификации состоит в указании принадлежности входного образа, представленного вектором входных признаков одному или нескольким заранее определенным классам.
На рисунке 1 показана обобщенная схема применения нейросетевой технологии для классификации электронных почтовых сообщений на категории «спам» и «не спам».
Рис. 1. Схема нейросетевой технологии классификации электронных почтовых
сообщений
69
Как видно из данного рисунка, применение нейросетевой технологии предусматривает выполнение следующих основных этапов:
1) выбор структуры сети (задание входных, выходных параметров сети, определение числа ее слоев и нейронов в каждом слое);
2) обучение нейронной сети выбранного типа на данных, сформированных из базы электронных почтовых сообщений;
3) применение обученной нейронной сети для классификации новых почтовых сообщений на категории «спам» / «не спам».
Особенность использования обученной нейронной сети для решения поставленной задачи определяется в ее обобщающей способностью, которая заключается в возможности точно классифицировать не только ранее выявленные спамовые электронные почтовые сообщения, но и распознавать новые виды спама. Веса обученной нейронной сети хранят достаточное количество информации о спамовых письмах, что определяет эффективность применения данной технологии.
Непосредственное построение эффективной нейросетевой модели спам-фильтрации возможно в рамках технологии обнаружения знаний в базах данных, включающей следующие этапы [ 8]:
1) получение исходных данных электронных почтовых сообщений, включающих примеры спамовых и не спамовых писем;
2) предварительная обработка исходных данных и формирование обучающей выборки для обучения нейронной сети;
3) разработка структуры нейронной сети: задание входов, выходов, числа слоев сети и нейронов в каждом слое;
4) обучение сети для построения модели спам-фильтрации;
5) тестирование и оценка нейросетевой модели спам-фильтрации.
При неудовлетворительных результатах оценки модели необходимо вернуться к одному из этапов и выполнить все после-
70
дующие этапы в указанной последовательности. Выбор исходного этапа определяется экспериментально.
Поскольку исходные письма представляют собой тексты в электронном виде, необходимо из исходной текстовой информации предварительно выделить значимые параметры для анализа. Другими словами, необходимо выработать четкий набор параметров, характеризующих электронные почтовые сообщения и позволяющих производить их классификацию по категориям «спам» / «не спам». Значения выделенных параметров затем войдут в обучающую выборку.
Из множества признаков электронных почтовых сообщений выделим наиболее информативные признаки, влияющие на результат классификации писем на категории «спам» / «не спам»:
• частота встречаемости слов верхнего регистра;
• частота встречаемости цифр в письме;
• количество разных цветов в тексте письма;
• размер текста письма;
• количество пустых строк в тексте письма.
Далее необходимо создать набор данных из различных источников, на основании которого будет строиться решение поставленной задачи. Полученные исходные данные представлены в табличном виде, где каждая строка соответствует отдельному письму, а каждый столбец соответствует отдельному признаку письма. В ячейках таблицы представлены значения признаков, характеризующих конкретное электронное почтовое сообщение.
Таблица с исходными данными является еще сырым материалом для применения методов интеллектуального анализа, поэтому данные, входящие в нее, необходимо предварительно обработать. Во-первых, таблица может содержать параметры, имеющие одинаковые значения для всего столбца. Такие признаки не индивидуализируют исследуемые объекты, следовательно, их надо исключить из анализа. Во-вторых, таблица может содержать неко-
71
торый категориальный признак, значения которого во всех записях различны. Очевидно, что это поле нельзя использовать для анализа данных и его надо исключить.
Параллельно с очисткой данных по столбцам таблицы также необходимо провести предварительную очистку данных по строкам. Любая база данных обычно содержит ошибки, неточно определенные значения, соответствующие каким-то редким, исключительным ситуациям, и другие дефекты, которые могут снизить эффективность фильтрации спама. Такие записи необходимо отбросить, поскольку даже если подобные «выбросы» не являются ошибками, а представляют собой редкие исключительные ситуации, они все равно вряд ли могут быть использованы, поскольку по нескольким точкам статистически значимо невозможно судить об искомой зависимости в данных.
PI Р2 РЗ Р4 РЗ Туре
0 0 1 57 2 0
0 0 1 334 2 0
0 0,001 1 3 2 0
0 0,008 1 2 2 0
0 0,01 1 6 2 0
0 0,01 1 334 2 0
0 0,02 1 4 2 0
0,01 0,032 2 31 2 0
0,4 0 1 2 0 1
0 0 3 2 0 1
0 0 2 2 0 1
0,04 0 2 2 0 1
0,14 0 2 2 0 1
0,23 0 2 2 0 1
0,07 0 2 2 0 1
0,08 0 2 3 0 1
Рис. 2. Фрагмент обучающей выборки
Для реализации описанных процедур очистки исходных данных использовались инструменты, входящие в состав аналитической платформы Deductor Studio 5.3 [9]. После проведения описанных процедур получаем пригодную к применению обучающую
72
выборку, фрагмент которой представлен на рисунке 2.
Столбец P1 характеризует частоту встречаемости слов верхнего регистра, P2 - частоту встречаемости цифр в письме, P3
- количество разных цветов в тексте письма, P4 - размер письма в килобайтах, P5 - количество пустых строк в письме. Последний столбец в обучающей выборке TYPE характеризует тип письма (1
- «спам», 0 - «не спам»).
Ниже представлены формулы, используемые для расчета значений параметров электронных почтовых сообщений:
• частота встречаемости слов верхнего регистра в тексте письма:
P1 = ^, N,
где ni - число слов верхнего регистра, Ni - общее число слов в письме;
• частота встречаемости цифр в письме:
P2 = ^,
n2
где n2 - число цифр в письме, N2 - общее число символов в письме;
• количество разных цветов в тексте письма: P3 = N, где N3 - число разных цветов в письме;
• размер письма в килобайтах:
N
P4 = ■
1024
• количество пустых строк в тексте письма: P5 = N, где N4 - число пустых строк в письме.
Для построения нейросетевой модели фильтрации электронных почтовых сообщений воспользуемся мастером обработки «Нейросеть», входящим в состав аналитической платформы Deductor Studio 5.3. Определим в качестве входов нейронной сети поля Р1, Р2, Р3, Р4, Р5. Выходом сети будет являться поле TYPE
73
(рис. 3).
Рис. 3. Структура нейронной сети
Произведем обучение нейронной сети на базе созданной ранее обучающей выборки. Результатом обучения является нейросетевая модель классификации электронных почтовых сообщений. Адекватность модели можно оценить по таблице сопряженности, показывающей результаты классификации на исходных данных из обучающей выборки (см. табл. 1).
Табл. 1. Таблица сопряженности для оценки адекватности нейросетевой модели
Фактически Классифицировано
0 1 Итого
0 240 15 255
1 2 243 245
74
Итого 242 258 500
Как видно из таблицы, 17 писем из 500 классифицированы неверно, т.е. общая ошибка модели составила 3,4%. При этом ошибка 1-го рода (пропуск спама) получилась равной 0,8%, а ошибка 2-го рода (ложный спам) 5,9%.
Для оценки обобщающей способности нейросетевой модели построена таблица сопряженности, показывающая результаты классификации на тестовых данных (табл. 2).
Табл. 2. Таблица сопряженности для оценки обобщающей способности нейросетевой модели
Фактически Классифицировано
0 1 Итого
0 96 4 100
1 1 99 100
Итого 97 103 200
Из таблицы видно, что 5 писем из 200 классифицированы неверно, т.е. ошибка обобщения модели составила 2,5%. При этом ошибка 1 -го рода (пропуск спама) получилась равной 1%, а ошибка 2-го рода (ложный спам) 4%.
Таким образом, экспериментальные исследования показали, что разработанная нейросетевая модель является адекватной и ее можно эффективно использовать для классификации электронных почтовых сообщений.
Практическая ценность предложенного подхода заключается в возможности построения на базе нейросетевых систем эффективных спам-фильтров. На рисунке 4 представлена схема использования нейросетевой модели в составе интеллектуальной системы фильтрации нежелательных почтовых сообщений.
75
Рис. 4. Схема использования нейросетевой модели в составе системы спам-фильтрации
Как видно из данного рисунка, плагин почтового сервера (клиента) извлекает электронное почтовое сообщение и выделяет значения его параметров по приведенным выше формулам. Сформированный образ почтового сообщения поступает на вход модуля принятия решений, который непосредственно взаимодействует с обученной нейросетевой моделью спам-фильтрации. Далее решается задача классификации электронного почтового сообщения на категории «спам» / «не спам». В зависимости от результата классификации производится конкретное действие по фильтрации электронного почтового сообщения на почтовом сервере (клиенте).
Подобная схема может быть применена как к целому сервису, так и к отдельному электронному почтовому ящику. Следует отметить, что функционирование системы может быть адаптивным. В случае неправильной классификации очередного электронного почтового сообщения информация о правильной классификации может поступать в базу данных, и система будет либо
76
корректировать веса нейронной сети с учетом нового входного образа, либо переобучаться на обновленной выборке для построения новой нейросетевой модели.
Источники
1. Гуров В.В. Спам-фильтры для предприятий// Сети и системы связи. 2007. №6. С. 80-89.
2. Катасёв A.С. Формирование базы знаний системы фильтрации электронных почтовых сообщений //Научно-технический вестник Поволжья, 2013, № 5. С. 191-194.
3. Катасёв A.С., Катасёва Д.В. Моделирование процессов спам-фильтрации на основе технологии интеллектуального анализа данных // Информационная безопасность и защита персональных данных: Проблемы и пути их решения: VI Межрегиональная научно-практическая конференция. Брянск: БГТУ, 2014. С. 46-51.
4. Катасёв A.С. Математическое и программное обеспечение формирования баз знаний мягких экспертных систем диагностики состояния сложных объектов: монография. Казань: ГБУ «Республиканский центр мониторинга качества образования», 2013. 200 с., ил.
5. Семенова МЛ., Семенов B.A. Метод автоматической фильтрации при борьбе со «спамом» //Известие вузов. «Приборостроение». 2009. Т. 52, № 9. С. 32-34.
6. Глова В.И., Aникин И.В., Катасёв A.С., Кривилёв МЛ., Насыров Р.И. Мягкие вычисления: учебное пособие. Казань: Изд-во Каз. гос. технич. университета им. A.Н. Туполева, 2010. 206 с.
7. Головко B.A. Нейронные сети: обучение, организация и применение. Кн. 4: Учебное пособие для вузов / Общая ред. A.И. Галушкина. М.: ИПРЖР, 2001. 256 с.: ил.
8. Frawley M.J., Piatesky-Shapiro G., Matheus C.J. Knowledge discovery in databases: An overview. AI Magazine, 1992. pp. 1-27.
9. Кацко ИЛ., Паклин Н.Б. Практикум по анализу данных на компьютере: учеб. пособие. М.: Изд-во «КолосС», 2009. 278 с.
References
1. Gurov V.V. Spam-fil'try dlya predpriyatii, Seti i sistemy svyazi. 2007. No. 6. pp. 80-89.
2. Katasev A.S. Formirovanie bazy znanii sistemy fil'tratsii elektronnykh pochtovykh soob-shchenii, Nauchno-tekhnicheskii vestnik Po-volzh'ya, No. 5. pp. 191-194, (2013).
3. Katasev A.S., Kataseva D.V. Modelirovanie protsessov spam-fil'tratsii na osnove tekhnologii intellektual'nogo analiza dannykh, Informatsionnaya bezopasnost' i zashchita personal'nykh dannykh: Problemy i puti ikh resheniya: VI Mezhregional'naya nauchno-prakticheskaya konferentsiya, Bryansk, BGTU, pp. 46-51, (2014).
4. Katasev A.S. Matematicheskoe i programmnoe obespechenie formirovaniya baz znanii my-agkikh ekspertnykh sistem diagnostiki sostoyaniya slozhnykh ob"ektov: monografiya, Kazan', GBU «Respublikanskii tsentr monitoringa kachestva obrazovaniya», 200 p., il., (2013).
5. Semenova M.A., Semenov V.A. Metod avtomaticheskoi fil 'tratsii pri bor'be so «spamom»,
77
Izvestie vuzov, «Priborostroenie», Vol 52, No. 9, pp. 32-34, (2009).
6. Glova V.I., Anikin I.V., Katasev A.S., Krivilev M.A., Nasyrov R.I. Myagkie vychisleniya: uchebnoe posobie, Kazan', Izd-vo Kaz. gos. tekhnich. universiteta im. A.N. Tupoleva, 206 p., (2010).
7. Golovko V.A. Neironnye seti: obuchenie, organizatsiya i primenenie. Kn. 4: Uchebnoe posobie dlya vuzov, Obshchaya red. A.I. Galushkina. M.: IPRZhR, 256 p.: il., (2001).
8. Frawley M.J., Piatesky-Shapiro G., Matheus C.J. Knowledge discovery in databases: An overview. AI Magazine, pp. 1-27, (1992).
9. Katsko I.A., Paklin N.B. Praktikum po analizu dannykh na komp'yutere: ucheb. Posobie, M., Izd-vo «KolosS», 278 p., (2009).
Information
Katasev A.S., Kataseva D.V.
THE NEURAL NETWORK SYSTEM DEVELOPMENT FOR CLASSIFICATION OF EMAIL MESSAGES
We solve the problem of development of neural network technology for the classification of e-mail messages. Offered the scheme of this technology for the classification of e-mail messages into "spam" / "not spam". Creation of effective neural network model of spam filtering is performed within the technology knowledge discovery in databases. For this training set is formed, are trained neural network model, estimated its value and classifies the ability. Shows the possibility of the effective use of neural network model composed of intelligent system to filter unwanted e-mail messages. Keywords: neural network, spam-filtering.
Дата поступления 02.03.2015.
78