Решетневскце чтения
УДК 681.322
А. Н. Мироненко
Омский государственный университет имени Ф. М. Достоевского, Россия, Омск
АЛГОРИТМ КЛАССИФИКАЦИИ ВХОДЯЩИХ СООБЩЕНИЙ ЭЛЕКТРОННОЙ ПОЧТЫ, ОСНОВАННЫЙ НА СОВМЕЩЕНИИ МЕТОДА ОПОРНЫХ ВЕКТОРОВ И НЕЙРОСЕТЕВОГО ПОДХОДА
Проведено объединение метода опорных векторов и нейросетевого подхода для решения задачи фильтрации спама. Это позволило одновременно существенно уменьшить как размерность пространства опорных векторов, так и количество входных синапсов нейронной сети. В результате получено заметное снижение времени работы фильтра.
Существуют различные подходы к проблеме фильтрации спама, наиболее популярными классификаторами являются следующие: Байесовский классификатор, метод опорных [1] векторов, нейросетевые классификаторы. Все они обладают одним общим недостатком, который заключается в низкой скорости работы.
Можно сделать вывод о необходимости проведения исследования, которое позволит повысить эффективность (скорости работы) фильтрации.
Для достижения поставленной цели решался ряд задач:
1. Разработка смешанного алгоритма фильтрации на основе совмещения метода опорных векторов и нейросетевого подхода.
2. Реализация и апробация трех смешанных спам-фильтров на основе различных топологий нейронной сети [2]: двухслойного персептрона, персептрона Ро-зенблатта и самоорганизующихся карт Кохонена.
Прежде чем приступить к фильтрации входящих сообщений необходимо подготовить данные для ра-боты с ними.
При этом устраняются главные недостатки классификаторов отмеченные ранее.
Алгоритм формирования данных для последующей фильтрации:
1. На основе обучающего набора сообщений формируется словарь слов (термов), в котором каждому терму соответствует два числа: частота встречаемости в спам-сообщениях и частота встречаемости в легальных сообщениях.
2. Формируется двумерное множество точек. Каждому терму соответствует одна точка с двумя коорди-
натами. По оси абсцисс отложена частота встречаемости в легальных сообщениях, по оси ординат - в спам-сообщениях.
3. Для полученного множества точек, при помощи алгоритма БОЯБЬ [3], решается задача таксономии.
4. Для каждого таксона определяются координаты центра масс.
5. Таксоны упорядочиваются по величине О = УХ, где X и У - координаты центра масс таксона.
6. Вводится равномерная шкала, приписывающая каждому таксону уровень спамности в интервале от 0 до 1 (значения 0 и 1 не используются).
Алгоритм определения спамности сообщения:
1. Для каждого входящего почтового сообщения производится разбор на термы.
2. Определяется принадлежность каждого терма к одному из таксонов.
3. Формируется вектор, характеризующий данное сообщение. Координатами вектора служат количества термов с данным значением спамности.
4. Полученный вектор подается на вход нейросети. В качестве весовых коэффициентов входных синапсов выбирается количество термов с данным коэффициентом спамности в частотном словаре.
5. Выходной сигнал нейросети, лежащий в интервале от 0 до 1, интерпретируется как одно из трех решений: сообщение является спамом (Ш), сообщение не является спамом (Я2), невозможно определить является ли сообщение спамом или нет (Я3). Значения Ш, Я2 иЯ3 выбираются экспериментально.
Оценка результатов исследования эффективности предлагаемых решений фильтрации спама представлена в табл. 1 и 2.
Таблица 1
Эффективность фильтрации на специально созданном наборе
Фильтр Всего сообщений Легитимных сообщений Спам-сообщений Отфильтровано спама Ложные срабатывания
Kaspersky Anti-Spam 3 196 740 2 456 3 149 (98,52 %) 2 (0,27 %)
На основе двухслойного персептрона 3 196 740 2 456 1 973 (80,33 %) 13 (1,75 %)
На основе персептрона Ро-зенблатта 3 196 740 2 456 1 985 (80,82 %) 12 (1,62 %)
На основе карт Кохонена 3 196 740 2 456 1 922 (78,25 %) 16 (2,16 %)
Методы и средства защиты информации
Таблица 2
Эффективность фильтрации на реальном почтовом ящике
Фильтр Всего сообщений Легитимных сообщений Спам-сообщений Отфильтровано спама Ложные срабатывания
На основе двухслойного персептрона 164 34 130 109 (83,85 %) 0 (0 %)
На основе персептрона Ро-зенблатта 164 34 130 112 (86,27 %) 0 (0 %)
На основе карт Кохонена 164 34 130 107 (82,36 %) 0 (0 %)
Как видно из таблиц, все три нейросети дают близкие значения, из чего можно сделать вывод о малой чувствительности предложенного алгоритма фильтрации к выбору типа нейронной сети. Следовательно, в практике можно выбирать нейросеть наиболее простую в реализации и обладающую наибольшей скоростью работы.
Практическая значимость исследования заключается в возможности на его основе разработки прикладных систем индивидуальной защиты от нежелательной корреспонденции для персональных компьютеров.
Библиографические ссылки
1. Burges C. J. C. A tutorial on Support Vector Machines for Pattern Recognition // Data Mining and Knowledge Discovery, 1998. Р. 955-974.
2. Мкртчян С. О. Нейроны и нейронные сети (Введение в теорию формальных нейронов и нейронных сетей). М. : Энергия, 1971. С. 232.
3. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск : ИМ СО РАН, 1999.
A. N. Mironenko Omsk state university of F. M. Dostoevsky, Russia, Omsk.
CLASSIFICATION ALGORITHM OF INCOMING E-MAIL BASED ON A COMBINAION METHOD OF SUPPORT VECTOR AND NEURAL NETWORK APPROACH
The incorporation of support vector and neural network approach for solving the problem of spam filtering is performed. This allows to reduce significantly both the dimension of the space of support vectors and the number of input synapses of neural network. As a result, a significant reduction in the time of the filter is obtained.
© MHpoHemo A. H., 2012
УДК 004.056
В. Г. Миронова
Томский государственный университет систем управления и радиоэлектроники, Россия, Томск
ВЫЯВЛЕНИЕ ВЕРОЯТНОСТНЫХ НАРУШИТЕЛЕЙ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ ПРИ ОБРАБОТКЕ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ
Выявление вероятностных нарушителей безопасности конфиденциальной информации является одним из основных этапов проведения предпроектного обследования и формирования требований по защите информации, обрабатываемой и хранимой в информационных системах.
Важной проблемой, которая затрудняет использование современных информационных технологий, является обеспечение их информационной безопасности (ИБ). Системы обработки информации приобретают популярность и используются повсеместно. Информационные системы (ИС), предназначенные для обеспечения работоспособности информационной инфраструктуры организации, предоставления различных видов информационных сервисов, автоматизации финансовой и производственной деятельности, а также бизнес-процессов организации, позволяют
сократить как временные, финансовые, так и трудовые затраты. В ИС хранятся и обрабатываются значительные объемы информации разной степени секретности, поэтому вопрос защищенности этих ИС от различных угроз безопасности информации стоит остро [1].
Защищенность ИС обеспечивается с помощью системы защиты информации (СЗИ), которая представляет собой комплекс организационных и технических мероприятий. Построение СЗИ осуществляется в три этапа:
- предпроектное обследование ИС;