Научная статья на тему 'Предобработка исходных данных при решении задачи классификации электронной корреспонденции'

Предобработка исходных данных при решении задачи классификации электронной корреспонденции Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
216
63
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хеирхабаров Т. С., Жуков В. Г.

Рассматриваются методы обработки содержимого электронных писем до момента расчёта оценки, на основании которой выбирается класс письма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Предобработка исходных данных при решении задачи классификации электронной корреспонденции»

Секция «Методы и средства зашиты информации»

системе модулей, выполняет функцию дружественного интерфейса управления.

Результатом работы системы является выявление уязвимостей веб-ресурса и указание возможных путей их устранения или нейтрализации с целью повышения защищенности веб-ресурса к информационным угрозам.

Библиографические ссылки

1. Shay Chen. Web Application Scanners Accuracy Assessment. URL: http://sectooladdict.blogspot.com/ 2010/12/web-application-scanner-benchmark.html.

2. Гай Поджарны. Разработка защищенных Web-приложений: Введение в IBM Rational AppScan Developer Edition. URL: http://www.ibm.com/developerworks/ ru/library/r-0916_podjarny/index.html.

3. Adam Doupe, Marco Cova, Giovanni Vigna. Why Johnny Can't Pentest: An Analysis of Black-box Web Vulnerability Scanners. URL: http://www.cs.ucsb.edu/ ~adoupe/static/black-box-scanners-dimva2010.pdf.

© Симбирцев Д. В., Жуков В. Г., 2011

УДК 004.056

Т. С. Хеирхабаров Научный руководитель - В. Г. Жуков Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ПРЕДОБРАБОТКА ИСХОДНЫХ ДАННЫХ ПРИ РЕШЕНИИ ЗАДАЧИ КЛАССИФИКАЦИИ

ЭЛЕКТРОННОЙ КОРРЕСПОНДЕНЦИИ

Рассматриваются методы обработки содержимого электронных писем до момента расчёта оценки, на основании которой выбирается класс письма.

Задача классификации электронной почты заключается в разделении всего потока входящей электронно почты на два класса: нежелательная (спам) и легитимная почта. При решении данной задачи обычно выделяют 3 этапа: предобработка исходных данных, расчёт оценки и непосредственно определение класса письма. В рамках данной работы рассмотрим этап предобработки исходных. Собственные исследования показали, что от качества данного этапа зависит эффективность классификатора в целом.

На этапе предобработки выполняются следующие операции:

- выделение заголовка и тела письма;

- токенизация;

- удаление стоп-слов;

- определение языка;

- обработка слов, при написании которых используются символы похожие по начертанию на символы оригинального алфавита;

- морфологический и синтаксический анализ.

Сначала из электронного письма необходимо выделить заголовок и тело письма. Сделать это достаточно просто, так как формат почтового сообщения четко определен в документе №0-2822 [1]. Затем заголовок и тело обрабатываются отдельно друг от друга. В рамках данной работы не рассматривается обработка заголовков электронного письма. В случае если тело письма представлено Ыш1-страницей или картинкой, то необходимо преобразовать его к текстовой форме.

После того как было выделено тело письма его необходимо разбить на набор слов (токенов) с учетом разнообразных случаев использования символов-разделителей. Если письмо является легитимным и оформлено в соответствии с правилами пунктуации, то данная задача решается просто - в качестве разделителей выступают пробелы, табуляция и знаки пунк-

туации. Использование сокращений, дефисного написания (Связь-Банк), пунктуации и цифр в именах собственных (заявочный комитет «Сочи-2014») усложняют задачу токенизации, но не настолько как в случае спама. Спамеры применяют различные методы для обхода фильтров. Среди таких методов разделение букв в словах знаками пунктуации или пробелами (например: р.е.кла.м.а или р е к л а м а). Человек в таких случаях поймёт, что имели ввиду авторы данного спам-письма, однако компьютеру становится гораздо сложнее определить границы слова. Задача то-кенизатора не только выделить отдельные слова, но и исключить из написания слов символы, используемые для запутывания фильтров. Результатом этапа токени-зации является список слов в порядке их следования в теле письма. Все операции в дальнейшем будут выполняться именно над этим списком, а не над исходным телом письма.

После этапа токенизации из полученного списка удаляются так называемые стоп-слова. Стоп-слова -слова, не несущие самостоятельной смысловой нагрузки. Как правило, к ним относятся предлоги, союзы, частицы, местоимения, вводные слова, междометия. Для уменьшения размера базы данных токенов стоп-слова в неё не включаются и не учитываются при расчёте оценки.

Список токенов разделяется на 3 отдельных списка: список английских токенов, русских токенов и список так называемых «неправильных слов». «Неправильными» называются слова, при написании которых используются буквы различных алфавитов, а также символы, похожие по начертанию на буквы оригинального алфавита языка написания слова (например «рассылк@», первая буква а - из английского алфавита). Этот метод называется «визуальный спу-финг» и также применяется спамерами для обхода фильтров. В данном случае на помощь спамерам

Актуальные проблемы авиации и космонавтики. Информационные технологии

приходит ещё и юникод кодировка, которая предполагает много вариантов идентичных символов (а, а, а, а).

Список «неправильных» слов подвергается обработке. Слова приводятся к «правильному» виду. Символы-заменители удаляются, и взамен них вставляются буквы из алфавита языка написания слова. Данная задача решается в 2 этапа. Сначала выполняется юникод нормализация. Различные варианты идентичных символов приводятся к базовой форме (а, а, а - а). Затем обрабатываются символы, похожие по начертанию на буквы, которые данные символы заменяют (например А - @, Б - Ь, 6).

Последним этапом предобработки является лем-матизация - процесс приведения словоформы к лемме (нормальная форма). В русском языке нормальными формами являются: для существительных - именительный падеж единственного числа, для прилагательных - именительный падеж единственного числа мужского рода, для глаголов, причастий и деепричастий - глагол в инфинитиве. Операция усложняется в случае морфологической омонимии, когда разные слова совпадают по написанию в одной или нескольких формах (омоформы). Примеры: три, трем - формы числительного и глагола, стекло, стих, стали -существительного и глагола и т. п. В таких случаях применяется дополнительно поверхностный синтаксический анализ. В результате синтаксического анализа определяется роль омоформа в предложении и на основании полученной информации определяется корректная нормальная форма. Приведение к нормальной форме позволяет значительно сократить размер базы данных сигнатур, так как в базе будут хранится только нормальные формы.

Эффективность описанной процедуры предобработки данных была проверена на обычном байесов-

ском фильтре. Фильтр был обучен на выборке из 1500 спам писем и 1500 легитимных писем. Применение операции лемматизации позволило сократить размер базы данных сигнатур фильтра с 67638 записей до 42376. Тестовая выборка состояла из 100 спам писем и 100 легитимных писем. Фильтр запускался 2 раза. В первом случае операция предобработки производилась не полностью (выполнялась только токенизация тела письма), во втором случае операция предобработки была выполнена в полном объёме. Результаты представлены в таблице.

Результаты проверки фильтра

Коэффициент обнаружения, % Коэффициент ложных положительных оценок, %

1-й запуск фильтра 88 8,1

2-ой запуск фильтра 91 7,7

Как видно из результатов, качественно выполненный этап предобработки данных позволяет повысить эффективность работы фильтров нежелательной электронной корреспонденции. Дальнейшим направлением работы является совершенствование алгоритма токенизации.

Библиографические ссылки

1. RFC 2822 Internet Message Format // faqs.org: Internet FAQ Archives - Online Education. URL: http://www.faqs.org/rfcs/rfc2822.html (Дата обращения: 05.04.2011).

© Хеирхабаров Т. С., Жуков В. Г., 2011

УДК 004.056

А. С. Хохоля Научный руководитель - В. В. Золотарев Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

МЕТОДИКА ПОДБОРА КОМПЛЕКСА СРЕДСТВ ЗАЩИТЫ ИНФОРМАЦИИ

Изложена проблема подбора систем защиты информации под заданные требования. Предложена методика для осуществления автоматизированного выбора комплекса средств защиты информации, состоящая из способа описания средств защиты информации, алгоритмов подбора в зависимости от задаваемых требований. Описаны способы коммерческого использования данной методики.

Сегодня на рынке средств защиты информации представлено большое количество продуктов. Существуют аналогичные продукты разных фирм производителей, многофункциональные решения, продукты разных ценовых групп. Средства защиты сложно классифицировать, так как рынок товаров данного вида динамично развивается, появляются новые технологии, существует проблема совместимости средств защиты между собой и с автоматизированной системой предприятия.

В итоге конечному потребителю очень сложно подобрать оптимальное средство защиты. Как правило,

при выборе ориентируются на собственные предпочтения, так как анализ всех аналогичных средств защиты затруднен. Сложнее обстоит дело при необходимости подбора комплекса средств защиты, необходимо учитывать их совместимость друг с другом, охват необходимых функций для защиты информации, избегать дублирования функций разными средствами защиты.

Для подбора оптимальных решений по защите информации была разработана следующая методика. Так как средства защиты практически невозможно строго классифицировать и определять характеристи-

i Надоели баннеры? Вы всегда можете отключить рекламу.