ОРГАНИЗАЦИОННЫЕ И ОБЩЕТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ
УДК 004.8
ПРИМЕНЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ
USING DATA MINING METHODS FOR TEXT DOCUMENT CLUSTER ANALYSIS
Чернышова Галина Юрьевна
Chernyshova Galina Yuryevna
доцент, кандидат экономических наук, доцент кафедры информационных систем в экономике, ССЭИ (филиал) ФГБОУ ВО «РЭУ им. Г.В. Плеханова», г. Саратов
Cand. Sc. (Economics), associate professor of the department of information systems in economics, Saratov socio-economic institute (branch) of Plekhanov Russian University, Saratov
e-mail: [email protected]
Овчинников Алексей Николаевич
Ovchinnikov Alexey Nikolayevich
магистрант, ССЭИ (филиал) ФГБОУ ВО «РЭУ им. Г.В. Плеханова», г. Саратов
postgraduate student, Saratov socio-economic institute (branch) of Plekha-nov Russian University, Saratov
e-mail: [email protected]
В статье представлен анализ основных возможностей Text Mining средствами RapidMiner и обработка набора текстовых файлов с целью выделения тематических кластеров.
Ключевые слова: Text Mining, K-means, оценка кластерной модели.
The paper presents an analysis of the main features of Text Mining with the help of RapidMiner and processing of text files in order to find thematic clusters.
Keywords: Text Mining, K-means, cluster model assessment.
Кластерный анализ как элемент разведочного анализа позволяет решать различные прикладные задачи, такие как объединение похожих документов в потоках документов, реферирование. Кластеризация текстовых документов позволяет упростить процесс изучения большого количества документов, сосредоточившись на отдельных представителях кластеров. Кластеризация является вспомогательным элементом для постановки задачи классификации. Наиболее типичные отрасли использования этого подхода: поиск информации и предоставление доступа к информации, корпоративная бизнес-аналитика, корпоративная разведка, национальная безопасность. Применение методов кластеризации позволяет решать практические задачи обеспечения информационной безопасности, например рубрикацию спамовых сообщений.
В настоящее время существует большое количество алгоритмов кластеризации, причем для многих методов применяются различные модификации. Задача разбиения множества объектов на кластеры в принципе предполагает множество решений, в результате возникает проблема выбора метода кластеризации, оценки качества кластеризационной модели. Исследование свойств различных алгоритмов осуществляется применительно к конкретным наборам данных различной природы, в данном случае - для анализа текстовых данных. Конечной целью процесса кластеризации является получение содержательных сведений о структуре исследуемых данных, что обычно является начальным этапом их более детального анализа. В данной работе исследуются особенности алгоритма fc-means, различные модификации которого широко используются в системах интеллектуального анализа данных применительно к текстовым документам.
Производители программного обеспечения в настоящее время предлагают целый ряд инструментальных средств и решений в области текстового анализа Text Mining (RapidMiner Studio, IBM Intelligent Miner for Text, Мегапью-тер Интеллидженс TextAnalyst, SAS Text Miner, Semio Corporation SemioMap, Oracle Text, Knowledge Server). Подобное программное обеспечение представляет собой масштабируемые системы, в которых реализованы различные лингвистические и математические методы анализа текстовых данных. Подобные системы имеют средства визуализации и манипулирования данными, графические интерфейсы, предоставляют доступ к различным источникам данных, реализуются в клиент-серверной архитектуре.
RapidMiner является средой для проведения экспериментов, а также решения задач интеллектуального анализа данных и машинного обучения, в том числе загрузки и преобразования данных (ETL), визуализации, моделирования. Процессы анализа данных представляются произвольно вложенными операторами, описанными в XML-файлах, созданных в графическом интерфейсе пользователя RapidMiner. GUI генерирует XML-файл, который содержит аналитические процессы, применяемые пользователем к данным. В тоже время графический интерфейс может использоваться для интерактивного управления и проверки запущенных процессов. Платформа доступна как в облаке, так и в клиент-серверном варианте. Для коммерческих версий предоставляется возможность работать с большими данными, обеспечивается подключение к различным источникам данных. Платформа легко расширяется с помощью языков сторонних библиотек, BI-платформ и веб-приложений. К преимуществам данной среды можно отнести удобный графический интерфейс, а также возможность генерирования приложений с помощью такого универсального инструмента, как XML-код. По результатам исследования рынка аналитических платформ, этот инструмент помещен в группу лидеров наряду с IBM и SAS для Advanced Analytics Platforms [1].
Одной из распространенных задач применительно к анализу текстов является кластеризация. Кластеризация документов - это процесс обнаружения естественных групп в коллекции документов.
Пусть имеется набор данных Xn = {хг, ..., xn} и функция, определяющая степень сходства объектов, в большинстве случаев это функция расстояния между объектами р(х., х). Требуется разбить последовательность Xn на непересекающиеся подмножества (кластеры) так, чтобы каждый кластер состоял из объектов, близких по метрике р, а объекты разных кластеров существенно отличались. Алгоритм кластеризации - это функция A: X^Y, которая любому объекту xeX ставит в соответствие метку кластера yte Y. Множество Yзаранее не известно, и дополнительной задачей является определение оптимального числа кластеров с точки зрения выбранного показателя качества кластеризации.
При проведении кластерного анализа возникает ряд промежуточных задач:
• выбор метода кластеризации достаточно эффективного для решения определенной задачи, требует достаточного знания алгоритмов и условий их применения;
• выбор характеристик, на основании которых проводится кластеризация (метрики, изначальных значений центров, условий остановки алгоритма);
• выбор числа кластеров. Если нет никаких сведений относительно возможного числа кластеров, необходимо осуществить ряд экспериментов и проанализировать полученные результаты;
• интерпретация результатов кластеризации. Конкретные методы стремятся создавать кластеры определенных форм и свойств, при этом в исследуемом наборе подобных данных их может не быть.
Алгоритмы кластеризации можно по способу разбиения на кластеры подразделить на два типа: иерархические и неиерархические. Классические иерархические алгоритмы предполагают построение полного дерева вложенных кластеров. Иерархические алгоритмы обеспечивают сравнительно высокое качество кластеризации и не требуют предварительного задания количества кластеров.
Неиерархические алгоритмы основаны на оптимизации некоторой целевой функции, определяющей оптимальное в определенном смысле разбиение множества объектов на кластеры [2]. В этой группе выделяются алгоритмы семейства ^-средних (^-means, fuzzy c-means, Густафсон-Кесселя), которые в качестве целевой функции используют сумму квадратов взвешенных отклонений координат объектов от центров искомых кластеров. Кластеры ищутся сферической либо эллипсоидной формы. В канонической реализации минимизация функции производится на основе метода множителей Лагранжа и позволяет найти только ближайший локальный минимум. Алгоритм ^-means традиционно считается одним из наиболее эффективных инструментов для проведения кластеризации текстовых данных, результативность применения этого метода для подобных типов задач подтверждает множество проведенных экспериментов [3].
В k-means осуществляется подход, реализующий поиск кластеров сферической или эллипсоидной формы. Если данные имеют вложенную форму, то применение алгоритмов семейства ^-means проблематично. Также алгоритм плохо работает в случае, когда один кластер значительно больше остальных, и кластеры имеют вложенную структуру. Необходимы дополнительные методы для подбора количества кластеров.
Проблема анализа документов на естественном языке заключается в том, что текстовый документ - это объект, из которого доста-
точно сложно выделить полезную информацию, кроме его размера и метаданных. Чтобы сделать возможным использование алгоритмов кластеризации, которые, как правило, работают только с числовыми данными, необходимо массив текстовой информации преобразовать в числовой вид.
Для решения возникшей проблемы на данный момент существуют две наиболее используемые модели представления текстовых коллекций: древовидная и векторная модели. Древовидная модель является наборами цепочек, следующих друг за другом слов. Такой способ позволяет сформировать подобные цепочки среди различных документов и выявить их схожесть.
Векторная модель документа - это матрица с частотами употребления слов в нем. Пусть задан массив текстовых данных, N - общее количество термов во всем массиве. Пусть T -множество термов в массиве текстовых документов. Тогда каждый документ представляется в виде вектора длины N, в котором всем координатам соответствуют термы из множества T. Значениями элементов вектора могут быть бинарные веса либо коэффициенты, указывающие частоту встречаемости терма в документе.
Все тексты в модели векторного пространства рассматриваются как совокупность составляющих их термов. Данный подход называется «мешок слов» (bag-of-words). Применение векторной модели предполагает выбор метода взвешивания термов. Существует несколько типовых методов задания функции числовой оценки документ - термин.
Частота терма (term frequency, TF) определяет веса терма в зависимости от количества вхождений в документе. Таким образом оценивается важность слова в документе.
Обратная частота документа (inverse document frequency, IDF) представляет собой обратную частоту документа, с которой некоторое слово встречается в документах коллекции, способствует уменьшению веса наиболее
употребительных слов:
m -0'
где | D | - число документов в коллекции документов D;
dt э tt - число документов, в которых имеется t.
TF-IDF (term frequency - inverse document frequency) - статистическая мера, используемая для оценки важности терма в контексте всего множества документов. TF-IDF рассчитывается как произведение от количества вхождений слова в документ и функции от величины, обратной количеству документов:
ТГ - ЮГ(1, (1,0) = х ЮГ(1, В) .
Значение ТБ-ГОР увеличивается для термов, которые наиболее часто встречаются в конкретном документе, но редко употребляются в других документах коллекции.
Модель векторного пространства позволяет с небольшой погрешностью быстро определить ключевые слова в тексте, а соответственно его тематику. Векторная модель, несмотря на свои недостатки, остается наиболее проработанной и часто используется в текстовом анализе.
В инструментальных средствах, предназначенных для текстового анализа, используются дополнительные типы метрик расстояний:
• количественные меры (евклидова мера, мера Чебышева, косинусная мера, мера Жак-кара, манхеттенское расстояние);
• категориальные меры (мера Кульчинско-го, Роджерса-Танимото, Рассел-Рао);
• меры, применяющие дивергенцию Брег-мана (расстояние Итакуры, Кульбака-Лейбле-ра, расстояние Махаланобиса, квадратичная евклидова мера).
Дивергенция Брегмана представляет собой функцию следующего вида:
Яф(х,у)=ф(х)- ф(у) - Уф(у) (х-у), где ф(х) — произвольная строго выпуклая ве-щественнозначная функция, Уф(у) — её производная по у.
II \\2 II ||2
Например, если ф(х)= Ы , Бф(х,у)= ||х - _у|| является квадратичной евклидовой мерой. Аналогичным образом другие виды функции ф позволяют определить другие виды дивергенции Брегмана, такие как расстояние Итаку-ры, Кульбака-Лейблера, расстояние Махала-нобиса [4].
Для решения задачи рубрикации имеет смысл построить кластерные модели, используя различные типы метрик и сравнивать результаты при помощи критериев точности. Таким способом можно определить наиболее пригодный способ вычисления расстояния для данного типа изучаемых данных.
Важным элементом при решении задачи кластеризации является критерий оценки качества, который используется для выбора наилучшей кластерной модели. Критерий оценки качества - численный показатель, он вычисляется по результатам кластеризации, а его суть заключается в количественном выражении качества кластеризации.
Методы оценки качества кластерной модели делятся на внешние, внутренние и относительные. К внешним относятся метрики, которые при оценке качества используют какую-либо уже известную информацию о структуре
кластеров, существующей в рассматриваемом множестве. Как правило, такие метрики применяются при оценке эффективности работы алгоритма кластеризации, когда в качестве тестового множества используется какое-либо множество данных с известной структурой классов. К внутренним относятся метрики (индекс Рэнда, Жаккара, Folkes-Mallows index, -F-мера), которые при оценке используют только ту информацию, которую можно получить, опираясь на множество данных. Относительные методы (индекс Данна, Дэвиса-Болдина, индекс оценки силуэта, Maulik-Bandyopadhyay index, Calinski-Harabasz index) оценивают качество, сравнивая несколько кластерных структур между собой, не имея априорной информации и принимая в расчет только сведения о кластерной структуре и кластеризуемом множестве [5].
Относительные методы широко применяются в том числе в пакетах прикладных программ кластерного анализа. Однако следует отметить, что они не общего назначения, полезны только в определенных ситуациях [6]. Например, индекс Данна вычислительно сложен и плохо применим для анализа зашум-ленных данных. Область его применения ограничивается идентификацией чистых кластеров в наборах данных, содержащих относительно небольшое количество элементов. Индекс Дэвиса-Болдина дает хорошие результаты для различных данных. Тем не менее, он не предназначен для обнаружения перекрывающихся кластеров. Индекс оценки силуэта не может быть применен для вложенных кластеров. Индекс Maulik-Bandyopadhyay в значительной степени зависит от параметров, задаваемых пользователем.
Критерий Дэвиса-Болдина основан на соотношении внутрикластерного и межкластерного расстояния. Индекс Дэвиса-Болдина определяется по формуле:
1 к
DB = —У max{ D },
и*-1 i * ■ 1 4J
к
i * j
где D, t = -
'i + d<) -J
-- , di - среднее расстояние
d
между точками кластера г и центроидом кластера г; ( - среднее расстояние между точками кластера г и центроидом кластера у; ^ - евклидово расстояние между центроидами кластеров г и у.
Индекс Дэвиса-Болдина определяет среднюю схожесть между кластером ^ и наиболее близким к нему кластером. Поскольку подразумевается, что кластеры в структуре значительно отличаются друг от друга, наилучшей
i=1
будет структура с минимальным значением индекса [7].
Внешние методы оценки, основанные на эталонных наборах, можно рассматривать как стандарт для оценки. Данный подход позволяет определить, насколько близко кластерная модель соответствует заданным классам.
Наиболее простыми характеристиками при оценке кластерной модели могут выступать такие меры схожести, как точность (precision), полнота (recall), заимствованные из информационного поиска.
Пусть контрольная выборка состоит из M объектов, из них m объектов правильно распределились по кластерам. Точность кластеризации документов по кластеру вычисляется как отношение правильно приписанных к кластеру документов к общему количеству документов, приписанных кластеру:
\u n v|
p(u) = ■
\и\
и П V
где - правильно приписанные доку-
менты; |и - общее количество документов, приписанных кластеру.
Полнота кластеризации документов вычисляется как отношение правильно приписанных документов к общему количеству документов, отнесенных к кластеру:
\и П у\
г(и) -■
V
где \и ^ У - правильно приписанные документы; - общее количество документов, отнесенных к кластеру.
Р-мера представляет собой гармоническое среднее между точностью и полнотой.
В качестве инструмента для решения задачи кластеризации была выбрана платформа RapidMiner Studio 6.002, так как она является наиболее универсальным инструментом, в последней версии присутствует множество современных алгоритмов, инструментариев и подходов, которые могут потребоваться для решения задач текстового анализа [8].
Для решения задачи рубрикации имеет смысл построить кластерные модели, используя различные типы метрик и сравнивать результаты при помощи критериев точности. Таким способом можно определить наиболее пригодный способ вычисления расстояния для данного типа изучаемых данных.
Исходные данные представлены набором текстовых документов на естественном языке новостной ленты goarticles.com. Текстовые документы содержат от 420 до 650 слов. Для оценки кластерной модели документы экспертным путем были сгруппированы в четыре тематических категории (образование, веб-дизайн, недвижимость, автомобили).
Для импорта коллекции текстовых документов применяется специальный оператор загрузки Loop Files. В ходе анализа текстовых данных следует разбить содержание всех документов на отдельные слова. Оператор Process Documents выполняет предварительную обработку текста, создавая «мешок слов», а также вычисляет частоту каждого слова, представляя данные в виде модели векторного пространства.
В этом процессе оператор Process Documents состоит из 6 подпроцессов (рис. 1), которые последовательно связаны:
• выделение небуквенных символов (Tokenize Non-letters (Tokenize));
Рис. 1. Предварительная обработка текстовых документов
• токенизация на основе лексического анализа (Tokenize Linguistic (Tokenize));
• фильтрация стоп-слов (Filter Stopwords);
• фильтрация слов по длине (Filter Tokens (by Length));
• выделение основы слова (Stem);
• приведение текста к одному регистру (Transform Cases).
Операторы Tokenize Non-letters (Tokenize) и Tokenize Linguistic (Tokenize) созданы путем добавления в подпроцесс оператора Tokenize, но с выбором разных параметров. Первый оператор разбивает на лексемы, основанные не на буквах, тогда как второй разбивает на лексемы, основываясь на лингвистических предложениях в рамках того или иного языка.
Оператор Filter Stopwords удаляет все слова, которые имеют длину менее 3 знаков или больше 25. Stem (Porter) выполняет процесс нахождения основы слова. Transform Cases преобразует все символы в выборке в нижний регистр.
Часто возникает необходимость выбора атрибутов перед применением некоторых операторов, особенно для больших и сложных наборов данных. Оператор Select Attributes позволяет выбрать нужные атрибуты благодаря различным типам фильтров. Только выбранные атрибуты будут на выходе оператора, а остальные будут удалены. Это преобразование необходимо для следующего оператора k-means, который выполняет кластеризацию только на основе числовых значений.
Для кластеризации текстовых коллекций используется алгоритм k-means. В RapidMiner существуют различные операторы, способные оказать помощь в подборе оптимального значения параметра к и оценке качества кластеризации.
Для решения этой проблемы на основе метода fc-means построен новый процесс (рис. 2), задача которого оценить качество кластеризации путем перебора различного числа кластеров.
Оператор Cluster Distance Performance используется для оценки эффективности кластеризации. Этот оператор предоставляет список значений критериев эффективности, в том числе вычисление значений индекса Дэвиса-Болдина.
Применение различных способов определения расстояний сопровождалось анализом модели на тестовом множестве. Результаты этого процесса с полученными значениями индекса Дэвиса-Болдина для различного количества кластеров приведены в табл. 1.
Оптимальное количество кластеров соответствует наименьшему значению индекса Дэ-виса-Болдина, выделенному в табл. 1. Однако верное количество кластеров fc=4, определенное экспертным путем для тестового набора, было получено при использовании дивергенции Брегмана в качестве метрики.
Полученное распределение документов по кластерам сравнивается с экспертным распределением объектов по классам. Результаты оцениваются с помощью стандартных характеристик точности, полноты и Fi-меры (табл. 2). Совпадение результатов кластеризации с данными темами может служить объективным критерием качества построенной модели.
Алгоритм fc-средних с использованием как дивергенции Брегмана, так и стандартной евклидовой меры дает хорошие результаты в задаче кластеризации статей новостного потока. Однако существенным недостатком метода является подбор оптимального числа кластеров.
Рис. 2. Процесс оценки кластерной модели
Значения индекса Дэвиса-Болдина
Таблица 1
Количество кластеров к Тип метрики
Дивергенция Брегмана Евклидова мера Мера Чебышева Манхеттенское расстояние
2 4,77 4,74 4,95 4,83
3 4,38 4,40 4,46 4,41
4 3,91 3,91 4,24 4,51
5 4,51 4,40 4,29 4,45
6 4,34 3,66 4,53 4,54
7 4,50 4,55 4,43 4,62
8 4,29 3,91 4,04 4,48
9 3,94 4,14 3,92 4,18
10 4,23 4,07 4,03 4,21
Таблица 2 Оценка качества кластеризации
Метрика Точность Полнота F-мера
Дивергенция Брегмана 0,98 0,99 0,98
Евклидова мера 0,98 0,99 0,98
Мера Чебышева 0,77 0,74 0,75
Манхеттенское расстояние 0,76 0,82 0,79
Для подбора оптимального количества кластеров наиболее применимым оказался подход с использованием дивергенции Брегмана (рис. 3).
Предложенная методика проведения кластеризации текстовых документов средствами RapidMiner включает применение различных способов определения расстояний. Применение в качестве метрики дивергенции Брегмана позволило определить оптимальное количество кластеров, используя индекс Дэвиса-Бол-дина. При кластерном анализе методом А:-шеапз использование в качестве меры рас-
стояния дивергенции Брегмана обеспечило достаточную точность размещения текстов по экспертным классам.
Последние версии инструментального средства RapidMiner на основе данной методики позволяют аналитику достаточно быстро без трудоемкой разработки создать и провести оценку кластерной модели, осуществить подбор количества кластеров. Кроме того, результаты полученного распределения документов по кластерам можно использовать для построения дерева решений и решения задачи классификации.
Рис. 3. Выбор оптимального количества кластеров на основе индекса Дэвиса-Болдина
Библиографический список (References)
1. Herschel G., Linden A., Kart L. Magic Quadrant for Advanced Analytics Platforms. URL: http://www. gartner.com/technology/reprints.do?id=l-2AHPOUo&ct=l50225 &st=sb (дата обращения 03.10.2015).
2. Koteeswaran S., Visu P. and Janet J. (2012) A review on clustering and outlier analysis techniques in Data Mining // Am. J. Applied Sci., 9. P. 254 - 258.
3. Andrews N.O. and Fox E.A. (2007) Recent Developments in Document Clustering. Department of Computer Science, Virginia Tech, Blacksburg, VA 24060 in October 16, 2007.
4. Banerjee A., Merugu S., Dhillon I., and Ghosh J. (2005) Clustering with Bregman divergences // JMLR, 6. P. 1705 - 1749.
5. Saitta S., Raphael B., and Smith I. F. C. (2007) "A bounded index for Cluster validity," in Proceedings of the 5th International Conference on Machine Learning and Data Mining in Pattern Recognition. Springer. P. 174 -187.
6. Maulik U., Bandyopadhyay S. (2002) Performance evaluation of some clustering algorithms and validity indices // IEEE Transactions Pattern Analysis Machine Intelligence. Vol. 24 (12). P. 1650 - 1654.
7. Davies D.L., and Bouldin D.W. (1979) A Cluster Separation Measure // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. PAMI-1. № 2. P. 224 - 227.
8. Hofmann M., Klinkenberg R. (2013) RapidMiner: Data Mining Use Cases and Business Analytics Applications // Chapman & Hall. CRC Data Mining and Knowledge Discovery Series.
УДК 004.056:37
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, ОБЕСПЕЧИВАЮЩИЕ РАБОТУ И БЕЗОПАСНОСТЬ СИСТЕМ ЭЛЕКТРОННОГО ДИСТАНЦИОННОГО ОБУЧЕНИЯ
INFORMATION SUPPORT FOR THE OPERATION AND SAFETY OF DISTANCE LEARNING PROGRAMMS
Струбалин Павел Владимирович
Strubalin Pavel Vladimirovich
кандидат экономических наук, доцент, ССЭИ (филиал) ФГБОУ ВО «РЭУ им. Г.В. Плеханова», г. Саратов
Cand.Sc.(Economics), associate professor, Saratov socio-economic institute (branch) of Plekhanov Russian University, Saratov
e-mail: [email protected]
Фролова Наталья Борисовна
Frolova Natalya Borisovna
кандидат физико-математических наук, доцент, Саратовский государственный технический университет им. Гагарина Ю.А., г. Саратов
Cand.Sc.(Physics and Mathematics), associate professor, Gagarin Saratov State Technical University, Saratov
e-mail: [email protected]