Научная статья на тему 'Использование математических методов для систематизации классификаций объектов стандартизации'

Использование математических методов для систематизации классификаций объектов стандартизации Текст научной статьи по специальности «Математика»

CC BY
220
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБЪЕКТЫ СТАНДАРТИЗАЦИИ / ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ / МЕТОДЫ ПОСТРОЕНИЯ ОБЪЕДИНЕННОЙ КЛАССИФИКАЦИИ / ДЕРЕВО ПРИНЯТИЯ РЕШЕНИЙ / OBJECTS OF STANDARDIZATION / HIERARCHICAL CLASSIFICATION / METHODS FOR CREATING A UNIFIED CLASSIFICATION / DECISION TREE

Аннотация научной статьи по математике, автор научной работы — Безруков А. И., Гусятников В. Н., Жилина М. А.

Ключевой проблемой использования нескольких нормативных документов на группу продукции является отсутствие единой классификации. Рассмотрены проблемы применения математических методов обработки данных для создания и оптимизации объединенных классификаций объектов стандартизации для групп однородной продукции.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Безруков А. И., Гусятников В. Н., Жилина М. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHEMATICAL METHODS USED TO SYSTEMATIZE CLASSIFICATION OF STANDARDIZATION OBJECTS

The key problem related with utilization of several normative documents per a group of products is the absence of a unified classification. This article considers the problems dealing with application of mathematical methods for data processing, creation and optimization of a unified classification of standardization objects for groups with homogeneous products.

Текст научной работы на тему «Использование математических методов для систематизации классификаций объектов стандартизации»

УДК 519.6

А.И. Безруков, В.Н. Гусятников, М. А. Жилина ИСПОЛЬЗОВАНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ ДЛЯ СИСТЕМАТИЗАЦИИ КЛАССИФИКАЦИЙ ОБЪЕКТОВ СТАНДАРТИЗАЦИИ

Ключевой проблемой использования нескольких нормативных документов на группу продукции является отсутствие единой классификации. Рассмотрены проблемы применения математических методов обработки данных для создания и оптимизации объединенных классификаций объектов стандартизации для групп однородной продукции.

Объекты стандартизации, иерархическая классификация, методы построения объединенной классификации, дерево принятия решений

A.I. Bezrukov, V.N. Gusyatnikov, M.A. Zhilina MATHEMATICAL METHODS USED TO SYSTEMATIZE CLASSIFICATION OF STANDARDIZATION OBJECTS

The key problem related with utilization of several normative documents per a group of products is the absence of a unified classification. This article considers the problems dealing with application of mathematical methods for data processing, creation and optimization of a unified classification of standardization objects for groups with homogeneous products.

Objects of standardization, hierarchical classification, methods for creating a unified classification, decision tree

Внедрение рыночных отношений в управление экономикой существенно изменило и повысило требования к нормативным документам. Использование стандартов как основы договоров между поставщиками и потребителями, документов, с помощью которых можно разрешить споры и недоразумения по поводу технических характеристик потребовало однозначности понимания положений стандартов. Еще более важным требование однозначности становится при применении стандартов в процедурах сертификации и обеспечения безопасности продукции.

К сожалению, система действующих стандартов не всегда отвечает этим требованиям. Разработанные в разное время разными группами специалистов, регламентирующие различные аспекты технических требований стандарты, как правило, используют свои классификации объектов стандартизации, зачастую мало согласованные друг с другом. Поэтому специалисты, использующие несколько стандартов на одну группу продукции, вынуждены самостоятельно интерпретировать их требования, согласуя классификацию и терминологию, используемые в разных стандартах. Это приводит к неоднозначной интерпретации требований, коллизиям и невозможности договорится по спорным вопросам.

Хорошим решением данной проблемы была бы единая классификация объектов, для которых устанавливаются требования (объектов стандартизации), относящихся к одной группе продукции. Установление однозначных иерархических отношений между классами, используемыми в различных стандартах, позволит согласовать их требования, выявить и устранить противоречия, использовать и развивать систему стандартов как единое целое. Создание такой классификации является сложной методической и информационной проблемой, требующей совместных усилий специалистов и применения современных информационных технологий.

Статья посвящена проблемам применения математических методов обработки данных для создания и оптимизации объединенных классификаций объектов стандартизации для групп однородной продукции.

Иерархическую классификацию, применяемую для идентификации объектов, можно интерпретировать как дерево принятия решений. Вершины этого дерева содержат вопросы относительно признаков объектов, ребра - варианты ответов. Терминальные (концевые) вершины дерева - классы, к одному из которых требуется отнести объект. Последовательность задаваемых вопросов и получаемых ответов - путь отнесения объекта к данному классу.

Назовем правилами отнесения пути, соответствующие терминальным вершинам дерева. Очевидно, что набор правил, хранящихся во всех терминальных вершинах, можно использовать и без построения дерева. Более того, изменение последовательности вопросов не изменит результат классифицирования, но может повлиять на его трудоемкость и устойчивость.

Признаки, используемые для идентификации объектов, как правило, имеют разную природу. Это могут быть ограничения на значения количественной величины, признаки, имеющие определенный или неопределенный набор значений, и даже, описательные признаки. При этом конкретное значение признака часто сопровождается таким количеством допущений и оговорок, что формализация признака становится крайне сложной. Простым выходом из данной ситуации является переход к бинарным признакам. Вместо признака, имеющего n значений, например, «цвет объекта», мы используем n бинарных признаков, например, «цвет красный». Такой признак имеет значение 1 (true) на красных объектах и 0 (false) на всех остальных объектах. Отметим, что бинарный признак «цвет красный» имеет нулевое значение даже на объектах на имеющих признака «цвет», например, для процесса мышления. Таким образом, не уменьшая общности рассмотрения, будем считать, что все объекты, подлежащие идентификации описаны наборами бинарных признаков.

В качестве примера рассмотрим две иерархические классификации шариков. Согласно первой классификации шарики бывают большими или маленькими. Большие шарики могут быть красными или зелеными, маленькие - красными или синими (рис. 1 а). По второй классификации шарики бывают деревянными или пластмассовыми. Деревянные шарики могут быть большими или маленькими, пластмассовые - только большими (рис. 1 б). Эти классификации используют различные, но пересекающиеся наборы признаков. Нам требуется построить иерархическую классификацию, объединяющую исходные классификации.

ГпЛ

Д ) й

Рис. 1. Пример иерархических классификаций

В первой классификации используются как бинарные (большой - маленький) так и не бинарные признаки (красный, зеленый, синий). Переформулируем её, используя только бинарные признаки: Большой, Красный, Зеленый, Синий (табл. 1). Признак «Маленький» нам не понадобится, т.к. его значение однозначно определяется значением признака «Большой». Аналогично построим правила второй классификации (табл. 2).

Таблица 1 Таблица 2

Набор правил классификации 1а Набор правил классификации 1б

Признаки Правила

Большой 1 1 о о

Красный 1 о 1 о

Зеленый о 1 о о

Синий о о о 1

Признаки Правила

Большой 1 о 1

Деревянный 1 1 о

Построение объединенной классификации начнем с объединения правил частных классификаций (табл. 3). Объединив список признаков, мы можем записать каждое правило в виде последовательности их значений (0 или 1). Если признак не используется в данном правиле, примем в качестве его значения число 2. Это значит, что правилу будет соответствовать любое значение данного признака.

Объединенный набор правил позволит нам проанализировать непротиворечивость объединяемых классификаций. Для этой цели мы сгенерируем все возможные комбинации значений признаков и «профильтруем» их правилами. Будем считать, что комбинация допустима, если она соответствует, хотя бы одному из правил. Если реальная комбинация (свойственная одному или нескольким реаль-152

ным объектам) оказалась недопустимой, мы вынуждены сделать вывод, что исходные классификации противоречат друг другу, и прекратить дальнейшие попытки из объединения.

Таблица 3

Объединенный набор правил

Признаки Правила

Большой 1 1 о о 1 о 1

Красный 1 о 1 о 2 2 2

Зеленый о 1 о о 2 2 2

Синий о о о 1 2 2 2

Деревянный 2 2 2 2 1 1 о

Добавим к описанию каждой допустимой комбинации номер класса, к которому нужно отнести объект, соответствующий данной комбинации. Теперь набор допустимых комбинаций можно рассматривать как результат классифицирования, проводимого двумя экспертами, каждый из которых руководствовался своей исходной классификацией. В нашем примере существует шесть допустимых комбинаций (табл. 4).

Таблица 4

Набор допустимых комбинаций

№ Большой Красный Зеленый Синий Деревянный

1 1 1 о о о

2 1 о 1 о о

3 о 1 о о 1

4 1 1 о о 1

б 1 о 1 о 1

б о о о 1 1

В математике существуют методы построения деревьев принятия решений по наблюдениям [1]. Наиболее известными из них являются алгоритмы CHART [2] и C4.5 [3]. Оба алгоритма строят дерево сверху (от корневой вершины), последовательно разбивая множество объектов, соответствующее текущей вершине, на подмножества (подчиненные вершины) так, чтобы объекты с разными значениями выбранного признака попали в разные подмножества. Признак, разбивающий вершины, выбирается в соответствии с критерием алгоритма.

Алгоритм CHART (Classification and Regression Tree) реализует критерий Gini: признак для разбиения исходного множества на два подмножества выбирается так, чтобы получившиеся подмножества были максимально отличны друг от друга.

Алгоритм C4.5 реализует критерий Gain, использующий понятие энтропии: признак разбиения выбирается так, чтобы при спуске по дереву энтропия (неопределенность) состояния системы максимально снижалась.

Используем набор допустимых комбинаций как обучающую выборку и применим к ней каждый из этих алгоритмов. Результат построения объединенной классификации отображен на рис. 2 и 3.

Примечание: при формировании объединенной классификации (рис. 2) использован инструмент rpart из пакета математических программ R [4].

Отметим, что в обоих случаях алгоритмы использовали только три бинарных признака: «большой / маленький», «красный / не красный» и «деревянный / не деревянный». Это свидетельствует о том, что в исходных правилах существуют функциональные зависимости между признаками. Например, малый деревянный шар может быть только синим. Наличие функциональных зависимостей в дальнейшем можно использовать для повышения надежности идентификации.

Рис. 2. Объединенное дерево, построенное по критерию Gini

Рис. 3. Объединенное дерево, построенное по критерию Gain

Проведенные нами эксперименты показывают, что если построение объединенной классификации возможно, оба алгоритма построят ее. Однако, несмотря на внешнюю схожесть критериев, алгоритмы на одних и тех же данных дают разные результаты. Чтобы выбрать лучший из них сформулируем критерии качества объединенной классификации:

1. Удобство интерпретации: вершины объединенной классификации должны хорошо интерпретироваться как группы объектов стандартизации, отдельные объекты или частные случаи объектов стандартизации, используемых в рассматриваемых нормативных документах.

2. Минимум общих затрат на идентификацию объектов. На практике, частота появления объектов с различными комбинациями признаков не одинакова. Будем считать что общие затраты на идентификацию равны сумме произведений количества объектов, отнесенных к каждому классу, на затраты идентификации для этого класса. Из этого следует, что идентифицирующая классификация тем лучше, чем короче идентифицирующие правила для наиболее массовых объектов стандартизации.

К сожалению, первый критерий плохо поддается формализации. На практике приходится использовать оба метода и смотреть, какое дерево проще интерпретировать.

Для оптимизации по второму критерию возможно простое математическое решение. Традиционно, при использовании C4.5, считается, что каждый пример (в нашем случае, комбинация признаков) встречается только один раз. Поэтому вероятности всех состояний считаются равными (1):

Рг = V N (1)

Если частоты комбинаций разные, то вероятности можно подсчитать по формуле (2):

Рг = mJN (2)

Подставляя новые значения вероятностей в критерий Gain, получаем алгоритм, реализующий второй критерий качества классификации.

Например, пусть больших, зеленых не деревянных шариков в пять раз больше, чем шариков любого другого вида. Тогда выгоднее классифицировать зеленые шарики по отдельной ветке. На рис. 4 приведена классификация, учитывающая различие массовостей объектов.

Чтобы использовать объединенное дерево, построим соответствие его вершин и объектов стандартизации. Согласно этому соответствию, припишем вершинам дерева требования, определенные в стандартах. Учитывая, что требования стандарта, установленные к одному объекту, распространяются на все частные случаи этого объекта, мы можем определить полный набор требований к каждой вершине дерева. Для этого надо только спуститься к этой вершине от корня дерева, собрав по пути все требования.

154

Рис. 4. Объединенное дерево, учитывающее высокую массовость больших зеленых шариков

У нас получилась полная система требований нескольких стандартов к одним и тем же объектам. Мы можем проанализировать эти требования на полноту, избыточность и непротиворечивость. На основании подобного анализа разрабатываются предложения по совершенствованию системы стандартов. Но самое массовое и полезное применение объединенных классификационных деревьев -разработка информационных систем в области стандартных требований к однородным группам продукции. Пользователь такой системы проводит идентификацию своей продукции по объединенному классификационному дереву и получает полный список требований к нему, установленных в действующих стандартах. Авторы разработали подобную систему для группы продукции «Изделия косметические гигиенические моющие» [5].

ЛИТЕРАТУРА

1. Izenman A. Modern Multivariate Statistical Techniques. Regression, Classification, and Manifold Learning / A. Izenman. Springer Texts in Statistics, 2008. P. 757.

2. Breiman L. Classification and Regression Trees / L. Breiman, J.H. Friedman, R.A. Olshen. Wadsworth, Belmont, California, 1984. P. 350.

3. Quinlan J. R. C4.5: Programs for Machine Learning / J. R. Quinlan. San Mateo: Morgan Kauf-mann Publishers Inc., 1993. P. 302.

4. R-project / [Электронный ресурс]. Режим доступа: http://www.r-project.org.

5. Свидетельство об отраслевой регистрации разработки № 12169. Зарегистрировано в Отраслевом фонде алгоритмов и программ 20 января 2009 г. «Информационная система «Эксперт КП» / Безруков А.И., Вилкова С.А., Жилина М.А.

Безруков Алексей Иосифович -

кандидат экономических наук, доцент кафедры «Техническая физика и информационные технологии» Энгельсского технологического института (филиала) Саратовского государственного технического университета имени Гагарина Ю.А.

Гусятников Виктор Николаевич -

доктор физико-математических наук, заведующий кафедрой «Прикладная математика и информатика»

Саратовского государственного социальноэкономического университета

Жилина Маргарита Анатольевна -

ассистент кафедры «Техническая физика и информационные технологии» Энгельсского технологического института (филиала)

Саратовского государственного технического университета имени Гагарина Ю.А.

Alexei I. Bezrukov -

Ph.D., Senior Lecturer

Department of Technical Physics and Information Technology,

Engels Institute of Technology (Branch),

Yuri Gagarin State Technical University of Saratov

Viktor I. Gusyatnikov -

Dr. Sc., Assistant

Department of Technical Physics and Information Technology,

Engels Institute of Technology (Branch),

Yuri Gagarin State Technical University of Saratov

Margarita A. Zhilina -

Assistant

Department of Technical Physics and Information Technology,

Engels Institute of Technology (Branch),

Yuri Gagarin State Technical University of Saratov

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Статья поступила в редакцию 22.10.13, принята к опубликованию 15.12.13

i Надоели баннеры? Вы всегда можете отключить рекламу.