УДК 519.2
А.И. Безруков, М.А. Жилина, А.М. Кац
ИСПОЛЬЗОВАНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ ДЛЯ ОЦЕНКИ КАЧЕСТВА КЛАССИФИКАЦИИ ОБЪЕКТОВ СТАНДАРТИЗАЦИИ
В статье рассматриваются особенности построения классификации объектов стандартизации и статистические методы оценки её качества. Для выбора адекватных методов оценки качества проведен обзор существующих методов классифицирования и дан сравнительный анализ их применимости для решения поставленной задачи.
Критерии качества классификации, объекты стандартизации,
экспертиза
A.I. Bezrukov, M.A. Zhilina, A.M. Katz USE OF MATHEMATICAL METHODS FOR A QUALITY RATING OF STANDARDIZATION’S OBJECTS CLASSIFICATION
The article devoted the problems of quality's measure of classification the standardization's objects. The set of statistical classification's methods was
considered. For each method made the comparative analysis applicability for the decision of given task.
Criteria of quality of classification, Objects of standardization, Examination
Любая экспертная система базируется на классификации объектов предметной области. Качество системы и эффективность её использования во многом зависит от качества применяемой классификации. Разработкой и ведением классификации занимаются
высококвалифицированные специалисты. Например, для сертификации однородной группы продукции необходима иерархическая классификация объектов стандартизации [1], удовлетворяющая следующим требованиям: единство понимания, универсальность и
возможность логического вывода [2]. Кроме того, такая классификация должна содержать все объекты, упомянутые во всех нормативных документах на данную группу продукции. В процессе разработки классификации экспертам зачастую приходится решать нетривиальные информационные задачи, поэтому хорошим подспорьем в их работе будут являться специальные математические методы, позволяющие построить варианты классификации и оценить их качество.
Чтобы формализовать требования к этим инструментариям, рассмотрим
существующие математические методы построения классификации и критерии качества, используемые в каждом из этих методов.
С математической точки зрения классификация - это отображение множества объектов Q в пространство меток классов Y (1):
F : W® Y (1)
Объекты множества Q могут быть описаны набором количественных или качественных характеристик, а также иметь смешанную природу. Пространство меток может иметь дискретную одноуровневую (в частном случае дихотомию), иерархическую (строгую
иерархию или лесной порядок1) структуру или быть непрерывной. Отображение может быть однозначным, когда каждому подмножеству соответствует одна и только одна метка, или неоднозначным.
Особенностями классификации объектов стандартизации являются:
1. однозначность отображения;
2. иерархическая структура множества меток;
3. наследование требований;
4. смешанный характер описания объектов.
Кроме того, при создании классификации объектов стандартизации необходимо учитывать требования, определяющие предсказательную способность и удобство использования классификации:
а) объекты внутри одной групп должны быть более схожи, чем объекты из разных
групп;
б) при прочих равных условиях распределение объектов по группам должно быть равномерно;
в) при классификации конкретных видов продукции количество шагов, необходимое для однозначной классификации, должно быть небольшим.
В случае одноуровневой классификации для оценки её прогностической способности предлагается разделить исходное множество объектов на обучающую и тестовую выборки [3]. На основании обучающей выборки строится формальная классификация, качество которой определяется на тестовой выборке. В роли характеристик качества классификации для каждой группы используются нормированные уровни ошибок первого (ложный пропуск) и второго рода (ложное обнаружение) (2):
nFN = — *100%; nFP
NP
nTN = — *100%; nTP
Nn
где N - количество объектов в тестовом наборе,
Np - количество «положительных» объектов, которые должны быть отнесены к первому классу,
Nn - количество «отрицательных» объектов, которые не должны быть отнесены к этому классу,
FN - количество ложных пропусков («положительные» объекты, не отнесенные к первому классу),
FP - количество ложных обнаружений («отрицательные» объекты, отнесенные к первому классу).
TP=Np-FN и TN=Nn-FP - количество верных пропусков и верных обнаружений.
Качество всей классификации можно оценить как обобщенную оценку рисков первого и второго рода.
Формулы (2) не зависят в явном виде от количества объектов в тестовом наборе, поэтому они могут быть удобными оценками качества классификации для одноуровневых задач. Если правила классифицирования F зависят от некоторого параметра х, можно построить характеристическую кривую (ROC), позволяющую оценить наилучшее значение параметра [3].
Долю объектов, которую следует использовать в обучающей выборке, можно оценить из следующих соображений. Если имеется N объектов, то вероятность выбора одного из них
FP
: -----*100%,
Nn
(2)
TP
------*100%,
Np
1 В отличие от строгой иерархии лесной порядок допускает несколько основных вершин.
Pf¡ыб=1/N, а Pневыб=1- 1/N. Вероятность, что объект не будет выбран N раз, вычисляется по формуле (3).
P
не выбран N раз
с 1Л"
1 —
N
(3)
Иш
N
1---
N
Таким образом, при росте N вероятность использования каждого из векторов данных (хотя бы в одной из итераций) стремится к 63.2%.
Рассматриваемые ниже методы дисперсионного и кластерного анализа используются в большинстве случаев в описательной стадии исследования, когда исследователь еще не имеет каких-либо априорных гипотез относительно классов [4].
В случае создания линейного классификатора2 с дискретным пространством меток классов У , для сокращения размерности пространства и снижения влияния корреляции между признаками перед последующей классификацией часто используется линейный дискриминантный анализ (ЛДА), а так же связанный с ним линейный дискриминант Фишера [5].
Если же пространство меток классов непрерывно - применяется дисперсионный и регрессионный анализ.
Дискриминантный анализ позволяет осуществить переход из п-мерного пространства дискриминантных переменных в д-мерное пространство канонических дискриминантных функций, обеспечивающих максимальное отличие классов в этом пространстве [6, 7, 8]. Качество классификации определяется степенью различий между объектами, степенью разброса внутри классов и мерой различия между классами. Например, критерием качества классификации может быть доля остаточной дисперсии [9].
В [10] предлагается оценивать качество классификации по следующим характеристикам: однородности классифицируемых объектов внутри групп и устойчивости классификации. Опираясь на аппарат, разработанный в [11], авторы предлагают строить показатель качества для многомерных классификаций как суммарную частоту встречаемости однородных кластеров по каждому из информативных показателей.
Кластерный анализ предполагает наличие меры близости между классифицируемыми объектами. Если такая мера определена на множестве объектов, описываемых качественными характеристиками или смешанным набором характеристик, кластерный анализ применим и к ней.
Применение кластерного анализа позволяет выделить группы в заданной (обучающей) совокупности элементов путем итерационного слияния наиболее близких кластеров, то есть группировать данные вокруг нескольких центров в пространстве признаков [6, 7, 8]. При этом применяются следующие группы методов:
• алгоритмы таксономии - кластер определяется, как совокупность элементов, лежащих на расстоянии не больше г от центра (внутри гиперсферы радиуса г или гиперкуба со сторонами 2г). При этом в качестве центра выбирается один из элементов и формируется кластер из элементов, удаленных от него не далее чем на г. К проблемам таксономических разбиений относится неустойчивость классификации элементов, находящихся на периферии гиперкубов (в случае разбиения на гиперкубы) или неполного покрытия множества объектов в случае разбиения на гиперсферы.
• методы, основывающиеся на последовательной агломеративной процедуре.
2 Для линейного классификатора Р является линейной функцией параметров объекта. 184
Все эти методы дают оптимальное решение в классе меньшем, чем класс всех возможных разбиений (кластеров), однако достоинством этих методов является простота вычислительной процедуры и алгоритмов.
Для случая одноуровневой классификации используется метод К средних. Он позволяет строить ровно К различных кластеров, расположенных на возможно больших расстояниях друг от друга. С вычислительной точки зрения этот метод рассматривается как дисперсионный анализ «наоборот», в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга [4]. В кластеризации методом К средних можно перемещать объекты из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа.
В [12-15] развита теория алгоритмов иерархической или древовидной кластеризации (иногда называемая «метод объединения»). На основании меры сходства между объектами последовательно применяется цикл из трех операций:
1) находятся пары наиболее близких объектов А и В;
2) объекты А и В объединяются в один кластер с присвоением ему нового имени С и определением для С набора свойств, позволяющих вычислить меру близости с другими объектами;
3) вычисляются расстояния от нового кластера до каждого другого объекта или кластера.
Ключевой проблемой для данного алгоритма является определение набора свойства нового кластера. В случае количественных признаков классическим приемом является вычисление нового свойства как линейной комбинации аналогичных свойств объектов, вошедших в кластер. При этом весовые коэффициенты определяются из характера задач.
Определение расстояния между кластерами обычно происходит по следующим правилам объединения или связи [4]:
• Одиночная связь или метод ближайшего соседа - определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Результирующие кластеры представлены в виде длинных «цепочек».
• Полная связь или метод наиболее удаленных соседей - определяется наибольшее расстояние между любыми двумя объектами в различных кластерах. Метод непригоден, если кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным».
• Невзвешенное попарное среднее - вычисляется среднее расстояние между всеми парами объектов в кластерах. Метод эффективен независимо от «формы» формирующихся кластеров.
• Взвешенное попарное среднее - используется, когда предполагаются неравные размеры кластеров. При вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента.
• Невзвешенный центроидный метод - определяется расстояние между центрами тяжести кластеров.
• Взвешенный центроидный метод или медиана - предпочтителен, если имеются (или подозреваются) значительные отличия в размерах кластеров. При вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них).
• Метод Варда - используются методы дисперсионного анализа: минимизируется сумма квадратов для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. К недостаткам метода можно отнести стремление создавать кластеры малого размера.
В случае, когда ожидается, что и наблюдения, и переменные одновременно вносят вклад в обнаружение осмысленных кластеров, используется (относительно редко) «двувходовое объединение» [16].
Еще одним преимуществом иерархической кластеризации является возможность построения многоуровневой классификации. Таким образом, построение классификации снизу вверх дает возможность осмыслить получившийся результат и построить иерархическую классификацию, позволяющую предсказать свойства младших классов по свойствам старших.
Для оценки устойчивости авторы [10] предлагают последовательно использовать иерархическую кластеризацию и метод К средних. С помощью первого метода устанавливается число кластеров и отнесение статистических объектов к кластерам, т.е. получают кластерное решение, которое затем подлежит верификации с помощью итеративного кластерного анализа по методу К средних, где число кластеров К принимается по результатам иерархического кластерного анализа. Таким образом, показателем устойчивости кластерного решения, а следовательно, и качества классификации, будет доля (частость) совпадений отнесения статистических объектов к кластерам по обоим методам.
Одним из старейших в теории классификации является статистический байесовский подход, который лежит в основе многих методов классификации с обучением [17]. При условии, что плотности распределения каждого из классов известны, удаётся в явном виде выписать алгоритм классификации с минимальной вероятностью ошибок отнесения к классам. На практике плотности классов приходится оценивать (восстанавливать) по обучающей выборке, при этом байесовский алгоритм перестаёт быть оптимальным.
В случае оптимизации иерархической структуры классификации эффективным методом является дерево принятия решений. Это дерево, исходной вершине которого соответствует исследуемая ситуация, а листьям - принятые решения. Остальные вершины содержат вопросы, ответы на которые определяют направление спуска по дереву. Каждое ребро, выходящее из этой вершины, помечается выбранным ответом. Задача классификации в данном случае сводится к формированию оптимального дерева принятия решений. В роли критерия качества в [18] используется энтропия:
ттг л оч т, т
Н (Л 5) = -£—1^— (4)
7=1 п п
где п - число элементов в множестве А;
тг- - число элементов, на которых признак 5 принимает значение Si.
Чем быстрее уменьшается исходная энтропия при спуске по дереву, тем оно лучше. Этот критерий позволяет выбрать оптимальную последовательность вершин (вопросов).
При построении иерархической классификации объектов стандартизации у эксперта, как правило, возникает несколько вариантов её организации. От выбора варианта зависит удобство применения классификации. В соответствии с описанным методом, для каждого класса (объекта стандартизации А, описываемого набором признаков 5) формулируются вопросы и списки возможных ответов, по которым происходит отнесение продукции к данным объектам стандартизации.
Выводы: рассмотренные методы классификации систематизированы в табл. 1. Курсивом выделены основания классификации, обычным шрифтом - примеры методов классификации.
Интуитивно качество классификации объектов стандартизации определяется наименьшим количеством вопросов, которые требуется задать, и наибольшей значимостью каждого из них.
Таблица 1
Классификация методов классификаций
Структура пространства меток Тип характеристик
Количественн ые Качественные Смешанные
Одноуровневые непрерывные Многомерная регрессия - -
дискретные Факторный анализ -
Кластерный анализ
Многоуровневые иерархические Дерево принятия решений
«лес»
На наш взгляд, наиболее удобным для оценки качества классификации объектов стандартизации является метод дерева принятия решений. Метод применим к описаниям объектов стандартизации любого вида (количественным, качественным или смешанным), базируется на иерархической структуре, обеспечивает наследование требований и однозначность классифицирования. Заложенный в него принцип максимального изменения энтропии при спуске по дереву позволяет обеспечить наибольшую информативность вопросов, задаваемых при переходе на следующий уровень в процессе классификации конкретных видов продукции.
ЛИТЕРАТУРА
1. Жилина М.А., Безруков А.И. Информационная модель системы требований к безопасности и качеству косметической продукции // Математические методы в технике и технологиях - ММТТ-21: сб. тр. XXI Междунар. науч. конф. СГТУ. Саратов, 2008. Т. 2. С. 297-299.
2. Жилина М.А. Разработка информационной модели системы требований к продукции на базе действующей документации и нового технического регламента // Компьютерные науки и информационные технологии: материалы Междунар. науч. конф. Саратов, 1-4 июля 2009 г. СГУ. Саратов, 2009. С. 97-99.
3. Вежневец В. Оценка качества работы классификаторов. Режим доступа: http://cgm.computergraphics.ru/content/view/106 . Печатный аналог: Компьютерная графика и мультимедиа. 2006. №4(1).
4. Дисперсионный и кластерный анализ. Режим доступа: http://www.statsoft.ru/home/textbook/modules/stcluan.html
5. Fisher R.A. The Use of Multiple Measurements in Taxonomic Problems // Annals of Eugenics. 1936. T. 7. С. 179-188.
6. Факторный, дискриминантный и кластерный анализ: пер. с англ. / Д.О. Ким и др. М.: Финансы и статистика, 1989. 215 с.
7. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. С. 128.
8. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, распознавание образов. М.: Статистика, 1977. 144 с.
9. Безруков А.И., Жилина М.А. Математическая модель оценки качества классификации объектов стандартизации // Компьютерные науки и информационные технологии: материалы Междунар. науч. конф. Саратов, 1-4 июля 2009г. СГУ. Саратов, 2009. С. 37-40.
10. Титов В.А., Марков С.А.. Совершенствование методов классификации регионов по показателям структуры инвестиций в основной капитал (на примере центральной России) // Транспортное дело России. 2008. №2. С. 28-33.
11. Титов В.А., Марков С.А. Методы многомерного анализа в исследовании региональных инвестиционных процессов // Наука и образование: межвуз. сб. науч. тр. ИИЦ МГУДТ. Москва, 2006. Вып.№4 «Общество и экономика». С. 73-76.
12. Айвазян С.А., Бежаева З.И., Староверов О.В.. Классификация многомерных наблюдений. М.: Статистика, 1974. 240 с.
13. Жамбю М. Иерархический кластер-анализ и соответствия. Пер. с франц. Б.Г.Миркина. М.: Финансы и статистика, 1988. 342 с.
14. Классификация и кластер / под ред. Дж. Вэн Райзина; пер. с англ. П.П.Кольцова; под ред. Ю.И.Журавлева. М.: Мир, 1980. 388 с.
15. Репин С.В., Шеин С.А. Математические методы обработки статистической информации с помощью ЭВМ: пособие для исследователей гуманит. спец. Минск: Университетское, 1990. 128 с.
16. Multiple-factor Analysis (Chicago: University Press). Хартиган (Hartigan J.A.) 1975.
17. Воронцов К.В. Комбинаторный подход к проблеме переобучения // Докл. всеросс. конф. Математические методы распознавания образов-14. М.: МАКС Пресс, 2009. С. 18-21.
18. Murthy, S. Automatic construction of decision trees from data: A Multi-disciplinary survey. 1997.
Безруков Алексей Иосифович -
кандидат экономических наук, доцент кафедры «Техническая физика и информационные технологии», Энгельсский технологический институт, филиал Саратовского государственного технического университета
Жилина Маргарита Анатольевна -
ассистент кафедры «Техническая физика и информационные технологии», Энгельсский технологический институт, филиал Саратовского государственного, технического университета
Кац Альберт Маркович -
доктор физико-математических наук, профессор, заведующий кафедрой «Техническая физика и информационные технологии», Энгельсский технологический институт, филиал Саратовского государственного технического университета
Bezrukov Alexei Iosifovich -
Candidate of Economic Sciences, Senior Lecturer of the Department “Technical Physics and Information Technologies”, Engels Technological Institute (Branch) of Saratov State Technical University
Zhilina Margaret Anatol’evna -
Assistant of the Department “Technical Physics and Information Technologies”, Engels Technological Institute (Branch) of Saratov State Technical University
Katz Albert Markovich -
Doctor of Physical and Mathematical Sciences, Professor, Head of the Department “Technical Physics and Information Technologies”, Engels Technological Institute (Branch) of Saratov State Technical University
Статья поступила в редакцию 01.03.2011, принята к опубликованию 08.08.2011