ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
УДК 519.2
А.И. Безруков, М.А. Жилина, А.М. Кац ИСПОЛЬЗОВАНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ ДЛЯ ОЦЕНКИ КАЧЕСТВА КЛАССИФИКАЦИИ ОБЪЕКТОВ СТАНДАРТИЗАЦИИ
Рассматриваются особенности построения классификации объектов стандартизации и статистические методы оценки её качества. Для выбора адекватных методов оценки качества проведен обзор существующих методов классифицирования и дан сравнительный анализ их применимости для решения поставленной задачи.
Критерии качества классификации, объекты стандартизации, экспертиза.
A.I. Bezrukov, M.A. Zhilina, A.M. Kats
MATHEMATICAL METHODS USE FOR A QUALITY RATING OF CLASSIFICATION OBJECTS STANDARDIZATION
The article is devoted to the problems of quality measures of classification of standardization objects. The set of statistical classification methods was considered. For each method the comparative analysis applicability for the decision of given task is done.
Criteria of quality of classification, objects of standardization, examination.
Любая экспертная система базируется на классификации объектов предметной области. Качество системы и эффективность её использования во многом зависят от качества применяемой классификации. Разработкой и ведением классификации занимаются высококвалифицированные специалисты. Например, для сертификации однородной группы продукции необходима иерархическая классификация объектов стандартизации [1], удовлетворяющая следующим требованиям: единство понимания, универсальность и возможность логического вывода [2]. Кроме того, такая классификация должна содержать все объекты, упомянутые во всех нормативных документах на данную группу продукции. В процессе разработки классификации экспертам зачастую приходится решать нетривиальные информационные задачи, поэтому хорошим подспорьем в их работе будут специальные математические методы, позволяющие построить варианты классификации и оценить их качество.
Чтобы формализовать требования к этим инструментариям, рассмотрим существующие математические методы построения классификации и критерии качества, используемые в каждом из этих методов.
С математической точки зрения, классификация - это отображение множества объектов О в пространство меток классов У:
Г : У . (1)
Объекты множества О могут быть описаны набором количественных или качественных характеристик, а также иметь смешанную природу. Пространство меток может иметь дискретную одноуровневую (в частном случае дихотомию), иерархическую (строгую иерархию или лесной порядок1) структуру или быть непрерывной. Отображение может быть однозначным, когда каждому подмножеству соответствует одна и только одна метка, или неоднозначным.
Особенностями классификации объектов стандартизации являются:
1) однозначность отображения;
2) иерархическая структура множества меток;
3) наследование требований;
4) смешанный характер описания объектов.
Кроме того, при создании классификации объектов стандартизации необходимо учитывать требования, определяющие предсказательную способность и удобство использования классификации:
а) объекты внутри одной группы должны быть более схожи, чем объекты из разных
групп;
б) при прочих равных условиях распределение объектов по группам должно быть равномерным;
в) при классификации конкретных видов продукции количество шагов, необходимое для однозначной классификации, должно быть небольшим.
В случае одноуровневой классификации для оценки её прогностической способности предлагается разделить исходное множество объектов на обучающую и тестовую выборки [3]. На основании обучающей выборки строится формальная классификация, качество которой определяется на тестовой выборке. В роли характеристик качества классификации для каждой группы используются нормированные уровни ошибок первого (ложный пропуск) и второго рода (ложное обнаружение):
ГЫ ГР
пГЫ = —- • 100%; пГР =------100%;
Ыр Ып
(2)
ТЫ ТР
пТЫ = ——100%; пТР =---------100%,
Ып Ыр
где N - количество объектов в тестовом наборе; Ыр - количество «положительных» объектов, которые должны быть отнесены к первому классу; Ып - количество «отрицательных» объектов, которые не должны быть отнесены к этому классу; ГЫ -количество ложных пропусков («положительные» объекты, не отнесенные к первому классу), а БР - ложных обнаружений («отрицательные» объекты, отнесенные к первому классу). ТР = Ыр-ГЫ и ТЫ = Ып-ГР - количество верных пропусков и верных обнаружений.
Качество всей классификации можно оценить как обобщенную оценку рисков первого и второго рода.
Формулы (2) не зависят в явном виде от количества объектов в тестовом наборе, поэтому они могут быть удобными оценками качества классификации для одноуровневых задач. Если правила классифицирования Г зависят от некоторого параметра х, можно построить характеристическую кривую (ЯОС), позволяющую оценить наилучшее значение параметра [3].
Долю объектов, которую следует использовать в обучающей выборке, можно оценить из следующих соображений. Если имеется Ы объектов, то вероятность выбора
1 В отличие от строгой иерархии лесной порядок допускает несколько основных вершин.
одного из них Рвыб = 1/Ж, а Рневыб = 1-1/Ж Вероятность, что объект не будет выбран N раз, вычисляется по формуле
Таким образом, при росте Ы вероятность использования каждого из векторов данных (хотя бы в одной из итераций) стремится к 63,2%.
Рассматриваемые ниже методы дисперсионного и кластерного анализа используются в большинстве случаев в описательной стадии исследования, когда исследователь еще не имеет каких-либо априорных гипотез относительно классов [4].
В случае создания линейного классификатора2 с дискретным пространством меток классов У для сокращения размерности пространства и снижения влияния корреляции между признаками перед последующей классификацией часто используется линейный дискриминантный анализ (ЛДА), а также связанный с ним линейный дискриминант Фишера [5].
Если же пространство меток классов непрерывно - применяется дисперсионный и регрессионный анализ.
Дискриминантный анализ позволяет осуществить переход из п-мерного пространства дискриминантных переменных в д-мерное пространство канонических дискриминантных функций, обеспечивающих максимальное отличие классов в этом пространстве [6, 7, 8]. Качество классификации определяется степенью различий между объектами, степенью разброса внутри классов и мерой различия между классами. Например, критерием качества классификации может быть доля остаточной дисперсии
В [10] предлагается оценивать качество классификации по следующим характеристикам: однородности классифицируемых объектов внутри групп и
устойчивости классификации. Опираясь на аппарат, разработанный в [11], авторы предлагают строить показатель качества для многомерных классификаций как суммарную частоту встречаемости однородных кластеров по каждому из информативных показателей.
Кластерный анализ предполагает наличие меры близости между классифицируемыми объектами. Если такая мера определена на множестве объектов, описываемых качественными характеристиками или смешанным набором характеристик, кластерный анализ применим и к ней.
Применение кластерного анализа позволяет выделить группы в заданной (обучающей) совокупности элементов путем итерационного слияния наиболее близких кластеров, то есть группировать данные вокруг нескольких центров в пространстве признаков [6, 7, 8]. При этом применяются следующие группы методов:
• алгоритмы таксономии - кластер определяется как совокупность элементов, лежащих на расстоянии не больше г от центра (внутри гиперсферы радиуса г или гиперкуба со сторонами 2г). При этом в качестве центра выбирается один из элементов и формируется кластер из элементов, удаленных от него не далее чем на г. К проблемам таксономических разбиений относится неустойчивость классификации элементов, находящихся на периферии гиперкубов (в случае разбиения на гиперкубы) или неполного покрытия множества объектов в случае разбиения на гиперсферы;
• методы, основывающиеся на последовательной агломеративной процедуре.
Рн
не выбран N р р
[9].
2 Для линейного классификатора Г является линейной функцией параметров объекта.
Все эти методы дают оптимальное решение в классе, меньшем, чем класс всех возможных разбиений (кластеров), однако достоинством этих методов является простота вычислительной процедуры и алгоритмов.
Для случая одноуровневой классификации используется метод К средних. Он позволяет строить ровно К различных кластеров, расположенных на возможно больших расстояниях друг от друга. С вычислительной точки зрения, этот метод рассматривается, как дисперсионный анализ «наоборот» в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга [4]. В кластеризации методом К средних можно перемещать объекты из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа.
В работах [12-15] развита теория алгоритмов иерархической или древовидной кластеризации (иногда называемая «метод объединения»). На основании меры сходства между объектами последовательно применяется цикл из трех операций:
1) находятся пары наиболее близких объектов А и В;
2) объекты А и В объединяются в один кластер, с присвоением ему нового имени С и определением для С набора свойств, позволяющих вычислить меру близости с другими объектами;
3) вычисляются расстояния от нового кластера до каждого другого объекта или кластера.
Ключевой проблемой для данного алгоритма является определение набора свойства нового кластера. В случае количественных признаков классическим приемом является вычисление нового свойства как линейной комбинации аналогичных свойств объектов, вошедших в кластер. При этом весовые коэффициенты определяются из характера задач.
Определение расстояния между кластерами обычно происходит по следующим правилам объединения или связи [4]:
• Одиночная связь или метод ближайшего соседа - определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Результирующие кластеры представлены в виде длинных «цепочек».
• Полная связь или метод наиболее удаленных соседей - определяется наибольшее расстояние между любыми двумя объектами в различных кластерах. Метод непригоден, если кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным».
• Невзвешенное попарное среднее - вычисляется среднее расстояние между всеми парами объектов в кластерах. Метод эффективен, независимо от «формы» формирующихся кластеров.
• Взвешенное попарное среднее - используется, когда предполагаются неравные размеры кластеров. При вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента.
• Невзвешенный центроидный метод - определяется расстояние между центрами тяжести кластеров.
• Взвешенный центроидный метод или медиана - предпочтителен, если имеются (или подозреваются) значительные отличия в размерах кластеров. При вычислениях используются веса для учёта разницы между размерами кластеров (т. е. числами объектов в них).
• Метод Варда - используются методы дисперсионного анализа: минимизируется сумма квадратов для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. К недостаткам метода можно отнести стремление создавать кластеры малого размера.
В случае, когда ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров, используется (относительно редко) «двувходовое объединение» [16].
Еще одним преимуществом иерархической кластеризации является возможность построения многоуровневой классификации. Таким образом, построение классификации снизу вверх дает возможность осмыслить получившийся результат и построить иерархическую классификацию, позволяющую предсказать свойства младших классов по свойствам старших.
Для оценки устойчивости авторы [10] предлагают последовательно использовать иерархическую кластеризацию и метод К средних. С помощью первого метода устанавливается число кластеров и отнесение статистических объектов к кластерам, т.е. получают кластерное решение, которое затем подлежит верификации с помощью итеративного кластерного анализа по методу К средних, где число кластеров К принимается по результатам иерархического кластерного анализа. Таким образом, показателем устойчивости кластерного решения, а, следовательно, и качества классификации, будет доля (частость) совпадений отнесения статистических объектов к кластерам по обоим методам.
Одним из старейших в теории классификации является статистический байесовский подход, который лежит в основе многих методов классификации с обучением [17]. При условии, что плотности распределения каждого из классов известны, удаётся в явном виде выписать алгоритм классификации с минимальной вероятностью ошибок отнесения к классам. На практике плотности классов приходится оценивать (восстанавливать) по обучающей выборке, при этом байесовский алгоритм перестаёт быть оптимальным.
В случае оптимизации иерархической структуры классификации эффективным методом является дерево принятия решений. Это дерево, исходной вершине которого соответствует исследуемая ситуация, а листьям - принятые решения. Остальные вершины содержат вопросы, ответы на которые определяют направление спуска по дереву. Каждое ребро, выходящее из этой вершины, помечается выбранным ответом. Задача классификации в данном случае сводится к формированию оптимального дерева принятия решений. В роли критерия качества в [18] используется энтропия.
ТТ, Л 04 Щ Л т /„Ч
Н (А, Б) = -У — 1о§—-, (4)
i=1 п п
где п - число элементов в множестве А; mi - число элементов, на которых признак Б принимает значение si.
Чем быстрее уменьшается исходная энтропия при спуске по дереву, тем оно лучше. Этот критерий позволяет выбрать оптимальную последовательность вершин (вопросов).
При построении иерархической классификации объектов стандартизации у эксперта, как правило, возникает несколько вариантов её организации. От выбора варианта зависит удобство применения классификации. В соответствии с описанным методом, для каждого класса (объекта стандартизации А, описываемого набором признаков Б) формулируются вопросы и списки возможных ответов, по которым происходит отнесение продукции к данным объектам стандартизации.
Выводы: рассмотренные методы классификации систематизированы в таблице. Курсивом выделены основания классификации, обычным шрифтом - примеры методов классификации.
Классификация методов классификаций
Структура пространства меток Тип характеристик
Количественные Качественные Смешанные
Одноуровневые непрерывные Многомерная регрессия - -
дискретные Факторный анализ -
Кластерный анализ
Многоуровневые иерархические Дерево принятия решений
«лес»
Интуитивно, качество классификации объектов стандартизации определяется наименьшим количеством вопросов, которые требуется задать, и наибольшей значимостью каждого из них.
На наш взгляд, наиболее удобным для оценки качества классификации объектов стандартизации является метод дерева принятия решений. Метод применим к описаниям объектов стандартизации любого вида (количественным, качественным или смешанным), базируется на иерархической структуре, обеспечивает наследование требований и однозначность классифицирования. Заложенный в него принцип максимального изменения энтропии при спуске по дереву позволяет обеспечить наибольшую информативность вопросов, задаваемых при переходе на следующий уровень в процессе классификации конкретных видов продукции.
ЛИТЕРАТУРА
1. Жилина М.А. Информационная модель системы требований к безопасности и качеству косметической продукции / М.А. Жилина, А.И. Безруков // Математические методы в технике и технологиях - ММТТ-21: сб. тр. XXI Междунар. науч. конф. Саратов: СГТУ, 2008. Т. 2. С. 297-299.
2. Жилина М.А. Разработка информационной модели системы требований к
продукции на базе действующей документации и нового технического регламента / М.А. Жилина // Компьютерные науки и информационные технологии: материалы
Междунар. науч. конф. Саратов: Изд-во Сарат. ун-та, 2009. С. 97-99.
3. Вежневец В. Оценка качества работы классификаторов / В. Вежневец. http://cgm .computergraphics.ru/content/view/106.
4. Дисперсионный и кластерный анализ.
http://www.statsoft.ru/home/textbook/modules/ stcluan.html.
5. Fisher R.A. The Use of Multiple Measurements in Taxonomic Problems / R.A. Fisher // Annals of Eugenics. 1936. T. 7. С. 179-188.
6. Ким Д. О. Факторный, дискриминантный и кластерный анализ / Д. О. Ким; пер. с англ. М.: Финансы и статистика, 1989. 215 с.
7. Дюран Б. Кластерный анализ / Б. Дюран, П. Одел. М.: Статистика, 1977. 128 с.
8. Елисеева И. И. Группировка, корреляция, распознавание образов / И. И. Елисеева,
В.О. Рукавишников. М.: Статистика, 1977. 144 с.
9. Безруков А. И. Математическая модель оценки качества классификации объектов стандартизации / А.И. Безруков, М. А. Жилина // Компьютерные науки и информационные технологии: материалы Междунар. науч. конф. Саратов: Изд-во Сарат. ун-та, 2009. С. 3740.
10. Титов В. А. Совершенствование методов классификации регионов по показателям структуры инвестиций в основной капитал (на примере Центральной России) / В. А. Титов, С. А. Марков // Транспортное дело России. 2008. № 2. С. 28-33.
11. Титов В. А. Методы многомерного анализа в исследовании региональных
инвестиционных процессов / В. А. Титов, С. А. Марков // Наука и образование: межвуз. сб.
науч. тр. М.: ИИЦ МГУДТ, 2006. Вып. № 4 «Общество и экономика». С. 73-76.
12. Айвазян С.А. Классификация многомерных наблюдений / С.А. Айвазян, З.И. Бежаева, О.В. Староверов. М.: Статистика, 1974. 240 с.
13. Жамбю М. Иерархический кластер-анализ и соответствия / М. Жамбю; пер. с франц. Б.Г. Миркина. М.: Финансы и статистика, 1988. 342 с.
14. Классификация и кластер / под ред. Дж. Вэн Райзина; пер. с англ.
П.П. Кольцова; под ред. Ю.И. Журавлева. М.: Мир, 1980. 388 с.
15. Репин С. В. Математические методы обработки статистической информации с помощью ЭВМ: пособие для исследователей гуманит. спец. / С.В. Репин, С.А. Шеин. Минск: Университетское, 1990. 128 с.
16. Hartigan J.A. (Хартиган) Multiple-factor Analysis. Chicago: University Press, 1975.
315 р.
17. Воронцов К. В. Комбинаторный подход к проблеме переобучения / К.В. Воронцов // Математические методы распознавания образов: докл. Всерос. конф. М.: МАКС Пресс, 2009. С. 18-21.
18. Murthy S. Automatic construction of decision trees from data: A Multi-disciplinary survey / S. Murthy // Data Mining and Knowledge Discovery (Kluwer Academic Publishers, USA). Ceske Budejovice (Czech Republic), 1997. 151 p.
Безруков Алексей Иосифович -
кандидат экономических наук, доцент кафедры «Техническая физика и информационные технологии» Энгельсского технологического института (филиала) Саратовского государственного технического университета
Жилина Маргарита Анатольевна -
ассистент кафедры «Техническая физика и информационные технологии» Энгельсского технологического института (филиала) Саратовского государственного технического университета
Кац Альберт Маркович -
доктор физико-математических наук, профессор, заведующий кафедрой «Техническая физика и информационные технологии» Энгельсского технологического института (филиала) Саратовского государственного технического университета
Bezrukov Alexey Iosifovich -
Candidate of Sciences in Economics,
Assistant Professor of the Department of «Technical Physics and Information Technologies» of Engels Institute of Technology (branch) of Saratov State Technical University
Zhilina Margarita Anatolyevna -
Junior Research LItaff Member of the Department of «Technical Physics and Information Technologies» of Engels Institute of Technology (branch) of Saratov State Technical University
Katz Albert Markovich -
Doctor of Sciences in Physics and Mathematics,
Professor, Head of the Department
of «Technical Physics
and Information Technologies»
of Engels Institute of Technology (branch)
of Saratov State Technical University
Статья поступила в редакцию 11.12.09, принята к опубликованию 25.03.10