Научная статья на тему 'Обобщающая способность алгоритмов по мере компактности'

Обобщающая способность алгоритмов по мере компактности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
283
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕРА КОМПАКТНОСТИ / ШУМОВЫЕ ОБЪЕКТЫ / ИНФОРМАТИВНЫЕ ПРИЗНАКИ / ОБЪЕКТЫ-ЭТАЛОНЫ / MEASURE OF COMPACTNESS / NOISE OBJECTS / INFORMATIVE FEATURES / OBJECTS-STANDARDS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Игнатьев Николай Александрович

Рассматривается вычисление обобщающей способности семейств алгоритмов распознавания с бесконечной емкостью. Для оценки обобщающей способности предлагается использовать меру компактности, значения которой определяются в зависимости от размерности и состава набора признаков, количества удаляемых шумовых объектов и числа объектов-эталонов минимального покрытия.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The generalizing ability of algorithms by the measure of compactness

To estimate the generalizing ability of recognition algorithms, it is offered to use a measure of compactness. It is assumed that a training sample Eo = [Si,...JSm] is defined, divided by disjoint classes Ki,..., Ki, l > 2. The objects of Eo are described by a set of different-type features ofX(n) = (x1,..., xn). The compactness value depends on the dimension and composition of the feature set, the number of noise objects to be deleted, and the number of objects-standards of the minimal coverage of Eo. The compactness measure on the sample Eo in the set of features X(k) с X (n) (k < n) is calculated as ' m Sh (X,X (к))Y m Sh (X,X (к))л m F ( X (к) X) = CF where CF is the number of objects-standards of the minimal coverage of the sample in which Sh(X,X(k)) noise objects are removed. Let Sk e Ki, p(Sk, Sr) = min p(Sk, Sj) and Z = |{Sц e Ki | p(Sk, S^) < p(Sk, Sr)}| is the number of objects in the hypersphere with the SjeCK, center in Sk. The object Sr e CKi is considered as the noise object if the condition holds ZZ -1 1 K\ m \K,\' where ZZ = | S e Ki\ p(Sr, Sk) < p(Sp, Sk) < p(Sn, Sk)} |, < min \Ki\, p(Sn, Sk) = min p(Sj, Sk). The ZZ value is the number of 1r } representatives of the class Ki added to the hypersphere with center at Sk e Ki after removing the noise object Sr. To find informative sets {X(k) | X(k) с X(n)}, two criteria are proposed. Both criteria do not explicitly use the number of objects-standards of minimum coverage CF. The generalizing ability of algorithms was calculated by the method of Cross Validation on the initial and informative sets of features. The highest values were on the sets obtained according to the criterion i X mt ©, R (£0,p) = ^ max, m where mi is the number of Ki objects after removing the noise objects, ©i is the compactness which calculated by the minimal number of disjoint groups of objects of class Ki by the metric p. The set of admissible values R(Eo, p) belongs to (0, 1] and can be interpreted in terms of fuzzy logic. A direct correlation is shown between values by the method of Cross Validation and the average number of objects attracted by the target object of the minimum coverage of the training sample. It is concluded that a measure of compactness F(X(k), X) can serve as an indicator of the generalizing ability. This measure is recommended for evaluating the quality of recognition algorithms in the data mining.

Текст научной работы на тему «Обобщающая способность алгоритмов по мере компактности»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2018 Управление, вычислительная техника и информатика № 42

УДК 519.95

Б01: 10.17223/19988605/42/5

Н.А. Игнатьев

ОБОБЩАЮЩАЯ СПОСОБНОСТЬ АЛГОРИТМОВ ПО МЕРЕ КОМПАКТНОСТИ

Рассматривается вычисление обобщающей способности семейств алгоритмов распознавания с бесконечной

емкостью. Для оценки обобщающей способности предлагается использовать меру компактности, значения которой определяются в зависимости от размерности и состава набора признаков, количества удаляемых шумовых объектов и числа объектов-эталонов минимального покрытия.

Ключевые слова: мера компактности; шумовые объекты; информативные признаки; объекты-эталоны.

Обобщающая способность относится к числу основных показателей, характеризующих качество распознающих алгоритмов [1]. Эта способность проявляется в умении определять принадлежность объектов к классам, которых алгоритм не видел в процессе обучения. Проверка истинности гипотезы о компактности лежит в основе многих критериев и методов теории распознавания образов. Так, в [1] описан профиль компактности для вычисления обобщающей способности семейств алгоритмов, имеющих бесконечную емкость в пространстве УС (Вапника-Червоненкиса) [2]. Для определения принадлежности произвольного допустимого объекта к классам при использовании таких семейств алгоритмов необходимо хранить в памяти всю выборку. Представителем семейства с бесконечной емкостью является алгоритм «ближайший сосед» (БС).

В практических целях при вычислении обобщающей способности достаточно использовать локальные свойства (локальные ограничения) выборок объектов [1]. Локальным ограничением в [3] можно считать предложенный Н.Г. Загоруйко показатель компактности, определяемый по числу объектов-эталонов минимального покрытия, при котором распознавание объектов классов фиксированной выборки было корректным.

Кроме показателя компактности кандидатами для включения в набор локальных ограничений являются число шумовых объектов, размерность признакового пространства, множество объектов оболочек (подмножества граничных объектов) классов [4] по заданной метрике. Интерес представляет предельное значение размерности, при превышении которого показатель компактности [3] увеличивается. Набор признаков, определяющий предельное значение, рассматривается как информативный для используемой меры близости. Размерность выше предельной приводит к размыванию сходства между объектами выборки.

Существует потребность во введении новой меры измерения компактности с помощью безразмерных величин со значениями в [0, 1]. Значения этих величин требуются для анализа того, насколько реально получаемая (по заданной мере близости) структура обучающей выборки отличается от идеальной для распознавания. Идеальной считается структура, в которой число объектов-эталонов минимального покрытия равно числу классов.

Меру компактности можно использовать для сравнения метрик и преобразований признакового пространства по отношению «лучше» на фиксированных выборках объектов. Анализ структуры выборок основывается на использовании свойств этого отношения. Методика анализа ориентирована на количественные показатели, вычисляемые по результатам разбиения объектов классов на непересекающиеся группы [4]. Гарантией единственности разбиения по числу групп и составу входящих в них объектов служит устойчивость используемого алгоритма.

Влияние шумовых объектов на показатели обобщающей способности алгоритмов многократно рассматривалось в научных публикациях. По обширному перечню работ в [5] приводится обзор различных

методов обнаружения и удаления шумовых объектов. Большинство из этих методов ориентировано на использование правила БС.

Качество распознавания по правилу БС существенно зависит от чувствительности метрики к размерности признакового пространства. Изменение размерности связано как с отбором информативных признаков, так и с переходом к описанию объектов в пространстве из латентных признаков.

В качестве инструментария для перехода к латентным признакам в [4, 6] предлагалось использовать два типа правил иерархической агломеративной группировки исходных признаков. Первый тип ориентирован на последовательное объединение двух признаков в один путем нелинейного отображения их значений на числовую ось. Группировка по правилам второго типа производится на основе значений критерия устойчивости объектов по заданной метрике в двухклассовой задаче распознавания. По каждой группе признаков вычисляется обобщенная оценка объекта.

Методы, реализующие два типа правил иерархической группировки, можно идентифицировать как нелинейные и линейные. Нелинейные методы являются инвариантными к масштабам измерений признаков. У линейных методов свойство инвариантности отсутствует. Последовательность формирования групп и латентных признаков на их основе по двум типам правил определяет порядок по отношению степени информативности. Информативность признака вычисляется как экстремум критерия разбиения его (признака) значений на непересекающиеся интервалы в форме проверки степени истинности гипотезы: «Множества значений признака в описании объектов из разных классов при числе интервалов, равном числу классов, не пересекаются между собой».

В данной работе рассматриваются непустые классы (множества) метрик, кластерные структуры обучающих выборок по которым совпадают (являются эквивалентными) по числу групп и составу входящих в них объектов. Информация о кластерной структуре позволяет вести последовательный отбор объектов-эталонов минимального покрытия, в каждом из которых определена локальная метрика. Способ вычисления весов локальных метрик аналогичен используемому в методе 8ТОЬР [3].

Для оценки обобщающей способности алгоритмов метода БС предлагается применять критерий, значения которого вычисляются в зависимости от размерности и состава набора признаков, количества удаляемых шумовых объектов и числа объектов-эталонов минимального покрытия. Оценки по критерию использовались для демонстрации устойчивости результатов отбора информативных признаков методом кросс-валидации на случайных выборках.

1. О разбиении объектов классов на непересекающиеся группы

Использование частично обученной выборки (ЧОВ) для задания условий группировки описано в [7]. Примером условия служит указание подмножества из пар объектов выборки, которые при разбиении не должны попадать в одну группу. Принадлежность объектов к непересекающимся классам служит источником дополнительной информации для исследования кластерной структуры с помощью различных мер близости.

Основные идеи приводимого ниже метода изложены в [4]. Целями разбиения объектов классов на непересекающиеся группы являются:

- вычисление и анализ значений компактности объектов классов и выборки в целом;

- поиск минимального покрытия обучающей выборки объектами-эталонами.

Рассматривается задача распознавания в стандартной постановке. Считается, что задано множество

Ео = {Б1, ..., БМ} объектов, разделенное на I (I > 2) непересекающихся подмножеств (классов) К\, ..., Кг,

I

Ео = ^ К ■ Описание объектов производится с помощью набора из п разнотипных признаков

I=1

Х(п) = (х1, ..., Хп), 2 из которых измеряются в интервальных шкалах, (п - - в номинальной. На множестве объектов Ео задана метрика р(х, у)

Обозначим через Ь(Ео, р) подмножество граничных объектов классов, определяемое на Ео по метрике р(х, у). Объекты Б,, Б е К ^ = 1, ..., I считаются связанными между собой (Б ^ Б), если

{S e L(Eo, p) | p(S, Si) < rt and p(S, Sj) < j Ф 0 , где ri(rj) - расстояние до ближайшего от Si(Sj) объекта из CKt (CKt = Eo\Kt) по метрике p(x, y).

Множество Gtv={ S ,...,SV }, c — 2, Gtv с Kt, v < |Kt| представляет область (группу) со связанными

объектами в классе Kt, если для любых Sv ,Sv е G^ существует путь Sv. ^ SVi ^... ^ Sv, • Объект

Si e Kt, t = 1, ..., l принадлежит группе из одного элемента и считается несвязанным, если не существует пути Si ^ Sj ни для одного объекта Sj Ф Si и Sj e Kt. Требуется определить минимальное число непересекающихся групп из связанных и несвязанных объектов по каждому классу Kt, t = 1, ..., l.

Данная задача может рассматриваться и в альтернативной постановке (без задания признаков), если определена квадратная матрица близости {aj}mx т между т объектами и вектор F = f1, ..., fm), ft e {1, ..., l} принадлежности объектов к классам Ki, ..., Ki. Вектор Fслужит дополнительной информацией для задания условий группировки.

При определении минимального числа групп из связанных и несвязанных объектов классов используется L(Eo, p) - подмножество граничных объектов (оболочка) классов по заданной метрике p и описание объектов в новом пространстве из бинарных признаков. Для выделения оболочки классов для каждого Si e Kt, t = 1, ..., l строится упорядоченная по p(x, у) последовательность

S , S ,...,S , S — S . (1)

10 Ч' ' 1т-1' 1 10 V '

Пусть e CKt - ближайший к Si объект из (1), не входящий в класс Kt. Обозначим через O(Si) окрестность радиуса ri = p(Si, S ) с центром в Si, включающую все объекты, для которых p(Si, Si )< ri, т = 1, ..., в - 1. B O(Si) всегда существует непустое подмножество объектов

Д = { (S) | РS^)Р(Sp,S,)[ (2)

т

По (2) принадлежность объектов к оболочке классов определяется как L(Eo, p) = ^ Дг .

—1

Множество объектов оболочки из Kt П L(Eo, p) обозначим как L(Eo, p) = {S1, ..., S™}, п - 1. Значение п = 1 однозначно определяет вхождение всех объектов класса в одну группу. При п — 2 преобразуем описание каждого объекта Si e Kt в Si = (yn, ..., y^), где

1, Р (S, sj )< r,

y9 = { / Л (3)

[о, p (S, sj )> r.

Пусть по (3) получено описание объектов класса Kt в новом (бинарном) признаковом пространстве, Q = Kt, 0 - число непересекающихся между собой групп объектов, S^ v St,, S^ л Sn — соответственно операции дизъюнкции и конъюнкции по бинарным признакам объектов S^, Sn e Kt. Пошаговое выполнение алгоритма разбиения объектов Kt на непересекающиеся группы G1, ..., G0 таково. Шаг 1: 0 = 0.

Шаг 2: Выделить объект S e Q, 0 = 0 + 1, Z = S, G0 = 0 .

Шаг 3: Выполнять Выбор S e Q and S л Z = true, Q = Q\S, G0 = G0 U S, Z = Z v S пока {S e Q | Sл Z = true } ф 0 .

Шаг 4: Если Q Ф 0 , то идти 2. Шаг 5: Конец.

Разбиение объектов Ео на непересекающиеся группы по описанному выше алгоритму используется для поиска минимального покрытия [4] обучающей выборки объектами-эталонами. Обозначим через

Rs = p(S, S ) расстояние от объекта S e Kt до ближайшего объекта S из противоположного к Kt класса

(S e CKt), через 5 - минимальное число непересекающихся групп из связанных и несвязанных объектов классов на Ео.

Упорядочим объекты каждой группы Gu П Kt, u = 1, ..., 5, t = 1, ..., l по множеству значений R }SeG .

В качестве меры близости между S е Gu, и = 1, ..., 5 и произвольным допустимым объектом S' используется взвешенное расстояние по локальной метрике d(S, S') = p(S, S')/Rs. Решение о принадлежности S' к одному из классов Ki, ..., Ki принимается по правилу: S' е Kt если

d(Sp, S) = min d(S}, S) and S^ е K and d(S^, S') Ф min d(S}, S) (4)

Sj €Eq Sj € CKt

Согласно принципа последовательного исключения, используемого в процессе поиска покрытия, выборка Ео делится на два подмножества: множество эталонов Eed и контрольное множество Ek, Ео = Eed U Ek. В начале процесса Eed = Ео, Ek = 0 . Упорядочение по значениям из R}5eG , и = 1, ..., 5

используется для определения кандидата на удаление из числа объектов-эталонов по группе Gu. Идея отбора заключается в поиске минимального числа эталонов, при котором алгоритм распознавания по (4) остается корректным (без ошибок распознающим объекты) на Ео.

Будем считать, что нумерация групп объектов отражает порядок \G1\ > ... > \G5\ и по группе Gp, p = 1, ..., 5 не производился отбор объектов-эталонов. Кандидаты на удаление из Eed последовательно выбираются начиная с S е Gp с минимальным значением Rs. Если включение S в Ek нарушает корректность решающего правила (4), то S возвращается в множество Eed.

2. О мерах компактности в задачах распознавания с учителем

Меры компактности востребованы для оценки обобщающей способности распознающих алгоритмов. При вычислении оценок используются результаты поиска и удаления шумовых объектов, отбора информативных наборов признаков, число объектов-эталонов минимального покрытия обучающих выборок. Рассмотрим метод формирования множества шумовых объектов, мощность которого зависит от проверки предлагаемого ниже условия.

Пусть Skе Кг, p(Sk, Sr) = min p(Sk, S) и Z = \{S^ е K\ p(Sk, S„) < p(Sk, Sr)}\. Обозначим через Dt (D е CK)

Sj ZCK;

множество шумовых объектов класса Ki. Объект Sr е CK включается в Di и рассматривается как шумовой, если выполняется условие:

ZZ -1 1

~W> тщ' (5)

где ZZ = \{S, е K\ p(Sr, Sk) < pS Sk) < p(S,, Sk)}\, \b\ < min \K\, p(S^, Sk) = min p(S;, Sk). Значения Z и

1<i <l Sj eCKi\{Sr}

Z + ZZ можно рассматривать как число представителей класса Ki в гипершаре с центром в Sk е Ki соответственно до и после удаления шумового объекта Sr.

Селекция объектов обучающих выборок при некоторых ограничениях способствует повышению обобщающей способности алгоритмов распознавания. Считается, что обобщающая способность алгоритма повышается, если дать ему возможность ошибаться на определяемых объектах выборки.

i

В нашем случае в качестве таковых рассматриваются объекты из U Д .

i=i

г , л

Пусть представители класса K

п

Ео\ и D

V j=1 У

, i = 1, ..., l разделены на минимальное число ц не-

м

пересекающихся групп объектов по алгоритму из п. 1, ту = \Оу\, у = 1, ..., ц, ^ т^ = т1. Для анализа

]=1

результатов разбиения класса К на непересекающиеся группы с учетом их числа, представительности (по количеству объектов) и удаления шумовых объектов предлагается использовать такую структурную характеристику, как оценка компактности:

и

ъ

V =1

т;

Очевидно, что множество допустимых значений по (6) лежат в интервале

1,1

mi

. Если группа

Gг■l содержит все объекты из К ^

ЕЛ У »

V 1=1 у

то ©г = 1. Усредненная оценка компактности обучаю-

щей выборки в целом производится с учетом доли

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I

ЕЛ У »

т

исключенных из рассмотрения по (5)

шумовых объектов как

я(Ео, р) =

Е0\ ^

т

Ъ т'&> Ъ т'&>

Ео\ У»

(7)

т

Значения (6) и (7) косвенно свидетельствуют об однородности (неоднородности) структуры обучающей выборки. Чем ближе сходство групп по числу входящих в них объектов класса, тем ближе

значение (6) к —, а (7) - к —.

т1 т

Очевидно, что число и состав шумовых объектов зависят как от значения параметра X в (5), так и от наборов признаков в описании объектов. Проблемой реализации вычислительных процедур является согласование процессов отбора информативных признаков и удаления шумовых объектов.

Пусть структура объектов классов на выборке Ео вычисляется по алгоритму группировки из п. 1. Обозначим через Бк(к, Х(к)) число шумовых объектов Ео, определяемых в зависимости от значения X по (5) на наборе признаков Х(к) С Х(п), СЕ - число объектов-эталонов минимального покрытия обучающей выборки, из которой удалены Бк(к, Х(к)) шумовых объектов. Так как невозможно получить точное решение задачи отбора информативных признаков без перебора всех их сочетаний с учетом удаления шумовых объектов, на практике рекомендуется использовать различные эвристические методы.

Независимо от используемых методов качество отбора информативных признаков предлагается определять путем проверки двух условий:

- при удалении шумовых объектов Бк(к, Х(к)) из Ео показатель минимального покрытия выборки объектами-эталонами

( т-Бк (к, X (к)) ¥ т-Бк (к, X (к)) Л

Е ( X ( к ), к ) =

СЕ

(8)

стремится к максимальному допустимому значению

т

I '

- произведение числа объектов-эталонов минимального покрытия на размерность признакового пространства

к х СЕ

>Ш1И

т - Бк (к, X (к)) Е

(9)

1=1

у

V

1=1

1=1

1=1

1=1

т

Первое условие (8) необходимо для оценки компактности покрытия выборки объектами-эталонами, второе (9) - для оценки сложности вычислений.

Для поиска информативных наборов {X(k) |X(k) СX(n)} предлагается два критерия. Оба критерия явно не используют число объектов-эталонов минимального покрытия CF. Число шумовых объектов Sh(X, X(k)) по (5) вычисляется по фиксированному значению X. Такое X для всех наборов X(k) СX(n), k > 2 определяется как

Х = arg max F (X (n), n). (10)

Использование (10) основано на предположении, что вероятность отбора информативных наборов признаков с более высоким значением компактности по (8) близка к нулю при X, отличной от (10). В первом (в порядке изложения) критерии используются результаты покрытия объектов выборки гипершарами с учетом удаления шумовых объектов, во втором - оценки компактности по (7) на основе свойства связанности по объектам оболочек классов.

Пусть O(Si, X(k)) (1 < k < n) - окрестность объекта Si е Ео П K, j = 1, ..., l, определяемая как O(Si, X(k)) = {S е Kj | p(S,Si) < p(Si, S)}, где S; е CKj - ближайший к Si объект по метрике р(х, у) из дополнения к классу Kj по множеству признаков X(k). Определим оценку Si е Ео на X(k) как

Z(S, X(k)) = ^)) |O(S, X(k))|. (l1)

Признак Xd е X(n) является кандидатом на включение в набор X(k), если

X Z(S, X(k +1))> X Z(S, x(k)), (12)

S eT St eT

где X(k + 1) = X(k) U {xd}, Tс Eо.

Обозначим через P подмножество индексов признаков из X(n); Dj(P) - множество шумовых объектов класса Kj по (5) на наборе {ха}аер при значении X, вычисленное по (10). Пошаговый отбор информативных наборов признаков с использованием (11) и (12) реализуется следующим образом. Шаг 1: Выбор i 1, j 1 е {1, ..., n}. P = {i 1, j 1}.

Шаг 2: Выделить У Dj(P) по (5) на {xa]aeP. T=Eo\JDj(P). Вычислить 0(P) = {9, (P)}" no {xaW, j=i j=i

где 0,(P) = {S, Si e K} | p(S,, S,) < r,, r, = min р(ЗД}.

Шаг 3: u = 0. Z(P) = {z,(p)}™ , где z,(P) = 10(P)|. Y = 0.

Для всех v e {1, ..., n}\P

i i выделить (J Dj(p u{v}) no (5) на {xa , T = Eo\ U Dj (p u{v}), C = £ z(p),

j =1 j=1 St ei

вычислить 0(pu{v}) = {0, (pu{v})}™ по {xa}flepu{v}, где 9г (P^{v}) = {S„ S, e Kj | p(S,, S,) < r,, r, = min p(Si, Si)};

St eCKj nl

вычислить Z(P U {v}) = {z, (p u{v})}l™ , где z, (P u{v}) = max |9y(P u{v})|, N = £ z, (P u{v}).

Sie 9j (Pu{v}) s,el

Если N > C и N > Y, то Y = N,u = v;

Шаг 4: Если Y> 0, то P = P u {u}, идти 2. Шаг 5: Вывод P. Шаг 6: Конец.

Для отбора информативных наборов признаков по (7) предлагается следующий алгоритм. Шаг 1: Выбор ii, ji e {1, ..., n}. P = {ii, ji}.

Шаг 2: Выделить \JDj(P) по (5) на {xa}aeP. T = Eo\ \Dj(P). Вычислить O(P) = {üi(p)}s,e7. no

j=1 j=i '

{xa}aep, где O' (P) = j S^, S' g Kj p (S', S^ ) < r, r = min p (S', St) к Вычислить разбиение на группы

I St gCK j I

i

G11, ..., Gin, П - l по (2) и (3) алгоритмом из п. 1, mj = |Gj|, mi = Zm¡j , Zm' = |г|. Вычислить {©Л no

i

Z mi ©

ij

j '=1

(6) и C

m

Шаг 3: u = 0. Y = C. Для всех v e {1, ..., n}\P

i i выделить UDj (P u {v}) no (5) на {xa }aePu{v}, T = Eo\ U Dj (P u {v}).

j=i j=1

Вычислить 0(P u {v}) = O(P u {v})^ er no {xa }aepu{v}, где

О (P u{v}) = |s^, St € Kj p (, Sj< r, r = ^ mm^P (S, St )J .

Вычислить разбиение на группы Gn, ..., Gin, n > l no (2) и (3) алгоритмом из n. 1, mij = jGyj, mi = Zm^

I

I Е тг®г Е тг = \т\. Вычислить {©; по (6) и N = —-.

г=1 т

Если N > У, то У = N и = V.

Шаг 4: Если и > 0, то Р = Р и {и}, идти 2. Шаг 5: Вывод Р. Шаг 6: Конец.

Для удобства дальнейшего изложения алгоритмы отбора информативных признаков (в порядке их описания) будем идентифицировать как ALG\ и ALG2. Для ослабления зависимости результатов отбора от выбора начальных приближений можно использовать модификацию этих алгоритмов. Модификация заключается в сочетании принципов пошагового включения в набор информативных признаков и удаления из набора малоинформативных признаков. Для сравнения информативных наборов, полученных по разным критериям, рекомендуется использовать (8) и (9).

3. О единственности выбора кластерной структуры на обучающей выборке

Исследование единственности выражается в доказательстве существования множеств (классов) метрик, кластерные структуры фиксированных обучающих выборок при использовании которых совпадают по числу и составу групп объектов. Утверждается, что такому требованию удовлетворяют классы

эквивалентных метрик {¥}. Например, эквивалентной к метрике р1 является метрика р2 = Р1 .

1 + Р1

Из р1, р2 £ ¥ следует, что отношения близости между объектами на Ео по метрике р1 остаются таковыми и по метрике р2. Другим следствием эквивалентности является сходство объектов оболочек классов, ближайших объектов из противоположных классов, числа групп и их состава на Е0 при реализации алгоритма группировки из п. 1. Для вычисления меры компактности по (6) и (7) можно использовать любую метрику из класса эквивалентности

Кластерные структуры, получаемые по разным метрикам из класса ¥, отличаются между собой лишь конфигурацией таксонов. Конфигурация таксонов влияет на значения весов локальных метрик, используемых в (4), а следовательно, на количество и состав объектов-эталонов минимального покрытия.

Для сравнения кластерной структуры по метрике р е ¥ на данных, отличающихся количеством представителей классов и выборок в целом, предлагается использовать вычисление оценки по (6). Тогда компактность по обучающей выборке Ео по набору признаков X(k), k < п с учетом удаления шумовых объектов по (5) будет выглядеть так:

7 Г Ш,

Е 1 -L^ Ш

U (Ее, X (к), рД) — ^--■ (13)

l — 1

Интерес представляет анализ результатов алгоритмов ALG1 и ALG2 при отборе информативных наборов признаков. В общем случае наборы, полученные по ALG1 и ALG2, по р е ¥ при совпадении номеров 7i, ji на первом шаге различаются друг от друга. Так как при вычислении оценок по (7) и (11) учитывается порядок следования объектов, то р е ¥ и множество наборов совпадают по каждому алгоритму (ALG1 или ALG2), но не между алгоритмами.

Локальные метрики объекта S е Ео, формируемые из класса ¥ и используемые в (4), в общем случае не являются эквивалентными. Эта особенность класса ¥ объясняет различие числа объектов-эталонов минимального покрытия обучающей выборки и его состава.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Вычислительный эксперимент

Для демонстрации методики вычисления мер компактности и отбора информативных наборов признаков использовалась выборка данных GERMAN из [8]. Выборка представлена двумя непересекающимися классами K (700 объектов) и K2 (300 объектов). Объекты описываются 7 количественными и 13 номинальными признаками из набора X(20) = (Х1, ..., Х20) Для унификации масштабов измерений данных множество значений каждого количественного признаков пронормировано в [0, 1].

Зафиксируем одну метрику из класса эквивалентности ¥ и будем считать ее базовой для вычислительного эксперимента. При вычислении меры близости между объектами в качестве базовой использовалась метрика Журавлева

Р(х, y)=z\x,—y\— y' (14)

iGl iGj Iе, Xi ~ yi ,

где I, J ^ {1, ..., 20} - множества номеров соответственно количественных и номинальных признаков.

Из-за особенностей вычисления расстояний по локальным метрикам объектов Е0 число объектов-эталонов минимального покрытия выборки для р1, р2 е ¥ в общем случае различаются. Сходство топологических структур эквивалентных метрик выражается в совпадении как числа, так и состава шумовых объектов, определяемых по (5). Связь процесса выбора параметра X в (5) с оценками компактности (8) показана в табл. 1. В скобках указано число объектов-эталонов, вычисляемых по взве-

-/1,4 *< \ Р (X У)

шенным расстояниям на основе эквивалентной (14) метрике Р (x, y) —---- ■

1 + Р ( X y)

Таблица 1

Оценки компактности по метрике (14) с учетом удаления шумовых объектов

X Число Оценка компактности по (8) на X(20)

шумовых объектов объектов-эталонов

2 119 203 (200) 3,8235

1 148 171(172) 4,2451

0 217 161 (162) 3,8080

-1 239 141 (140) 4,1072

-2 261 122 (122) 4,4764

-3 261 122 (122) 4,4764

Результаты анализа структуры выборки из табл. 1 показывают, что оптимальное отношение между числом объектов-эталонов минимального покрытия и числом удаляемых шумовых объектов по (5) на Х(20) достигается при значении параметра X = -2. На всех последующих этапах эксперимента число шумовых объектов по умолчанию определяется по X = -2 в (5).

Рассмотрим зависимость числа и состава наборов информативных признаков от выбора начальных приближений в алгоритмахЛЬО! иЛЬ02. Каждое начальное приближение (табл. 2, табл. 3) задано парой индексов-признаков.

Таблица 2

Отбор информативных признаков алгоритмом ЛЬС1

Начальное приближение Информативный набор

ii = 1, ji = 2 Xi, X2, X3, X4, X5, Xi3, Xi4

ii = 3, ji = 4 Xi, X2, X3, X4, X5, Xi3, Xi4

ii = 6, ji = i3 Xi, X2, X3, X5, X6, X8, Xi3, Xi4, Xi8, X20

Таблица 3

Отбор информативных признаков алгоритмом ALG2

Начальное приближение Информативный набор Компактность по (7)

ii = i, ji = 2 Xi, X2, X4, X5, X6, X7, Xi2, X20 0,6688

ii = 3, ji = 4 Xi, X3, X4, X5, X6, X9, Xi3 0,6947

ii = 6, ji = i3 X2, X5, X6, Xi3, Xi8 0,64i7

Анализ содержимого табл. 2 и табл. 3 показывает, что наборы признаков, полученные по алгоритмам ALGi и ALG2, различаются при выборе одинаковых начальных приближений.

Для демонстрации методики точности алгоритмов распознавания на выборке из 1 000 объектов будем использовать набор признаков, полученный по модифицированному алгоритму ALG1. Смысл модификации сводится к последовательному включению в набор двух информативных и удалению одного малоинформативного признака. При выборе в качестве начального приближения пары признаков (xi7, Xi8) информативный набор был представлен X(7) = (xi, Х2, хз, Х4, Х5, X13, X14). Значения показателей распознавания объектов по исходному X(20) и информативному X(7) наборам признаков

\ Р( X У)

с использованием базовой метрики (14) и эквивалентной ей метрике р (x, y) —--:-т приводятся

1 + р (X, У )

в табл. 4.

Таблица 4

Точность распознавания по выборке GERMAN

Вычисляемые показатели Исходный набор X(20) Информативный набор X(7) по метрике

базовой (14) эквивалентной (14)

Число шумовых объектов 26i 220 220

Число эталонов i22 i09 i09

Среднее (8) по эталону 4,4764 5,58i6 5,58i6

Число ошибок (точность, %) i56 (84,4%) i47 (85,3%) i43 (85,7%)

Совокупный эффект от использования информативных наборов признаков (см. табл.4) с учетом удаления шумовых объектов более всего заметен по значениям (8) среднего числа объектов, притягиваемых одним объектом-эталоном минимального покрытия.

Для исследования обобщающей способности алгоритмов использовалось случайное деление выборки на обучение и контроль в соотношении 9 : 1. Предварительный анализ результатов показывает, что определенное преимущество в смысле значений показателей обобщающей способности имеют наборы, полученные по алгоритму ЛЬ02. Из табл. 5 видна прямая корреляционная зависимость между точностью распознавания и средним числом объектов, притягиваемых одним эталоном минимального покрытия.

Т а б л и ц а 5

Обобщающая способность алгоритма по базовой метрике (14)

Набор признаков Точность распознавания % Среднее по эталону

Исходный X(20) 70,9 4,4407

X1, X2, X3, X4, X5, X13, X14 72,46 5,7088

X1, X2, X4, X5, X6, X7, X12, X20 72,82 5,8802

X1, X3, X4, X5, X6, X9, X13 73,27 6,0136

Оценки компактности (13) для ряда подмножеств объектов GERMAN приводятся в табл. 6. Вычисление оценок производится на исходном X(20) и информативном X(7) = (xi, Х2, хз, Х4, Х5, X13, X14) наборах признаков.

Таблица 6

Оценки компактности по (13)

№ |K1| + K2| Набор признаков

X(20) X(7)

1 624 + 276 0,2710 0,3183

2 633 + 267 0,2658 0,2470

3 629 + 271 0,2596 0,2739

4 641+259 0,2597 0,2719

Отсутствие прямой коррелированности оценок (13) между наборами Х(20) и Х(7) (см. табл. 6) объясняется тем, что существует подмножество объектов, на котором набор Х(7) не является информативным.

Заключение

Показаны пути повышения обобщающей способности алгоритмов распознавания через удаление шумовых объектов и отбор информативных наборов признаков с использованием критериев компактности обучающей выборки. Предложенная технология может применятся при интеллектуальном анализе данных для построения информационных моделей с использованием алгоритмов распознавания.

ЛИТЕРАТУРА

1. Воронцов К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики.

2004. № 13. С. 5-34.

2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М. : Наука, 1979.

3. Загоруйко Н.Г., Кутненко О.А., Зырянов А.О., Леванов Д.А. Обучение распознаванию образов без переобучения // Машин-

ное обучение и анализ данных. 2014. Т. 1, № 7. С. 891-901.

4. Игнатьев Н.А. Кластерный анализ данных и выбор объектов-эталонов в задачах распознавания с учителем // Вычислитель-

ные технологии. 2015. Т. 20, № 6. С. 34-43.

5. Борисова И.А., Кутненко О.А. Цензурирование ошибочно классифицированных объектов выборки // Математические ме-

тоды распознавания образов - 2015 : 17-я Всерос. конф., 19-25 сент. 2015. Светлогорск, 2015.

6. Мадрахимов Ш.Ф., Саидов Д.Ю. Устойчивость объектов классов и группировка признаков // Проблемы вычислительной и

прикладной математики. 2016. № 3 (5). С. 50-55.

7. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размер-

ности. М. : Финансы и статистика, 1989. 608 с.

8. Asuncion A., Newman D.J. UCI Machine Learning Repository // University of California. Irvine. 2007. www.ics.uci.edu/mleam/

MLRepository.html.

Игнатьев Николай Александрович, д-р физ.-мат. наук, профессор. E-mail: [email protected] Национальный университет Узбекистана (г. Ташкент)

Поступила в редакцию 25 июля 2017 г.

Ignatiev NikolayA. (National University of Uzbekistan. Republic of Uzbekistan).

The generalizing ability of algorithms by the measure of compactness.

Keywords: measure of compactness; noise objects; informative features; objects-standards.

DOI: 10.17223/19988605/42/5

To estimate the generalizing ability of recognition algorithms, it is offered to use a measure of compactness. It is assumed that a training sample Eo = [Si,...JSm] is defined, divided by disjoint classes Ki, ..., Ki, l > 2. The objects of Eo are described by a set of different-type features ofX(n) = (x1, ..., xn). The compactness value depends on the dimension and composition of the feature set, the number of noise objects to be deleted, and the number of objects-standards of the minimal coverage of Eo.

The compactness measure on the sample Eo in the set of features X(k) c X (n) (k < n) is calculated as

'm - Sh (X,X(k)) Ym -Sh (X,X(k))A

F ( X (k) ,) =

CF

where CF is the number of objects-standards of the minimal coverage of the sample in which Sh(X,X(k)) noise objects are removed. Let Sk e Ki, p(Sk, Sr) = min p(Sk, Sj) and Z = |{S^ e Ki | p(Sk, S^) < p(Sk, Sr)}| is the number of objects in the hypersphere with the

SjeCK,

center in Sk. The object Sr e CKi is considered as the noise object if the condition holds

ZZ -1 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

K\ m - \K,\'

where ZZ = | S e Ki\ p(Sr, Sk) < p(Sp, Sk) < p(Sn, Sk)} |, < min \Ki\, p(Sn, Sk) = min p(Sj, Sk). The ZZ value is the number of

1<i<l SjeCK\\{Sr }

representatives of the class Ki added to the hypersphere with center at Sk e Ki after removing the noise object Sr.

To find informative sets {X(k) | X(k) c X(n)}, two criteria are proposed. Both criteria do not explicitly use the number of objects-standards of minimum coverage CF. The generalizing ability of algorithms was calculated by the method of Cross Validation on the initial and informative sets of features. The highest values were on the sets obtained according to the criterion

i

X mt ©,

r (£0 ,p) = ±1- ^ max,

m

where mi is the number of Ki objects after removing the noise objects, &i is the compactness which calculated by the minimal number of disjoint groups of objects of class Ki by the metric p. The set of admissible values R(Eo, p) belongs to (0, 1] and can be interpreted in terms of fuzzy logic.

A direct correlation is shown between values by the method of Cross Validation and the average number of objects attracted by the target object of the minimum coverage of the training sample. It is concluded that a measure of compactness F(X(k), X) can serve as an indicator of the generalizing ability. This measure is recommended for evaluating the quality of recognition algorithms in the data mining.

m

REFERENCES

1. Vorontsov, K.V. (2004) Kombinatornyy podkhod k otsenke kachestva obuchaemykh algoritmov [A combinatorial approach to as-

sessing the quality of training algorithm]. In: Lupanov, O.B. (ed.) Matematicheskie voprosy kibernetiki [Mathematical questions of cybernetics]. Vol. 13. pp. 5-36.

2. Vapnik, V.N. (1979) Vosstanovlenie zavisimosteypo empiricheskim dannym [Restoration of dependencies on empirical data]. Mos-

cow: Nauka, 448 p. (In Russian).

3. Zagoruiko, N.G., Kutnenko, O.A., Zyryanov, A.O. & Levanov, D.A. (2014) Learning to recognition without overfitting. Mashinnoe

obuchenie i analiz dannykh. 1(7). pp. 891-901. (In Russian).

4. Ignatiev, N.A. (2015) Cluster analysis and choice of standard objects in supervised pattern recognition problems. Vychislitel'nye

tekhnologii - Computational Technologies. 20(6). pp. 34-43. (In Russian).

5. Borisova, I.A. & Kutnenko, O.A. (2015) [Censoring of erroneously classified sample objects]. Matematicheskie metody raspoz-

navaniya obrazov [Mathematical Methods Of Patterns Recognition]. The 17th All -Russian Conference. Svetlogorsk. September 19-25, 2015. (In Russian).

6. Madrakhimov, Sh.F. & Saidov, D.Y. (2016) Stability of object classes and grouping features. Problemy vychislitel'noy iprikladnoy

matematiki - Problems of Computational and Applied Mathematics. 3(5). pp. 50-55. (In Russian).

7. Ayvazyan, S.A., Buchstaber, V.M., Yenyukov, I.S. & Meshalkin, L.D. (1989) Prikladnaya statistika. Klassifikatsiya i snizhenie

razmernostiAppliedstatistics [Classification and reduction of dimensionality]. Moscow: Finansy i statistika.

8. Asuncion, A. & Newman, D.J. (2007) UCI Machine Learning Repository. Irvine: University of California.

i Надоели баннеры? Вы всегда можете отключить рекламу.