Научная статья на тему 'О способе определения близости объектов взвешенных обучающих выборок'

О способе определения близости объектов взвешенных обучающих выборок Текст научной статьи по специальности «Математика»

CC BY
221
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
W-ОБЪЕКТ / ОБУЧАЮЩАЯ ВЫБОРКА / АЛГОРИТМ K-БЛИЖАЙШИХ СОСЕДЕЙ / МЕТРИКА / W-ОБ''єКТ / АЛГОРИТМ K-НАЙБЛИЖЧИХ СУСіДіВ / W-OBJECT / K-NEAREST NEIGHBORS ALGORITHM / METRIC

Аннотация научной статьи по математике, автор научной работы — Волченко Е. В.

В работе предложена метрика для определения расстояния между объектами обучающих выборок, имеющими вес. Выполнено расширение алгоритма k -ближайших соседей на взвешенные выборки w -объектов с вычислением расстояния на основе предложенной метрики. Проведены экспериментальные исследования, подтвердившие эффективность предложенного подхода. Библиогр.: 9 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method for determining the proximity of objects of weighted training samples

In article the metrics for distance determination between the objects of weighted training samples is proposed. Expansion of k-nearest neighbors algorithm on the weighed samples of w-objects with distance calculation on the basis of the proposed metrics is done. Experimental results are confirmed the efficiency of the offered approach. Refs: 9 titles.

Текст научной работы на тему «О способе определения близости объектов взвешенных обучающих выборок»

УДК 004.9341

Е.В. ВОЛЧЕНКО, канд. техн. наук, доц., Институт информатики и

искусственного интеллекта ГВУЗ "Донецкий национальный

технический университет", Донецк

О СПОСОБЕ ОПРЕДЕЛЕНИЯ БЛИЗОСТИ ОБЪЕКТОВ

ВЗВЕШЕННЫХ ОБУЧАЮЩИХ ВЫБОРОК

В работе предложена метрика для определения расстояния между объектами обучающих выборок, имеющими вес. Выполнено расширение алгоритма ^-ближайших соседей на взвешенные выборки ^-объектов с вычислением расстояния на основе предложенной метрики. Проведены экспериментальные исследования, подтвердившие эффективность предложенного подхода. Библиогр.: 9 назв.

Ключевые слова: ^-объект, обучающая выборка, алгоритм ^-ближайших соседей, метрика.

Постановка проблемы и анализ литературы. Классификация объектов в обучающихся системах распознавания заключается в определении их близости к объектам обучающей выборки на основе выбранной метрики (функции расстояния).

Метрикой называют неотрицательную вещественную функцию ё (X,, Xу), удовлетворяющую следующим условиям [1]:

1) ё (Хг, Xу ) > 0 для всех объектов X и Ху обучающей выборки

X;

2) ё(Xi, Xj) = 0 тогда и только тогда, когда Xi = Xj (аксиома тождества);

3) ё (Xi, Xу) = ё (Xу, X,) (аксиома симметрии);

4) й(X,, Xj ) < й(X,, X,) + й(X,, Xj ), где X,, Xj и X, - три

любые объекта выборки X (аксиома треугольника).

Особенности расположения объектов обучающей выборки в признаковом пространстве, недостаточный (избыточный) объем данных, наличие шума и неполных данных существенно повышают важность выбора метрики, позволяющей выполнять классификацию объектов с наибольшей эффективностью [2]. На сегодняшний день разработано значительное количество метрик, перечень которых можно найти, например, в [3], обеспечивающих высокую эффективность классификации, однако для некоторых видов систем распознавания этот вопрос остается открытым.

Анализ большого числа прикладных задач, решающихся путем построения систем распознавания показал, что на сегодняшний день наиболее востребованными являются адаптивные обучающиеся системы распознавания, характеризующиеся способностью изменять свои свойства (словарь признаков, обучающую выборку, решающие правила классификации и т.д.) в соответствии с изменениями распознаваемых объектов [4]. Определяющей особенностью этих систем является возможность пополнения обучающей выборки новыми объектами на всем протяжении времени работы системы, что приводит к неограниченному росту обучающей выборки и необходимости корректировки решающих правил при добавлении новых объектов.

В предыдущих работах автора [4, 5] для сокращения размера обучающих выборок в адаптивных обучающих системах была предложена и реализована алгоритмически идея перехода к взвешенным обучающим выборкам, каждый ^-объект которой строится по множеству близкорасположенных в пространстве признаков объектов исходной выборки. Значения признаков V -объектов являются центрами масс значений признаков объектов найденных множеств. Вес содержит информацию о взаиморасположении, количестве или качестве заменяемых объектов и, исходя из результатов экспериментальных исследований, проведенных в предыдущих работах, позволяет

существенно повысить эффективность работы систем.

Введение дополнительной характеристики для описания ^-объектов не позволяет корректно выполнять классификацию объектов из-за отсутствия метрики, рассчитывающей расстояние между объектами, имеющими разный вес.

Целью данной работы является разработка и анализ метрики для оценки степени близости объектов во взвешенных обучающих выборках.

Постановка задачи. Пусть имеется некоторая конечная взвешенная обучающая выборка V- объектов XW = {XI', XW,..., } . Каждый

^-объект XW этой выборки описывается системой признаков

{%, х,2, •••, Х1п} и весом р, - целым положительным числом, т.е.

vW г -1 ч

X i = {хя, х2,..., хп, р{} и представляется точкой в линейном

пространстве признаков, т.е. X, е Яп . Для каждого V-объекта известна его классификация у, е V , где V = {У1,..., V} - множество всех классов системы.

Имеется некоторый объект X, = {хл, х,2,..., х,п}, заданный только набором признаков (для единообразия присвоим ему вес равный единице, т.е. р, = 1, тогда XW = {хл, х,2,..., х,п, р,}). Необходимо выполнить классификацию объекта XW, для чего требуется построить функцию (XW, XW) оценки расстояния между классифицируемым объектом и объектами взвешенной обучающей выборки.

Построение метрики на взвешенных обучающих выборках.

Выбор метрик в задачах распознавания ограничивается, в первую очередь, сложностью их вычисления [6] и близостью к реальному топологическому разделению пространства признаков на области, соответствующие классам системы [7].

По результатам анализа особенностей расположения объектов взвешенной выборки в пространстве признаков может быть предложена следующая метрика.

Пусть каждый ^-объект взвешенной обучающей выборки представляется материальной точкой в признаковом пространстве Яп и имеет массу, равную весу V -объекта.

Тогда "близость" двух материальных точек (двух ^-объектов)

X,' = {х,1, х,2,..., хт, р,} и ^ = {xjl, xj2, • ••, хуп , Ру } в пространстве признаков может быть определена по силе притяжения между ними

р, • р у _ р, • р у р, • ру

К = ■

2 ^Й7Н

(1)

п

£ (х,а - ху о )2 0=1

Два V-объекта XW и X, являются ближайшими, если сила

притяжения между ними, рассчитанная по формуле (1), максимальна.

Поскольку при вычислении расстояний два объекта являются ближайшими, если расстояние между ними минимально, в качестве метрики для определения расстояния между V -объектами будем использовать величину, обратную к (1).

Теорема 1. Функция

1<х,о-хуо? (2)

(XГ, X,) =

рг • ру

/ввы 2079-0031 Вестник НТУ "ХПИ", 2012, № 38

п

является метрикой.

Доказательство. Покажем, что формула (2) определяет метрику, т.е. удовлетворяет условиям 1 - 4.

Свойство 1. Для любой пары V-объектов К,' и X]J взвешенной

обучающей выборки XW ё, (XW, X,) > 0.

В формуле (2) выражение

£ (х,0 - хуо )2 является евклидовой

о=1

метрикой, для которой данное свойство выполняется. Согласно постановке задачи веса ^-объектов р > 1 и ру > 1, поэтому для (2)

свойство 1 выполняется для любых XW и XW.

Свойство 2. Для любой пары V-объектов XW и X, взвешенной

обучающей выборки XW ё, (XW, X,) = 0 тогда и только тогда, когда

=х,

Пусть х,0 = ху0 для всех о = 1, п, тогда

п п

(х,о - хуо )2 V,

V 0=1 _ |

£ (х,о - х,о )2 о=1 0

= 0 (по условию р, > 1 и

р, ■ ру р, ■ ру р, ■ ру

ру > 1), т.е. для (2) свойство 2 выполняется для любых XW и X, .

Свойство 3. Для любой пары V-объектов XW и X, взвешенной обучающей выборки XW ё, (XW, XJJ) = ё, (XJ, XW).

Поскольку

V

п

£ (х,о - хуо)2 =

п

-х, '2

£ (хуо - х,о)2 , то, свойство 3

выполняется для любых XW и X,.

Свойство 4. Для любых V- объектов XW, XW и XW выборки X

ё, ^, XJ) < ё, ^, X^W) + ё, (лЦ, X^W).

Рассмотрим естественный случай, когда выполняется расчет расстояния от двух V-объектов XW, XW (обычно принадлежащих

о=1

о=1

разным классам) до распознаваемого объекта , т.е. покажем, что

й? (X?, X/) < й? (X?, X?) + й? (X?, X/).

Пусть

V

£ (Хо - Х/о )2

II

£(Хо - Хо)2

£(х™ - Х/о )2

т.е.

р, • р/

р, • р*

р* • pJ

1

£(х,о- Х/о )2 > р.

о=1

£ (Хо - Х*о)2 + р,

о=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

£ (Х*о - Х/о)2.

о=1

о=1

Поскольку в худшем случае для евклидовой метрики

I

£ (Хо - Х/о)2 =

£ (Х,о - Х*о )2

о=1

£ (Х*о - Х/о )

Хп ) , то

о=1

1 п п >

£(Х,о о=1 - Хо)2 +-^ £(Х*о - Хо)2 о=1 V > p/J

£ (Х,о - Х*о )

Х*о)2 +

+р,

£ (Х*о - Х/о )2-

о=1

В результате преобразований получим выражение р - р./-)

1

£ (Хо - Х*о)2 >(р, - р* ).

о=1

£(Х*о - Х/о)2 .

(3)

о=1

Так как р = 1, а р > 1 и р/ > 1, то неравенство (3) является

неверным и свойство 4 выполняется для любых X?, X? и

классифицируемого объекта X?.

Поскольку для (2) все свойства метрики выполняются, то функция

I

1 о=1

йш (X?, Xf) =

£ (х0 - Х/о )2

р, • р/

является метрикой.

о=1

о=1

п

*

о=1

Отметим, что рассмотрение случая, когда классифицируемый объект X? имеет неединичный вес, будет рассмотрено в следующих работах.

Классификация объектов на основе взвешенных обучающих выборок. Для классификации объектов на основе взвешенных обучающих выборок V -объектов будем использовать алгоритм к-ближайших соседей [2], широко применяющийся при решении задач классификации в условиях неполных априорных данных. Выбор данного метода для классификации на основе взвешенной обучающей выборки основывается на результатах исследований [5], согласно которым он будет показывать высокую эффективность классификации при использовании сокращенной обучающей выборки. Для классификации объекта X? с помощью метрики (2) найдем к ближайших к нему ^-объектов каждого из классов и отнесем к тому классу, суммарное расстояние до объектов которого минимально.

Результаты экспериментальных исследований. Для оценки эффективности предложенного подхода был проведен ряд экспериментальных исследований. В качестве исходных данных были использованы выборки объектов двух классов размером 1000 - 5000 объектов при 20% пересечении областей классов в пространстве признаков, содержащих 5 - 20 признаков распознавания. Для генерации значений признаков использовался нормальный и равномерный законы распределения.

Оценка эффективности классификации объектов на основе взвешенной обучающей выборки по предложенной модификации алгоритма к-ближайших соседей выполнялась на тестовых выборках размером 100 объектов, полученных с помощью тех же генераторов, что и обучающие выборки. В качестве критерия оценки эффективности классификации использовалась частота неверных классификаций. Количество "ближайших соседей" равно 10% размера обучающей выборки V-объектов.

Анализ полученных результатов позволяет сделать следующие выводы:

1) размер взвешенной выборки ^-объектов составил в среднем 2,3% размера исходной обучающей выборки;

2) частота неверной классификации объектов тестовой выборки модифицированным методом к-ближайших соседей по выборке ^-объектов уменьшилась в среднем на 7,4% по сравнению с частотой неверной классификации методом к-ближайших соседей по исходной выборке.

Отметим, что близкие результаты были получены при 10 - 4G% пересечении областей классов в пространстве признаков и изменении количества признаков распознавания.

Также были проведены экспериментальные исследования эффективности предложенного подхода на выборках репозитория ISEC (International Statistical Education Centre) [9], для которых частота неверной классификации объектов модифицированным методом k-ближайших соседей по выборке w-объектов уменьшилась в среднем на 5,3%.

Выводы. В работе предложен способ оценки расстояния между объектами взвешенной обучающей выборки и классифицируемыми объектами с помощью новой метрики. Выполнено расширение алгоритма k-ближайших соседей на взвешенные выборки w -объектов с вычислением расстояния на основе предложенной метрики.

Результаты экспериментальных исследований показали устойчивое уменьшение частоты неверных классификаций в среднем на 7,4%, что позволяет сделать вывод об эффективности использования взвешенных выборок w-объектов в адаптивных обучающихся системах.

Автор благодарит к.ф.-м.н., с.н.с. И.С. Грунского за ряд ценных замечаний и внимание к данной работе.

Список литературы: 1. Дюран Б. Кластерный анализ / Б. Дюран, П. Оделл. - М.: Статистика, 1977. - 130 с. 2. Theodoridis S. Pattern Recognition / S. Theodoridis, K. Koutroumbas. - San Diego: Academic Press, 2GG8. - 823 p. 3. Воронин Ю.А. Теория классифицирования и её приложения / Ю.А. Воронин. - Новосибирск: Наука, 1985. - 232 с. 4. Розробка теоретичних засад і методів реалізації відкритих систем автоматичного розпізнавання, що навчаються: способи оптимізації навчаючих вибірок і методи побудови зважених вирішуючих правил класифікації [Текст]: звіт з НДР (заключний): Тема GP/F32/130, Грант Президента України для підтримки наукових досліджень молодих учених на 2011 рік / керівник роботи О.В. Волченко. - Донецк, ГВУЗ "ДонНТУ", 2011. -б? с. 5. Волченко Е.В. Метод построения взвешенных обучающих выборок в открытых системах распознавания / Е.В. Волченко // Доклады 14-й Всероссийской конференции "Математические методы распознавания образов (ММРО-14)", Суздаль, 2009. - М.: Макс-Пресс, 2009. - С. 100 - 1G4. б. Гороховатский В.А. Метрики на множествах ключевых точек изображений / В.А. Гороховатский // Бионика интеллекта. - 2GG8. - № 2 (69). - С. 45 - 5G. 7. Рудаков К.В. О структуре метрических технологий Data Mining / К.В. Рудаков, Г.В. Никитов // Искусственный интеллект. - 2GG2. - N° 2. - С. 218 - 22G. S. Павлов Д.А. Модифицированный алгоритм классификации тина k-ближайших соседей / Д.А. Павлов, А.П. Серых // Фундаментальная и прикладная математика. - 2GGG. - Том 6. - № 2. - С. 533548. 9. http://www.isical.ac.in/~miu

Статью представил д.ф.-м.н. доц., зав. кафедрой системного анализа и моделирования Института информатики и искусственного интеллекта ГВУЗ "ДонНТУ" Миненко А.С.

УДК 004.93'11

Спосіб визначення близькості об’єктів зважених навчаючих вибірок / Волченко О.В. // Вісник НТУ "ХПІ". Серія: Інформатика та моделювання. - Харків: НТУ "ХПІ". - 2012. - № 38. - С. 38 - 45.

У роботі запропоновано метрику для визначення відстані між об'єктами навчаючих вибірок, що мають вагу. Виконано розширення алгоритму ^-найближчих сусідів на зважені вибірки w-об’єктів з обчисленням відстані на основі запропонованої метрики. Проведено експериментальні дослідження, що підтвердили ефективність запропонованого підходу. Бібліогр.: 9 назв.

Ключові слова: w-об'єкт, алгоритм ^-найближчих сусідів, метрика.

UDC 004.93’1

Method for determining the proximity of objects of weighted training samples / Volchenko E.V. // Herald of the National Technical University "KhPI". Subject issue: Information Science and Modeling. - Kharkov: NTU "KhPI". - 2012. - N°. 38. - P. 38 - 45.

In article the metrics for distance determination between the objects of weighted training samples is proposed. Expansion of k-nearest neighbors algorithm on the weighed samples of w-objects with distance calculation on the basis of the proposed metrics is done. Experimental results are confirmed the efficiency of the offered approach. Refs: 9 titles.

Key words: w-object, і-nearest neighbors algorithm, metric.

Поступила в редакцию 29.04.2012

i Надоели баннеры? Вы всегда можете отключить рекламу.