Научная статья на тему 'Анализ данных и принятие решений с помощью логических закономерностей в форме полуплоскостей'

Анализ данных и принятие решений с помощью логических закономерностей в форме полуплоскостей Текст научной статьи по специальности «Математика»

CC BY
251
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛОГИЧЕСКИЕ ЗАКОНОМЕРНОСТИ В ФОРМЕ ПОЛУПЛОСКОСТЕЙ / ИНФОРМАТИВНЫЕ ПРИЗНАКИ / ОБОБЩАЮЩАЯ СПОСОБНОСТЬ / LOGICAL REGULARITIES IN THE FORM OF HALF-PLANES / INFORMATIVE FEATURES / GENERALIZING ABILITY

Аннотация научной статьи по математике, автор научной работы — Игнатьев Николай Александрович, Саидов Дониер Юсупович

Рассматривается интеллектуальный анализ данных через решение задач распознавания с учителем. В качестве инструмента для извлечения новых знаний из баз данных предлагается использовать логические закономерности в форме полуплоскостей. Описано 3 способа анализа исходных и латентных признаков на основе: критерия Фишера; отношения внутриклассового сходства и межклассового различия, определяемого через функцию Лагранжа; критерия для вычисления оптимальной границы между значениями из разных классов. Предложена методика отбора информативных наборов признаков с учётом этих способов анализа. Рассматривалось отображение различных описаний объектов на числовую ось. Доказано, что использование оптимальной границы между классами на числовой оси в качестве порога для линейной решающей функции увеличивает обобщающую способность при распознавании. Этот эффект объясняется отказом от предположения о нормальном распределении данных выборки при выборе порога. Предложенная технология анализа данных востребована при разработке интеллектуальных систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The intellectual analysis of data through solving recognition problems with the teacher is considered. As a tool for extracting new knowledge from databases, it is proposed to use logical regularities in the form of half-planes. Three methods for analyzing the initial and latent features are described on the basis of: Fisher’s criterion; The relationship of intra-class similarity and the interclass difference defined through the Lagrange function; Criterion for calculating the optimal boundary between values from different classes. A methodology is proposed for selecting informative sets of features taking into account these methods of analysis. The mapping of various descriptions of objects onto the numerical axis was considered. It is proved that using the optimal boundary between classes on the numerical axis as a threshold for a linear decision function increases the generalizing ability in recognition. This effect is explained by the rejection of the assumption of a normal distribution of sample data when choosing a threshold. The proposed technology for data analysis is in demand in the development of intelligent systems.

Текст научной работы на тему «Анализ данных и принятие решений с помощью логических закономерностей в форме полуплоскостей»

УДК 519.95

АНАЛИЗ ДАННЫХ И ПРИНЯТИЕ РЕШЕНИЙ С ПОМОЩЬЮ ЛОГИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ В ФОРМЕ ПОЛУПЛОСКОСТЕЙ

© 2017 Н.А. Игнатьев, Д.Ю. Саидов

Национальный университет Узбекистана имени Мирзо Улугбека, г. Ташкент, Узбекистан

Статья поступила в редакцию 29.09.2017

Рассматривается интеллектуальный анализ данных через решение задач распознавания с учителем. В качестве инструмента для извлечения новых знаний из баз данных предлагается использовать логические закономерности в форме полуплоскостей. Описано 3 способа анализа исходных и латентных признаков на основе: критерия Фишера; отношения внутриклассового сходства и межклассового различия, определяемого через функцию Лагранжа; критерия для вычисления оптимальной границы между значениями из разных классов. Предложена методика отбора информативных наборов признаков с учётом этих способов анализа. Рассматривалось отображение различных описаний объектов на числовую ось. Доказано, что использование оптимальной границы между классами на числовой оси в качестве порога для линейной решающей функции увеличивает обобщающую способность при распознавании. Этот эффект объясняется отказом от предположения о нормальном распределении данных выборки при выборе порога. Предложенная технология анализа данных востребована при разработке интеллектуальных систем. Ключевые словя:логические закономерности в форме полуплоскостей, информативные признаки, обобщающая способность.

ВВЕДЕНИЕ

Линейные дискриминантные функции (ЛДФ) широко используются в задачах интеллектуального анализа данных. Низкие затраты вычислительных ресурсов, возможность содержательной интерпретации результатов распознавания в качестве новых знаний являются теми свойствами, которые находят применение их при моделировании процессов и явлений в слабо формализованных предметных областях. При компьютерной реализации ЛДФ не требуется таблицы прецедентов, достаточно хранить в памяти лишь веса признаков. В технических устройствах ЛДФ могут быть представлены в виде электронныхсхем и микросхем чипов.

Для показателей точности распознавания большое значение имеет такое свойство признакового пространства как линейная разделимость объектов классов. Одним из способов обнаружения этого свойства является использование нелинейных преобразований признаков.

Нелинейные преобразования признаков, как правило, приводят к описанию объектовв пространстве (обобщенном пространстве) более высокой размерности, чем исходное. В качестве примера можно привести обобщенные линейные дискриминантные функции пред-

Игнатьев Николай Александрович, доктор физико-математических наук, профессор кафедры «Алгоритмы и технологии программирования». E-mail: [email protected]

Саидов Дониер Юсупович, старший научный сотрудник-исследователь. E-mail: [email protected]

ставляемые с помощью произведений исходных признаков степени не выше 2 и называемыми квадратичными. Обобщенное признаковое пространство можно рассматривать как линейное или спрямляющее, но значительно большей размерности чем исходное.

Переход в спрямляющее пространство объясняется с позиций обобщающей способности алгоритмов распознавания. Теоретически такой подход приемлем, так как повышает меру статистического разнообразия (емкость) класса линейных решающих функций. Доказательство этого факта можно найти в работе В.Н. Вапни-ка [1]. Утверждается, что выборку из m объектов в пространстве из п признаков при п ^ всегда можно с помощью ЛДФ разделить на два класса 2Ш способами. В реальных прикладных задачах отношения между объектами выборок данных определяется скрытыми закономерностями и нет смысла рассматривать все возможные варианты разбиения на классы.

Обучение ЛДФ сводится к вычислению вектора весовых коэффициентов. Среди вычислительных методов безусловным лидером является линейный дискриминант Фишера. Лидерские качества демонстрируются в виде высоких относительно других методов показателях обобщающей способности к распознаванию.

Выводы о существовании признакового пространства с линейной разделимостью объектов классов скорее всего представляет теоретический интерес, но для практического использования, как правило, неприемлемы. Обобщенные функции, которые предлагаются для формиро-

вания признакового пространства, увеличивают сложность обучения и реализации ЛДФ на несколько порядков выше, чем на исходном признаковом пространстве.

Исследователи искали ответ на вопрос: с помощью каких нелинейных преобразований строить спрямляющее пространство? В методе SVM[2] такой выбор был сделан на использование ядерных функций. Несмотря на наличие теоретического обоснование метода никаких рекомендаций по выбору ядерных функций не разработано.

В [2] предлагалось решение проблемы линейной разделимости с помощью матриц попарного сходства объектов. Использование этих матриц рассматривалось в качестве одной разновидностей без признакового распознавания. Принцип без признакового распознавания распространяется на такие известные методы как ближайший сосед, к ближайших соседей, базовым свойством которых является локальная компактность по мере близости.

Проблемы поиска информативных признаков как в исходном, так и в расширенном (спрямляющем) пространстве оставалось открытой. Целью отбора была адаптация к той структуре признакового пространства, для которой существует линейная разделимость объектов классов.

Логические закономерности в форме полуплоскостей применяются в интеллектуальном анализе данных. Целью анализа является поиск скрытых закономерностей (новых знаний) из баз (хранилищ) данных.Результаты анализа востребованы при принятии решений в трудно формализуемых задачах.

Сложность формализации заключается в отсутствии единого критерия, для оптимизации которого можно использовать уже известные методы либо разрабатывать новые. Как правило, задачи принятия решения многокритериальные. Получить оптимальное решение по каждому критерию практически невозможно. Выбор критерия (критериев) остается за лицом принимающим решение (ЛПР).

Наиболее известный и широко применяемый на практике критерий Фишера [3] не претендует на полноту исследования структуры данных с помощью логических закономерностей в форме полуплоскостей. В работе предлагаются два новых критерия для решения этой проблемы и методология их использования для принятия решений. Описан эвристический метод отбора информативных наборов признаков в спрямляющем пространстве. Востребованность метода доказывается через вычисление показателей обобщающей способности алгоритмов распознавания, основанных на принципах разделения объектов поверхностями.

ПОСТАНОВКА ЗАДАЧИ

Рассматривается двухклассовая задача распознавания в стандартной постановке. Каждый из объектов выборки £0={5;,...,5т} принадлежат одному из классов К1илиК2(Е0 =К1 ^ К2) и описываются с помощью п количественных признаков Х(п)=(х1,..., хп). Для распознавания объектов на Е0 используется обобщенные линейные решающие функции вида d(S)=w1y1+...+wryr, где ус=/с(5),

ЦБ^{^...х;} а} е{0,1} , 1=1..., г, г>ь

Считается, что для оценки выбора информативного набора признаковУ(р)=(у1, ..., ур) используется функционал Р(Ед,У(р)). Требуется определить:

- критерии для оценки закономерностей в форме полуплоскостей;

- информативный набор признаков

7 (р) = ш® тах^ (Е0,7(р))

где Ог - множество обобщенных функций степени не выше г.

2. КРИТЕРИИ ДЛЯ ОЦЕНКИ ЗАКОНОМЕРНОСТЕЙ В ФОРМЕ ПОЛУПЛОСКОСТЕЙ

Закономерности в форме полуплоскостей представляют предикат вида

P (x ) =

Ё wixi -1

: {0, 1}. Геометрическим ме-

стом точек, равноудаленным от двух эталонов из разных классов, является гиперплоскость, значения весовых коэффициентов которой вычисляются через координаты эталонов [4]. В качестве таких эталонов в данной работе предлагается рассматривать векторы математических ожиданий M1, M2 значений признаков объектов по каждому из классов К1 иК2.

Пусть mj е Mj, т2 е M2 - математическое ожидание (среднее-арифметическое) значений признака yr е Q' соответственно в классах К1 и К2. Внутриклассовое сходство и межклассовое различие признака yr е Q' по объектам Sj е E0 (S.=(y;i,..,y;p)), p>1 вычислим соответственно как

0r = Ё Z {Уг - mj )2 и Yr = Ё Z (y-r - тГ )2-

j=1 S, eK} j=1 St eK}

Для оценки веса (разделяющей способности) wr признака yr е Q' по значениям 8r, yr предлагается использовать функционал из [5]

Ё wA

J(w) = ^--> min. (1)

Ё wi y i

При ограничении на веса в (1) Ё w, = 1, w>0

г

функция Лагранжа для решения задачи условной оптимизации имела вид

Е у

ь (у, —у -1 А, у '

а значения весов вычислялись как у =

у,- в,

Ну . - в.)

Согласно доказанной в [5] теоремы, необходимым и достаточным условием выбора признака у. е У (р) кандидатом на удаление из набора У(р)=(у1,.,у) при ограничении Ту. = 1,

у. > 0 является — = тах . Соотношение

' у , у, 6У(р)

УI

(2)

дает возможность оценивать и упорядочивать признаки по плотности их распределения вокруг математических ожиданий классов. Чем выше плотность, тем меньше значение (2).

Также как и в (2) вычисление внутриклассового сходства по отдельному признаку используется в критерии Фишера [3]

(3)

у( у) =

( 2 2 Л

ТТ^(-О

Т1 к\(\к |-1)

( 2 2 Л

т Т * (к3-I" <о

2| к II к 21

^ тах (5)

позволяет вычислять оптимальное значение границы между интервалами [с1,с2], (с2,с3]. Выра-

жение в левых скобках (5) представляет внутриклассовое сходство, в правых - межклассовое различие.

Значение wr=w(yr) рассматривается как вес признака уг е У (р), а границы интервалов могут используются для нормирования значений признака объекта 5.=(у;1,..,у.) по формуле

У'г - С2

в котором сумма внутриклассового разброса + $2 = 0Г, а т—т2 естьразность математических ожиданий классов К1и К2на числовой оси.

Отличный от (2) и (3) критерий рассчитан на анализ порядка расположения объектов классов на числовой оси [6]. Пусть

^ Б,,..., Б, (4)

последовательность объектов, упорядоченная по невозрастанию значений признака уг е У (р) . Упорядоченное множество значений (4) разделяется на два непересекающихся интервала [с1,с3\, (с2,с3], каждый из которых рассматривается как градация номинального признака. Критерий для определения границыс2основывается на проверке гипотезы (утверждения) о том, что каждый из двух интервалов содержит значения количественного признака объектов только одного класса.

Пусть и1, и2 - количество значений (4) некоторого количественного признака у е У (р) класса К., /=1,2 соответственно в интервалах [с1,с2], (с2,с3], (К,.| > 1, V - порядковый номер элемента упорядоченной по возрастанию последовательности (4) из£д определяющий границы интервалов как с1 = , с2 = , с3 = . Критерий

У г =:

3. ОТБОР ИНФОРМАТИВНЫХ НАБОРОВ ПРИЗНАКОВ

Задача поиска информативных наборов признаков для линейной разделимости объектов классов К1иК2 является ЫР полной. Из этого следует вывод, что кроме полного перебора других способов решить задачу поиска глобального экстремума функционала Р(Бд,У(р)) не существует. Используя некоторые эвристики, можно получить локальный экстремум функционала.

Смысл использования эвристик для решения проблемы линейной разделимости сводится к следующему. Пусть О1 - множество обобщенных функций степени не выше t. На множестве пар (у1, у.) с У (р) рассматривается сокращенный перебор с целью поиска экстремума по критерию Фишера

Ф(у) = -

тах.

(6)

Критерий (6) отличается от (3) тем, что для линейной проекции описаний объектов на числовую ось необходимо вычислять значения вектора весовw.Приемлемым считается результат, при котором точность распознавания на обучении по (у1, у.) с У (р) не ниже чем на исходном наборе Х(п).

Для вычисления коэффициентов дискри-минантной функции й(у)=м1у.+м2у.+мд по паре (у ', у. )с У (р) сформируем матрицу ковариа-

ций 1 =

(т1 - ш] ^

т1 - т2

\ 1 1

и вектор-столбец разностей

где

т1, т\, т2, т.

математические

ожидания по признакам у., у. соответственно в классе К1 и К2. Решение системы линейных алгебраических уравнений

',„ = т1 - т2

(7)

у гп + У2гп = т] - ^

| у1 1гх + у2122 = тц - т^

дает искомые значения весов м2 дискрими-нантной функции.

Выбор коэффициентов линейного дискриминанта Фишера по (7) связан с предположением, что выборка данных распределена по

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

нормальному закону. Исходя из этого предположения выбор порога дискриминантный функции d(y) производится как

^ = -((т) | К | + т\ К \) + щ (ш) К | + т) \К2 |)) / ш. (8)

Способ выбора порога без всяких предположений о природе среды впервые был предложен в [7]. Значение порога вычислялось по границе с2интервалов [с1,с2], (с2,с3] по (5) как

с2 + и (Б)

^ =-(9)

где и(Б)=т1у.+^1у., Б=(у,..,ур), и(Б)£ (с2,с3] - бли-жайщий к с2 объект Е0 на числовой оси.

4. ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ

Для вычислительного эксперимента были взяты 4 выборки данных из [6, 8, 9], содержащих представителей двух непересекающихся

классов. Для описания объектов использовались признаки, измеренные в интервальных шкалах. Параметры выборок представлены в табл. 1.

Вычислительный эксперимент проводился на объектах выборок с описанием как в исходном так и в спрямляющем пространстве. Спрямляющее пространство было представлено обобщенными функциями степени не выше 2. Сравнительный анализ данных на выборке СЬе1ш1 по критериям (2),(3),(5) представлен в табл. 2.

Нетрудно заметить, что между значениями критериев (см. табл. 2) нет линейной или квазилинейной зависимости. Многообразие отношений на множестве значений свидетельствует как о сложности структуры данных так сложности принятия решения по ним.

Значения 0,8001 по критерию (5)на признаках х4 х5, х5 х6 и х6 указывает на то, что порядок

Таблица 1. Параметры выборок данных

№ Выборка данных Количество

Объектов признаков

1 Australian 690 14

2 Chelust 42 6

3 Gipertaniya 147 29

4 Seeds 140 7

Таблица 2. Сравнительный анализ данных СЬе1ш1 по критериям (2), (3), (5)

Признаки (обобщенные функции) Значения по критериям

(3) (5) (2)

XI 0,0074 0,3781 0,7617

ХХ 0,0106 0,3781 0,6910

Х1Х3 0,0090 0,3620 0,7258

XX 0,0679 0,5757 0,2596

XX 0,0341 0,4196 0,4113

XX 0,0398 0,4355 0,3740

Х2 0,0134 0,3892 0,6391

Х2Х3 0,0158 0,3892 0,6014

Х2Х4 0,0811 0,6241 0,2270

Х2Х5 0,0439 0,4905 0,3517

Х2Х6 0,0499 0,4683 0,3230

Хз 0,0048 0,2884 0,8320

Х3Х4 0,0806 0,5312 0,2281

Х3Х5 0,0412 0,5180 0,3664

Х3Х6 0,0457 0,4743 0,3424

Х4 0,2669 0,8965 0,0819

Х4Х5 0,2278 0,9107 0,0946

Х4Х6 0,1797 0,8001 0,1170

Х5 0,1108 0,6254 0,1769

Х5Х6 0,1108 0,8001 0,1769

Хб 0,0787 0,8001 0,2322

расположения объектов одного класса относительно другого не изменился. Изменения есть у показателей плотности распределения объектов относительно математических ожиданий (центров) классов, вычисляемых по критериям(2) и (3).

Из максимального значения 0,9107 по критерию (5) следует вывод, что свойство линейной разделимости среди всех признаков из табл. 2 наиболее выражено у х4 х5. Несмотря на менее выраженное свойство линейной разделимости, показатель плотности распределения (среднеквадратичное отклонение от математических ожиданий классов) ух4по (2) выше чем у х4 х5 . Относительно малое значение отклонения (0,0819 относительно 0,0946) указывает на более высокую плотность распределения.

Влияние выбора порога дискриминантной функции мд с предположением о нормальности распределения выборки по критерию Фишера [3] и по критерию (5) по аналогии соответственно с (8) и (9) на исходных наборах признаков приводится в табл. 3.

Значение критерия (5), равное 1,0, по определению означает, что представители классов на числовой осине пересекаются между собой. Корректное (без ошибок) распознавание объ-

ектов на выборках Chelust и Seeds служат подтверждением этому определению.

Эффект от выбора значения порога по (8) или (9) в спрямляющем пространстве на данных Chelust демонстрируется в табл. 4 и рис. 1.

На рис. 1.a и 1.b показана последовательность расположения объектов классов по первой и второй паре признаков из табл. 4. В границах интервалов [c1 ,c2], (c2,c3] по (5) содержатся представители соответственно классов K2 и Kr При пороге, вычисленном по (8) (на рис. 1 указан жирной чертой), число ошибок равно соответственно 2 и 4.

Сравнивая результаты по данным Chelust из табл. 3 и табл. 4 отметим, что корректное распознавание в спрямляющем пространстве достигнуто за счет использования обобщенных функций не выше 2 степени. Для вычисления этих функций будет достаточно задать значения исходных признаков xv x4, x5 или x2, x4, xs, x6.

ЗАКЛЮЧЕНИЕ

В работе рассмотрена проблема выбора решений в трудно формализуемых задачах путем анализа закономерностей в форме полуплоско-

Таблица 3. Точность распознавания в исходном пространстве признаков

№ Выборка Значение критерия Число ошибок при выборе

данных порога по критерию

(3) (5) (6) (5)

1 Australian 0,0088 0,6176 96 84

2 Chelust 0,5446 1,0000 3 0

3 Gipertaniya 0,2180 0,672 8 1

4 Seeds 0,1616 1,0000 2 0

Таблица 4. Точность распознавания в спрямляющем пространстве

№ Комбинации Значение критерия Число ошибок при выборе

из пар признаков порога по критерию

(3) (5) (8) (9)

1 Х1Х5, Х4Х5 0,5426 1,0 2 0

2 Х2Х6, Х4Х5 0,2870 1,0 4 0

a)

Ь)

Рис. 1. Последовательность расположения объектов классов и границы пороговна числовой оси

стей. Предложены критерии для анализа и методология их использования, которая востребована для разработки и управления технических устройств на основе систем искусственного интеллекта.

СПИСОК ЛИТЕРАТУРЫ

1. Вапник В.Н. Восстановление закономерностей по эмпирическим данным. М.: Наука. 1979. 447 с.

2. Середин О.С. Линейные методы распознавания образов на множестве объектов произвольной природы, представленные попарными сравнениями. Общий случай // Известия Тульского государственного университета. Естественные науки. 2012. Вып. 1. С. 141-152.

3. Дуда Р., Харт П. Распознавание образов и анализ сцен. Мир. 1976. 512 с.

4. Ту Дж., Гонсалес Р. Принципы распознавания

образов. М: Мир, 1978.416 с.

5. Игнатьев Н.А. Выбор минимальной конфигурации нейронных сетей // Вычислительные технологии.2001.Т.6. №1. С. 23-28.

6. Игнатьев Н.А. Вычисление обобщенных показателей и интеллектуальный анализ данных // Автоматика и телемеханика. 2011. № 5. С.183-190.

7. Игнатьев Н.А., Нуржонов Ш.Ю. Выбор параметров регуляризации для повышения обобщающей способности дискриминантных функций // Узбекистан Республикаси Курол Кучлари академияси нинг хабарлари. 2014. Т. 1. № 1(14).С. 81-87.

8. Knowledge discovering from clinical data based on classification tasks solving / N.A. Ignat'ev, F.T. Adilova, G.R. Matlatipov, P.P. Chernysh // Medinfo. Amsterdam: ios press. 2001. pp. 1354-1358.

9. Index of /ml/machine-learning-databases. URL: http://archive.ics.uci.edu/ml/machine-learning-databases/ (дата обращения 14.03.2017).

DATA ANALYSIS AND DECISION-MAKING WITH LOGICAL REGULARITIES IN THE FORM OF HALF-PLANES

© 2017 N.A. Ignatyev, D.Y. Saidov

National University of Uzbekistan named after Mirzo Ulugbek, Tashkent, Uzbekistan

The intellectual analysis of data through solving recognition problems with the teacher is considered. As a tool for extracting new knowledge from databases, it is proposed to use logical regularities in the form of half-planes. Three methods for analyzing the initial and latent features are described on the basis of: Fisher's criterion; The relationship of intra-class similarity and the interclass difference defined through the Lagrange function; Criterion for calculating the optimal boundary between values from different classes. A methodology is proposed for selecting informative sets of features taking into account these methods of analysis. The mapping of various descriptions of objects onto the numerical axis was considered. It is proved that using the optimal boundary between classes on the numerical axis as a threshold for a linear decision function increases the generalizing ability in recognition. This effect is explained by the rejection of the assumption of a normal distribution of sample data when choosing a threshold. The proposed technology for data analysis is in demand in the development of intelligent systems. Keywords: Logical regularities in the form of half-planes, informative features, generalizing ability.

Nikolay Ignatyev, Doctor of Physics and Mathematics, Professor at the Algorithms and Program Technologies Department. E-mail: [email protected] Doniyor Saidov, Senior Researcher. E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.