Научная статья на тему 'Устойчивость разбиения данных на интервалы в задачах распознавания и поиск скрытых закономерностей'

Устойчивость разбиения данных на интервалы в задачах распознавания и поиск скрытых закономерностей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
207
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКРЫТЫЕ ЗАКОНОМЕРНОСТИ / УСТОЙЧИВОСТЬ РАЗБИЕНИЯ НА ИНТЕРВАЛЫ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / HIDDEN PATTERNS / THE STABILITY OF THE DIVISION INTO INTERVALS / DATA MINING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Згуральская Екатерина Николаевна

Большую роль для совершенствования цифровых технологий в научной, производственной и социальной сферах имеет поиск новых знаний, содержащихся в базах и хранилищах данных в форме скрытых закономерностей. В данной работе для выявления скрытых закономерностей при распознавании объектов рассматривается метод разбиения значений признаков на непересекающиеся интервалы. В качестве критерия качества предлагается использовать значение показателя устойчивости разбиения исходных и латентных признаков на интервалы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SUSTAINABILITY OF DIVIDING DATA IN INTERVALS IN THE PROBLEMS OF RECOGNITION AND SEARCHING FOR HIDDEN LAWS

A great role for the improvement of digital technologies in the scientific, industrial and social spheres has the search for new knowledge contained in databases and data warehouses in the form of hidden patterns. In this paper, in order to identify hidden patterns in the recognition of objects, the method of splitting the characteristic values into disjoint intervals is considered. As a quality criterion, it is proposed to use the value of the stability indicator for dividing the original and latent features into intervals.

Текст научной работы на тему «Устойчивость разбиения данных на интервалы в задачах распознавания и поиск скрытых закономерностей»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 519.688

УСТОЙЧИВОСТЬ РАЗБИЕНИЯ ДАННЫХ НА ИНТЕРВАЛЫ В ЗАДАЧАХ РАСПОЗНАВАНИЯ И ПОИСК СКРЫТЫХ ЗАКОНОМЕРНОСТЕЙ

© 2018 E.H. Згуральская

Институт авиационных технологий и управления Ульяновского государственного технического университета

Статья поступила в редакцию 01.11.2018

Большую роль для совершенствования цифровых технологий в научной, производственной и социальной сферах имеет поиск новых знаний, содержащихся в базах и хранилищах данных в форме скрытых закономерностей. В данной работе для выявления скрытых закономерностей при распознавании объектов рассматривается метод разбиения значений признаков на непересекающиеся интервалы. В качестве критерия качества предлагается использовать значение показателя устойчивости разбиения исходных и латентных признаков на интервалы. Ключевые слова: Скрытые закономерности, устойчивость разбиения на интервалы, интеллектуальный анализ данных.

ВВЕДЕНИЕ

Использование цифровых технологий в научной, производственной (в частности, в авиации) и социальной сферах являются одним из главных факторов инновационного развития современного общества. Важную роль для совершенствования цифровых технологий играют информационные модели, основанные на знаниях. Как правило, неявные знания содержатся в базах и хранилищах данных в форме скрытых закономерностей. Поиск скрытых закономерностей является основной целью разработки и реализации методов интеллектуального анализа данных (ИАД).

К числу основных проблем построения информационных моделей в слабо структурированных предметных областях относятся выбор описаний допустимых объектов и высокая комбинаторная сложность алгоритмов для поиска логических закономерностей. На решение этих проблем ориентирована разработка методов поиска информативных наборов признаков и подмножества объектов обучения, которые обладают лучшим качеством в смысле решения задач распознавания, чем исходные множества признаков и объектов [1]. На базе методов ИАД разрабатываются информационные модели для объяснения процесса интуитивного принятия решений.

Проблемы имеются в выборе способов предобработки данных с целью уменьшения комбинаторной сложности алгоритмов ИАД, в разработке способов повышения обобщаю-

Згуральская Екатерина Николаевна, старший преподаватель кафедры «Самолетостроение». E-mail: [email protected]

щей способности алгоритмов распознавания, связанных с выбором оптимальных по мощности наборов признаков в описании допустимых объектов. Отсутствие ограничений на число признаков в наборах может привести к явлению, которое Беллман назвал «проклятие размерности» [2].

Существует потребность в разработке и обосновании новых эвристик и критериев для проверки истинности гипотезы о компактности классов [1] при распознавании образов в рамках информационных моделей, в использовании новых методов визуализации для анализа отношений между объектами. Для удовлетворения такой потребности предлагается использовать интервальные методы анализа данных [3]. Границы интервалов определяются как для исходных и латентных признаков, так и для значений мер близости между объектами и признаками.

Одним из универсальных ограничений на использование интервальных методов является инвариантность к масштабам измерений данных. Важность свойства инвариантности выражается в однозначности интерпретации результатов алгоритмов ИАД в рамках информационной модели предметной области. Свойство инвариантности даёт возможность для:

- выбора латентных признаков при моделировании процесса интуитивного принятия решений;

- визуализации описаний объектов из разнотипного признакового пространства;

- упорядочивания разнотипных признаков по отношению информативности.

В статье рассматривается интервальный метод анализа данных, применяемый для задач

распознавания с непересекающимися классами. Целью анализа является обнаружение скрытых закономерностей в данных, которые легко представить как новое знание в наглядной для пользователя форме. Новизна знаний выражается в том, что они не являются подтверждением раннее полученных сведений.

1. ОПИСАНИЕ МЕТОДА РАЗБИЕНИЯ ЗНАЧЕНИЙ ПРИЗНАКОВ НА ИНТЕРВАЛЫ

И ОЦЕНКИ КАЧЕСТВА РАЗБИЕНИЯ

Предлагается метод определения непересекающихся интервалов количественных признаков, в границах которых доминируют значения объектов одного из непересекающихся классов. На базе этого метода стало возможным как вычисление обобщённых оценок объектов (латентных признаков) в разнотипном признаковом пространстве, так и меры их устойчивости.

Пусть дано множество М допустимых объектов, разбитое на Iнепересекающихся подмножеств (классов) К1,_,К1 Считается, что представители классов заданы через выборку (подмножество М) объектов Ей = {5±,... . Объекты выборки описываются с помощью п разнотипных признаков, из которых: ^ измеряются в интервальных шкалах, а п — ^ в номинальных.

Вычисление устойчивости объектов по значениям исходных и латентных признаков производится относительно отдельных классов. Необходимость сведения решения к двухклассовой задачи распознавания с объектами из К и СК{ =М\К£, £=1,___,1 связана с тем, что:

-значение любого количественного признака (исходного и латентного) относительно. Объекты каждого из классов противопоставляются объектам противоположных классов (например, класс заболевших и умерших от сердечно-сосудистых заболеваний противопоставляется классу практически здоровых людей);

- отсутствуют наборы аналитических функций для восстановления зависимостей в пространстве разнотипных признаков.

Требуется:

- на множестве допустимых значений каждого из количественных признаков определить разбиение на минимальное число непересекающихся интервалов, в границах которых доминируют значения объектов класса К или СК{ =М\ К, £=1,_,1;

-вычислить значения меры устойчивости разбиения на интервалы признаков объектов Е0 относительно класса К, £=1,_,1.

Обозначим через I,} множество номеров соответственно количественных и номинальных (качественных) признаков X = {х1, ... , хп} в описании допустимых объектов, II + Ц = п. Для удобства выкладок будем рассматривать два класса объектов К1 и К2.

Произведём выбор интервалов для каждого количественного признака, в границах которых доминируют значения объектов класса К{ или К3 (, Е=1,2. Для этого упорядочим значения с-го признака (с Е I) по возрастанию

(!)

Согласно определяемого ниже критерия последовательность (1) разбивается на 7. '-. '¿I 2 непересекающихся интервалов

[гс ,гс ]', 1 < и,и < V < т, 1 = 1,те. Значения, лежащие в интервале [гс ,гс ] \ далее могут рассматриваться как градация номинального признака.

Пусть с! сЕд-Ди, V), - количе-

ство представителей соответственно классов

К(-г ^э-г; в интервале \гс^, г^] . Для рекурсивной процедуры выбора значений гс , гс _ используется критерий [4]

— (2)

Границы первого интервала \г ,г 11 на последовательности (1) вычисляются по максимуму критерия (2). Аналогичным образом определяются границы для [ге ,гс > 1 на значениях (1), не вошедших в [г^,^]1.....к^]*"1.

Критерием останова процедуры служит покрытие всех значений (1) непересекающимися ин-

тервалами.

Обозначим через V)

Чи СО =

>Лг№ =

¿3 -е(Ц,17>

1^0 и

результаты оптимального разбиения по (2) для

каждого интервала [ге ,гс ]1 = ^^.Количественно доминирование выражается через значения функции принадлежности /ДО £ [ОД] класса К^ t — 1,2.

Значение функции принадлежности с-го

признака к К, по интервалу [г , г 1' опреде-

лим как

-А О ) =

Ли

• (3)

Ли + Лъ

С учётом того, что /£(г)=1 - /3_£(0, £=1,2, устойчивость признака по множеству интервалов разбиения вычисляется как

и{с)=1 х|/' м+а * (,)А0Л (4) т " *(ОХ* -и + (0<

Рис. 1. Разбиение упорядоченных значений признака на интервалы

и выражает степень однородности (не перемешанное™) значений с-го признака объектов в границах интервалов доминирования, определяемых по (2,3). Если (в идеале) в границах интервалов лежат значения признака одного класса, то У(с) = 1-

Визуальная интерпретация границ интервалов, полученных по (2), показана на рис. 1, где (и1,у1), (н2,у2),... - индексы упорядоченной последовательности (1). Нетрудно заметить, что не существует двух соседних интервалов, в которых доминировали представители одного класса.

Рассмотрим модификацию критерия (4) для случая наличия пропусков в данных. С учётом пропусков в данных критерий (4) примет вид

T

T р

max

(5)

(6)

где ТрС, Т£_р количество значений признака хсе Х(п) без пропусков у объектов Е0 соответственно из классов К и К . Естественным усло-

р 3-р *

вием для реализации (5) является:

- число различных значений признака больше или равно 2;

- значения Т^ > О, Т^_р > О.

С учётом пропусков в данных значение устойчивости (см. (4)) будет выглядеть так

^йда - // (ох* -и+// (0<

где м = т; + Тъс_р .

Примером формирования латентного признака из двух исходных, один из которых измеряется в количественной, а другой в номинальной шкале, может быть следующий. Пусть х;,х;. е Х(п), {е /, ; е I и признак х. имеет 2 градации. Тогда для получения латентного признака в виде произведения хх значения признака х. нужно выбирать из {-1,1}.

Разбиения на интервалы по (2) и (5) дают возможность для наглядного представления знаний в виде дизъюнкций элементарных конъюнкций. Элементарные конъюнкции нужны для проверки принадлежности значения признака к одному из интервалов. Запись правила для отнесения объекта классу К, Е=1,2 может иметь

вид: а, < х. < Ь, ог а„ < х. < Ьп ог ....ог а , < х. < Ь ,,

^ 1 1 1 2 1 2 1

где а.,Ь.,} е {1, - границы интервалов, ^ - число непересекающихся интервалов.

Значения устойчивости по (4) или (6) служат индикатором для использования разбиения на

интервалы в качестве нового знания. Рекомендуется считать результаты анализа новым знанием при значении устойчивости из [0.9; 1] и числе интервалов не больше 4.

2. ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ

Для вычислительного эксперимента с целью поиска скрытых закономерностей были использованы данные Statlog [5] из UCI Machine Learning Repository. В Statlog содержатся данные сегментации изображений, которые разделены на семь классов (кирпич, небо, листва, цемент, окно, дорога, трава). Экземпляры (объекты) были случайно отобраны из базы данных открытых изображений. Каждый экземпляр представляет собой область из пикселей размера 3x3, количество экземпляров 2310. Для описания объектов выборки использовались 19 количественных признаков. Часть признаков получена по значениям интенсивности цветов от RGB генератора.

При проведении эксперимента выбирался один класс объектов изображений «кирпич» (Kj), все остальные объекты считались принадлежащими классу K2. Результаты разбиения на интервалы по (2) и устойчивости по (4) приведены в табл. 1.

По результатам из табл. 1 устойчивость по (4) больше 0.9 у признаков 13, 18, 19. Согласно рекомендациям из п.1, именно эти признаки и границы их интервалов целесообразно использовать в качестве нового знания об объектах класса Kl «кирпич», например, при формировании if ...then правил в базах знаний. Полученное значение U(3)=0 объясняется тем, что не существует интервалов (для признака region-pixel-count) в которых по (2) доминируют представители одного из двух классов.

Очевидно, что рекомендации из п. 1 не могут быть ограничены исходными признаками в описании объектов классов. Дополнительные возможности для поиска скрытых закономерностей появляются при использовании в качестве исходных данных значений латентных признаков, синтезированных из исходных по правилам иерархической агломеративной группировки [3].

ЗАКЛЮЧЕНИЕ

Разбиение признаков на непересекающиеся интервалы и оценка его устойчивости разбиения служат хорошим средством для поиска

Таблица 1. Результаты разбиения на интервалы при выборе в качестве класса К1 изображения «кирпич»

№ Название признака Границы Интервалов Значение функции (2) принадлежности к K Устойчивость разбиения по (4)

1 region-centroid-col (столбец центрального пикселя области) [1,151] 0.5987 0.6557

[152, 254] 0.2539

2 region-centroid-row (строка центрального пикселя области) [11,50] 0.1533 0.7889

[51, 149] 0.6607

[150, 251] 0

3 region-pixel-count (количество пикселей в области = 9) Нет 0 0

4 short-line-density-5 (результаты алгоритма экстракции линии, контраст, меньше или равный 5) [0,0] 0.4863 0.5222

[0.1111,0.3333] 0.5856

5 short-line-density-2 (результаты алгоритма экстракции линии, контраст больше 5) [0,0] 0.5089 0.5214

[0.1111,0.2222] 0.1714

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6 vedge-mean (измерение контраста по горизонтали используется как детектор вертикального края) [0,0.2777] 0.1923 0.6116

[0.2778, 0.6111] 0.750769

[0.6111,29.2222] 0.4305

7 vegde-sd (см. 6) [0, 0.0333] 0.2857 0.6181

[0.0333, 0.4333] 0.6797

[0.4333,991.718] 0.4102

8 hedge-mean (измеряется контраст вертикально смежных пикселей, используется для определения горизонтальной линии) [0, 0.3333] 0.1046 0.6259

[0.3333, 2.9444] 0.5662

[3, 44.7222] 0.2434

9 hdge-sd (см. 8) [-1.5е-008, 0.0296] 0 0.5981

[0.0296, 0.4444] 0.6661

[0.4554, 1386.33] 0.4406

10 intensity-mean (среднее значение интенсивности: среднее по области (R + G + B)/ 3) [0, 3.8889] 0.0179 0.8860

[3.9259, 28.6296] 0.7443

[28.7407, 143.444] 0

11 rawred-mean (среднее значение по области значения R) [0,5.3333] 0.0956 0.8903

[5.4444, 26.1111] 0.7685

[26.3333, 137.111] 0

12 rawblue-mean (среднее значение по области значения В) [0, 4.6667] 0.0453 0.8525

[4.7778, 36.2222] 0.7207

[36.3333, 150.889] 0.0298

13 rawgreen-mean (среднее значение по области значения G) [0, 1.6667] 0 0.9103

[1.7778, 20.6667] 0.7794

[20.7778, 142.556] 0.0104

Таблица 1. Результаты разбиения на интервалы при выборе в качестве класса К1 изображения «кирпич» (окончание)

14 exred-mean (избыток красного: (2R - (G + В))) [-49.6667, -5.6667] 0.0790 0.8952

[-5.5556, 7.2222] 0.8327

[9.8889,9.8889] 0

15 exblue-mean (избыток синего: (2B - (G + R))) [-12.4444, 0.5556] 0.0316 0.8365

[0.6667,23] 0.7494

[23.1111,82] 0.1342

16 exgreen-mean (избыток зеленого: (2G-(R + B))) [-33.8889, -19.8889] 0.0933 0.8148

[-19.7778, -6.3333] 0.6918

[-6.2222, 24.6667] 0.0441

17 value-mean (среднее значение: трехмерное нелинейное преобразования RGB) [0,5.3333] 0 0.8588

[5.4444, 36.2222] 0.7230

[36.3333, 150.889] 0.0298

18 saturatoin-mean (среднее значение насыщенности нелинейного преобразования RGB) [0, 0.3679] 0.0052 0.9034

[0.3688,0.6170] 0.8057

[0.6176, 1] 0.1699

19 hue-mean (среднее значение оттенка нелинейного преобразования RGB) [-3.0442, -1.8905] 0.0190 0.9825

[-1.8884, -0.5709] 0.9716

[-0.0049,2.9125] 0

скрытых закономерностей в данных. Обнаруженные закономерности являются источником нового знания в предметных областях.

СПИСОК ЛИТЕРАТУРЫ

1. Обучение распознаванию образов без переобучения / Н.Г. Загоруйко, O.A., Кутненко А.О. Зырянов, Д. А. Леванов // Машинное обучение и анализ данных. 2014. Т. 1. № 7. С. 891-901.

2. Дуда Р., Харт П. Распознавание образов и анализ сцен. Мир. 1976. - 512 с.

3. Саидов Д.Ю. Информационные модели на основе

нелинейных преобразований признакового пространства в задачах распознавания: дис. ... докт. философии по физ.-мат. наукам. Ташкент, 2017. 104 с.

4. Згуральская Е.Н. Посик закономерностей по значениям колличественных признаков с помощью детерминистических критериев разбиения на интервалы // Междисциплинарные исследования в области математического моделирования и информатики. Материалы 3-й научно-практической internet-конференции. г. Тольяти 2014. С. 199-203.

1. Data & Knowledge Engineering 44 (2003) 109-138. UCI repository of machine learning databases. URL: http ://archive.ics.uci.edu/ml/datasets/Statlog (дата

SUSTAINABILITY OF DIVIDING DATA IN INTERVALS IN THE PROBLEMS OF RECOGNITION AND SEARCHING FOR HIDDEN LAWS

© 2018 E.N. Zguralskaya

Institute of Aviation Technology and Management of Ulyanovsk State Technical University

A great role for the improvement of digital technologies in the scientific, industrial and social spheres has the search for new knowledge contained in databases and data warehouses in the form of hidden patterns. In this paper, in order to identify hidden patterns in the recognition of objects, the method of splitting the characteristic values into disjoint intervals is considered. As a quality criterion, it is proposed to use the value of the stability indicator for dividing the original and latent features into intervals. Keywords: hidden patterns, the stability of the division into intervals, data mining.

Ekaterina Zguralskaya, Senior Lecturer at the Aircraft Department. E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.