Методы отбора закономерностей в логических алгоритмах распознавания

Краева Е.М.; Масич И.С.

Решетневскуе чтения. 2013

УДК 519.854.33

МЕТОДЫ ОТБОРА ЗАКОНОМЕРНОСТЕЙ В ЛОГИЧЕСКИХ АЛГОРИТМАХ РАСПОЗНАВАНИЯ*

Е. М. Краева, И. С. Масич

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Строится модель принятия решений, состоящая из набора логических правил, которые описывают закономерности в исследуемом явлении или системе. Основная задача - выявить эти закономерности и привести к виду, в котором они будут использованы для построения модели принятия решений. Выявление и отбор закономерностей на основе имеющегося набора данных является сложной вычислительной задачей, требующей эффективного алгоритмического обеспечения и его программной реализации.

Ключевые слова: логические алгоритмы, распознавание, закономерности.

METHODS FOR PATTERN SELECTION IN LOGICAL ALGORITHMS OF RECOGNITION

E. M. Kraeva, I. S. Masich

Siberian State Aerospace University named after academician M. F. Reshetnev 31, "Krasnoyarsky Rabochy" Av., Krasnoyarsk, 660014, Russia. Е-mail: [email protected]

In this paper we construct a model of decision making, which consists of a set of logical rules that describe patterns in a phenomenon or a system. The main task is to identify these patterns and lead to a form in which they will be used to build a model of decision making. Identification and selection of patterns based on the data set is a difficult computational task, requiring efficient algorithmic software and its software implementation.

Keywords: logic algorithms, recognition, pattern.

Рассмотрим задачу распознавания объектов, описываемых бинарными признаками и разделенных на

два класса K = K+ u K- с {0,1}n . Под закономерностью P понимается терм, который покрывает хотя бы один объект некоторого класса и не покрывает ни одного объекта другого класса. Закономерность P, которая не пересекается с K-, будем называть положительной, а закономерность P', которая не пересекается с K+ - отрицательной.

Предположим, что в результате выполнения процедуры поиска закономерностей по обучающей выборке найден ряд положительных закономерностей Pi, i = 1, ..., p, и отрицательных закономерностей Nj, j = 1, ..., n. Решающая функция может быть задана

1 Р 1 n

выражением D(a) =—V Pi (a) —V N.. (a) для неко-p i=i n -=1 торого объекта a, где Pi(a) = 1, если закономерность Pi покрывает объект a, и Pi(a) = 0 в противном случае. То же самое для N-(a).

В [1] описаны алгоритмы поиска закономерностей. В частности, это алгоритмы, которые ведут поиск закономерности, опираясь на некоторый объект обучающей выборки. Поэтому в результате их работы может быть записано большое число закономерностей, вплоть до числа объектов обучающей выборки, некоторые из которых, впрочем, могут повторяться.

При решении многих задач встает вопрос отбора закономерностей из общего их числа для формирования решающего правила, что способно не только уменьшить его размер, но и, в некоторых случаях, улучшить распознавание. В связи с этим исследуем некоторые способы отбора из общего числа найденных закономерностей.

Минимизация числа закономерностей. Введем переменные, определяющие, будет ли закономерность присутствовать в решающей функции.

[1, р присутствует в решающей функции, 10, в противном случае. Г1, Nу присутствует в решающей функции, [0, в противном случае.

Один из способов произвести отбор закономерностей - выделить подмножество закономерностей, которые необходимы для покрытия всех объектов обучающей выборки [2]. Каждый объект обучающей выборки должен при этом покрываться хотя бы одной закономерностью. Используя введенные переменные, это условие можно записать в виде

xi =

У. =

V xiPi (a) > 1 для любого

: K+

VУjNj (a) > 1 для любого a e K

j=1

*Работа выполнена при финансовой поддержке гранта Президента РФ МК-1371.2013.08.

i=1

Математические методы моделирования, управления и анализа данных

Таким образом, имеем задачу минимизации числа используемых в решающем правиле закономерностей при приведенных выше ограничениях на переменные:

Р 9

X+ХУ] ^ ™п.

1=1 ]=1

Полученная оптимизационная модель представляет собой задачу условной псевдобулевой оптимизации, в которой целевая функция и функции в ограничениях являются унимодальными монотонными псевдобулевыми функциями.

Максимизация разделяющей полосы. Еще один способ заключается в том, чтобы произвести отбор таких закономерностей, которые при совместном использовании увеличат разделяющую способность решающего правила.

В качестве критерия при формировании решающего правила рассмотрим ширину «разделяющей полосы»

шт{Д(а): а е К + } - шах{^(а): а е К- },

1 р 1 "

где Б(а) = —XРг(а) —XN.(а) для некоторого

Р г=1 П ] =1

объекта а.

Учтем наличие выбросов, которые могут присутствовать в реальных задачах. Для этого введем переменную

[1, а принимается за выброс, [0, в противном случае.

Тогда задачу отбора закономерностей можно записать в следующем виде:

v + v

- C Ё za ■ И ^ max .

где

v + = min{fl'(a): a e K +, za = 0}; v" = min{-D'(a): a e K-, za = 0};

Ё ХгРг (a) ЁyjNJ (a)

D' (a) =

z=i

j=i

ba =

p _n

Ё x Ё yj i=1 j=1

jv+- D' (a), a e K +, jv"+ D'(a),a e K-.

Декомпозиция обучающей выборки при выявлении закономерностей. Рассматриваемые в работах [1; 2] способы поиска закономерностей предполагают использование в качестве «опорной» точки объект обучающей выборки (прецедент), частичное повторение свойств которого может быть обнаружено в других объектах этого же класса. Описанный выше способ предписывает использовать большое число таких опорных объектов (возможно, всех объектов обучающей выборки) для получения закономерностей, а затем проводить отбор из найденных.

Рассмотрим другой способ, заключающийся в отборе самих этих опорных объектов. Всё множество объектов обучающей выборки некоторого класса, скажем, K +, можно разбить на группы объектов так, чтобы объекты были схожи внутри каждой группы:

K+ = K+u K+u... u K+ .

Для этого можно использовать алгоритм k-средних, в результате работы которого получаем набор центроидов. Эти центроиды можно использовать в качестве опорных объектов для выявления логических закономерностей. Описанный подход позволяет существенно снизить трудоемкость работы логического алгоритма распознавания, производя отбор объектов, используемых в качестве опорных при поиске закономерностей.

Подводя итог, следует заключить, что отбор логических закономерностей, произведенный в соответствии с некоторым критерием, позволяет значительно снизить их число и упростить решающее правило, лишь немного снижая точность распознавания. При решении ряда практических задач распознавания и прогнозирования большое значение имеет интерпретируемость получаемых решений и возможность их обосновать, опираясь на правила и закономерности, которые, в свою очередь, основаны на прецедентах в виде объектов выборки данных. Поэтому использование описанных в этой работе подходов является полезным.

References

1. Antamoshkin A. N., Masich I. S. Combinatorial optimization and rule search in logical algorithms of machine learning // Engineering & automation problems, V. 7, № 1, 2010, с. 52-57.

2. Hammer P. L., Bonates T. Logical Analysis of Data // From Combinatorial Optimization to Medical Applications: RUTCOR Research Report 10-2005, 2005.

Методы отбора закономерностей в логических алгоритмах распознавания Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Краева Е. М., Масич И. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Краева Е. М., Масич И. С.

Methods for pattern selection in logical algorithms of recognition

Текст научной работы на тему «Методы отбора закономерностей в логических алгоритмах распознавания»