УДК 004.93
ВЕРОЯТНОСТНЫЕ ФОРМАЛЬНЫЕ ПОНЯТИЯ В НЕКОТОРЫХ ЗАДАЧАХ КЛАССИФИКАЦИИ
1 2 Е.Е. Витяев , В.В. Мартынович
Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия 1 [email protected], 2 [email protected]
Аннотация
Рассматривается определение формальных понятий как неподвижных точек импликаций. На основе этого определения водится понятие вероятностных формальных понятий путем замены импликаций на специальные максимально специфические вероятностные правила, для которых ранее было доказано, что неподвижные точки для них логически непротиворечивы. Определяется алгоритм ProbClosure обнаружения вероятностных формальных понятий. Для разработки алгоритмов кластеризации и классификации контекст рассматривается как выборка из генеральной совокупности. Обобщая алгоритм ProbClosure, определяются алгоритмы кластеризации ConcClosure и StatClosure путем введения различных функционалов энергии, определяющих степень непротиворечивости правил в неподвижной точке. Алгоритмы классификации получаются путем применения алгоритмов кластеризации к новым данным. Проведено сравнение полученных алгоритмов классификации с решающими деревьями С4.5, ГО3 и методом классификации, основанным на решётке формальных понятий. Сравнение проведено на данных репозитория иС1. Полученные результаты показали сравнительно большую точность разработанных алгоритмов по сравнению с указанными методами.
Ключевые слова: анализ формальных понятий, вероятность, ассоциативные правила, классификация.
Цитирование: Витяев, Е.Е. Вероятностные формальные понятия в некоторых задачах классификации / Е.Е. Витяев, В.В. Мартынович // Онтология проектирования. - 2017. - Т. 7, №4(26). -С. 473-486. - DOI: 10.18287/2223-9537-2017-7-4-473-486.
Введение
Анализ формальных понятий (АФП) [1] содержит в себе удобный инструментарий для представления и обработки различных данных. Формальные понятия образуют целостные объединения групп свойств и объектов и поэтому являются очевидными кандидатами на классификационные единицы. Это позволяет использовать их при решении задач кластеризации и классификации.
В рамках АФП изучается весь спектр задач анализа данных. За последние годы опубликованы работы по извлечению паттернов атрибутов [2, 3], работы по алгоритмам кластеризации и извлечению ассоциативных правил, предпринят ряд попыток построения алгоритмов классификации и др. [4-7]. Для нас особый интерес представляет работа [7], где предложен алгоритм построения решающих деревьев на основе решетки формальных понятий, а результаты экспериментов представлены в виде таблицы с измерениями точности работы алгоритмов. Это позволяет сравнить точность предлагаемых алгоритмов классификации, разработанных на основе вероятностных формальных понятий и соответствующего алгоритма кластеризации с результатами этих алгоритмов.
Раздел 1 предлагаемой статьи посвящен определению вероятностных и статистических формальных понятий. В разделе 2 приводятся основные алгоритмы их построения: ГтвЬ-
Closure для вероятностных, StatClosure для статистических формальных понятий. Центральным можно считать раздел 3, где рассматриваются основные практические модификации процедуры StatClosure - алгоритмы ClassifylnCluster, ClassifyOverClusters, - а также различные параметризации этих алгоритмов, позволяющие придать предлагаемому подходу требуемую гибкость. В разделе 4 приводятся результаты классификации, полученные этими алгоритмами. Протоколы экспериментов и сравнение с близкими по семантике методами классификации даются в разделе 5. В качестве опорных рассматриваются результаты, полученные в [7] с помощью построения решающих деревьев на основе решетки формальных понятий, что позволяет более наглядно показать эффективность методов ClassifyInCluster и ClassifyOverClusters.
1 Вероятностные и статистические формальные понятия
Напомним базовые определения АФП [1].
Определение 1. Формальный контекст - K = ^,M, I), где G - множество объектов, М - множество атрибутов и I с G хM - отношение принадлежности атрибутов объектам. Определение 2. A с G, B с M . Тогда:
• Л = {т е M | Vg е m) е I};
• В1 е G | Vm е В,^, т) е I};
I
• (Л, В) - формальное понятие, если Л = В и В = Л. Определение 3. Я = (В, С) - импликация, Я е ^ = 1тр(К), если
В1 с С1 и В, С с М .
При этом В = Я^ называется посылкой, а С = Я^ - заключением импликации. Оператор логического вывода, использующий множество импликаций ^, добавляет к некоторому множеству атрибутов Ь другие, выводимые из него атрибуты:
Пя (Ь) = Ь и {С | ЗЯ е^ : Я^ с Ь, Я^ = С}.
Вероятностное обобщение формальных понятий можно получить [8], опираясь на следующий результат.
Теорема 1 [1]. Множество неподвижных точек оператора логического вывода совпадает
»-» | I •-Т-
с множеством формальных понятий. Для любого множества
В с М, П (в) = в в = в.
Вероятностные формальные понятия мы получим как неподвижные точки соответсвующего вероятностного оператора логического вывода. Для его определения построим логико-вероятностную модель, описывающую формальный контекст К.
Определение 4. Для конечного контекста К = (G,М, I) определим сигнатуру контекста
<К, содержащую лишь множество предикатных символов, совпадающее с М. Для сигнатуры <К и контекста К как модели определим интерпретацию предикатных символов следующим образом: К И т(х) ^ (х, т) е I.
Определение 5. Определим классические логические конструкции:
1) Тегт(К) - множество термов состоит из символов переменных;
2) А1;(К) - атомами являются выражения т(1), где т е <гК и ^ е Тегт(К) ;
3) Ьй(К) - литеры включают все атомы т(г) и их отрицания —т(г);
4) Бог(К) - определяется индуктивно: всякий атом - формула, и для любых Ф, ^е Бог(К) синтаксические конструкции Фл¥, фу^, Ф ^ —Ф - тоже формулы.
Определение 6. Рассмотрим произвольную вероятностную меру /и на множестве О, определенную в колмогоровском смысле. Определим контекстную вероятностную меру на множестве формул как:
V: For(K) ? [0,1], у(ф) = /({я е О | g 1= ф}).
Определим правила на контексте, как аналог импликаций, а также их составные части. Определение 7. Пусть С,И1 е Lit(K) , С <£. {И^И2,...Ик},к > 0, тогда:
1) Правило Я = (И1, И2..., Ик ? С) есть импликация (Я1 а И2... а Ик ? С) ;
2) Посылкой Я— правила Я называется набор литер {И1,И2...,Ик};
3) Заключением правила является Я? = С;
4) Длиной правила назовём мощность его посылки | Я— |;
5) Если Я- = Я2- и Я? = Я?, то Я1 = Я2.
Определение 8. Вероятностью правила Я является значение
*Я) = КЯ-|Я-) = «ГаЯП .
у(Я-)
Если знаменатель у (Я-) равен 0, то вероятность правила неопределена.
Определение 9. Правило Я назовем максимально специфичным Я е MSR(K), если нет правила Я с более длинной посылкой Я- с Я— и более высокой вероятностью *(Я)> *(Я).
Правила определения 7 позволяют установить вероятностный оператор замыкания. Для этого заменим множество импликаций 1тр(К) на множество максимально специфических вероятностных правил. Поэтому ниже будем предполагать, что Ш - множество максимально специфичных правил. По аналогии с теоремой 1 определим вероятностные формальные понятия как неподвижные точки оператора логического вывода, использующего множество правил Ш.
Определение 10. Замыканием Ь множества литер Ь будем называть наименьшую неподвижную точку оператора логического вывода, содержащую Ь :
Ь = Пш (Ь) = п; (Ь)^ ПШ (Ь).
кеЫ
Определение 11. Пусть Ш с MSR(K) - множество максимально специфических правил. Тогда В - вероятностное формальное понятие, если ПШ (В) = В .
Теорема 2 [9]. Пусть Ш - множество максимально специфических правил, тогда: если Ь непротиворечиво, то Пт (Ь) также непротиворечиво.
На основе определения 11 и теоремы 2 нетрудно предложить алгоритм замыкания РгоЬС^шв, который для заданного множества литер В строит замыкание В, являющееся минимальной неподвижной точкой, содержащей множество В, и, в силу определения 11, вероятностным формальным понятием. Алгоритм РгоЬС^шв не требует разрешения противоречий, так как в силу теоремы 2 исключается ситуация, когда в процессе вывода обнаруживается одновременно литера и ее отрицание.
Алгоритм 1. РгоЪС^иге. Замыкание набора литер оператором вывода.
Вход: Шс бсг(К), К = (О, М, I), В с Lit(K)
Выход: С с Ьй(К) - вероятностное формальное понятие
1: Функция РгоЬС1оэиге (К, В) 2: Во ^ В
3: к ^ 0
4: Повторять
5: Вк+1 (Вк )
6: к ^ к + 1 7: До тех пор пока Вк Ф Вк_г
8: Вернуть Вк
9: Конец функции
В практических задачах контекст полностью неизвестен, а известна только некоторая выборка из контекста. Адекватной моделью данных, применяемой в большинстве методов машинного обучения [10], можно считать следующую:
• источник данных е - многомерная случайная величина с заданным распределением;
• обучающая выборка Gteach = ,..., g(n))}- выборка из генеральной совокупности, где
g(j) попарно независимые случайные величины с распределением е.
Это означает, что моделью наблюдаемого контекста К = (Gteach,М, I) является выборка
из генеральной совокупности К * = (G, М, I), где каждый g е Gееа<,ь представлен многомерной бернуллиевской случайной величиной. Однако, задача классификации должна по-преждему пониматься в смысле исходного контекста К *, образующего генеральную совокупность объектов. В таких условиях непротиворечивость логического вывода с помощью может быть нарушена, поскольку максимально специфические правила, извлеченные из наблюдаемого контекста К , зачастую не будут являться таковыми по отношению к истиному контексту К *.
Решить проблему противоречивости логического вывода возможно и в этом случае. Рассмотрим общий процесс преобразования набора литер. Пусть исходное множество литер В = Вх проходит через цепочку преобразований В1,...,Вп (такие преобразования происходят со стартовым множеством В в алгоритме РгоЬСОиге). Предположим, что для алгоритма преобразования наборов литер существует некий критерий ф, минимизация которого
определяет направление поиска в пространстве всех означиваний литер В е 2Ь1(К). Такие алгоритмы очень удобны в вычислительном плане, поскольку позволяют определить процедуру минимизация итеративно и свести исходную задачу к задаче минимизации.
Для процесса преобразований конфигураций верно, что если первый и последний наборы совпадают Вх = Вп, то он определяет тождественное преобразование, и тогда для критерия ф
должно выполнятся определяемое ниже условие. Определение 12. Условие потенциальности
В1= Вп ^ £ ФВ, В+1) = о.
¿=1,...,п—1
Функционал ф является аналогом физического потенциала. Условие в определении 12 является условием независимости потенциала от пути его вычисления, а, как известно, потенциал позволяет определить функцию энергии. Заметим, что идея введения функционала энергии не нова, в [1 1] она подробно изучена в контексте механизма обратной связи для глубинных нейронных сетей.
Теорема 3 [11]. Критерий ф может быть выражен с помощью потенциальной энергии E : ф(В, C) = E(C) — E(B); при этом ф(В, C) удовлетворяет условию потенциальности, а значение потенциала не зависит от точки начала отсчета энергии.
Зафиксируем некоторое множество правил Ш. Далее будем считать что все правила R берутся из этого универсума правил Ш .
Определение 13. Пусть R - правило, а B с Lit(K).
• R применимо (или R е App(B) ) к набору литер B, если R^ с B.
• R подтверждается (или R е Sat(B) ) на наборе B, если R е App(B), и R^ е B.
• R опровергается (или R е Fal(B) ) на наборе B, если R е App(B), и —R^ е B.
Определение 14. Энергией противоречий мы называем функционал энергии,
определенный с помощью веса опровергающихся правил, за вычетом энергии подтверждающихся правил:
E(B) = ^ HR)- SKR), KR):ш^[0,, Ф(в,0) = e(b).
RsFal( B) RsSat( B)
Задача семейства алгоритмов состоит в том, чтобы минимизировать энергию противоречий E(B) ^ min, и, таким образом, найти максимально непротиворечивые комбинации литер (заметим, что можно также показать, что при наличии множества максимально специфичных правил алгоритм дает и абсолютно непротиворечивые комбинации литер, совпадающие с вероятностными формальными понятиями). Однако, полное решение задачи минимизации функционала энергии выглядит как полный перебор в пространстве означиваний литер 2Ut(K).
Вспомним, что мы работаем в вероятностном контексте, где точного решения исходной задачи классификации не требуется, а приемлемость решения определяется иными способами (например, предсказательной точностью классификатора - Accuracy). Поэтому абсолютной точностью при решении задачи минимизации функционала энергии можно пренебречь, а поставленная вычислительная проблема может быть решена субоптимальным образом. Предлагается вычислять приближенные решения посредством «жадного» итеративного алгоритма StatClosure, который минимизирует потенциал и выполняет поиск локально оптимальных решений соотношения E(B) ^ min. Свойство жадности опирается на то предположение, что для субоптимальности достаточно рассмотреть только потенциал перехода к ближайшим соседям, т.е. от конфигурации B к конфигурациям вида B± l, где l е Lit(K).
Алгоритм 2. StatClosure. Замыкание набора литер статистическим оператором
вывода.
Вход: Шс For(K), K = (G,M,I), B с Lit(K)
Выход: C с Lit(K) - статистическое формальное понятие
1: Функция StatClosure (к,Ш,B)
2: B0 ^ B
3: к ^ 0
4: Повторять
5: к ^ к + 1
6 Вк ^ Bk—,
7: ц/^ 0
8: Candidates ^0
9: 10 11 12
13
14
15
16
17
18
19
20 21 22
Для всех L е Lit)\1 выполнять
Candidates ^ Candidates ^>{Bk_г ^ L} Для всех L е Bk-1 выполнять
Candidates ^ Candidates ^{Вк_г \ L} Для всех C е Candidates выполнять а^ф(Вк C)
Если а < щ тогда
щ <— а
Вк ^ C
Конец условия Конец цикла До тех пор пока у < 0
Вернуть Вк
Конец функции
Полученные алгоритмом 2 неподвижные точки локально минимизируют функционал энергии противоречий, уменьшают количество противоречий до минимально возможного, а потому частично решают проблему противоречивости логического вывода.
2 Алгоритмы классификации
Рассмотрим некоторые модификации алгоритма ШаСОиге. Он не является точным обобщением алгоритма вероятностного замыкания РгоЪС^иге. Чтобы понять, в чём отличие, рассмотрим момент добавления литеры в содержание понятия. Пусть к была
добавлена литера Ь,, в результате чего получилось множество литер В, = В8_х + Ь,. Тогда ф(В,_В,,) из процедуры статистического замыкания представляет собой комбинацию у -весов из сумм по следующим группам правил:
1) Я е Ба^В,) и Я^ = Ь,, то есть набор В, подтверждает заключение правила Я ;
2) Я е Ба1(В,) и Я^ = ^Ь,, то есть В, опровергает заключение правила Я ;
3) Я е Ба^В,) и Ь, е Я^, т.е. Ь, делает посылку правила верной;
4) Я е Ба1(В,) и Ь, е Я^, т.е. делает посылку верной и при этом Я не верно на В,.
Определение 15. Обозначим правила, возникающие при рассмотрении литер-кандидатов на добавление к основному множеству литер В (первого и второго типов из перечисления выше) следующим образом:
• ConcSat (В, Ь) = Арр(В) о {Я: Я^ = Ь};
• СопсБа1(В, Ь) = Арр(В) о {Я: Я^ = ^Ь};
• РгеБа^В,Ь) = Ба^В + Ь) о{Я: Ь е Я^};
• РгеБа1(В, Ь) = Ба1(В + Ь) о{Я: Ь е Я^}.
Оператор замыкания из РгоЬСОиге устроен таким образом, что использует только правила типов ConcSat . Однако в случае возникновения противоречий необходимо также учитывать и ConcFal. Поэтому модификация алгоритма StatClosure, наиболее близкая к
ProbClosure и учитывающая ConcSat и ConcFal, приводит к следующему потенциалу энергии противоречий:
H£s-i, £s-i ^Щ) = Z r(R) — Zr(R).
ReConcFal(Bs_j,L) ReConcSat(Bs-1,L)
Замечание 1. Следует отметить, что отображение ф уже не будет потенциалом в смысле
определения 12. Однако алгоритм 2 по-прежнему применим после замены ф^ф. Модификацию алгоритма с учетом модификации потенциала непротиворечивости определим как ConcConcepts.
Рассмотрим ещё одну модификацию алгоритма StatClosure. Раз имеются два различных алгоритма ConcClosure и StatClosure, имеющих одинаковую природу, то можно использовать их композицию. Самой простой является линейная комбинация
а ■ StatConcepts + (1 — а) ■ ConcConcepts .
Для этого мы смешиваем потенциалы:
<Ра(B, B + L) = а ■ (Pstat(B, B + L) + (1 —а) B, B + L) =
ai Z r( R) — Z r(R)] + Z r(R) — Z r(R)
PieFal(B.L) PieSat(B.L) ConcFal(B,L) ConcSat(B,L)
Определение 16. Параметр /3 = 1/a из формулы для ра назовем весом посылочных правил и обозначим как PremiseFactor.
Зачастую бывает желательно, чтобы проблема непротиворечивости решалась не только на уровне литер в описании понятия, но и на уровне правил, законов, которые это содержание описывают. В некоторых случаях допустим определённый уровень противоречий, определяемый количественным соотношением между подтверждающимися и опровергающимися правилами. В таком случае мы можем уменьшить вес правил, противоречащих добавлению литер. Это позволит добавлять в процессе выполнения процедуры замыкания больше литер, которые могут являться противоречивыми, но не более, чем того допускает выбранный уровень противоречивости w и, обратно, если требуется большая нетерпимость к противоречиям между различными правилами в логическом выводе, то уровень w следует увеличивать:
Pw (B, B + L) =
w ■[ Z r(R) + Z r(R)]—[ Z r(R) + Z r(R)] =
PreFal( B, L) ConcFal( B, L) PreSa1( B, L) ConcSat(B, L)
w ■ Z r(R) — Z r(R).
Fal( B+L) Sat( B+L)
Определение 17. Параметр w из pw назовем весом противоречий.
Алгоритм StatClosure, а также его модификации с помощью веса посылочных правил и веса противоречий, могут успешно применяться для решения прикладных задач анализа данных аналогично тому, как для этого применяется АФП. Принципиальное отличие в том, что для применения алгоритма StatClosure и его модификаций не требуется безошибочность данных.
Рассмотрим применение алгоритма StatClosure и его модификаций к задачам
классификации. Пусть K = (G ^ GC, M ^Л, I) есть контекст, представляющий собой
выборку из генеральной совокупности, где GT - множество объектов обучения, а GC -множество объектов контроля, а Л - множество атрибутов разметки, определяющих класс объекта. Считаем, что роль учителя сводится к разметке объектов и присвоению им метки из
множества классов Л. Логику учителя можно сформулировать в виде отображения Teach: GT ^ Л. Задача алгоритма классификации - доопределить отображение Teach на контрольном множестве GC в контексте KC = (GC,M, I (GC xM)) .
На первом этапе выполняется процедура кластеризации, обнаруживающая множество всех статистических формальных понятий на контексте KT = (GT,M ^Л, I (GT x (M ^Л))) относительно одной из описанных выше вариаций StatClosure, которую мы условно обозначим за Closure(-):
Q = { Closure(gt )| g e GT }.
Далее классифицируемый объект поступает на обработку в процедуру ClassifylnCluster, описанную в алгоритме 3.
Алгоритм 3. ClassifylnCluster. Классификация объекта.
Вход: g e GContro1, Closure(-), Q
Выход: c сЛ - разметка объекта g
1: Функция ClassifylnCluster (g,Closure, Q)
2: c
3: T> , „t
B ^ g1
B ^ Closure(B) Если B eQ тогда c ^ B П1Л Конец условия Вернуть c Конец функции
Алгоритм 3 и приводимый далее алгоритм 4, дают решение задачи классификации любым из описанных выше вариаций алгоритма StatClosure.
В [12] предлагается другой подход к задаче классификации. В работе решается задача распознавания транскрипционных факторов в последовательности ДНК. Идея заключается в том, чтобы определить степень принадлежности классифицируемого объекта ко всему спектру из найденных классов (кластеров).
Обратимся к определению 11 вероятностного оператора замыкания. Как нетрудно заметить, вероятностное формальное понятие полностью определяется множеством правил, которые его описывают. Действительно, по описанию прототипа класса B с Lit(K) можно найти уже знакомое нам множество правил Sat(B). И обратно, по множеству правил Ш можем построить прототип класса B = ^ (R^ R^) . Получаем эквивалентное определение
ЯеШ
вероятностных формальных понятий через импликативные взаимосвязи.
Такое определение даёт возможность построить оценку близости классифицируемого объекта g к классу B, аналогично методам нечёткой кластеризации. Для этого следует
t
вычислить значение энергии E(g ) относительно множеств правил Sat(B) каждого из классов. Тогда оценки принадлежности к классу будут следующими:
4 (gf )= Z r(R) - Z r(R).
ReFal( gT )oSat(B) ReSat( gT )oSat(B)
Алгоритм 4 выбирает два наиболее походящих класса Б1 и Б11 и в случае существенного смещения оценок принадлежности, задаваемого параметром Л* < ЛБ (•)/ЛБ (•), даётся ответ в
зависимости от вхождения признаков разметки из Л в описание класса Б1.
Алгоритм 4. ClassifyOverClusters. Классификация объектов.
Вход: % е ССоигто/, С1о8иге(0, О
Выход: с сЛ - разметка классов для объектов % е ^ропш 1: Функция ClassifyOverClusters (к,Ш,О) 2: 3:
Бет ?
4: V , „т
ЛБе.г , Л5есопй ^ 0 ББе.^ , БЗесопй ^^
X ^ в1
5: X ^ С1о8иге(X)
6: Для всех Б е О выполнять
7: л^лБ (X)
8: Если Л> ЛБ. тогда
9: ЛВе.( ^ Л
10 11 12
13
14
15
БВе., ^ Б
Иначе если Л > Л5есопа
Лесопй ^ Л Б8есопй ^ Б
Конец условия Конец цикла
Л
16: Если —>Л* тогда
Л8есопй
17: Вернуть ББеЛ
18: Конец условия
19: Вернуть 0
20: Конец функции
3 Данные репозитория иС1
В последнее время активно изучается тематика построения базисов ассоциативных правил [13], анализа зашумленных контекстов [2, 3, 6], и эффективной классификации [4, 5] в рамках направления АФП. Все эти задачи в той или иной степени могут быть отнесены к анализу данных, поэтому представляется важным сопоставить эти методы анализа формальных понятий с предлагаемыми методами классификации, основанными на вероятностных формальных понятиях (ВФП). Для сравнения была выбрана статья [7], в которой метод классификации заключается в построении особого рода решающих деревьев на основе концептуальных решеток (обозначим его как ТгееБСА).
Основным источником данных является иС1 [14]. К его преимуществам можно отнести обширные библиографические списки, группированные по наборам данных, а также широкую распространённость предлагаемых наборов данных в литературе.
Сравнение с [7] проводилось на следующих данных:
1) zoo - содержит 17 булевозначных признаков, каждый из которых описывает отдельный аспект строения животной особи. Последний признак задаёт класс животных, к которому особь принадлежит (целочисленное значение от 1 до 7);
2) kp-vs-kr - содержит шахматные эндшпили типа король+ладья против король+пешка. Каждый атрибут описывает какую-либо особенность позиции (например, близость белого короля к черной пешке) и является номинальным. Целевой признак описывает класс: белые могут выиграть (win), или белые не могут выиграть (nowin);
3) votes - репозиторий включает бюллетени опросов (каждый состоял из 16 граф) респондентов, принадлежащих к двум политическим партиям (республиканцы и демократы). В данных присутствуют пропуски, которые были проинтерпретированы как шумы и дополнены случайными значениями; в остальном исходные данные содержат булевы признаки, которые удобно было представить в виде формального контекста. Обработанный набор представляет собой контекст K = (G,M ^ C, I) , где | G |= 435, | M |=16 и C = {mclass}, gIm ^ данные содержат "yes" для выбранного респондента g в графе m.
Для решения задач классификации были использованы алгоритмы ClassifylnCluster и ClassifyOverClusters. Для исследования точности (Accuracy) использовалась техника кросс-валидации [4], при которой исходные данные делятся на N равномерных частей, и каждая часть используется в качестве контрольной выборки, в то время как остальная часть - в качестве обучающего контекста. Оценка точности предсказаний Accuracy на каждой отдельной выборке равнялась отношению правильно предсказанных классификатором классов к общему количеству объектов в контрольной выборке за вычетом отказов от классификации. Итоговая оценка Accuracy равна средней оценке точности по всем итерациям.
4 Результаты классификации
Эксперимент по классификации состоял из двух частей: обучения и контроля. На этапе обучения были задействованы алгоритмы семантического вероятностного вывода [15] для получения множества статистически значимых правил. StatConcepts выявил множества статистических формальных понятий, а дальнейшая процедура классификации выполнялась алгоритмами ClassifylnCluster и ClassifyOverClusters из раздела 3. Для тяжелых вычислений, таких как поиск множества статистически значимых правил, были задействованы мощности Сибирского суперкомпьютерного центра [16].
Вся выборка разбивалась на N частей для использования техники Cross-Validation. Параметр N немного отличается для различных наборов данных; точное значение указано в таблице 1. В столбцах указаны наборы анализируемых данных, количество итераций с различными разбиениями исходного множества объектов на обучающее GT и контрольное GC, процент верно и неверно предсказанных классификатором объектов суммарно по всем итерациям.
Результаты приведены в виде двух таблиц. В таблице 1 указаны характеристики применения методов ClassifylnCluster и ClassifyOverClusters к различным наборам данных из репозитория UCI [14]. Сравнение с [7] сведено в таблицу 2, куда включены результаты точности альтернативных алгоритмов C4.5, ID3, TreeFCA из указанной статьи.
С целью изучения гибкости алгоритмов на репозитории votes [7] была проведена дополнительная серия экспериментов по изучению модификаций процедуры замыкания из раздела 3. Классификация включала в себя серию экспериментов, в течение которой
видоизменялось либо семейство используемых для классификации алгоритмов (выбирались разные процедуры Closure в алгоритме ClassifylnCluster), либо какие-то их параметры. Основным измеряемым показателем является точность предсказаний (Accuracy), а также количество отказов (Declined) алгоритма от прогнозов.
Таблица 1 - Протокол экспериментов по классификации методами ClassifylnCluster (In) и ClassifyOverClusters (Over) на репозиториях UCI
Значения показателей
Репозиторий zoo kp vs kr votes
Метод In Over In
Показатели Итераций 101 20 42
Объектов 101 1790 420
Отказов 5% 25.98% 47.62%
Верно 92% 60.50% 50.71%
Неверно 3% 13.52% 1.67%
Таблица 2 - Точность различных алгоритмов на наборах данных из UCI
Точность алгоритмов
Репозиторий zoo kp vs kr votes
Алгоритмы ВФП 96.84% 81.74% 96.82%
C4.5 92.69% 72.78% 86.50%
ID3 95.04% 74.50% 89.28%
TreeFCA 96.04% 74.65% 90.5%
Результаты экспериментов приведены на рисунке 1, где, в частности, видно, что алгоритмы обладают различными качественным свойствами, а результаты, полученные с их помощью, хорошо локализованы.
о
<и О
85 86 87
89 90 91 92 Accuracy
93 94 95 96 97
Рисунок 1 - Характеристики выполнения различных модификаций процедуры Closure при классификации данных votes: Д - эксперименты близкие к методу ConcConcepts; V - эксперименты с применением метода StatConcepts; □ - эксперименты смешанного метода с единичным весом противоречий; О - все остальные эксперименты
Заключение
Вероятностный подход к определению формальных понятий позволяет определить целое семейство алгоритмов кластеризации, смягчая проблему противоречивости логического вывода как для полностью определенных данных (формальных контекстов), так и для выборок из генеральной совокупности.
Алгоритмы классификации ClassifylnCluster и ClassifyOverClusters, построенные на основе статистических формальных понятий, позволяют успешно решать достаточно сложные задачи классификации, что было продемонстрировано на ряде наборов данных репозитория UCI, где они могут соперничать на равных с разработками АФП и классическими алгоритмами на основе решающих деревьев, имея в некоторых случаях ощутимое преимущество.
Статистические формальные понятия оказываются простыми в построении и полезными в прогнозировании. В то же время параметризация алгоритмов и их различные модификации обеспечивают необходимую гибкость при анализе данных. Заметна перспектива развития предлагаемого метода в рамках направления интеллектуального анализа данных: для этого следует провести более масштабные эксперименты, а также произвести интеграцию с уже существующими инструментами хранения и анализа данных.
Благодарности
Работа выполнена при поддержке Российского фонда фундаментальных исследований, грант РФФИ 15-07-03410.
Список источников
[1] Ganter, B. Formal concept analysis. Mathematical Foundations / B. Ganter, R. Wille. - Berlin-Heidelberg: Springer-Verlag, 1999. - 290 p.
[2] Kuznetsov, S.O. Concept Stability as a Tool for Pattern Selection / S.O. Kuznetsov // ECAI 2014: CEUR Workshop proceedings. - 2014. - Vol. 1257. - P. 51-58.
[3] Klimushkin, M. Approaches to the Selection of Relevant Concepts in the Case of Noisy Data / Klimushkin, M., Obiedkov, S., Roth, C. // ICFCA 2010: LNAI. - 2010. - Vol. 5987. - P. 255-266.
[4] Prokasheva, O. Classification based on formal concept analysis and biclustering: Possibilities of the approach / Prokasheva, O., Onishchenko, A., Gurov, S. // Computational mathematics and modeling. - 2012. - Vol. 23(3).
[5] Quan, T. T. Fuzzy FCA-based Approach to Conceptual Clustering for Automatic Generation of Concept Hierarchy on Uncertainty Data / Quan, T.T., Hui, S.C., Cao, T.H. // CEUR Workshop proceedings, Belohlavek R., Snasel V. (Eds.). - 2004. - Vol. 110.
[6] Самойлов, Д.Е. Анализ неполных данных в задачах построения формальных онтологий / Д.Е. Самойлов, В.А. Семенова, С.В. Смирнов // Онтология проектирования. - 2016. - Т. 6, №3(21). - С. 317-339.
[7] Radim Belohlavek. Inducing decision trees via concept lattices / Radim Belohlavek, Bernard De Baets UGent, Jan Outrata and Vilem Vychodil // International journal of general systems. - 2009. - P. 455-467.
[8] Витяев, Е.Е. Вероятностное обобщение формальных понятий / Е.Е. Витяев, А.В. Демин, Д.К. Пономарев // Программирование. - 2012. - № 5. - С. 18-34.
[9] Витяев, Е.Е. Формализация естественной классификации и систематики через неподвижные точки предсказаний / Е.Е. Витяев, В.В. Мартынович // Сибирские электронные математические известия. Новосибирск: Изд-во института математики СО РАН. - 2015. - Т. 12. - С. 1006-1031.
[10] Goodfellow, I. Deep Learning / Goodfellow, I., Bengio, Y. and Courville, A. // MIT Press. 2016.
[11] LeCun, Y. A Tutorial on Energy-Based Learning / LeCun, Y. et al. // Predicting Structured Outputs, Bakir et al. (eds). MIT Press. - 2006.
[12] Vityaev, E.E. Transcription Factor Binding Site Discovery by the Probabilistic Rules / E.E. Vityaev, K.A. Lapardin, I.V. Khomicheva, A.L. Proskura // Proceedings of the 2nd workshop in data mining in functional genomics and proteomics.: The 18th European conference on Machine Learning and the 11th European conference on Principles and Practice of Knowledge Discovery in Databases. - 2007. - P. 104-109.
[13] Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI'04) / eds.: Bayardo Jr., R., Goethals B., Zaki M. CEUR-WS.org. - 2004.
[14] Репозиторий задач для методов Machine Learning. [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml
[15] Воронцов, К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов / К.В. Воронцов // Математические вопросы кибернетики. Под ред. О.Б. Лупанова. - М.: Физматлит, 2004. - Т. 13. - С. 5-36.
[16] Сибирский суперкомпьютерный центр. [Электронный ресурс]. URL: http://www2.sscc.ru/HKC-30T/HKC-30T.htm
PROBABILISTIC FORMAL CONCEPTS IN SOME CLASSIFICATION TASKS
E.E. Vityaev1, V.V. Martynovich2
Sobolev institute of mathematics, SB RAS, Novosibirsk, Russia 1 vityaev@math. nsc. ru, 2vilco@yandex. ru
Abstract
The definition of formal concepts as fixed points of implication is considered. On the basis of this definition, the notion of probability formal concepts is introduced by replacing implications with special, maximally specific probability rules for which it was previously proved that fixed points for them are logically consistent. The ProbClosure algorithm for detecting probabilistic formal concepts is defined. To develop algorithms for clustering and classification, the context is considered as a sample from the general population. Generalizing the algorithm ProbClosure, algorithms for clustering ConcClosure and StatClosure are defined by introducing various energy functionals that determine the degree of noncontradiction of the rules at a fixed point. Classification algorithms are obtained by applying clustering algorithms to new data. Classification algorithms obtained are compared with the decision trees C4.5, ID3 and the classification method based on the lattice of formal concepts. The comparison was made on the data of the UCI repository. The obtained results showed comparatively high accuracy of the developed algorithms in comparison with these methods.
Key words: formal concept analysis, probability, data mining, associative rules, classification, UCI.
Citation: Vityaev EE, Martynovich VV. Probabilistic formal concepts in some classification tasks [In Russian]. Ontology of designing. 2017; 7(4): 473-486. DOI: 10.18287/2223-9537-2017-7-4-473-486.
References
[1] Ganter, B. Formal concept analysis. Mathematical Foundations. Berlin-Heidelberg: Springer-Verlag, 1999. -290 p.
[2] Kuznetsov SO. Concept Stability as a Tool for Pattern Selection. ECAI 2014: CEUR Workshop proceedings. 2014; 1257: 51-58.
[3] Klimushkin M, Obiedkov S, Roth C. Approaches to the Selection of Relevant Concepts in the Case of Noisy Data. ICFCA 2010: LNAI 5987. 2010: 255-266.
[4] Prokasheva O, Onishchenko A, Gurov S. Classification based on formal concept analysis and biclustering: Possibilities of the approach. Computational mathematics and modeling. 2012; 23(3).
[5] Quan TT, Hui SC, Cao TH. Fuzzy FCA-based Approach to Conceptual Clustering for Automatic Generation of Concept Hierarchy on Uncertainty Data. CEUR Workshop proceedings, Belohlavek R., Snasel V. (Eds.). 2004; 110.
[6] Samoilov DE, Semenova VA, Smirnov SV. Incomplete data analysis of for building formal ontologies [In Russian]. Ontology of designing. 2016; 6(3): 317-339.
[7] Belohlavek R, De Baets B, Outrata J, Vychodil V. Inducing decision trees via concept lattices. International journal of general systems. 2009; 455-467.
[8] Vityaev EE, Demin AV, Ponomaryov DK. Probabilistic Generalization of Formal Concepts [In Russian]. Programming. 2012; 38(5): 219-230.
[9] Vityaev EE, Martinovich VV. Formalization of «natural» classification and systematics as fix-points ofpredictions [In Russian]. Siberian Electronic Mathematical Reports. Novosibirsk: IM SD RAS. 2015; 12: 1006-1031.
[10] Goodfellow I, Bengio Y, Courville A. Deep Learning. - MIT Press. 2016.
[11] LeCun Y. et al. A Tutorial on Energy-Based Learning. Predicting Structured Outputs, Bakir et al. (eds). - MIT Press, 2006.
[12] Vityaev EE, Lapardin KA, Khomicheva IV, Proskura AL. Transcription Factor Binding Site Discovery by the Probabilistic Rules. Proceedings of the 2nd workshop in data mining in functional genomics and proteomics.: The 18th European conference on Machine Learning and the 11th European conference on Principles and Practice of Knowledge Discovery in Databases. 2007; 104-109.
[13] Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI'04) / eds.: Bayardo Jr., R., Goethals B., Zaki M. CEUR-WS.org. - 2004.
[14] Machine Learning repository. URL: http://archive.ics.uci.edu/ml
[15] VorontsovKV. Kombinatorical approach to the quality of the learning algorithms estimation [In Russian]. Mathematical questions in kibernetics. (Ed.: О.B. Lupanov). - Мoscow: Fizmatlit, - 2004; 13: 5-36.
[16] Siberian supercomputer center - URL: http://www2.sscc.ru/HKC-30T/HKC-30T.htm
Сведения об авторах
Витяев Евгений Евгеньевич, 1948 г. р. Окончил Новосибирский государственный университет в 1971 г., д.ф.-м.н. (2007). Профессор кафедры дискретной математики и информатики Новосибирского государственного университета. В списке научных трудов более 250 работ в области логики, интеллектуального анализа данных и искусственного интеллекта.
Vityaev Evgeny Evgenievich, born in 1948. He graduated the Novosibirsk State University in 1971, Doctor of Science (2007). Professor of the Department of Discrete Mathematics and Informatics at Novosibirsk State University. In the list of scientific works more than 250 works in the field of logic, data mining and AI.
Мартынович Виталий Валерьевич, 1990 г. р. В 2016 г. окончил аспирантуру Новосибирского государственного универсистета. С 2017 г. младший научный сотрудник института математики СО РАН. В списке научных трудов около 10 работ в области дискретной математики, методов анализа данных и интеллектуальных систем. Vitaly Valerievich Martynovich (b. 1990) post-graduated from the Novosibirsk State University PhD program in 2016. Junior researcher at SB RAS Institute of Mathematics from 2017. Author and co-author of about 10 scientific articles around discrete mathematics, Data Mining methods and intelligent systems.