Научная статья на тему 'Прозрачное глубокое обучение на основе вероятностных формальных понятий в задаче обработки естественного языка'

Прозрачное глубокое обучение на основе вероятностных формальных понятий в задаче обработки естественного языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
314
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕРОЯТНОСТЬ / ФОРМАЛЬНЫЕ ПОНЯТИЯ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / DEEP LEARNING / DATA MINING / СЕМАНТИЧЕСКАЯ ЭНЕРГИЯ / PROBABILITY / FORMAL CONCEPTS / NATURAL LANGUAGE PROCESSING / SEMANTIC ENERGY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Витяев Евгений Евгеньевич, Мартынович Виталий Валерьевич

Несмотря на высокую эффективность методов глубокого обучения (Deep Learning) они остаются «вещью в себе», «черным ящиком» решениям которого невозможно доверять. Это критично для таких областей, как медицина, финансовые вложения, военные применения и другие, где цена ошибки слишком высока. В связи с этим Европейский союз собирается потребовать в 2018 году от компаний, чтобы они давали пользователям объяснения решений, получаемых автоматическими системами.В данной работе предлагается альтернативный, логико-вероятностный метод глубокого обучения, способный объяснять свои решения. Это метод иерархической кластеризации, основанный на оригинальном логико-вероятностном обобщении формальных понятий (ВФП [13]). Для сравнения с глубоким обучением, основанном на нейронных сетях, была выбрана работа [12], в которой решается задача обработки естественного языка на наборе данных UMLS. Для применения логико-вероятностного обобщения формальных понятий определяется алгоритм классификации, основанный на энергии противоречий Energy Learning [10]. Логико-вероятностные формальные понятия определяются через неподвижные точки, как и сами формальные понятия, только в качестве правил используются определенные вероятностные правила. Энергия противоречий позволяет разрешать противоречия, возникающие в неподвижных точках, формирующих вероятностные формальные понятия. Показано, что данный алгоритм кластеризации не уступает по точности методу Deep Learning [12], тем не менее, получаемые им решения объясняются совокупностью вероятностных правил неподвижных точек.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Probabilistic Formal Conceptsin a Natural Language Processing Task

Despite the high effectiveness of the Deep Learning methods, they remain a ”thing in themselves”, a ”black box” decisions of which can not be trusted. This is critical for such areas as medicine, financial investments, military applications and others, where the price of the error is too high. In this regard, the European Union is going to demand in 2018 from companies that they give users an explanation of the solutions obtained by automatic systems.In this paper, we offer an alternative, logical-probabilistic method of Deep Learning that can explain its decisions. This is a method of hierarchical clustering, based on the original logical-probabilistic generalization of formal concepts [13]. For comparison with deep learning based on neural networks, the work [12] was chosen, in which the task of processing natural language on a set of data UMLS is solved. To apply the logical-probabilistic generalization of formal concepts, a classification algorithm based on the energy of the contradictions Energy Learning [10] is defined. Logical-probabilistic formal concepts are defined through fixed points, as well as the formal concepts themselves, only certain rules of probability are used as rules. The energy of contradictions allows us to resolve the contradictions arising at fixed points that form probabilistic formal concepts. It is shown that this clustering algorithm is not inferior in accuracy to the method of Deep Learning [12]; nevertheless, the solutions obtained by it are explained by the set of probabilistic fixed-point rules.

Текст научной работы на тему «Прозрачное глубокое обучение на основе вероятностных формальных понятий в задаче обработки естественного языка»

Серия «Математика» 2017. Т. 22. С. 31-49

Онлайн-доступ к журналу: http: / / mathizv.isu.ru

ИЗВЕСТИЯ

Иркутского государственного ■университета

УДК 004.93 MSG 68Т27

DOI https://doi.org/10.26516/1997-7670.2017.22.31

Прозрачное глубокое обучение

на основе вероятностных формальных понятий

в задаче обработки естественного языка *

Е. Е. Витяев, В. В. Мартынович

Институт математики им. С. Л. Соболева

Аннотация. Несмотря на высокую эффективность методов глубокого обучения (Deep Learning) они остаются «вещью в себе», «черным ящиком» решениям которого невозможно доверять. Это критично для таких областей, как медицина, финансовые вложения, военные применения и другие, где цена ошибки слишком высока. В связи с этим Европейский союз собирается потребовать в 2018 году от компаний, чтобы они давали пользователям объяснения решений, получаемых автоматическими системами.

В данной работе предлагается альтернативный, логико-вероятностный метод глубокого обучения, способный объяснять свои решения. Это метод иерархической кластеризации, основанный на оригинальном логико-вероятностном обобщении формальных понятий (ВФП [13]). Для сравнения с глубоким обучением, основанном на нейронных сетях, была выбрана работа [12], в которой решается задача обработки естественного языка на наборе данных UMLS. Для применения логико-вероятностного обобщения формальных понятий определяется алгоритм классификации, основанный на энергии противоречий Energy Learning [10]. Логико-вероятностные формальные понятия определяются через неподвижные точки, как и сами формальные понятия, только в качестве правил используются определенные вероятностные правила. Энергия противоречий позволяет разрешать противоречия, возникающие в неподвижных точках, формирующих вероятностные формальные понятия. Показано, что данный алгоритм кластеризации не уступает по точности методу Deep Learning [12], тем не менее, получаемые им решения объясняются совокупностью вероятностных правил неподвижных точек.

Ключевые слова: вероятность, формальные понятия, обработка естественного языка, Deep Learning, Data Mining, семантическая энергия.

* Работа выполнена при поддержке Российского научного фонда (грант РНФ 1711-01176)

1. Введение

Целью данного исследования является демонстрация возможностей семантико-вероятностного подхода к анализу данных. В качестве задачи рассматривается предсказание связей в мультиграфе, представляющем семантические лингвистические данные. Для её решения в работе разрабатывается алгоритм предсказания связей на основе вероятностных формальных понятий [13]. Показывается, что разработанный алгоритм решает задачу не менее успешно, чем метод Deep Learning, приведенный в [5], который представляет собой современный подход к решению задачи предсказания семантических связей (Link Prediction) на данных с семантикой естественного языка.

В анализе формальных понятий [7] классические формальные понятия выступают в качестве классификационных единиц. В разделе 3 показано, как модифицировать формальные понятия для работы с выборками из генеральной совокупности, когда формальные понятия имеют вероятностный характер и их определение через неподвижные точки и соответствующие вероятностные импликации становится логически противоречивым. Для определения вероятностных формальных понятий в условиях логических противоречий мы используем функционал энергии, с целью минимизации количества противоречий.

Для сравнения предложенного метода классификации с методами Deep Learning выбран набор данных UMLS [12] из работы [5]. В серии исследований [3-5] проводится анализ этих и других данных в рамках парадигмы глубинного обучения и в частности в рамках схемы многозадачного обучения. Представив исходный мультиграф, задающий UMLS, в виде формального контекста, мы в разделе 4 исследуем возможность решения поставленной в [5] задачи предсказания связей (Link prediction) с позиции анализа формальных понятий. Объекты дополняются до обобщенных формальных понятий посредством описанного в разделе 3 алгоритма StatClosure, и далее вывод о наличии связи в исходном мультиграфе делается на основе дополненного образа объекта. По сравнению с методами нейронных сетей, предсказание в нашем случае получается явным и прозрачным, и метод не только дает некоторое решение, но и способен дать ответ на вопрос "почему".

Практические результаты решения задачи предсказания связей приведены в разделе 5. Анализ качества предсказания выполнен с различных точек зрения: с использованием критерия AIJC (Area Under Curve), а также классического критерия Accuracy (точности предсказания). Кроме того, обсуждаются существенное снижение сложности обучения, поскольку метод ВФП автоматически извлекает семантику из предоставленных данных и для её построения, в отличие от [3;5], не требуется процедуры предварительного обучения на смежных задачах и привлечения дополнительных больших массивов данных.

ПРОЗРАЧНОЕ ГЛУБОКОЕ ОБУЧЕНИЕ 2. Вероятностные формальные понятия

В анализе формальных понятий (далее по тексту — АФП) [7] данные рассматриваются как совокупность наборов объектов и атрибутов, соединенных с помощью отношения принадлежности.

Определение 1. Формальный контекст К — это тройка (G,M,I), где G и М — произвольные множества объектов и атрибутов, u, I С G х М — отношение принадлежности атрибутов объектам.

Определение 2. Пусть 4CG,5CM. Тогда:

1) А^ = {т € М \Уд € А,(д,т) € /};

2) В^ = {д € G | Vm € В, (д, т) € /};

3) (Д В) — формальное понятие, если А^ = В, В^ = А;

Определение 3. R = (В, С) — импликация R € Imp(K), если В' С С'. При этом, В = R4- называем посылкой, а В = R~— заключением импликации. Оператор логического вывода на основе множества импликаций 7Z действует путем добавления к исходному множеству атрибутов L других, выводимых из L атрибутов:

Un(L) = {т € М | В С L, (В ^т) £К}

Ключевой является теорема 1 [7], задающая альтернативное определение формальных понятий как неподвижных точек оператора логического вывода. Это позволяет перейти к их вероятностному обобщению.

Теорема 1. Для любого множества В С М, В будет формальным понятием (в понимании Data Mining — классом) П(-£?) = В.

Вероятностные формальные понятия мы получим как неподвижные точки соответствующего вероятностного оператора логического вывода. Для его определения построим логико-вероятностную модель, описывающую формальный контекст.

Определение 4. Для конечного контекста К = (G, М, I) определим сигнатуру о к, состоящую только из множества предикатных символов М. Для сигнатуры а к определим модель контекста К с носителем G таким образом, чтобы К 1= т(х) (х, т) € I. Факт истинности формулы ф на модели К, суженной до объекта д, записываем как д \= ф Кд \= ф.

Определение 5. В сигнатуре контекста определены следующие логические конструкции:

1) Тегт(К) — множество термов, состоящее из символов перемен-

2) At (К) — атомами являются выражения m(t), где m € ок и t G Term (К);

3) L(К) — литеры включают все атомы m(t) и отрицания m(t);

4) Ф(К) — определяется индуктивно: всякий атом — формула, и для любых Ф, Ф € Фк синтаксические конструкции Ф Л Ф, Ф V Ф, Ф —> Ф, тоже формулы.

Истинность формул на объектах контекста определяется естественным образом. Приведенное обобщение позволяет строить логические высказывания об атрибутных зависимостях с использованием отрицаний. Для обобщения формальных понятий также потребуется некоторый синтез логики и вероятности на произвольном контексте К.

Определение 6. Рассмотрим произвольную вероятностную меру ц, на множестве G, определенную в Колмогоровском смысле. Тогда контекстная вероятностная мера на множестве формул:

Определение 7. Пусть С, Щ € LK, С £ {Яь Я2, ...Нк}, к > 0. Тогда: 1) Правило R = (H\,H2...,Hk —> С) есть импликация (Н\ Л Я2... А

2) Посылкой правила К называется набор литер {Н\, Н2-.., Яд.};

3) Заключением правила является В."* = С;

4) Длиной правила мы называем мощность его посылки

5) Если = В^Г и В]* = В^, тогда В\ = В2.

6) Вероятностью правила К является значение

Если знаменатель и(В^) нулевой, вероятность правила остается неопределенной.

При определенных условиях выводы, полученные с помощью вероятностных правил из определения 7, будут непротиворечивы. Непротиворечивые неподвижные точки составляют основу метода вероятностных формальных понятий [13].

ных;

и: [0,1], и(ф)=1л({д \д\=ф}).

H к —> С);

Определение 8. Правило К назовем максимально специфичным К € МБЩК), если нет правила К с более длинной посылкой и более высокой вероятностью г](К) > г](Н).

Правила из определения 7 позволяют определить вероятностный оператор замыкания. Для этого заменим множество импликаций 71 на какое-либо подмножество максимально специфических вероятностных правил. Поэтому ниже будем предполагать, что 71 - подмножество максимально специфичных правил. По аналогии с теоремой 1, определим вероятностные формальные понятия как неподвижные точки оператора логического вывода, использующего множество правил 71.

Определение 9. Замыканием Ь множества литер Ь будем называть наименьшую неподвижную точку оператора логического вывода, содержащую Ь:

Ь = ип(Ь)=иШЬ)= и

йен

В [13] показано, что процедура замыкания позволяет сохранить свойство непротиворечивости. Поэтому классы, определяемые с помощью последовательного дополнения исходного непротиворечивого множества литер новыми логическими выводами, также будут непротиворечивыми. Такие целостные классы мы называем вероятностными формальными понятиями.

Теорема 2. Пусть 71 — множество максимально специфических правил; тогда если В непротиворечиво, то П7г{В) — также непротиворечиво.

Определение 10. Пусть 71 С МБЩК) — множество максимально специфических правил. Тогда В — вероятностное формальное понятие, если П7г{В) = В.

На основе определения 9 нетрудно предложить алгоритм замыкания РгоЬСЬзиге, который строит замыкание Ь = РгоЬС1о8иге(Ь). Ь будет минимальной неподвижной точкой, содержащей множество Ь, и, согласно определению 10, вероятностным формальным понятием.

РгоЬС1о8иге успешно решает большинство теоретических задач, не требуя разрешения противоречий, так как в силу теоремы 2 исключается ситуация, когда в процессе вывода обнаруживается одновременно литера и ее отрицание.

Алгоритм 1 Простейший классификатор Prob Closure

Вход: 7For (К), К = (G, М, I), В С Ш{К)

Выход: В С Lit (К) — вероятностное формальное понятие

1: Функция ProbClosure(_R', 7^., B^j

2: С ^В

3: Повторять

4: В ^ С

5: Для всех R € 1Z выполнять

6: Если С С тогда

7: CbCU

8: Конец условия

Конец цикла

9

10 11 12

До тех пор пока С\ В ф Вернуть С Конец функции

3. Энергия противоречий и разрешение противоречий

В задачах машинного обучения [9] данными являются выборки из некоторой генеральной совокупности, которой в нашем случае является контекст. Тогда выборку и данные можно задать следующим образом:

1) Источник данных е — многомерная случайная величина с заданным распределением;

2) Обучающая выборка Gteach = {<7(1)) • • ■ 9(п)} множество значений этой случайной величины.

Для нас это означает, что моделью наблюдаемого контекста К = (Gtea,ch> M, I) является выборка из генеральной совокупности К*, где каждый g € Gteach представлен многомерной бернуллиевской случайной величиной. Однако задача анализа данных должна по-прежнему пониматься в смысле исходного контекста К*, образующего генеральную совокупность объектов. В таких условиях непротиворечивость логического вывода с помощью П-r. может быть нарушена, поскольку теперь уже нельзя утверждать о максимальной специфичности правил 1Z, извлеченных из Gteach п° отношению к исходному контексту К*. Для построения логико-вероятностного замыкания в этом случае требуется видоизменить процедуру замыкания ProbClosure.

В работе [5] рассматривается возможность применения методов Deep Learning к задаче анализа данных IJMLS [12]. Для работы с такими данными необходимо учитывать семантику, заложенную в естественном языке. Серия исследований [5; 10] показала, что в качестве функции,

генерирующей обратную связь, может быть использована так называемая "семантическая функция энергии". Из физики мы знаем, что оценка различных конфигураций переменных (состояний системы) на основании функционала энергии позволяет найти точки равновесия системы или предсказать динамику её развития.

Функционал энергии может давать четкий критерий оценки для множества практических задач. В нашем случае концепция энергии позволяет отделить наиболее непротиворечивые конфигурации при переходе от контекста К* к выборке из генеральной совокупности.

Рассмотрим процесс преобразования набора литер. Пусть исходное множество литер В = В\ проходит через цепочку преобразований В1, ... Вп (такие преобразование происходят со стартовым множеством В в алгоритме РгоЪС1о,зиге). Условимся, что для алгоритма преобразования существует некий критерий ф, минимизация которого определяет направление поиска в пространстве подмножеств литер В € Такое семейство алгоритмов очень удобно в вычислительном смысле, поскольку позволяет определить их итеративно и исходную задачу свести к задаче минимизации. Последовательности, в которых первый и последний набор совпадают (т. е. В\ = Вп), очевидно, порождают конечное тождественное преобразование, поэтому для критерия ф должно выполняться следующее условие:

Определение 11 (Условие потенциальности).

Вх = Вп^ ф(Вг,Вг+1) = О

1=1...п— 1

Функционал ф является аналогом физического потенциала, за исключением того, что в нашем случае он дискретный. Условие в определении 11 — в точности условие независимости потенциала от пути его вычисления и, как известно из физической теории, потенциал позволяет определить функцию энергии. Заметим, что идея введения функционала энергии не нова, в [10] она подробно изучена в контексте механизма обратной связи для глубинных нейронных сетей.

Теорема 3. Критерий ф может быть выражен с помощью потенциальной энергии 8: ф{В, С) = £{С) — 8(В); при этом ф{В, С) удовлетворяет условию потенциальности, а значение потенциала не зависит от точки начала отсчета энергии.

Ключевым является выбор некоторого функционала энергии £. Для нас важно минимизировать количество противоречий, содержащихся в некоторой конфигурации литер В.

Зафиксируем некоторое множество правил 71. Далее будем считать, что все правила К берутся из этого универсума правил 71.

Определение 12. Пусть R — правило, а В с Lit (К).

R применимо (или R € Арр(Б)/) к набору литер В, если С В.

R подтверждается (или R € Sat {В)) на наборе литер В, если R € Арр(Б), и при этом R~€ В.

R опровергается (или R € Fal(5)j на наборе литер В, если R € App(U), и при этом -i€ В.

Определение 13. Энергией противоречий мы называем функционал энергии, определенный с помощью веса опровергающихся правил, за вычетом энергии подтверждающихся правил:

8(B) = 7(Я)- Е 7(Я)

߀Fal(S) ReSat(B)

7(E): R^ R+

При этом ф{В, 0) = £{В).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Задача состоит в том, чтобы минимизировать энергию противоречий £(В) —>■ min, и таким образом найти максимально непротиворечивые комбинации литер. Однако, полное решение задачи минимизации функционала энергии выглядит как полный перебор в пространстве конфигураций литер 2Llt(~K\

Вспомним, что мы работаем в вероятностном контексте, где приемлемость решения определяется иными способами (например, предсказательной точностью классификатора Accuracy). Поэтому поставленная вычислительная проблема может быть решена субоптимальным образом. Предлагается вычислять приближенные решения посредством "жадного" итеративного алгоритма StatClosure, который минимизирует потенциал и выполняет поиск локально оптимальных решений. Свойство жадности опирается на то предположение, что для субоптимальности достаточно рассмотреть только потенциал при переходе к ближайшим соседям, т. е. от конфигурации В к конфигурациям вида В±1, где I € Lit (К).

Это приводит к алгоритму 2, в котором неподвижные точки вероятностного оператора локально минимизируют функционал энергии противоречий и поэтому в известной степени решают задачу непротиворечивого предсказания. Алгоритм StatClosure может быть успешно применен к задачам классификации, в частности рассматриваемой нами задаче типа Link Prediction. Общая схема заключается в следующем:

1) Набор данных задается в виде обучающего и контрольного формальных контекстов Kt = (Gt, М, It), Кс = (Gc, М, /с);

2) Извлекается множество вероятностных законов [1] TZ, которое проверяется статистическими методами. Полностью процедура извлечения вероятностных законов описана в [1];

Алгоритм 2 Замыкание статистическим оператором вывода

Вход: К С For (К), К = (G, М, I), В С Ш{К)

Выход: С С Lit (К) — статистическое формальное понятие

1: Функция STATCLOSURE(ii, TZ, В)

2: Во^ В

3: к <- О

4: Повторять

5: к к + 1

6:

7:

8: Candidates 0

Для всех L € Lit (К) \ U —*Bk_i) выполнять

9

10 11 12

13

14

15

16

17

18

19

20 21 22

23

24

Candidates Candidates U i U L} Конец цикла

Для всех L € \ выполнять

Candidates Candidates U i \ L} Конец цикла

Для всех С € Candidates выполнять а^ф(Вк_ъС) Если а < гр тогда ip а Вк С Конец условия Конец цикла До тех пор пока гр < 0 Вернуть Вк Конец функции

3) Выбирается множество контрольных пар (д € Ос,т € М), относительно которых ставится задача предсказания (д,т) € /с;

4) Для объекта д строится его описатель Ь = д' \ {т};

5) Вычисляется статистическое замыкание описателя С = Б1аЬС1о8иге{Ь)\

6) Если т € С, то дается положительный ответ, иначе выдается отрицательный ответ о вхождении (д, т) в контрольный контекст.

Для придания подходу гибкости, в частности для расчета показателя АиС [11], необходимо параметризовать алгоритм, включив возможность регулирования вероятности ложнопозитивных или ложнонега-тивных срабатываний. Мы можем увеличивать вес противоречащих

добавлению литер правил, и останавливать добавление литер, которые являются более противоречивыми, чем этого допускает множество закономерностей 71:

Еа1(В) ЭаЬ(В)

Параметр и> из переопределения функционала энергии назовем весом противоречий. В разделе 5 с описанием эксперимента более подробно исследована зависимость точности предсказаний для позитивных и негативных образцов от значения параметра веса противоречий.

4. Эксперимент на данных UMLS

В работе [5] рассматривается задача предсказания связей (Link Prediction) на семантическом мультиграфе X. Для решения этой и других связанных с ней задач методом Deep Learning авторами проведена большая работа, включающая серию исследований. В ранних работах [3] предлагается архитектура нейронной сети, обеспечивающая промежуточное представление терминов естественного языка в виде векторов вещественнозначного признакового пространства R50. При этом, используется мера схожести:

/(eU,eD = |\R%8Ev(e\) -

Тензоры Rr выражают промежуточное представление отношений между терминами, v(-) выбирает порядковый номер п термина-аргумента и задает вектор, дающий при умножении на него строку матрицы с номером п, а матрица Е построчно задает вложение терминов в признаковое пространство. Обучение состоит в минимизации ошибки посредством градиентного спуска при переходе от истиного ребра мультиграфа € X к ложному ребру ф. X:

f(e{, п, el) < f(elj, п, el), Vj : {е],п, el) £ X

f(ei7ri,e-l) < f(eli,ri,erj),Vj: (е{,п,е^) £X

Характерным здесь является сложность и комплексность процесса обучения. Поскольку матрица Е едина для всех отношений, использующихся в семантическом мультиграфе, применяется метод мультизадачного обучения (multi-task learning), в котором одна и та же нейронная сеть применяется к различным задачам. При этом объем исследуемых данных даже на этапе первичной оптимизации (при построении матриц вложения) составляет сотни тысяч семантических связей. Применялись

для обучения достаточно распространенные базы знаний \УогсШе1 и РгееЬаэе.

Следующим шагом в развитии рассматриваемой задачи являлась работа [4], где уже знакомый нам коллектив авторов предлагает метод обработки связного текста за счет введения дополнительных уровней абстракции, и, соответственно, новых слоев архитектуры глубинной сети:

1) Множества синтаксических единиц предложения х разбиваются на три множества (условно можно их обозначить как подлежащее, сказуемое и дополнение), каждая синтаксическая единица заменяется на её векторное представление. Затем множество векторных представлений комбинируется с помощью специальной функции 7г:

Ешз = , Е1Из2 ■>■■■)

ЕГе1 = , Е^ , ■ ■ ■)

ЕгИз = ^(Ешз!, Ешз2, • • •)

2) Пары (Е^з, Еге]) и (Еге1,Ег^3) комбинируются в ещё одно промежуточное представление с помощью специальных функций:

Ещз{ге1) = 91еМЕшв, ЕГе1)

Егкз(ге1) 9ггды{.ЕгНз1 Еге{)

Функции д1е^,9ндЫ — параметризуемы, и конкретный параметр выбирается посредством процедуры обучения;

3) Наконец, заключительное преобразование состоит в применении ещё одной параметрической функции £(х) = /¿(-Е^^еф ^г7м(г-ег))-Так получается семантическая энергии исходного высказывания.

Обучение происходит аналогичным образом: параметры функций подбираются так, чтобы функционал энергии на обучающей выборке получал возможно минимальные значения. Для решения этой задачи также потребовалось увеличение объема данных: помимо упомянутого ШэтсШе! использовались Сопсер1Ке1], \У1к1ресЦа и производные от них базы знаний, построенные специальным образом [4].

Третий этап исследований [5] включал в себя применение построенной архитектуры к новому спектру задач. Обработка естественноязыковых конструкций оказалась хорошо применимой к базам знаний на основе мультиграфовых структур. Мультиграфовые семантические словари использовались ещё в начале серии исследований [3], когда они были естественно-языковыми. Другие типы терминологических словарей тоже хорошо поддаются анализу с помощью семантической функции энергии. В работе [5] многослойная сеть получила дополнительное

обучение на специализированных словарях и решала задачи различного типа, в том числе интересующую нас задачу Link Prediction.

Как видно, процедуры преобразований в описанной архитектуре достаточно сложны, а процессы, лежащие в их основе, интуитивно неясны. Кроме того, требуется объемная подготовительная работа, многослойное и мультизадачное обучение архитектуры для получения адекватного результата.

В отличие от использованного в [5] метода Deep Learning метод классификации, основанный на основании ВФП, способен извлекать из представленной онтологии структурные зависимости на логическом уровне, что позволяет автоматически отображать контекст высказывания. Метод классификации, основанный на ВФП, может не только эффективно принимать решения, но в отличие от нейронных сетей и других архитектур Data Mining он способен объяснять эти решения с помощью логико-вероятностных закономерностей, участвующих в формировании замыкания в алгоритме StatClosure. Для работы метода классификации не требуется замены семантических единиц на вещественнозначные векторы, что неизбежно привело бы к потере части информации и искажению смысла; процесс обучения при веще-ственнозначной интерпретации выглядит как минимизация потерянного смысла.

Перейдем к сравнительному эксперименту по применению метода классификации, основанного на ВФП к данным из [5]. Сравнение проводилось на основе выборки UMLS (Universal Medical Language System) [12]. Данные были предварительно обработаны и приведены к тензорному представлению авторами статьи [5; 6]. Особенностью этих данных является более общая структура, в которой онтология предметной области (в данном случае биологических и медицинских знаний) выражена в виде размеченного мультриграфа. Различные сущности (субъекты онтологии) связаны между собой множеством взаимоотношений (например, такими как "являться частью", "использовать" или "производить").

UMLS содержит миниатюрный медицинский словарь в виде семантических соответствий вида (I, reí, г), где ¿иг — некоторые термины, а reí — отношение между ними. Например, в словаре представлены связи:

— (Immunologic_Factor, indicates, Virus);

— (Molecular_Biology_Research_Technique, is_a, Research_Activity). Всего словарь содержит 135 терминов (вершин мультиграфа), 49 возможных отношений (меток для ребер мультиграфа) и 5932 связей между терминами (ребер в мультиграфе).

Сформулируем задачу для UMLS в терминах анализа формальных понятий и изучим точность предлагаемого подхода. На языке формальных понятий задача может быть задана с помощью понятия три-адического формального контекста [8]. Помимо множества объектов

и множества атрибутов в триадическом формальном контексте вводится множество "условий" Reí; отношение принадлежности атрибута объекту справедливо лишь при указании некоторого условия с € С: (д,т, с) € I объект g обладает свойством m при условии с.

Пусть множество терминов медицинского словаря IJMLS есть Termu, а множество отношений — Relu■ Для применения метода извлечения вероятностных формальных понятий требуется преобразовать размеченный мультиграф, или эквивалентный ему триадический контекст, в обыкновенный неориентированный двудольный граф без потери информации. Как было отмечено в [8], процедура преобразования неоднозначна и может зависеть как от семантики разметки графа, так и от семантики задачи. Однако в случае, когда описываются некоторые свойства объектов с помощью сложных, составных прилагательных, разумно будет предположить, что в качестве нового набор признаков M следует использовать пары, образующие комплексные прилагательные; так, в состав новых атрибутов войдут пары (is_a, Virus)

и (produces, Vitamin). Для этого мы полагаем:

1) Gu = Тегти;

2) Ми = Termu х Relu;

3) (I, (reí, г)) elu о (I, reí, г) € UMLS-

4) Формальный контекст нашей задачи это Ки = (Си, Ми, lu)-

Напомним, что решается задача типа Link Prediction [5]:

Задача 1. Определить, верно ли что для заданного ребра е = (I, rel, г) выполняется е € UMLS. Или эквивалентно, верно ли что для заданных термина g и атрибута m = (rel, г) выполняется glum.

Серия экспериментов состоит в удалении каких-либо связей (или значений в матрице отношения I) из мультиграфа IJMLS, а затем использовании алгоритма StatClosure в целях восстановления этих связей. Алгоритм 3 дает решение поставленной задачи восстановления связей методом В ФИ.

5. Результаты

В качестве показателя эффективности работы классификатора авторы [5] используют AU С (Area Under Curve, площадь под ROC-кривой). Приведем определение _пОС-кривой:

— FP (False Positive) — образцы, не содержащие анализируемый признак т, и ошибочно определенные как "содержащие признак m";

Алгоритм 3 Решение задачи предсказания связи

Вход: К С ¥от(К), Кс = (Ос, М, 1С), д € Ос, т € М

Выход: Т или _1_ — верно или нет, что д обладает атрибутом т

1: Функция Ркеб1СтЬшк(Кс, 7?.,д,т)

2: Ь д'\ {т}

3: Ь 81а1С1о8иге(Сс, К, Ь)

4: Если т € Ь тогда

5: Вернуть Т

6: Иначе

7: Вернуть _1_

8: Конец условия

9: Конец функции

— FN (False Negative) — образцы, не содержащие анализируемый признак т, и правильно определенные как "не содержащие признак ш";

— TN (True Negative) — образцы, содержащие анализируемый признак т, и ошибочно определенные как "не содержащие признак ш";

— TP (True Positive) — образцы, содержащие анализируемый признак т, и правильно определенные как "содержащие признак т";

— Точка на ROC-кривой определяется как пара ([fpufwi> \tputn\^'

ROC-кривая содержит множество таких точек, и в случае конечного множества экспериментов, образует ломаную линию на графике в области ((0, 0), (1,1)). Площадь под ROC-кривой и будет значением показателя AUC [11].

Обычно алгоритм имеет некоторые параметры, к примеру — порог решающего правила. С помощью этого параметра регулируется баланс между FP и TN образцами. Для алгоритма поиска вероятностных формальных понятий, таким параметром может служить вес противоречий. Повышая вес противоречий, мы понижаем количество FP-объектов (поскольку отвергаются практически все объекты, за исключением наиболее непротиворечивых), но при этом повышаем долю TN-объектов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заметим также, что AUС не является безусловно объективным показателем [11], поэтому мы будет также использовать классический показатель Accuracy (точность предсказаний). Для этого считаем процент правильно предсказанных случаев среди интересующего нас множества экземпляров Gk-

Accuracy(Gк) = ^К ^

I Gk\

Эксперимент по классификации состоял из двух частей:

— изучения поведения алгоритма при изменении уровня веса противоречий, составления iíOC-кривой и подсчета AUG;

— скользящий контроль типа leave-one-out для тотального контроля точности (accuracy).

В процессе изменения уровня противоречий алгоритм показывал очень высокую точность предсказаний в рамках задачи Link Prediction. С увеличением веса противоречий удается повысить точность на образцах д с отсутствующими связями (д, (rel,g)) ^ Ijj за счет уменьшения точности на позитивных образцах. Требования к сильной непротиворечивости делают алгоритм более консервативным, что заставляет его признавать наличие ассоциаций типа (g,rel,g) более осторожно.

Таблица 1

Зависимость точности от веса противоречий w

Вес противоречий Негативные Позитивные Совокупно

0 93.46% 100% 93.51%

0.2 97.37% 100% 97.33%

0.4 98.13% 100% 98.15%

0.6 98.5% 100% 98.51%

0.8 98.82% 99.46% 98.83%

1.0 98.87% 100% 98.98%

1.5 99.24% 99.52% 99.24%

2.0 99.38% 99.55% 99.39%

3.0 99.69% 99.56% 99.67%

4.0 99.69% 97.56% 99.67%

6.0 99.69% 97.56% 99.67%

Анализ ROC-кривой показал, что StatClosure способен давать производительность не хуже SME-алгоритма, основанного на глубоком обучении [5]. AU С для StatClosure составляет 0.9997, что даже лучше показателя 0.99 для SME-алгоритма глубинного обучения. Это может служить сигналом к дальнейшим экспериментам по прогностической способности вероятностных формальных понятий. Результаты сравнительного анализа приведены в таблице 2.

Перейдем теперь к контролю точности. Объём выборки является небольшим (135 объектов), технически и вычислительно возможен наиболее полный вариант техники Cross-Validation типа JackKnife [2].

Занумеруем объекты исходной выборки С = {д\,... д\с\}- В leave-one-out, на к-й итерации для обучения используется выборка G^each = G \ {дк}, а для контроля GkControl = {дк}- Сначала следует процедура извлечения правил посредством семантического вероятностного вывода [1] на контексте (G^each, M, I), которая извлекает все вероятностные

закономерности на данных, а затем процедура предсказания связей Link Prediction.

Таблица 2

Статистика эксперимента для leave-one-out, 135 итераций

Показатель Позитиных Негативных Всего

Верно 6104 878213 884317

Неверно 648 8060 8708

Всего 6752 886273 893025

Точность 90,4% 99,09% 99,025%

Таким образом, ожидаемая точность алгоритма на контрольных данных составляет порядка 99%. Если ошибка типа FP является критичной, требования к весу противоречий может быть снижено с целью более качественной классификации позитивных образцов.

6. Заключение

В работе изучена возможность практического применения подхода машинного обучения, основанного на вероятностном обобщении формальных понятий. Концепция семантической энергии способна разрешить противоречия, возникающие в условиях сильной неопределенности.

Четко заданная семантика, как в рассмотренном наборе данных IJMLS, обеспечивает высокую эффективность алгоритма, даже в сравнении с общепризнанными техниками на основе Deep Learning. Метод классификации, основанный на вероятностных формальных понятиях, дает не только лучшие результаты, но и имеет высокую объясняющую способность, поскольку эти результаты хорошо интерпретируемы.

Также исследована гибкость предложенного алгоритма StatClosure за счет введения параметра веса противоречий, который позволяет регулировать баланс между консервативностью и точностью алгоритма и оценить значение А?7С-показателя метода. AIJC для StatClosure оказывается сравнимым с аналогичным показателем для SME-метода на основе глубинного обучения [5].

Список литературы

1. Витяев Е. Е. Извлечение знаний из данных. Компьютерное познание. Моделирование когнитивных процессов / Е. Е. Витяев. - Новосибирск : НГУ, 2006. - 293 с.

2. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов / К. В. Воронцов // Математические вопросы кибернетики / под ред. О. Б. Лупанов. - М. : Физматлит, 2004. - Т. 13. - С. 5-36.

3. Learning structured embeddings of knowledge bases / A. Bordes, J. Weston, R. Collobert, Y. Bengio // Proceedings of the 25th Conference on Artificial Intelligence (AAAI-11). - USA, San Francisco, 2011.

4. Joint learning of words and meaning representations for open-text semantic parsing / A. Bordes, X. Glorot, J. Weston, Y. Bengio // Proc. of the 15th Intern. Conf. on Artif. Intel, and Stat. (JMLR) - 2012. - Vol. 22. - P. 127-135.

5. A Semantic Matching Energy Function for Learning with Multi-relational Data / A. Bordes [et al.] // Machine Learning: Special Issue on Learning Semantics. -2013.

6. A Neural Probabilistic Language Model / Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin // Machine Learning Research. - 2003. - P. 1137-1155.

7. Ganter B. Formal Concept Analysis: Methods, and Applications in Computer Science / B. Ganter. - TU Dresden : Springer, 2003

8. Ganter B. Implications in Triadic Formal Contexts / B. Ganter, S. Obiedkov. -TU Dresden : Springer, 2004.

9. Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. - MIT Press, 2016.

10. A Tutorial on Energy-Based Learning / Y. LeCun [et al.] // Predicting Structured Outputs / Bakir [et al.] (eds.). - MIT Press, 2006.

11. Lobo J. M. AUC: a misleading measure of the performance of predictive distribution models / J. M. Lobo, A. Jimenez-Valverde, R. Real // Global Ecology and Biogeography. - 2008. - Vol. 17. - P. 145-151. https://doi.Org/10.llll/j.1466-8238.2007.00358.x

12. McCray A. T. An upper level ontology for the biomedical domain // Comparative and Functional Genomics. - 2003. - Vol. 4. - P. 80-88. https://doi.org/10.1002/cfg.255

13. Vityaev E. E. Probabilistic Formal Concepts with Negation / E. E. Vityaev, V. V. Martynovich // Perspectives of System Informatics / A. Voronkov, I. Virbitskaite (eds.). - LNCS. - 2015. - Vol. 8974. - P. 385-399.

Витяев Евгений Евгеньевич, доктор физико-математических наук, профессор, Институт математики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Коптюга, 4, тел.: (+7383) 363 46 58 (e-mail: [email protected])

Мартынович Виталий Валерьевич, Институт математики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Коптюга, 4, тел.: +7 963 948 71 57 (e-mail: [email protected])

V. V. Martynovich, E. E. Vityaev

Probabilistic Formal Concepts in a Natural Language Processing Task

Abstract. Despite the high effectiveness of the Deep Learning methods, they remain a "thing in themselves", a "black box" decisions of which can not be trusted. This is critical for such cLlCclS clS medicine, financial investments, military applications and others, where the price of the error is too high. In this regard, the European Union is going to demand in 2018 from companies that they give users an explanation of the solutions obtained by automatic systems.

In this paper, we offer an alternative, logical-probabilistic method of Deep Learning that can explain its decisions. This is a method of hierarchical clustering, based on the original logical-probabilistic generalization of formal concepts [13]. For comparison with deep learning based on neural networks, the work [12] was chosen, in which the task of processing natural language on a set of data UMLS is solved. To apply the logical-probabilistic generalization of formal concepts, a classification algorithm based on the energy of the contradictions Energy Learning [10] is defined. Logical-probabilistic formal concepts are defined through fixed points, as well as the formal concepts themselves, only certain rules of probability are used as rules. The energy of contradictions allows us to resolve the contradictions arising at fixed points that form probabilistic formal concepts. It is shown that this clustering algorithm is not inferior in accuracy to the method of Deep Learning [12]; nevertheless, the solutions obtained by it are explained by the set of probabilistic fixed-point rules.

Keywords: probability, formal concepts, natural language processing, Deep Learning, Data Mining, semantic energy.

References

1. Vityaev E.E. Izvlechenie znaniy iz dannykh. Komp'yuternoe poznanie. Modelirovanie kognitivnykh protsessov [Knowledge discovery. Computational cognition. Cognitive process models]. Novosibirsk, Novosibirsk State University Press, 2006. 293 p. (in Russian)

2. Vorontsov K.V. Combinatorial approach to learning algorithms estimation. Matematicheskie voprosi kibernetiki, eds. Lupanov O.B., Moscow, FizMatLit, 2004, vol. 13, pp. 5-36. (in Russian).

3. Bordes A., Weston J., Collobert R., Bengio Y. Learning structured embeddings of knowledge bases. Proceedings of the 25th Conference on Artificial Intelligence, AAAI-11, USA, San Francisco, 2011.

4. Bordes A., Glorot X., Weston J., Bengio Y. Joint learning of words and meaning representations for open-text semantic parsing. Proc. of the 15th Intern. Conf. on Artif. Intel, and Stat., JMLR, 2012, vol. 22, pp. 127-135.

5. Bordes A. et al. A Semantic Matching Energy Function for Learning with Multirelational Data. Machine Learning: Special Issue on Learning Semantics, 2013.

6. Bengio, Y., Ducharme, R., Vincent, P. and Jauvin, C. A Neural Probabilistic Language Model. Machine Learning Research, 2003, pp. 1137-1155.

7. Ganter B. Formal Concept Analysis: Methods, and Applications in Computer Science. TU Dresden, Springer, 2003.

8. Ganter В., Obiedkov S. Implications in Triadic Formal Contexts. TU Dresden, Springer, 2004.

9. Goodfellow I., Bengio Y. and Courville A. Deep Learning. MIT Press, 2016.

10. LeCun Y. et al. A Tutorial on Energy-Based Learning. Predicting Structured Outputs, Bakir et al. (eds.), MIT Press, 2006.

11. Lobo J.M., Jimenez-Valverde A., Real R. AUC: a misleading measure of the performance of predictive distribution models. Global Ecology and Biogeography, 2008,vol. 17, pp. 145-151. https://doi.Org/10.llll/j.1466-8238.2007.00358.x

12. A. T. McCray. An upper level ontology for the biomedical domain. Comparative and Functional Genomics, 2003, vol. 4, P. 80-88. https://doi.org/10.1002/cfg.255

13. Vityaev E.E., Martynovich V.V. Probabilistic Formal Concepts with Negation. Perspectives of System Informatics, A. Voronkov, I. Virbitskaite (eds.), LNCS, 2015, vol. 8974, pp. 385-399.

Martynovich Vitaly Valerievich, Institute of Mathematics SB RAS, 4, Akademik Koptyag st., Novosibirsk, 630090, Russian Federation, tel.: +7 963 948 71 57, (e-mail: [email protected])

Vityaev Evgeny Evgenievich, Doctor of Sciences (Physics and Mathematics), Professor, Institute of Mathematics SB RAS, 4, Akademik Koptyag St., Novosibirsk, 630090, Russian Federation, tel.: (+7383) 363 46 58 (e-mail: [email protected])

i Надоели баннеры? Вы всегда можете отключить рекламу.