Результаты многочисленных экспериментов позволили выявить, что наибольшая погрешность достигается для сочетаний генераторов, номера которых соотносятся как 1:2, 1:3, 2:1 и 3:1.
Выполненный корреляционный анализ показал, что коэффициенты корреляций проблемных сочетаний генераторов принимают положительные значения и по абсолютной величине в 5-10 раз превышают значения коэффициентов корреляции непроблемных сочетаний, что обусловливает значительные погрешности результатов моделирования высоконагруженных систем.
Анализ переходных процессов в моделях высоконагруженных систем при использовании проблемных сочетаний генераторов случайных величин показывает, что среднее время ожидания заявок медленно увеличивается с увеличением длительности моделирования (числа заявок, пропускаемых через модель), но так и не достигает точного значения, полученного аналитически, в некоторых случаях даже после прохождения через моделируемую систему более 100 млн. заявок.
Литература
1. Бражник А.Н. Имитационное моделирование: возможности GPSS World. - СПб: Реноме, 2006. -439 с.
2. Алиев Т.И. Основы моделирования дискретных систем. - СПб: СПбГУ ИТМО, 2009. - 363 с.
Алиев Тауфик Измайлович - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор технических наук, профессор, зав. кафедрой, [email protected]
УДК 004.8
ИЕРАРХИЯ ГЛОБАЛЬНЫХ СТРУКТУР АЛГЕБРАИЧЕСКОЙ БАЙЕСОВСКОЙ СЕТИ КАК СИСТЕМА ГРАФОВ И ГИПЕРГРАФОВ1
А.А. Фильченков
Алгебраические байесовские сети относятся к классу логико-вероятностных графических моделей и позволяют осуществлять логико-вероятностный вывод, в том числе и в отношении знаний с неопределенностью, формализуемых через скалярные и интервальные оценки истинности пропозициональных формул. В работе рассмотрены глобальные структуры алгебраической байесовской сети, предложена их систематизация через гиперграфовое представление и выявлена их функциональная иерархия. Предложенная систематизация позволяет приложить методы теории гиперграфов к решению ряда задач анализа глобальных структур алгебраической байесовской сети, в частности, предложить и обосновать критерий для выявления ацикличности ее первичной структуры, а также формирует теоретическую основу алгоритмизации автоматического обучения указанных сетей.
Ключевые слова: алгебраическая байесовская сеть, графы смежности, машинное обучение, глобальная структура, вероятностные графические модели.
Введение
Алгебраические байесовские сети (АБС) лежат на стыке двух классов основных подходов, применяемых к построению математических моделей баз знаний с неопределенностью. Первый из этих классов - подходы, использующие оценки истинности над фрагментами знаний (ФЗ). Ко второму классу относятся так называемые «сетевые» подходы, заключающиеся в использовании графов для моделирования связей (причинно-следственных, логических, реляционных) между элементами или наборами элементов базы знаний [1, 2].
Так, АБС являются математической моделью базы ФЗ с неопределенностью, в которых, в свою очередь, математической моделью ФЗ выступает идеал конъюнктов с заданными над ними оценками вероятности их истинности [1]. Декомпозиция предметной области на базу (набор) таких моделей ФЗ, с прикладной точки зрения, позволяет снизить требования к вычислительным ресурсам (памяти и времени), необходимым для их хранения и обработки, а с теоретической - служит причиной для выделения двух структур АБС: первичной и вторичной.
Первичная структура АБС тесно связана с подходами первого из рассмотренных классов, поскольку представляет собой набор ФЗ. Вторичная же структура АБС - граф [3, 4], построенный над первичной структурой, - согласуется с «сетевыми» подходами. Эти две структурные особенности позволяют отнести АБС к классу логико-вероятностных графических моделей [5], из которого АБС выделяются возможностью использовать интервальные оценки вероятности истинности для представления неопределенности [1, 2]. Помимо первичной и вторичной структур у АБС выделяют также ряд других глобальных структур [6], тесно связанных друг с другом и играющих ключевую роль при решении задачи глобально-
1
Работа выполнена при финансовой поддержке РФФИ, гранты №№ 12-01-00945-а и 12-01-31202-мол_а.
го обучения АБС. Глобальное обучение АБС - это один из видов машинного (автоматического) обучения, развитие методов, моделей и алгоритмов которого является одной из самых актуальных задач в искусственном интеллекте [2, 5, 7, 8]. Цель данной работы - выявить отношения между указанными глобальными структурами АБС, т.е. описать их иерархию и систематизировать составляющие ее объекты на языке теории гиперграфов. Формально каждое подобное сопоставление является теоремой о представлении, однако и формулировки, и доказательства подобных теорем однотипны, поэтому для краткости мы не будем их воспроизводить в полном масштабе, ограничиваясь лишь содержательным обоснованием и заключением. Выявленные представления позволяют применить известные результаты теории графов (в частности, гиперграфов) в рамках задач теории АБС, в особенности в отношении вопросов построения ациклических и связных вторичных структур.
Будем везде далее под структурой понимать структуру АБС.
Фрагмент знаний и первичная структура как набор фрагментов знаний
Далее во всей работе будем следовать системе терминов теории АБС, основанной на работах [4, 6, 9, 10] и теории графов по [11]. Алфавит A = (Xj,...,xn} - множество атомарных пропозициональных формул (атомов). Фрагмент знаний - пара CA,, pA,, где CA, - идеал конъюнктов над подалфави-том A' с A , не содержащий пустой конъюнкт:
C^^AxK с A' , K *0),
а pA - функция, заданная на элементах CA , значениями которой являются либо значения из отрезка [0;1], (тогда говорят о скалярных оценках), либо отрезок [a;b] :0 < a < b < 1 (тогда говорят об интервальных оценках). Если ФЗ непротиворечив, то p4 в скалярном случае является вероятностью, а в интервальном - ассоциирована с заданием внешней и внутренней меры. Фрагмент знаний, построенный над A' - подалфавитом A - будем обозначать как KPA'.
Первичной структурой MKPA, заданной над алфавитом A , называется набор максимальных по включению ФЗ, построенных над подалфавитами A , образующими покрытие A :
MKPa = (KP4 },=,..„ : V1 < i, j < MCA £ CAj, 4 с A, причем |J At = A.
1=1.. N
Первичная структура как гиперграф и протоструктура
В данной работе нас будут интересовать лишь структуры АБС (ее «топология»), а не вероятностная семантика, поэтому оказывается достаточным считать первичной структурой набор соответствующих ФЗ подалфавитов [4]. Все рассуждения о подалфавитах, связанные с отношением включения, операциями объединения и пересечения, оказываются справедливы и для построенных над ними идеалов.
Таким образом, в рамках рассмотрения глобальных структур, первичной структурой над алфавитом A называется набор максимальных по включению подалфавитов A , образующих покрытие A : PSa = (Ai}i=1..n, V1 < i, j < NAt £ Aj, At с A, причем J At = A.
i =1..n
С точки зрения классической системы определений теории гиперграфов [11], которой мы будем придерживаться на протяжении всей работы, первичная структура является множеством ребер гиперграфа, вершинами которого выступают атомы A . Будем обозначать такой гиперграф как HA :
hpsa =<a,PSa >.
Теорема. Первичная структура является минимальным гиперграфом, т.е. она не содержит голых элементов, вложенных ребер и кратных ребер.
Доказательство. Благодаря максимальности подалфавитов первичная структура не содержит вложенных ребер, кратных ребер, а также голых ребер - т.е. ребер, степень которых равна нулю, поскольку любое неголое ребро будет содержать голое ребро. Благодаря тому, что подалфавиты образуют покрытие алфавита A , в гиперграфе нет голых вершин.
Протоструктурой АБС будем называть первичный граф первичной структуры, т.е. ненаправленный граф, построенный над тем же алфавитом, в котором две вершины смежны тогда и только тогда, когда они смежны в первичной структуре, т.е. входят в один и тот же подалфавит:
pS(PSa) = ¿(2)(HPSA) = <А,((х,,Xj) | 34 e PSa : x,,,Xj e At}>.
Далее для краткости будем под протоструктурой понимать протоструктуру АБС.
Клики в протоструктуре будут совпадать с кликами в HA, однако максимальные клики в протост-руктуре вовсе не обязательно будут совпадать с подалфавитами, входящими в соответствующую первичную структуру.
Магистральная связность и вторичная структура
Если в предыдущем разделе мы строили графы над алфавитом, то теперь будем строить их над первичной структурой. В подобных графах введем функцию нагрузки (веса) вершины: нагрузкой (весом) вершины будем называть соответствующий ей подалфавит. Будем обозначать нагрузку вершины v как W (v).
Сепаратор двух вершин v и u - пересечение нагрузок их вершин: Sep(v,u) = W(v)nW(u). Две вершины будем называть сочлененными, если их сепаратор непуст. Нагрузкой ребра в подобных графах будем называть сепаратор его концов: W ((v, u)) = Sep (v, u).
Графы максимальных фрагментов знаний (граф МФЗ) над данной первичной структурой PS4 -графы, построенные над подалфавитами, входящими в PS4, и в которых ребра возможны только сочлененными вершинами. Множество графов МФЗ над первичной структурой PS4 обозначим как MKPG(PS4 ):
G e MKPG (PS4) (G = (PS4, E),(u, v) e E ^ Sep (v, u) * 0).
В графе МФЗ нагрузка каждого ребра непуста. С точки зрения структуры гиперграфа HPS4 , это
означает, что для любых двух несмежных гиперребер соответствующие им вершины в графе МФЗ не могут быть связны.
Две сочлененные вершины в графе называются магистрально связными, если между ними существует магистральный путь, т. е. такой путь, в котором нагрузка каждой вершины содержит сепаратор концов этого пути. Множество пар магистрально связных сочлененных вершин в графе G обозначим как BBCG :
BBCg = {(u,v)|3{x,.}j=0 :u = ^v = xn, и V/ el^n (x,._j,x,.) e E(G),W (x,.) W (u)n W (v)} .
Магистрально связный граф - граф, в котором каждая пара сочлененных вершин магистрально связна. Множество магистрально связных графов над первичной структурой PS4 обозначим как BBcon(PS4):
G е BBcon(PS4) »(G = (PS4,E), u,v e PS4,Sep(v,u) * 0 ^ (v, u) e BBCG).
С точки зрения структуры гиперграфа HPS это означает, что для каждой пары его смежных гиперребер можно указать последовательность гиперребер, содержащих пересечение их вершин, такую, что в магистрально связном графе соответствующая последовательность вершин образует путь между вершинами, соответствующими исходным гиперребрам (следует отметить, что последовательность может быть и пустой, тогда две соответствующие исходным гиперребрам вершины должны быть соединены ребром).
Граф смежности - магистрально связный граф МФЗ. Множество графов смежности над первичной структурой PS4 обозначим как JG(PS4): JG(PS4) = MKPG(PS4)nBBcon(PS4).
Максимальный граф смежности Gmax (PS4) - граф смежности, число ребер которого максимально: Gmax (PS4 ) = argmaxGeJG(PS4)E (G)| . Заметим, что определение корректно, поскольку над заданной первичной структурой существует единственный максимальный граф смежности [4]. Он обладает рядом интересных особенностей. Во-первых, множество нагрузок его ребер совпадает с множеством непустых сепараторов соответствующей первичной структуры. Во-вторых, максимальный граф смежности является для соответствующего первичной структуре гиперграфа реберным графом (или, иначе, дуальным графом), т.е. графом над ребрами гиперграфа, в котором вершины соединены ребром, если соответствующие им гиперребра смежны:
Gmax (PS4 ) = L (HPS4 ) = (E(HPS4 ),e), (v,u) e E « W (v)n W (u) .
Минимальным графом смежности называется граф смежности, число ребер которого минимально. Множество минимальных графов смежности над первичной структурой PS4 будем обозначать как
MJG (PS4): MJG (PS4) = {G' | G' = argminGeJG(PS4)E (G)|}. В общем случае минимальных графов смежности может быть несколько [4].
Вторичной структурой может выступать какой-либо граф смежности. Обычно в качестве вторичной структуры рассматривают минимальный граф смежности. Задача обучения вторичной структуры
сводится к построению вторичной структуры, оптимальной (или хотя бы приемлемой в определенном смысле) с точки зрения применения алгоритмов глобального логико-вероятностного вывода в АБС [12].
Связность и ацикличность первичной структуры
Вторичная структура, построенная над первичной структурой, должна быть связна; для работы известных алгоритмов апостериорного логико-вероятностного вывода также требуется, чтобы она была и ациклической [12]. Однако не над любой первичной структурой можно построить связную вторичную структуру, так же как и не над любой первичной структурой можно построить ациклическую вторичную структуру [13]. Первичная структура называется связной, если над ней возможно построить граф смежности, который бы являлся связным. Первичная структура называется ациклической, если над ней возможно построить граф смежности, который является ациклическим. Известно [13], что все графы смежности над первичной структурой связны или несвязны одновременно, а также то, что все минимальные по числу ребер графы смежности будут циклическими или ациклическими одновременно.
На основе выявленных в предыдущих разделах соответствий, позволяющих систематизировать объекты теории АБС через графовое и гиперграфовое представление, можно предложить короткое, но строгое и ясное доказательство для следующей теоремы.
Теорема. Первичная структура PS связна тогда и только тогда, когда связен соответствующий ей гиперграф HPS.
Доказательство. Это следует непосредственно из того, что все графы смежности связны или несвязны одновременно, и из того, что максимальный граф смежности как дуальный граф гиперграфа связен или несвязен одновременно с протоструктурой как первичным графом гиперграфа [11].
Доказанная теорема дает простой и проверяемый за O(n2) критерий цикличности первичной структуры, где n - мощность алфавита A . Последнее важно в контексте синтеза первичной структуры АБС: поскольку известные алгоритмы логико-вероятностного вывода требуют, чтобы первичная структура АБС была ациклической, важно устанавливать это свойство на этапе синтеза именно первичной, а не вторичной структуры [13].
Третичная полиструктура и четвертичная структура
Сужением G X U графа G (заданного над первичной структурой с введенной на вершинах и ребрах функцией нагрузки) на подалфавит U называется подграф G , состоящий только из тех вершин и ребер G, нагрузка которых содержит U : G X U = [Vj | Vj e V(G),U ç W(V )} ,{Et | Et e E(G),U ç W(Et )} .
Множество сужений графа G на произвольные нагрузки будем обозначать как Nar (G). Для краткости Nar (Gmax (PSA )) будем обозначать как Nar (PSA ). Nar (G) является частично-упорядоченным множеством, в котором отношение порядка задается включением сужений друг в друга:
(g X U) -< (g X V) » (g X U) 3 (g X V) » U с W .
Значимой кликой с нагрузкой U для первичной структуры PSA называется сужение графа Gmax (PSA ) на нагрузку, являющуюся непустым сепаратором (т.е. совпадающим с каким-либо ребром графа Gmax (PSA )). Множество значимых клик для первичной структуры PSA обозначим как Clique (PSA ). Оно как подмножество частично упорядоченного множества также является частично
упорядоченным множеством.
Множество значимых клик образует набор гиперребер над МФЗ. Однако соответствующий гиперграф не является в общем случае минимальным, поскольку гиперребра содержатся в других гиперребрах (меньших их по определенному на множестве сужений порядку). В соответствии с этим над множеством Clique (PSA ) можно построить направленный граф, в котором ребро от значимой клики P к значимой клике Q проведено тогда и только тогда, когда P содержит Q . Построенный таким образом граф называется родовым графом над множеством Clique ( PSA ). Родовой граф можно строить и над произвольным подмножеством Nar (PSA ).
Родительский граф - это направленный граф над некоторым подмножеством Nar (PSA ), в котором ребро проведено от P к Q тогда и только тогда, когда такое ребро содержится в родовом графе и одновременно не существует иного пути от P к Q . Определенный подобным образом родительский граф является транзитивной редукцией родового графа и выступает диаграммой Хассе для подмножества
Nar (PS4), над которым он построен, с порядком, индуцированным порядком над множеством Nar (PS4).
Третичной полиструктурой АБС (далее третичной полиструктурой) для данной первичной структуры PS4 называется множество графов (направленных, ненаправленных и гибридных), построенных
над подмножествами Nar (PS4).
Замкнутым сверху множеством значимых клик Cliquet (PS4) для данной первичной структуры PS4 называется множество Clique (PS4), к которому добавили праклику - сужение Gmax (PS4 )^0. Праклика совпадает с Gmax (PS4). Нагрузкой праклики является пустое множество. Благодаря этому множество нагрузок элементов Cliquet (PS4) совпадает с множеством сепараторов PS4 .
Рассмотрим произвольный элемент Cliquet (PS4), назовем его CU, где U - его нагрузка. Через Son (CU) будем обозначать подмножество Cliquet (PS4), соответствующее сыновьям CU в родительском графе над Cliquet (PS4). Два элемента Son (CU) называются собратьями, если они пересекаются как сужения ( Son (CU) - подмножество Nar (PS4), более того, даже Clique (PS4)): ((,Sj) e Fel(S,,Sj) e Son(CU)лSi nSj * 0 .
Полусиблинговый граф HSU для элемента Cliquet (PS4) с нагрузкой U (назовем его CU ) - это граф, построенный над множеством сыновей CU , ребра в котором проведены между собратьями: HSu = Son(Cu),{(S,,Sj)|S,,Sj eFel}.
Четвертичная структура - семейство полусиблинговых графов, построенных для каждого сепаратора: {HSU | U e Cliquet (PS4)}.
Родственный граф - гибридный граф, получаемый дополнением направленного родительского графа над Cliquet (PS4) ненаправленными ребрами между собратьями. Согласно определению, родственный граф является элементом третичной полиструктуры, при этом множество его ненаправленных ребер совпадает с множеством ребер в четвертичной структуре.
Иерархия глобальных структур
Отношения, возникающие между введенными выше графовыми и гиперграфовыми объектами, представим явно - в виде единой иерархии.
Основной структурой на данный момент выступает первичная структура, с которой начинается построение АБС экспертом или программой, выявляющей в имеющихся данных скрытые закономерности, отражающие стохастические зависимости, независимости и условные независимости [l, 2].
Для данной первичной структуры PS однозначно восстанавливается ее протоструктура pS (PS).
Протоструктура открывает один из возможных подходов осуществить глобальное автоматическое обучение первичной структуры (или первичной и вторичной структур одновременно) [12]. Кроме того, про-тоструктура может использоваться в анализе особенностей первичной структуры, в частности - для выявления ее связности и ацикличности [14].
Для данной первичной структуры однозначно определяется множество сужений Nar(PS), а также
его подмножество - множество значимых клик Clique (PS). Последнее множество играет значительную
роль в синтезе вторичной структуры, поскольку используется во всех известных алгоритмах ее построения [9, 14].
Множество Nar(PS), а также его подмножества, в особенности Clique(PS) выступают в роли
множества вершин для графов (в том числе пустого графа), совокупность которых образует третичную полиструктуру. Элементы третичной полиструктуры используются для синтеза вторичной структуры, в том числе для синтеза всех возможных вариантов такой структуры [14]. Родительский граф над расширенным вверх множеством значимых клик Clique^ (PS) используется для построения четвертичной структуры. Последняя тесно связана с третичной полиструктурой: в частности, она индуцирует ненаправленные ребра семейного графа над Cliquet (PS). Кроме того, наблюдается также и функциональная
связь: и элементы третичной полиструктуры, и четвертичная структура используются для выявления ацикличности первичной структуры [15]. Следует отметить, что метод выявления ацикличности первич-
ной структуры на основе четвертичной структуры дает сильный аналитический критерий, лежащий в основе алгоритмов устранения циклов первичной структуры [16].
Необходимо также указать, что родительский граф может использоваться для осуществления алгоритмов апостериорного логико-вероятностного вывода, причем предполагается, что по скорости работы и минимизации ошибок в вычислении оценок такой вывод окажется лучше, чем над любой вторичной структурой, построенной над той же первичной структурой.
Заключение
В рамках данной работы были рассмотрены и систематизированы глобальные структуры алгебраической байесовской сети, в частности, введено понятие ее протоструктуры. Протоструктура, элементы третичной полиструктуры и четвертичная структура не используются непосредственно для осуществления алгоритмов логико-вероятностного вывода или для обеспечения представления знаний, хранящихся в сети, однако играют важную роль в решении задач глобального обучения АБС (являющегося подвидом машинного обучения вероятностных графических моделей), в частности, непосредственно для построения вторичной структуры.
Благодаря представлению первичной структуры и элементов третичной полиструктуры как гиперграфов открывается возможность для использования существующих в этой теории результатов для решения задач в теории АБС; в частности, в работе был предложен критерий ацикличности первичной структуры, опирающийся на свойства протоструктуры.
Выделение объекта как структуры АБС основано на соображениях функциональности: каждая глобальная структура выполняет одну или несколько функций в рамках теории АБС. Иерархия структур строится на основе отношений зависимости при синтезе указанных структур. Так, на вершине иерархии структур, описанной в настоящей работе, оказывается первичная структура, тогда как вторичная структура оказывается в самом низу.
Литература
1. Тулупьев А.Л., Николенко С.И., Сироткин А.В. Байесовские сети: логико-вероятностный подход. -СПб: Наука, 2006. - 607 с.
2. Тулупьев А.Л., Сироткин А.В., Николенко С.И. Байесовские сети доверия: логико-вероятностный вывод в ациклических направленных графах. - СПб: Изд-во СПбГУ, 2009. - 400 с.
3. Тулупьев А.Л., Столяров Д.М., Ментюков М.В. Представление локальной и глобальной структуры алгебраической байесовской сети в Java-приложениях // Труды СПИИРАН. - 2007. - Вып. 5. - С. 7199.
4. Фильченков А.А., Тулупьев А.Л. Структурный анализ систем минимальных графов смежности // Труды СПИИРАН. - 2009. - Вып. 11. - С. 104-127.
5. Alpaydin E. Introduction to Machine Learning. - 2nd ed. - Cambridge, Mass. MIT Press, 2010. - 581 p.
6. Фильченков А.А., Тулупьев А.Л. Третичная структура алгебраической байесовской сети // Труды СПИИРАН. - 2011. - Вып. 18. - С. 164-187.
7. Егоров К.В., Царев Ф.Н., Шалыто А.А. Применение генетического программирования для построения автоматов управления системами со сложным поведением на основе обучающих примеров и спецификации // Научно-технический вестник СПбГУ ИТМО. - 2010. - № 5 (69). - С. 81-89.
8. Тихомиров А.В., Шалыто А.А. Применение генетического подхода для генерации клеточных автоматов // Научно-технический вестник СПбГУ ИТМО. - 2011. - № 2 (72). - С. 62-66.
9. Опарин В.В., Фильченков А.А., Тулупьев А.Л., Сироткин А.В. Матроидное представление семейства графов смежности над набором фрагментов знаний // Научно-технический вестник СПбГУ ИТМО. -2010. - № 4 (68). - C. 73-76.
10. Фильченков А.А., Тулупьев А.Л. Совпадение множеств минимальных и нередуцируемых графов смежности над первичной структурой алгебраической байесовской сети // Вестник СПбГУ. Серия 1. Математика. Механика. Астрономия. - 2012. - Вып. 2. - С. 65-74.
11. Зыков А.А. Основы теории графов. - М.: Наука, 1987. - 384 с.
12. Тулупьев А.Л., Фильченков А.А., Вальтман Н.А. Алгебраические байесовские сети: задачи автоматического обучения // Информационно-измерительные и управляющие системы. - 2011. - Т. 9. - № 11. -С. 57-61.
13. Фильченков А. А., Тулупьев А. Л., Сироткин А.В. Управление глобальной структурой знаний в интеллектуальных системах, основанных на алгебраических байесовских сетях // Материалы конференции «Информационные технологии в управлении» (ИТУ-2012). - СПб: ОАО «Концерн «ЦНИИ «Электроприбор». - 2012. - С. 25-33.
14. Фильченков A.A. Алгоритмы построения элементов третичной полиструктуры алгебраической байесовской сети // Труды СПИИРАН. - 2011. - Вып. 3 (18). - С. 237-266.
15. Фильченков А.А., Тулупьев А.Л. Косвенные признаки цикличности вторичной структуры алгебраической байесовской сети // «Гибридные и синергетические интеллектуальные системы: теория и практика». Материалы 1-го международного симпозиума. Т. 2. - Калининград: БФУ им. Канта, 2012. - С. 9-18.
16. Фильченков А.А., Фроленков К.В., Тулупьев А.Л. Устранение циклов во вторичной структуре алгебраической байесовской сети на основе анализа ее четвертичной структуры // Труды СПИИРАН. -2012. - Вып. 21. - С. 143-156.
Фильченков Андрей Александрович - СПИИРАН,. мл. научный сотрудник, Санкт-Петербургский государственный университет, аспирант, [email protected]
УДК 004.912
ИЗВЛЕЧЕНИЕ И РАНЖИРОВАНИЕ КЛЮЧЕВЫХ ФРАЗ В ЗАДАЧЕ АННОТИРОВАНИЯ С.В. Попова, И.А. Ходырев
Для решения задачи аннотирования проводится сравнительный анализ двух подходов ранжирования ключевых фраз. Первый основан на оценке веса извлекаемых фраз с помощью TextRank, второй основан на использовании tf-idf оценки. Исследование проведено на базе коллекции INSPEC dataset. Представлены описание экспериментов и сравнительные результаты. Экспериментально показано, что подход, основанный на использовании tf-idf, дает лучший результат.
Ключевые слова: аннотирование, извлечение и ранжирование ключевых фраз, оценка качества аннотаций.
Введение
Тенденция к распространению электронных форматов представления научной информации стимулирует активное развитие научного сектора Интернета. Выражено это появлением огромного числа электронных публикаций и каталогов цитирования, доступных через сеть интернет, что, в свою очередь, способствует развитию и научных электронных библиотек. Очевидно, что комфортная работа пользователя с таким большим объемом информации невозможна без быстрого автоматического поиска нужных материалов. Для решения этой задачи необходимы данные о смысловом содержании документа, представленного в виде короткой аннотации. В работе под аннотацией понимается список ключевых слов/словосочетаний (фраз), характеризующих электронный документ. Наборы ключевых фраз или слов могут быть также использованы в задачах кластеризации и классификации, в задаче автоматического построения/пополнения онтологий, в задаче определения основных трендов, в задаче поиска новой информации и т.д. Под аннотированием в работе будем иметь в виду автоматическое извлечение из текста ключевых слов/словосочетаний (фраз).
Для решения задачи аннотирования выделяют два подхода. Первый использует обучающую выборку, второй - нет.
В первом подходе задача сводится к разработке классификатора, определяющего для поступившего на вход текста, какие из его частей являются ключевыми фразами, а какие нет [1, 2]. В работе [2] предложен генетический алгоритм и параметризованная система по извлечению ключевых фраз Extractor. Генетический алгоритм позволяет определить оптимальные значения параметров. В [1] использован наивный байесовский классификатор. В [3] выполнена интеграция лингвистических данных в машинное обучение, показано преимущество использования информации о частях речи.
В рамках второго подхода наиболее популярным является метод, основанный на представлении текста в виде графа, предложенный в работе [4]. Вершины графа - целостные части текста (отдельные слова, n-граммы, предложения). Веса дуг графа характеризуют тип связи между вершинами по выбранному принципу (например, встречаться вместе в окне размера n, т.е. на расстоянии не более n слов друг от друга). В [4] в качестве вершин графа рассматриваются отдельные слова текста; вес дуги, соединяющей две вершины-слова, показывает, сколько раз эти два слова встретились в тексте в окне n. Для оценки веса каждой вершины-слова в [4] используется величина, основанная на модификации формулы PageRank [5]:
S(Vi) = (1 - d) + d У 1 S(Vj),
Vj E/n(V,) | Out(Vj ) |
где In(vj) - дуги, входящие в вершину vi; Out (vj) - дуги, исходящие из вершины v j. Представленная выше формула была изменена [4] с учетом того, что каждая дуга имеет вес w :
Ж—I w..
S (V,.) = (1 - d) + d у _ü-. (1)
Vj E/n(Vi) У Wjk
Vk EOut(V )