Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
УДК 681.326
Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4135.
Бутов А.Л., Сизов А.С., Халин Ю.А.
МЕТОД ОБЪЕДИНЕНИЯ ФАКТОВ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ
Предложен метод объединения фактов в информационно-аналитических системах, основанный на реализации сбора и аналитической обработки данных, представленных в виде текстовых сообщениях на русском или английском языке, с дальнейшей агрегацией извлеченных фактов путем их сопоставления между собой по различным параметрам.
Ключевые слова: информационно-аналитическая система, естественно-языковые данные, семантическая обработка, аналитическая обработка, тезаурус, лемматизированный поиск, антонимия, гиперонимия, омонимия.
Butov A.L., Sizov A.S., Khalin U.A.
Association method of the facts in information-analytical systems
The facts association method in information-analytical systems is offered. The method is based on realisation of gathering and the analytical data processing, presented in the form of text messages in Russian or English language, with the further aggregation of the taken facts by their comparison among themselves on various parametres.
Keywords: information-analytical system (IAS), the natural language data, semantic processing, analytical processing, the thesaurus, antonomiya, hyperonimiya, a homonymy.
66
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Предлагаемый метод объединения фактов в интересах формирования описаний ситуаций представленный в виде алгоритма на рисунке 1 включает в себя следующие основные этапы [1]:
Формирование базы знаний информационно-аналитических систем (ИАС):
- формирование тезауруса предметной области и разработка правил рубрикации;
- создание описаний рубрицированных объектов;
- формирование источников данных;
- разработка модели базы правил для оценки ситуаций.
2. Сбор и предварительная обработка данных:
- сбор данных по каждому источнику данных, обеспечивающий построении графа гиперссылок с корнем - стартовой страницей и последующей закачкой страниц, на которые указывают узлы графа;
- извлечение полезных текстовых данных из собранных данных: преобразовании исходной веб-страницы в XML-документ и последующем рекурсивном исключении тех узлов, которые не удовлетворяют критерию регулярного выражения, задаваемого пользователем;
- рубрикация текстовых данных: текст относится к рубрике, если сработало хотя бы одно правило этой рубрики (срабатывание правила - наличие в тексте ключевой фразы, заданной в виде правила);
3. Объединение данных и формирование отчетного документа.
- отбор текстовых данных по региону, удовлетворяющих заданному перечню рубрик: отбираются только те документы, которые соответствуют указанному пользователем перечню рубрик;
- извлечение фрагментов текста, содержащих морфологические формы названий концептов: начиная с корневого концепта базы правил выполняет рекурсивный проход и поиск в тексте названий концептов;
- группирование данных по концептам, источникам данных и документам;
- формирование отчетных документов (ОИД).
Далее описываются представленные этапы разработанного метода объединения фактов в интересах формирования описаний ситуаций
Большинство существующих ИАС осуществляет поиск в текстовых данных путем поиска фразы, в которой все слова приведены к своим словарным формам (лемматизированной поисковой фразы) [1 - 3]. Данный подход обеспечивает независимость результатов поиска от форм слов в тексте. Но, вместе с тем, не позволяет находить похожие по смыслу, но отличающиеся словарным составом фразы в текстах.
Предлагается решения указанной проблемы обеспечивается за счет введения тезауруса - специализированного словаря, содержащего семантические отношения между понятиями предметной области. Тезаурус позволит реали-
67
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
зовать в ИАС поиск фраз с использованием семантических отношений (например, отношений синонимии) между понятиями.
Рис. 1 - Схема метода объединения фактов
68
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Тезаурус предметной области описывается выражением (1):
T = (Names, Syn, SynKof, Ant, AntKof, Hyper, HyperKof, Omon, OmonKof) (1)
где Names = {name1,..., namen} - множество понятий (объектов, процессов и
явлений) предметной области;
n - количество понятий предметной области;
Syn - отношения синонимии (такое отношение эквивалентности, при котором два понятия различные по написанию обозначают одну сущность предметной области, но могут незначительно отличаться друг от друга,
например, эмоциональной окраской) вида «понятие namej является синонимом понятия namet», заданные на понятиях предметной области Names, i, j= 1, n, i ^ j , Syn c Name X Name;
SynKof - матрица характеристик отношений в Syn,
SynKof : Names X Names ^ synKoft] ;
а) synKof j =1, если namej синонимом namei
б) synKofj = 0, если namej не синоним namei;
Ant - отношения антонимии (отношение несовместимости, при котором два понятия обозначают полностью противоположные сущности предметной области) вида « namej антоним namet», заданные на понятиях предметной области Names, i, j=1, n, i Ф j, Ant c Name X Name ;
AntKof - матрица характеристик отношений в Ant,
AntKof : Names X Names ^ antKof^ :
а) antKofij =1, если namej антоним namet;
б) antKofi] = 0, если namej не антоним namet.
Hyper - отношения гиперонимии (одно понятие является более общим по сравнению с другим понятием) вида «namei гипероним namej»
sname. г г name.\
( 1 - более общее понятие по отношению к j), заданные на понятиях
предметной области Names, i, j=1, n, i j, Hyper c Name X Name;
HyperKof - матрица характеристик отношений в Hyper,
HyperKof : Names X Names ^ hyperKof^ :
а) hyperKof j =1, если namet гипероним name];
б) hyperKof] = 0, если namet не гипероним name];
Omon - отношения омонимии (понятия одинаковые по написанию обозначают различные сущности) вида « name] омоним namei», заданные на понятиях предметной области Names, i, j=1, n, г Ф j, Omon c Name XName;
OmonKof - матрица характеристик отношений в Omon,
OmonKof : Names X Names ^ omonKof] :
а) omonKofi] =1, если name] омоним namet;
69
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
б) omonKoft] — 0, если namej Не омоним namet.
При предварительной обработке текстовых данных в ИАС возникает задача классификации собранных текстовых данных, удаления материалов рекламного характера и других посторонних сведений, необходимо рубрицировать собранные текстовые данные в соответствии с предварительно определенными правилами рубрикации [4]:
- тексты, соответствующие хотя бы одной рубрике подвергаются аналитической обработке;
- тексты, не соответствующие хотя бы одной рубрике не учитываются при анализе.
Описание множества правил рубрикации представлено в выражении:
R — (Concepts,Methods, ConceptsAttitude, ConceptsAttitudeKof), (2)
где Concepts — {conceptl,..., conceptp} - множество рубрик, заданных на понятиях предметной области;
p - количество рубрик, Concepts с Name;
Methods — {methodt,..., methodm} - множество правил отнесения текста к рубрикам;
m - количество правил;
methodi — \^(^namejk - правило отнесения текста к i -й рубрике, задавае-
j k
мое как множество вариантов в виде сложных составных понятий c^namejk, наличие хотя бы одного из вариантов в тексте характеризует текст, как относящийся к соответствующей рубрике, при этом namefi ^ Name;
ConceptsAttitude - отношения вида «рубрика concepti содержит правило methodj», заданные на рубриках Concepts и правилах рубрик Methods, i — 1, p, j — 1, m, ConceptMethods с Concepts x Methods ;
ConceptsAttitudeKof - матрица характеристик отношений в ConceptsA ttitude ConceptsAttitudeKof: Concepts xMethods ^ conceptattitudekofp здесь
conceptattitudekofij— 1, если рубрика conceptt содержит правило methodj и conceptattitudekofij — 0, если conceptt не содержит правило methodj.
Для сбора текстовых данных в ИАС необходимо формирование запросов к источникам текстовых данных. Многие электронные источники данных ориентированы на освещение событий различных ограниченных тематик [4 -5]. В связи с этим описание множества регионов выполнено в соответствии с (3), а описание множества источников данных - (4).
A — (Re g, Re gAttitude, Re gAttitudeKof), (3)
где Reg — {reg,..., regm} - регионы;
m - количество регионов, Reg <= Name;
70
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
RegAttitude - отношения включения вида «регион regt включает в свой состав регион regj », заданные на Reg, i, j = 1, m, i ф j, RegAttitude ^ Reg x Reg;
RegAttitudeKof - матрица характеристик отношений в RegAttitude, RegAttitudeKof:Reg xReg ^ regkofj, здесь regkofj =1, если регион regt включает в свой состав регион regj и regkoflj = 0, если регион regt не включает в свой состав регион regj.
S =(Ss,SsConceptsAttitude,SsConceptsKof, SsAAttitude,SsAKof) (4)
где Ss = (ssj,...,ssn} - множество источников данных,
n - количество источников данных;
SsConceptsAttitude- отношения вида «источник данных sSi потенциально содержит данные, характеризуемые рубрикой conceptj», заданные на источниках данных Ss и рубриках Cmcepte, г = 1, n, j = 1, p, p - количество рубрик, SsConceptsAttitude с Ss xConcepts ;
SsConceptsKof - матрица характеристик отношений в SsConceptsAttitude, SsConceptsKof; Ss xConcepts ^ ssconceptskof.;
ssconceptskofj =1, если sst может содержать данные рубрики conceptJ; ssconceptskqfij = 0, если sst не может содержать данные рубрики conceptj; SsAAttitude - отношения вида «источник данных ssi потенциально содержит данные по региону regj», заданные на источниках данных Ss и регионах Reg, i = 1, n, j = 1, m, m - количество регионов, с & x Re g;
SsAKof - матрица характеристик отношений в SsAAttitude, SsAKof ; Ss x Re g ^ ssakofj ;
а) ssakofj =1, если sst может содержать данные по regj;
б) ssakofjj = 0, если ss не может содержать данные по regj. Аналитическая обработка информации в ПК ИАС предполагает сбор
фактографической информации об объектах различного назначения. Их описание проводится в соответствии с выражением
O = (Ob, SOb, SObR, SObAtt, ObIs, ObIsAtt), (5)
где Ob = {obx,..., obn} - множество объектов; n - количество объектов;
SObJ = {sobJl,...,sobjm} - множество названий-синонимов объектов; m - количество названий-синонимов объектов;
SObR = {sobrij} - отношения синонимии вида «объект ol>i имеет синонимом название sobj», заданные на множестве объектов Syn и множестве названий-синонимов объектов SOb , SObR с Ob x SOb ;
SObRAtt - матрица характеристик отношений в SObR,
SObRAtt: Ob xSOb ^ sobrattH ■
j •
а) sobrattij =1, если obt имеет синонимом sobj;
71
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
б) sobrattIJ = 0, если obt не имеет синонимом sob3;
ObIs = {obiSij} - отношения вида «объект obt является экземпляром понятия namej», заданные на объектах Ob и понятиях предметной области Name, i = 1, n, j = 1, p, p - количество понятий предметной области, ObIs с Ob х Name ;
ObIsAtt - матрица характеристик отношений в ObIs, ObIsAtt: Ob хName ^ obisattij ■
‘J •
а) obisatt‘j =1, если ob‘ является экземпляром name,;
б) obisatt,j = 0, если ob‘ не является экземпляром namej.
Сбор исходных данных для оценки ситуаций в ПК ИАС включает:
а) формирование поискового запроса;
б) выполнение распределенного запроса к различным источникам данных.
Поисковый запрос представляет собой текст на ЕЯ, составленный аналитиком. На основе поискового запроса формируется распределенный запрос с учетом синонимов слов и словосочетаний, содержащихся в тексте запроса, а также производится выявление регионов, которые прямо или косвенно упоминаются в тексте запроса, и определяется тематика данного запроса. Распределенный запрос формируется в соответствии с выражением (6):
n n
QR = \^qr =[j< Qr, Namet, Re gt >, (6)
i=1 i=1
где QR - распределенный запрос;
n - количество подзапросов;
Qri - i -й текстовый запрос;
Namei={nameij} - множество рубрик cnameij, соответствующее i-му текстовому запросу, Namei <= Name;
Regi = (Regij} - множество регионов regij, соответствующее i-му текстовому запросу, Regi ^ Reg.
На этапе обработке данных для оценки ситуаций в ИАС проводится семантический анализ текстовой информации и извлечение фактов, содержащихся в ней. Для автоматизации этого процесса разработаны следующие модели для ЕЯ текста:
- морфологическая модель (ММ).
- фактографическая модель (ФМ).
- интегральная фактографическая модель (ИФМ).
Далее описаны основные характеристики указанных моделей.
ММ предназначена для реализации поисковых возможностей ПК ИАС и обеспечивает:
- поиск с учетом расстояния между словами при поиске целых фраз;
- независимость результатов поиска от формы употребления слова в тексте.
72
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
В ММ структура синтаксиса ЕЯ не представляется в явном виде, но информация о синтаксисе используется для определения частей речи и их атрибутов. Так как операция приведения каждого слова исходного текста к его словарной форме по отдельности, реализованная, например, в программном продукте «Yandex.Mystem», часто не обеспечивает однозначного распознавания частей речи и атрибутов слов.
ММ, учитывающая ориентацию ПК ИАС на обработку текстов на русском языке включает:
D Txt ={PrgJ,
о Prs,
O ={G™ith
D ^ =№»},
0Wr... ={ < Lmpu,Mrpp > }„
п ijkp ( ijkpu’ г ijkpu J U
0 Mrp.., =<Prt ., ,Srt., ,Cs., >
0 г ijkpu jkpu jkpu’ jkpu
где Prgi - i-й абзац текста;
1 - количество упорядоченных абзацев текста;
Offy - j -е предложение i -го абзаца текста;
J - количество упорядоченных предложений в i-м абзаце;
Grmjk - k-е составное слово j-го предложения;
К - количество упорядоченных составных слов в j-м предложении;
Wrjkp - p-е слово jk-го составного слова;
P - количество упорядоченных простых слов в составном слове;
Lmjkpu - u-я возможная лемма (словарная форма) слова;
U - количество возможных лемм данного слова (если у Wordijkp отсутствуют омонимы, то U = 1);
MrPijkpu - u-й набор морфологических признаков слова, соответствующих u -й возможной лемме, состоящий из части речи Part (существительное, глагол, прилагательное, наречие, местоимение, предлог, союз, частица), рода Srt (мужской, женский, средний) и падежа Case (именительный, родительный, винительный, дательный, творительный и предложный).
При разработке ФМ под фактом понимается отдельное (единичное) высказывание относительно сущности (сущностей), содержащихся в тексте на ЕЯ;
ФМ описывает факт, извлеченный из ЕЯ текста определяющийся как фрейм в соответствии с следующим:
f =< SSbj, S Pr, SOb >, (8)
73
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
где SSbj - слот субъектов факта, определяемый в соответствии с следующим: SSubj = {n1 иs_im1 u(s_im1 ns_im1)u(s_im1 npril)} (описание подстановочных элементов приведено в таблице 1);
S Pr - слот предикатов, определяющий семантическое отношение между субъектом и объектом, S Pr е Name ( STpred = glag и (gfag n pril) ), описание подстановочных элементов приведено в таблице 1);
SOb - слот, объектов факта, определяемый в соответствии с SOb = {n2 u s _ Oth2 u (s _ Oth2 n s _ Oth2) u (s _ Oth2 n pril)} , или SOb = pre n (time u nar)
(описание подстановочных элементов приведено в таблице 1).
Таблица 1 - Описание постановочных элементов
Элемент Значение
n1 имя собственное в именительном падеже
n2 имя собственное в любом падеже, кроме именительного
s imx существительное в именительном падеже
s _ oth2 существительное в любом падеже, кроме именительного
glag глагол
pril прилагательное
nar наречие
pre предлог
Интегральная фактографическая модель
ИФМ позволяет представить результаты в структурированном виде, содержащие смысл одного или нескольких текстов в целом.
Совокупность связанных по слотам SSbj или SOb экземпляров фреймов вида образует описание текста (текстов) на ЕЯ в виде семантической сети. При этом связь слотов строится на основе одного или нескольких текстов (частная ситуация). ИФМ определяется в соответствии с следующим:
P _ s = (Ob,Pr,V), (9)
где Ob = {ob1,..., obn} - множество объектов - узлов семантической сети;
n - количество объектов;
Pr - отношения вида « sbji инициировал действие по отношению к obj» или «объект obt имеет свойство (время t описываемого события является свойством)». Pr задаются на объектах Ob, i, j = 1,n, i * j, Pr c ObxOb;
V - характеристика отношения Pr, V: Ob x Ob ^ pr _ v,,, здесь obt инициировал действие pr _ vj с объектом obj» или «объект obt имеет свойство pr _ vj со значением ob,».
Модель базы правил оценки ситуаций в ИАС на основе текстовых данных на ЕЯ определяется в соответствии со следующим:
RR = (Cp, Ccp,AttCp, VCp, P _ S,P _ S Re l,P _ SAtt, P _ SV, Crr), (10)
74
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
где CP = {cPi,...,cPn} - концепты (понятия), описывающие измеримые
сущности (количественное или качественное состояние объекта, процесса или явления) предметной области; n - количество концептов;
Ccp - причинно-следственные отношения вида «если cpt, то cp}», заданные на концептах СР, i, j = 1, n, i * j, Ccp c Cpx Cp;
AttCp - матрица весов отношений в Ccp, AttCp:CpxCp ^ AttCp tj, здесь AttCpij - степень (вес) влияния концепта cpt на концепт cpj, AttCp ,, е [-1;1], в соответствии со ледующим:
AttCpj = 0, если cpt не влияет на cpj;
AttCpij е (0;1], если Т cpt приводит к Т cpj;
AttCpy е[-1;0) , если j cpt приводит Т cpj.
VCp - множество значений концептов из cp , vcp : cp, ^ vcp,, здесь vcp, -значение концепта cp, , vcp = [(vcp*)f,i е [1, n] - вектор значений концептов;
Crr - отношение vcp, ^ vcp,+1, обеспечивающее корректировку значений
vcp концептов cpi с учетом времени t;
р _ S = {p _ ^,..., p _ sm} - образы частных ситуаций, предназначенные для поиска фактов в ИАС;
m - количество образов частных ситуаций;
р _SRd - причинно-следственные отношения вида «если p _s,, то cpj»,
заданные на образах частных ситуаций P _ S и концептах cp , i = 1, m, j = 1, n,
P _ SRel c P _ S x Cp ;
р _ SAtt - матрица весов отношений в р _ S Rel, р _ SAtt: P _ S x Cp ^ p _ satt4 , здесь p _ satt,j - степень (вес) влияния образа частной ситуации p _s, на концепт cp3, p _ satt jе [-1;1]:
а) p _ satt,j = 0, если p _ s, не влияет на cp3;
б) p _ satt jе (0;1], если Т p _ s, приводит к Т cp};
в) p _ satt ,jе [-1;0), если j p _s , приводит к Т cp3.
р _SV - вектор, состоящий из элементов p _sv ,t, которые называются внешними значениями образов частных ситуаций p _s,, то есть данными о количественном значении i-й частной ситуации, вычисленном на основе анализа фактов в ИАС в момент времени t.
Таким образом, разработанный метод объединения данных позволяет реализовать формирование описаний ситуаций путем построения дайджестов, содержащих факты, извлеченные из различных текстовых документов, характеризующие одну и ту же ситуацию.
Библиографический список
1. Бутов, А.Л., Миргалеев, А.Т. Метод извлечения фактов в информационно-аналитических системах из информации, представленной на естествен-
75
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
ном языке[Текст]/ А.Л. Бутов, А.Т. Миргалеев //Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, 2012.
2. Ларичев, О.И., Мовшович, Е.М. Качественные методы принятия решений [Текст] / О.И. Ларичев, Е.М. Мовшович. - М.: Наука, 1996.
3. Чиковская, И.Н. Электронный кульман или информационная модель здания [Текст] // REM, 2008. №2.- с. 42-44.
4. Кривко, О.Б. Информационные технологии. [Текст] - М., 2001. № 1. -265 с. - ISBN 5-86404-210-2.
5. Туо Дж. Инструменты для анализа информации на настольных ПК [Текст] // ComputerWeek-Москва, 1996 . № 38. - 215 с. - ISBN 5-84535-423-4.
76