Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
УДК528 + 519.72
Работа выполнена в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы», государственный контракт № 07.514.11.4115.
Миргалеев А.Т., Соколов А.В.
МОДЕЛИ СООБЩЕНИЙ,
ПРЕДСТАВЛЕННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ, В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ БИЗНЕС-РАЗВЕДКИ
В работе представлена система моделей естественно-языковых сообщений, позволяющая обрабатывать текстовые сообщения на русском языке в информационно-аналитических системах бизнес-разведки.
С учетом особенностей обработки текстов на естественном языке (ЕЯ), представленных в работах [1-4], информационные модели текстовых сообщений для обработки в информационно-аналитических системах (ИАС) бизнесразведки (БР) можно представить следующим образом.
1. Морфологическая модель текста на ЕЯ, учитывающая ориентацию ИАС БР на обработку текстов на русском языке имеет вид:
О Text =(ParJI О ft»- =!0fferjJ =(Gramnth
О Gmmjt =(WordIjiplr (1)
^itp =( < Lemma,ip,MorPhw, > )u
ОMorPk,i„ =<PartM'Sort,tp,'Case,tp, >
где Pari - i -й абзац текста, I - количество абзацев текста, при этом множество абзацев в тексте считается упорядоченным;
18
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
°fferv - j -е предложение i -го абзаца текста, J - количество предложений в i -м абзаце, при этом множество предложений в абзаце считается упорядоченным;
Gramijk - к -е составное слово У -го предложения, K - количество составных слов в У -м предложении, при этом множество составных слов в предложении считается упорядоченным;
Wordykp - Р -е слово ijk -го составного слова, P - количество простых слов в составном слове, при этом множество простых слов в составном слове считается упорядоченным;
Lemmaykpu - и -я возможная лемма (словарная форма) слова, U - количество возможных лемм данного слова (если у Wordykp отсутствуют омонимы, то и =1);
Morphijkpu - и -й набор морфологических признаков слова, соответствующих и -й возможной лемме, состоящий из части речи Part (существительное, глагол, прилагательное, наречие, местоимение, предлог, союз, частица), рода Sort (мужской, женский, средний) и падежа Case (именительный, родительный, винительный, дательный, творительный и предложный).
2. Модель факта, извлеченного из текста на ЕЯ, имеет вид фрейма следующей структуры:
fact =<subj,pred,obj >, (2)
где subj - слот, содержащий субъект(ы) факта, являющийся активным участником действия, например, subj ={name1 и noun1 и (noun n noun)u (noun n adj)} (в таблице 1 приведено описание подстановочных элементов);
pred - слот, содержащий предикат, выражающий семантическое отношение между субъектом и объектом, pred G Term , например, pred =verb u (verb n adj);
obj - слот, содержащий или объект(ы) факта, являющийся пассивным участником действия, например, obj ={name2 Unoun2 U (noun2 nnoun2) U (noun2 nadj)}, или значение свойства факта, например, obj = prepos n (name u пшп u (noun n adj)) или obj = prepos n (time U adv) .
Таблица 1 - Описание подстановочных элементов для слотов фрейма
Элемент Значение
name1 имя собственное в именительном падеже
name2 имя собственное в любом падеже, кроме именительного
noun1 существительное в именительном падеже
noun2 существительное в любом падеже, кроме именительного
verb глагол
adj прилагательное
adv наречие
prepos предлог
19
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
3. Совокупность связанных по слотам subj или obj экземпляров фреймов вида (2), построенных на основе одного или нескольких текстов, образует описание текста (текстов) на ЕЯ в виде нечеткой семантической сети. Далее такое описание одного или нескольких текстов будем называть частной ситуацией. Предложена следующая модель текста на ЕЯ, позволяющая формализовать текстовые сообщения, поступающие в ИАС БР:
Ps =(Obj,Pred,Values) , (3)
где Obj ={objl,..., objn} - множество объектов, являющихся узлами семантической сети, n - количество объектов;
Pred - отношения вида «субъект obji инициировал действие по отношению к объекту objb» или «объект obji имеет свойство со значением objb» (время t описываемого события является свойством), заданные на объектах Obj,
i, j =1, n i Ф j Pr ed z Obj У-Obj •
Values - характеристика отношения Pred , Values : Obj xOfy ^ predvalueij , здесь obji инициировал действие predvaluev с объектом objь » или «объект obji имеет свойство predvaluey со значением objь ».
Разработаны модели, позволяющие в ИАС БР представить и обрабатывать текстовые естественно-языковые сообщения. Модели ориентированы на обработку текстовых сообщений, представленных на русском языке, а также на отображение логических взаимосвязей между реальными объектами, процессами и явлениями.
Библиографический список
1. Бутов А.Л., Миргалеев А.Т., Сизов А.С. Анализ состояния бизнес-разведки в современных фирмах и пути автоматизации процессов ее ведения//«Телекоммуникации». М: Машиностроение, 2006, №11.
2. Бутов А.Л. Модель данных и знаний информационно-аналитических систем органов власти субъектов РФ //«Телекоммуникации» в печати, 2011.
3. Миргалеев А.Т., Аникин С.В., Бутов А.Л., Кониченко А.В., Сизов А.С. Подход к устранению неопределенности в данных мониторинга, формируемых подразделениями МЧС субъектов РФ //Телекоммуникации, - М.: Машиностроение, №12, 2009.
4. Миргалеев А.Т. Метод формирования распределенных онтологий в многоагентных системах поддержки принятия решений органов власти субъектов России. Диссертация на соискание ученой степени кандидата технических наук. Курск: Курский государственный технический университет, 2005, 135 с.
20