Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
УДК 528 + 519.72
Работа выполнена в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы», государственный контракт № 07.514.11.4115.
Миргалеев А.Т., Челышов С.Ю.
ОРГАНИЗАЦИЯ ПРОЦЕССОВ СБОРА ДАННЫХ ДЛЯ ФОРМИРОВАНИЯ ОПИСАНИЙ ОБЪЕКТОВ НА ОСНОВЕ ИНФОРМАЦИИ, ПРЕДСТАВЛЕННОЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Предложен метод сбора данных в информационно-аналитических системах бизнес-разведки, позволяющий сформировать базу данных и знаний, содержащую информацию на естественном языке, для последующей обработки. Метод обеспечивает автоматизированное формирование аналитических отчетных документов, в виде наиболее значимых выдержек из текстовых документов - исходных данных.
С целью реализации автоматизированной обработки естественно-языковой (ЕЯ) информации в информационно-аналитических системах (ИАС) бизнес-разведки (БР) разработан соответствующий метод.
На рисунке 1 представлена формализованная схема формирования описаний объекта БР. По аналогии с процессами, описанными в работах [1, 2], предполагается, что ИАС БР осуществляет сбор текстовых данных из распределенных источников данных - электронных СМИ (^У..., E„) и предварительную обработку текстовых данных, заключающуюся в извлечении значимой полезной информации из исходных данных сообщения.
Полученные данные в виде информационных сообщений {GvКо) (где i -номер источника информации, m(i) - количество информационных сообщений, полученных от i -го источника информации, Gij - J -е информационное сообщение, полученное от i -го источника информации) сохраняются в базе данных и знаний (БДЗ) для последующей обработки.
Предложено в ходе БР формировать соответствующее описание объектов БР в виде нечетких значений концептов {Conceptl,..., Conceptp} с использованием данных, полученных из распределенных источников данных в определенный момент времени t (или за заданный период времени).
13
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
Описание объекта БР в момент времени t
Concept х Concept 22 ... Concept
Рис. 1 - Схема формирования описаний объекта БР
Разработана модель базы правил сбора данных для ИАС БР на основе текстовых данных на ЕЯ, которая представляется следующим образом:
Rb —(Concepts,Causal,Weights,Values,PS,PSRelation,PSWeights,
PSValues,C orrect) , (1)
где Concepts —{concept1,..., conceptn} - концепты (понятия), описывающие измеримые сущности (количественное или качественное состояние объекта, процесса или явления) предметной области, n - количество концептов;
Causal - причинно-следственные отношения вида «если conceptt, то conceptj», заданные на концептах Concepts, i, j — 1, n, i ,
Causal z Concepts XConcepts ■
Weights - матрица весов отношений в Causal, Weights : Concepts xConcepts ^ weightj, здесь weightij - степень (вес) влияния концепта concepti на концепт conceptj , weightj е [- 1;1] . При этом, если концепт conceptf не влияет на conceptj, то weightj —0. Если увеличение (усиление) conceptt приводит к увеличению (усилению) conceptj, то weightij е (0;1]. Если уменьшение (ослабление) conceptt приводит к увеличению (усилению) conceptj, то
weightj е [- 1;0) ;
Values - множество значений концептов из Concepts, Values ■. concepti ^ valuet , здесь valuei - значение концепта concepti, value —[(valuei )f, i е [1, n] - вектор значений концептов;
Correct - отношение valuei ^ valuet+1, обеспечивающее корректировку значений valuei концептов concepti с учетом времени t;
ps ={ps1,..., psm} - образы частных ситуаций, предназначенные для поиска фактов в ИАС БР, m - количество образов частных ситуаций;
14
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
PSRelation - причинно-следственные отношения вида «если Psi, то concept^», заданные на образах частных ситуаций PS и концептах Concepts,
i =1, m j =1, n PSRelation c PS XConcepts •
psweigMs - матрица весов отношений в PS Re lations,
psweights:PS xConcepts ^ p^w^gMj, здесь psweightj - степень (вес) влияния образа частной ситуации psi на концепт conceptj, psweightj е[- 1;1]. При этом, если образ частной ситуации ps, не влияет на conceptj, то psweightj =0 . Если увеличение (усиление) ps, приводит к увеличению (усилению) conceptj, то psweightij е (°Д]. Если уменьшение (ослабление) ps, приводит к увеличению (усилению) conceptj , то psweightv е [-1;0) ;
PSValues - вектор, состоящий из элементов psvalueit, которые называются внешними значениями образов частных ситуаций psi , то есть количественными данными о значимости i -й частной ситуации, вычисленном на основе анализа фактов в ИАС БР в момент времени t.
В соответствии с моделью (1) разработан метод сбора данных для оценки объектов БР на основе информации, представленной в электронном виде на ЕЯ. Его схема разработана по аналогии с [1] и представлена на рисунке 2. Метод представляет собой последовательность этапов по сбору и обработке информации в текстовом виде для последующего формирования аналитических отчетных документов, содержащих описание заданного объекта БР.
В ходе этапов 1 - 2 осуществляется наполнение базы знаний ИАС БР. На этапе 1 производится создание БДЗ в виде нечёткой когнитивной карты (заполнение элементами множеств Concepts, Causal и Weights) взаимовлияния концептов. Формируемая таким образом БДЗ позволяет осуществлять оценку исследуемого объекта БР, а также прогнозировать динамику его поведения во времени.
На этапе 2 реализуется создание и корректировка правил оценки концептов на основе естественно-языковых текстовых данных с помощью образов частных ситуаций.
В ходе этапа 3 осуществляется предварительная обработка данных. При этом реализуется отбор документов, удовлетворяющих заданному перечню рубрик, из электронных СМИ для анализа: отбираются только те документы, которые соответствуют указанному пользователем перечню рубрик.
15
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
Рис. 2 - Метод сбора данных для формирования описаний объектов БР на основе информации, представленной в электронном виде на ЕЯ
16
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:
Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8
В ходе этапов 4 - 6 осуществляется корректировка весов связей концептов, описывающих обстановку. Результаты корректировки могут быть использованы для оценки и прогнозирования состояния объекта БР.
На этапе 7 производится корректировка множества весов в базе правил на основе итеративного вычисления изменений весов связей между концептами с учетом времени.
Реализация разработанного метода в ИАС БР для автоматического сбора информации из открытых источников и формирования описаний объектов БР (в виде аналитического отчетного документа) требуют создания специального метода объединения данных. Указанный метод должен обеспечивать автоматизированное формирование аналитических отчетных документов, содержащих ЕЯ-описание исследуемых объектов БР или исследуемой зоны ответственности в виде наиболее значимых выдержек из текстовых документов - исходных данных.
Таким образом, разработан метод сбора данных в ИАС БР, позволяющий сформировать БДЗ, содержащую информацию на ЕЯ, для последующей обработки в интересах ведения БР.
Библиографический список
1 Бутов А.Л. Модель данных и знаний информационно-аналитических систем органов власти субъектов РФ //«Телекоммуникации» в печати, 2011.
2 Миргалеев А.Т., Аникин С.В., Бутов А.Л., Кониченко А.В., Сизов А.С. Подход к устранению неопределенности в данных мониторинга, формируемых подразделениями МЧС субъектов РФ //Телекоммуникации, - М.: Машиностроение, №12, 2009.
УДК 004.8
17