Научная статья на тему 'Организация процессов сбора данных для формирования описаний объектов на основе информации, представленной на естественном языке'

Организация процессов сбора данных для формирования описаний объектов на основе информации, представленной на естественном языке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
164
28
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Миргалеев А. Т., Челышов С. Ю.

Предложен метод сбора данных в инфор-мационно-аналитических системах бизнес-раз-ведки, позволяющий сформировать базу данныхи знаний, содержащую информацию на есте-ственном языке, для последующей обработки.Метод обеспечивает автоматизированное фор-мирование аналитических отчетных докумен-тов, в виде наиболее значимых выдержек из тек-стовых документов - исходных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Организация процессов сбора данных для формирования описаний объектов на основе информации, представленной на естественном языке»

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

УДК 528 + 519.72

Работа выполнена в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы», государственный контракт № 07.514.11.4115.

Миргалеев А.Т., Челышов С.Ю.

ОРГАНИЗАЦИЯ ПРОЦЕССОВ СБОРА ДАННЫХ ДЛЯ ФОРМИРОВАНИЯ ОПИСАНИЙ ОБЪЕКТОВ НА ОСНОВЕ ИНФОРМАЦИИ, ПРЕДСТАВЛЕННОЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Предложен метод сбора данных в информационно-аналитических системах бизнес-разведки, позволяющий сформировать базу данных и знаний, содержащую информацию на естественном языке, для последующей обработки. Метод обеспечивает автоматизированное формирование аналитических отчетных документов, в виде наиболее значимых выдержек из текстовых документов - исходных данных.

С целью реализации автоматизированной обработки естественно-языковой (ЕЯ) информации в информационно-аналитических системах (ИАС) бизнес-разведки (БР) разработан соответствующий метод.

На рисунке 1 представлена формализованная схема формирования описаний объекта БР. По аналогии с процессами, описанными в работах [1, 2], предполагается, что ИАС БР осуществляет сбор текстовых данных из распределенных источников данных - электронных СМИ (^У..., E„) и предварительную обработку текстовых данных, заключающуюся в извлечении значимой полезной информации из исходных данных сообщения.

Полученные данные в виде информационных сообщений {GvКо) (где i -номер источника информации, m(i) - количество информационных сообщений, полученных от i -го источника информации, Gij - J -е информационное сообщение, полученное от i -го источника информации) сохраняются в базе данных и знаний (БДЗ) для последующей обработки.

Предложено в ходе БР формировать соответствующее описание объектов БР в виде нечетких значений концептов {Conceptl,..., Conceptp} с использованием данных, полученных из распределенных источников данных в определенный момент времени t (или за заданный период времени).

13

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

Описание объекта БР в момент времени t

Concept х Concept 22 ... Concept

Рис. 1 - Схема формирования описаний объекта БР

Разработана модель базы правил сбора данных для ИАС БР на основе текстовых данных на ЕЯ, которая представляется следующим образом:

Rb —(Concepts,Causal,Weights,Values,PS,PSRelation,PSWeights,

PSValues,C orrect) , (1)

где Concepts —{concept1,..., conceptn} - концепты (понятия), описывающие измеримые сущности (количественное или качественное состояние объекта, процесса или явления) предметной области, n - количество концептов;

Causal - причинно-следственные отношения вида «если conceptt, то conceptj», заданные на концептах Concepts, i, j — 1, n, i ,

Causal z Concepts XConcepts ■

Weights - матрица весов отношений в Causal, Weights : Concepts xConcepts ^ weightj, здесь weightij - степень (вес) влияния концепта concepti на концепт conceptj , weightj е [- 1;1] . При этом, если концепт conceptf не влияет на conceptj, то weightj —0. Если увеличение (усиление) conceptt приводит к увеличению (усилению) conceptj, то weightij е (0;1]. Если уменьшение (ослабление) conceptt приводит к увеличению (усилению) conceptj, то

weightj е [- 1;0) ;

Values - множество значений концептов из Concepts, Values ■. concepti ^ valuet , здесь valuei - значение концепта concepti, value —[(valuei )f, i е [1, n] - вектор значений концептов;

Correct - отношение valuei ^ valuet+1, обеспечивающее корректировку значений valuei концептов concepti с учетом времени t;

ps ={ps1,..., psm} - образы частных ситуаций, предназначенные для поиска фактов в ИАС БР, m - количество образов частных ситуаций;

14

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

PSRelation - причинно-следственные отношения вида «если Psi, то concept^», заданные на образах частных ситуаций PS и концептах Concepts,

i =1, m j =1, n PSRelation c PS XConcepts •

psweigMs - матрица весов отношений в PS Re lations,

psweights:PS xConcepts ^ p^w^gMj, здесь psweightj - степень (вес) влияния образа частной ситуации psi на концепт conceptj, psweightj е[- 1;1]. При этом, если образ частной ситуации ps, не влияет на conceptj, то psweightj =0 . Если увеличение (усиление) ps, приводит к увеличению (усилению) conceptj, то psweightij е (°Д]. Если уменьшение (ослабление) ps, приводит к увеличению (усилению) conceptj , то psweightv е [-1;0) ;

PSValues - вектор, состоящий из элементов psvalueit, которые называются внешними значениями образов частных ситуаций psi , то есть количественными данными о значимости i -й частной ситуации, вычисленном на основе анализа фактов в ИАС БР в момент времени t.

В соответствии с моделью (1) разработан метод сбора данных для оценки объектов БР на основе информации, представленной в электронном виде на ЕЯ. Его схема разработана по аналогии с [1] и представлена на рисунке 2. Метод представляет собой последовательность этапов по сбору и обработке информации в текстовом виде для последующего формирования аналитических отчетных документов, содержащих описание заданного объекта БР.

В ходе этапов 1 - 2 осуществляется наполнение базы знаний ИАС БР. На этапе 1 производится создание БДЗ в виде нечёткой когнитивной карты (заполнение элементами множеств Concepts, Causal и Weights) взаимовлияния концептов. Формируемая таким образом БДЗ позволяет осуществлять оценку исследуемого объекта БР, а также прогнозировать динамику его поведения во времени.

На этапе 2 реализуется создание и корректировка правил оценки концептов на основе естественно-языковых текстовых данных с помощью образов частных ситуаций.

В ходе этапа 3 осуществляется предварительная обработка данных. При этом реализуется отбор документов, удовлетворяющих заданному перечню рубрик, из электронных СМИ для анализа: отбираются только те документы, которые соответствуют указанному пользователем перечню рубрик.

15

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

Рис. 2 - Метод сбора данных для формирования описаний объектов БР на основе информации, представленной в электронном виде на ЕЯ

16

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 2 - Курск:

Науком, 2011. - 93 с., ил. ISBN 978-5-4297-0003-8

В ходе этапов 4 - 6 осуществляется корректировка весов связей концептов, описывающих обстановку. Результаты корректировки могут быть использованы для оценки и прогнозирования состояния объекта БР.

На этапе 7 производится корректировка множества весов в базе правил на основе итеративного вычисления изменений весов связей между концептами с учетом времени.

Реализация разработанного метода в ИАС БР для автоматического сбора информации из открытых источников и формирования описаний объектов БР (в виде аналитического отчетного документа) требуют создания специального метода объединения данных. Указанный метод должен обеспечивать автоматизированное формирование аналитических отчетных документов, содержащих ЕЯ-описание исследуемых объектов БР или исследуемой зоны ответственности в виде наиболее значимых выдержек из текстовых документов - исходных данных.

Таким образом, разработан метод сбора данных в ИАС БР, позволяющий сформировать БДЗ, содержащую информацию на ЕЯ, для последующей обработки в интересах ведения БР.

Библиографический список

1 Бутов А.Л. Модель данных и знаний информационно-аналитических систем органов власти субъектов РФ //«Телекоммуникации» в печати, 2011.

2 Миргалеев А.Т., Аникин С.В., Бутов А.Л., Кониченко А.В., Сизов А.С. Подход к устранению неопределенности в данных мониторинга, формируемых подразделениями МЧС субъектов РФ //Телекоммуникации, - М.: Машиностроение, №12, 2009.

УДК 004.8

17

i Надоели баннеры? Вы всегда можете отключить рекламу.