Научная статья на тему 'Методика интеграции информационно-поисковых и корпоративных информационных систем на основе системных моделей бизнес-процессов'

Методика интеграции информационно-поисковых и корпоративных информационных систем на основе системных моделей бизнес-процессов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
389
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
BUSINESS-PROCESS / DOMAIN MODEL / INFORMATION RETRIEVAL / ROLE-BASED ACCESS MODEL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куликов Г. Г., Старцев Г. В., Бармин А. А., Бармина О. В.

В статье рассмотрены проблемы построения и интеграции информационно-поисковых систем с корпоративными информационными системами. Описывается модель информационного запроса и результатов поиска с учетом прав доступа пользователя и его личных предпочтений. Рассматривается реализация предложенной модели в системе электронного документооборота, построенной на платформе IBM Lotus Domino.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Куликов Г. Г., Старцев Г. В., Бармин А. А., Бармина О. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Integration of automated information systems and information retrieval systems based on system models

Article describes problems of development and integration information retrieval systems and enterprise information systems. There are model of informational query and results, based on access lists and private preferences described in article. Model illustrated on an example of search subsystem of enterprise content management system based on IBM Lotus Domino platform.

Текст научной работы на тему «Методика интеграции информационно-поисковых и корпоративных информационных систем на основе системных моделей бизнес-процессов»

№ 1 (49) 2014

Г. Г. Куликов, докт. техн. наук, профессор Уфимского государственного авиационного технического

университета, barmin.alexander@gmail.com Г. В. Старцев, канд. техн. наук, доцент Уфимского государственного авиационного технического

университета, barmin.alexander@gmail.com А. А. Бармин, аспирант кафедры АСУ Уфимского государственного авиационного технического

университета, barmin.alexander@gmail.com О. В. Бармина, магистрант кафедры АСУ Уфимского государственного авиационного технического

университета, barmin.alexander@gmail.com

Методика интеграции

информационно-поисковых и корпоративных информационных систем на основе системных моделей бизнес-процессов

В статье рассмотрены проблемы построения и интеграции информационно-поисковых систем с корпоративными информационными системами . Описывается модель информационного запроса и результатов поиска с учетом прав доступа пользователя и его личных предпочтений . Рассматривается реализация предложенной модели в системе электронного документооборота, построенной на платформе IBM Lotus Domino.

введение

В настоящий момент наблюдается лавинообразный рост количества данных. Развитие современных средств хранения данных позволяет сохранять на одном физическом сервере сотни тысяч гигабайт. Можно назвать следующие источники поступления данных: более развитый инструментарий автоматизации бизнес-процессов на предприятии, данные глобальной сети и др. Ввиду лавинообразного роста количества данных остро встает вопрос быстрого поиска в больших массивах слабоструктурированных данных. Для решения поставленных задач применяются информационно-поисковые системы.

Сложность поиска в корпоративной информационной системе обусловлена наличием различных источников и способов представления данных, необходимостью единообразного ранжирования резуль-

татов для различных представлений данных — веб-страниц, документов, вложенных в документы файлов и других форм представления данных. Также сложность поиска в корпоративной информационной системе обусловлена необходимостью дальнейшей обработки полученных данных, а не только предоставлением этих данных пользователю.

Цель настоящей статьи — рассмотреть подход к интеграции корпоративных информационных систем и информационно-поисковых систем на основе системных моделей и ролевой модели доступа.

Для реализации поставленной цели необходимо выполнение следующих задач:

1. Провести анализ рынка информационно-поисковых систем для анализа текущей ситуации.

2. Предложить математическую модель процесса поиска с учетом ролей пользователя в бизнес-процессах организации.

№ 1 (49) 2014

3. Рассмотреть приложение предложенной модели на примере разработки модуля поиска для системы электронного документооборота на платформе IBM Lotus Domino

Для решения поставленных задач в работе был использован широкий спектр научных методов. При анализе функций систем проверки достоверности знаний были использованы методы объекто-ориентирован-ного системного анализа, а в качестве средства моделирования применены методологии SADT (включая IDEF0 и IDEF1X) и UML. Для организации многомерной визуализации данных об объектах предметной области была использована методология многомерного OLAP-анализа.

Состояние вопроса

Пользователи современных корпоративных информационных систем создают большой объем информации. Электронные письма, документы в электронном виде, аудио-и видеозаписи, файлы САПР используются различными компонентами информационной системы организации. Эта информация хранится в базах данных, на файловых серверах, в электронных архивах и рабочих станциях пользователей. Все эти документы являются накопленной интеллектуальной собственностью организации, но их доступность затруднительна, что снижает их цен-

д

ность. Проблема доступности документов | заключается в невозможности быстрого ^ и интуитивно-понятного поиска по разнородным документам, находящимся на раз- са личных серверах в различных системах | и форматах. ^

Существующие глобальные информа- ^ ционно-поисковые сервисы не могут быть ** полезны в данном случае, так как не могут §. проиндексировать информацию, находя- ¡| щуюся в локальной сети организации. Ин- ^ струмент корпоративного поиска должен обладать возможностью поиска не толь- § ко по содержимому интернет-документов, ^ но и по содержимому документов распро- Ь страненных форматов офисных документов. ^ Задача поиска информации в содержимом документа является задачей полнотекстового поиска и решается с помощью корпоративных поисковых систем и систем управления данными.

К решению задачи информационного поиска в корпоративной среде есть несколько подходов. Первый подход заключается в использовании внешней системы поиска по распределенным массивам данных. В указанном подходе используются информационно-поисковые системы, встроенные в подсистемы корпоративной среды: подсистема поиска СЭД, подсистема поиска файлового хранилища, подсистема поиска бухгалтерской системы и др. (рис. 1).

Рис. 1. Использование встроенной подсистемы поиска АИС

V 7

№ 1 (49) 2014

Достоинством этого подхода является минимальная модификация существующих подсистем поиска и хранения данных. К недостаткам можно отнести:

• разный уровень надежности хранения информации;

• использование разнообразных подсистем поиска. Для каждой из подсистем КИС будет необходимо реализовать программный интерфейс для интеграции с поисковой системой высшего уровня;

• разные уровни детализации результатов поиска и механизмы поиска. Для интеграции разнородных подсистем поиска потребуется преобразование результатов поиска к единому формату;

• сложность ранжирования результатов. Результаты поиска в каждой из подсистем ранжированы в соответствии с собственными критериями [4].

Второй подход заключается в использовании централизованной корпоративной информационно-поисковой системы. Выделенная подсистема корпоративной информационной системы индексирует всю информацию, находящуюся на серверах и рабочих станциях локальной сети предприятия и выполняет роль единого интерфейса поиска информации (рис. 2).

Достоинствами описываемого подхода являются:

• централизация функций поисковой системы;

• единая информационно-поисковая система позволяет выполнять ранжирование документов по одинаковым критериям для всех подсистем-источников данных;

• единая информационно-поисковая система предоставляет унифицированный формат представления результатов.

Тем не менее подход с использованием централизованной информационно-поисковой системы обладает рядом недостатков:

• необходимость периодической индексации документов каждой из подсистем;

• документы в результаты поиска должны отбираться в соответствии с правами доступа пользователя, выполняющего поисковый запрос.

Существуют поисковые серверы, способные решить задачу организации подсистемы информационного поиска. К таким системам относятся: Google Custom Search, Ян-декс.Сервер, Apache Lucene, Apache Soir и др. Они позволяют осуществлять полнотекстовый и фасетный поиск по файловым хранилищам, электронным документам и базам данным.

«

о

t

0 &

it

1

'S

s

S §

S ö

1

Й

I

£ 00 О

5

о

г

i

i

s

a

I t

i

Í

t

«

-a «

Si §

§

ó §

a

I t

I &

Й S

s

S?

Рис. 2. Подход с выгрузкой данных

№ 1 (49) 2014

Сравнительная характеристика систем информационного поиска приведена в табл. 1.

Проблема поиска в гетерогенной среде

Корпоративные информационно-поисковые системы требуются, в первую очередь, компаниям, чья деятельность связана с обработкой данных. Обычно такие компании имеют гетерогенную T-среду: помимо работы с документами на обычных файловых серверах сотрудники постоянно работают с базами данных, CRM-системами, ERP-системами, внутренним порталом. Без внедрения общей системы поиска по этим ресурсам получить информацию из всех источников одновременно не получится.

По результатам исследования, проведенного компанией IDC, 38% своего времени офисный сотрудник тратит на поиск инфор-

э

мации, причем 21% этого времени уходит | на подбор нужных документов, а 17% тра- ^ тится безрезультатно — на неудачный поиск и создание не найденной информации повторно [1]. |

Круг пользователей корпоративной ин- ^ формационной системы ограничен со- ^ трудниками организации. В соответствии ** с политиками безопасности требуется со- §. блюдать права доступа к данным. Далеко ¡| не все источники корпоративной инфор- ^ мации являются открытыми. Скорее наоборот — большая их часть составляет ком- § мерческую тайну. Соответственно, поис- ^ ковое решение должно учитывать систему Ь прав доступа. ^

В соответствии с существующими подходами принято считать, что информационная безопасность ИС обеспечена в случае, если для любых информационных ресурсов в системе поддерживается определенный уровень:

Таблица 1

Сравнительная характеристика систем информационного поиска

Наименование Тип Поддерживаемые типы файлов и хранилищ данных Поддержка русского языка, наличие документации

Google Custom Search Облачный сервис Только веб-страницы Русский язык поддерживается, обширная документация

Google Search Appliance Программно-аппаратное решение Доработка специалистами Google под любые форматы Русский язык поддерживается, обширная документация

Яндекс . Персональный поиск Пользовательское программное обеспечение Документы MS Office, электронная почта на сервисе Yandex Mail Русский язык поддерживается, поиск с учетом морфологии

Яндекс . Сервер Серверное программное обеспечение Документы MS Office, PDF, изображения, реляционные хранилища данных Русский язык поддерживается, поиск с учетом морфологии

Apache Lucene Набор библиотек для разработки поисковой системы Только текст Поддержка с использованием сторонних модулей

Apache Solr Серверное программное обеспечение Только XML Поддержка с использованием сторонних модулей

9

№ 1 (49) 2014

0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1

0 &

1

I

¡5 €

1

Й

г!

со о

о

I 8

I

§

а

I

I

I

I

I

со §

§

0 §

а

1

I

I &

Й §

I

5

1) конфиденциальности (невозможности несанкционированного получения информации);

2) целостности (невозможности несанкционированной ее модификации);

3) доступности (возможности за разумное время получить требуемую информацию) [3].

Использование информационно-поисковых систем накладывает дополнительные ограничения на существующие политики доступа. Кроме того, есть ряд факторов, которые усложняют интеграцию информационно-поисковых и корпоративных систем:

1) циркулирующие в организации документы могут иметь различную структуру, информационно-поисковая система должна одинаково хорошо работать как со структурированным, так и со слабоструктурированным контентом;

2) существующие политики доступа в организации должны учитываться при формировании результатов поискового запроса — пользователь должен получать в поисковой выдаче только те документы, к которым он имеет доступ;

3) наличие собственных адаптеров для интеграции установленных систем осложняет использование информационно-поисковых систем — многие компоненты корпоративной системы имеют интерфейс для взаимодействия с другими системами. Использование типовых решений позволяет интегрировать их без доработок или с минимальными изменениями, в то время как использование собственных нестандартных решений исключает такую возможность;

4) ограничение доступа на уровне бизнес-правил — пользователям могут потребоваться документы, к которым они не имеют доступа ввиду жестких политик безопасности, но которые создаются в бизнес-процессах, где пользователи являются непосредственными участниками.

В настоящей работе предлагается подход к интеграции корпоративных информационных систем и информационно-

поисковых систем на основе системных моделей бизнес-процессов и ролевой модели доступа.

интеграция кис и ипс на основе системных моделей бизнес-процессов и ролевой модели доступа

Комплект системных моделей в соответствии с методологией SADT включает в себя функциональную, информационную и динамическую модели.

Представим функциональную модель в виде следующей теоретико-множественной модели:

В = I, С, О, М}, (1)

где В — бизнес-процесс, описываемый функциональной моделью; F — совокупность функций бизнес-процесса;

I — входные данные; С — нормативные документы; О — выходные данные; М — механизмы и исполнители.

В качестве механизмов могут выступать пользователи, информационные системы и роли:

М = {ив, Яв, Sв}, (2)

где ив — пользователь-исполнитель бизнес-процесса;

Нв — роль-исполнитель бизнес-процесса; Sв — система-исполнитель бизнес-процесса.

Представим каждого пользователя информационной системы в виде следующей модели:

и = {Ии, Su}, (3)

где Яи — роли, которыми обладает пользователь в рамках всех бизнес-процессов организации;

Su — семантическая информация о пользователе, например ФИО, адрес электронной почты и др.

10

№ 1 (49) 2014

Тогда бизнес-процессы Ви, к которым пользователь имеет доступ, описываются следующей моделью:

BU = RU n RB.

(4)

В случае разделения бизнес-процессов по отдельным хранилищам данных, подсистемам, базам данных (4) представляет собой набор подсистем, к которым пользователь имеет доступ и данные из которых должны включаться в результаты пользовательского запроса.

Представим информационную модель в виде следующей теоретико-множественной модели:

М = {Е, Я}, (5)

где М — информационная модель предметной области;

Е — сущности предметной области; Я — отношения между сущностями предметной области.

Представим сущность предметной области в виде совокупности ключевых атрибутов, неключевых атрибутов и атрибутов контроля доступа:

R = A As},

где АК — ключевые атрибуты сущности; AS — неключевые атрибуты.

AS = {AD, aa},

где Ad — данные;

AA — список контроля доступа.

Еи = {Е \ ЛА п и}, (8)

где Еи — экземпляры сущностей, доступные пользователю, т. е. только те экземпляры, в полях контроля доступа которых есть упоминание об указанном пользователе.

Таким образом, на основе (7) и (4) запрос, который должна выполнять информационно-поисковая система, можно представить в виде следующей модели:

Q = BU n EU n QU,

(9)

(6)

Неключевые атрибуты могут содержать как непосредственно данные, так и списки контроля доступа:

(7)

Списки контроля доступа ограничивают видимость записей для конкретных групп контроля доступа, ролей и пользователей. При использовании списков контроля доступа можем выделить конкретные экземпляры сущностей, к которым каждый конкретный пользователь может иметь доступ:

где Q — поисковый запрос, выполняемый информационно-поисковой системой; QU — поисковый запрос, сформированный пользователем.

Рассмотрим приведенную выше модель на примере системы электронного документооборота Логика ЕСМ. СЭД версии 3.3.1 (бывший Босс-Референт). Система электронного документооборота построена на платформе IBM Domino и использует в качестве хранилища данных Notes Storage Facility (nsf-хранилища), которое имеет встроенные механизмы контроля доступа на основе групп Domino Directory. Каждый пользователь в системе идентифицирован и обладает собственным иерархическим notes-именем.

Доступ к документам, хранящимся в nsf-хранилище, может предоставляться отдельным пользователям, ролям и группам пользователей за счет использования полей контроля доступа. Таким образом, в системе есть возможность ограничить доступ к каждому документу на уровне как хранилища целиком, так и отдельного документа. При смене типа хранилища система прав доступа будет унаследована (возможно использование IBM DB2).

Подсистема информационного поиска содержит настройки для поиска документов, созданных по конкретным моделям бизнес-процессов, и формат вывода результатов поиска:

|

LQ

со сэ

Í

LQ

еа (

Е и

ва ^

еа 1

S = (<S,

docType, VdocType

e>),

(10)

11

№ 1 (49) 2014

где SdocType — параметры поиска документов, созданных по конкретному бизнес-процессу;

Ус10сТуРе — формат вывода результатов поиска.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Параметры поиска для каждого типа документа содержат ограничения на хранилища данных, заранее заданные критерии и пользовательские критерии:

SdocType = (<^ ^о^ Ои(11)

где Db — множество хранилищ данных, в которых выполняется поиск, ОёосТ — множество заранее заданных критериев поиска.

В отличие от Ои, О0сТуре задаются разработчиком системы заранее и недоступны для редактирования пользователю — обычно это ограничения на тип документа, используемый бизнес-процесс.

Реализация модели (11) в СЭД представлена на рис. 3.

Поисковый запрос, формируемый пользователем, состоит из структурированной и неструктурированной частей. В качестве неструктурированной части пользователю предлагается ввести ключевое слово для поиска, в качестве структурированной дается выбор из заранее заданных критериев поиска для конкретного типа документа (рис. 4).

На основе доступных полей формируется интерфейс пользователя подсистемы информационного поиска (рис. 5).

Поисковый запрос, выполняемый подсистемой поиска (9), в указанном случае:

Q = ви п Еи п Ои = Оостуре п Ои п и. (12)

В качестве критерия и выступает иерархическое notes-имя пользователя, от лица которого формируется поисковый запрос. Ограничение (8) реализуется хранилищем данных в автоматическом режиме — документы, в полях контроля доступа которых нет упоминания пользователя и, не попадут в результаты поиска.

Мнемоническая схема процесса поиска представлена на рис. 6.

На основе полученной коллекции документов пользователь может принять решение о повторном поиске или продолжении работы с найденными документами.

Заключение

Использование информационно-поисковых систем позволяет осуществлять опе-

Рис. 3. Настройка поиска для конкретного бизнес-процесса

Рис. 4. Критерии поиска, доступные для конкретного типа документа

№ 1 (49) 2014

Рис. 5. Интерфейс пользователя подсистемы поиска

|

из ва сэ

I

из еа

и

Е со

СО

Оа"

1

Рис. 6. Мнемоническая схема процесса поиска

ративный поиск требуемой информации в больших массивах разнородных данных, хранящихся на различных носителях и устройствах.

Поиск в корпоративной системе в значительной степени отличается от поиска в глобальной сети. Особое внимание при поиске в сети организации уделяется разграниче-

№ 1 (49) 2014

«

о

t

0 &

it

1

'S

s

S §

S ö

1

Й

I

£ 00 О

5

о

г

i

i

s

a

I t

i

Í

t

«

-a «

Si §

§ ¿

ï

5

a

I t

I

6

Й s

S

s?

нию доступа пользователей к документам. Использование данных системных моделей позволяет уточнить поисковый запрос таким образом, чтобы в выборку попали только документы, доступные пользователю.

В работе предложена модель интеграции информационно-поисковых систем и систем электронного документооборота, которая реализована в Логика ЕСМ.СЭД. В поисковом модуле имеются настройки для 11 типов документов, для которых определено 96 критериев поиска и 40 полей отображения. Среднее время поиска в коллекции из 3000 документов составляет 4 сек.

Список литературы

1. Корпоративный поиск: технологии Google на службе вашей компании // Каталог программных решений Softline direct. Февраль 20132 (132)-RU. С. 92-95.

2. Куликов Г. Г., Старцев Г. В., Бармин А. А. Подход к построению информационно-поисковых систем для систем электронного документобо-рота II Актуальные проблемы в науке и технике. Т. 1. Информационные и инфокоммуникацион-ные технологии. Сб. науч. тр. восьмой Всероссийской зимней школы-семинара аспирантов и молодых ученых I Уфимск. гос. авиац. тех. ун-т. Уфа: УГАТУ, 2013. С. 184-187.

3. Медведев Н. Д., Гришин Г. А. Модели управления доступом в распределенных информационных системах II Наука и образование: электрон. науч.-техн. изд-е. № 1. Январь, 2011. C. 1.

4. Шерстнев В. С., Иванов С. С., Акулин И. А. Использование Oracle Universal Content Management в качестве корпоративного хранилища документов ТПУ II Вестник науки Сибири. Томский политехнический университет. 2011. № 1 (1). С. 302-307.

G. Kulikov, Prof., Dept. of Automated Systems, Dr. of Tech. Sci., Ufa State Aviation Technical University, barmin.alexander@gmail.com

G. Startsev, PhD, Associate Prof., Dept. of Automated Systems, Ufa State Aviation Technical University, barmin.alexander@gmail.com

A. Barmin, Postgrad. (PhD) Student, Dept. of Automated Systems, Ufa State Aviation Technical University, barmin.alexander@gmail.com

O. Barmina, Master Student, Dept. of Automated Systems, Ufa State Aviation Technical University, barmin.alexander@gmail.com

Integration of automated information systems and information retrieval systems based on system models

Article describes problems of development and integration information retrieval systems and enterprise information systems. There are model of informational query and results, based on access lists and private preferences described in article. Model illustrated on an example of search subsystem of enterprise content management system based on IBM Lotus Domino platform. Keywords: business-process, domain model, information retrieval, role-based access model.

14

i Надоели баннеры? Вы всегда можете отключить рекламу.