Научная статья на тему 'Об одной модели оптимизации документопотоков, реализуемой при создании системы электронного документооборота'

Об одной модели оптимизации документопотоков, реализуемой при создании системы электронного документооборота Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
584
92
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гудов A. M., Завозкин С. Ю.

This article addresses one of the approaches to formulation of the problem of the document flow optimization according to a certain specified criterion. The approach is based on searching out the optimal document propagation paths, which are determined by the architecture design and the structure of online document circulation system. The formulation of the problem relies on the analysis of the existing structure and established business-processes. Solution of the problem was obtained empirically in accordance with the results of monitoring of the system characteristics that enabled us to select the optimal system architecture.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гудов A. M., Завозкин С. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об одной модели оптимизации документопотоков, реализуемой при создании системы электронного документооборота»

Вычислительные технологии

Том 11, Специальный выпуск, 2006

ОБ ОДНОЙ МОДЕЛИ ОПТИМИЗАЦИИ ДОКУМЕНТОПОТОКОВ, РЕАЛИЗУЕМОЙ ПРИ СОЗДАНИИ СИСТЕМЫ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА*

A.M. Гудов, С.Ю. Завозкин Кемеровский государственный университет, Россия e-mail: [email protected], [email protected]

This article addresses one of the approaches to formulation of the problem of the document flow optimization according to a certain specified criterion. The approach is based on searching out the optimal document propagation paths, which are determined by the architecture design and the structure of online document circulation system. The formulation of the problem relies on the analysis of the existing structure and established business-processes. Solution of the problem was obtained empirically in accordance with the results of monitoring of the system characteristics that enabled us to select the optimal system architecture.

Введение

Система электронного документооборота (СЭД) создается для решения проблем автоматизации хранения, поиска и обработки больших массивов информации, а также обеспечения безопасности ее хранения, передачи и возможности совместного использования. Еще одна ключевая задача СЭД, которую она может решать, — это объединение всех подсистем в одну информационную среду на основе определения единого понятия документа и интерфейса обмена документами между подсистемами [1].

Реализуемая СЭД должна не просто автоматизировать движение документов, но и делать это по возможности наиболее эффективно с точки зрения выбранного критерия. Это, в свою очередь, приводит к необходимости решения задачи оптимизации документо-потоков на основе методов математического моделирования — нахождения оптимальных по определенному критерию путей прохождения документов, определенных архитектурой и структурой системы. Решение данной проблемы должно основываться на всестороннем анализе принятых бизнес-процессов высшего учебного заведения.

В настоящей статье рассмотрен один из подходов к постановке задачи оптимизации документопотоков, автоматизируемых системой электронного документооборота, которая в данный момент реализуется в Кемеровском государственном университете.

* Работа выполнена при финансовой поддержке Министерства образования и науки Российской Федерации (грант № 4828).

© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2006.

1. Общие положения

На основе результатов анализа существующего документооборота вуза, доступного описания систем электронного документооборота, а также сведений из литературы, посвященных вопросам построения автоматизированных информационных систем и интеграции их компонентов были разработаны требования к СЭД и определено необходимое множество базовых функций системы [2, 3]: создание, хранение, редактирование, удаление документов; управление доступом к документам; доставка документов пользователям по заранее определенному или динамическому маршрутам; ведение журнала регистрации документов; выполнение и контроль над выполнением заданий, связанных с документооборотом; обеспечение интеграции с другими информационными системами и в первую очередь с подсистемами интегрированной аналитической информационной системы управления вузом; максимальная ориентация на целевую аудиторию; наличие удобного \уеЬ-интерфейса.

В поле компетенции СЭД попадают сами электронные документы, процесс движения электронных документов как внутри вуза, так и между СЭД и информационными системами, а также режим управления электронными документами.

С учетом рекомендаций для представления в информационной системе электронного документа дано его определение как информационной пары, представляющей собой описание (метаданные) документа, позволяющее его однозначно идентифицировать, и содержимое (тело) документа [3-5]. Удобство работы с такой "моделью" электронного документа ускоряет время доступа к информации, время поиска данных в СЭД, а также уменьшает объем трафика, циркулирующего в коммуникационной среде. Помимо этого, включение в метаданные электронного документа информации о его жизненном цикле позволяет реализовать эффективное управление движением документов.

Наряду с определением электронных документов и их структуры рассмотрено понятие маршрута следования документа [3]. Все маршруты следования документов в системе подразделяются на две группы: стационарные (не изменяемые в процессе жизненного цикла документа) и динамические. Маршруты следования, определенные для каждого документа, моделируют в СЭД документопотоки, сложившиеся в бизнес-процессах вуза. Следовательно, можно предположить, что оптимизация маршрутов обмена документов наряду с возможностью приоритетной доставки по маршрутам следования метаданных позволит минимизировать затраты на обслуживание документопотоков в СЭД.

Эти допущения положены далее в основу построения задачи оптимизации документопотоков.

2. Оптимизация документопотоков СЭД

Математическая модель оптимизации документопотоков построена с использованием методики, использованной в работе [6]. В ее основе лежит "структурный" подход, при котором учитывается конкретная структура исследуемой организации и оптимизируются документопотоки в рамках этой заданной структуры. Такой подход имеет ряд недостатков, в первую очередь это необходимость "учета" в получаемой целевой функции структуры организации при ее изменении.

При построении математической модели оптимизации авторами предложен "архитектурный" подход — оптимизация документопотоков на основе анализа возможного использования различных архитектурных решений при проектировании системы электронного документооборота.

В общем случае задача оптимизации документопотоков на основе методов математического моделирования состоит в нахождении параметров СЭД, обеспечивающих оптимальное движение документов в соответствии с выбранными критериями. Часто выделяют следующие основные объекты оптимизации:

— объем занимаемого документами места в хранилище СЭД, включая все копии документа;

— время, затрачиваемое на получение документа из хранилища по запросу пользователя;

— время, затрачиваемое на получение документа из некоторой информационной системы.

Рассмотрим варианты решений по оптимизации документопотоков.

Первый вариант состоит в минимизации времени получения требуемого электронного документа пользователем. Оно складывается из времени, затрачиваемого на передачу запроса, времени поиска (и в случае необходимости формирования) запрашиваемого документа, а также времени его непосредственной передачи пользователю. При таком подходе необходимо оценивать параметры коммуникационной сети (например, предельную пропускную способность каналов передачи данных, архитектуру сети и т.д.), серверов, на которых расположены как само приложение СЭД, так и хранилища информации (например, тактовая частота процессора, объем оперативной памяти, объем и скорость доступа к запоминающим устройствам и т. д.). В этом случае целевую функцию F1 можно определить следующим образом:

Fi = t' + t" — min, (1)

где t' — среднее время получения пользователем электронного документа из хранилищ t''

ционных систем. Очевидно, что каждый из этих параметров будет зависеть от архитектуры распределенного хранилища (хранилищ) документов и как следствие архитектуры информационных систем, использующих данные из этих хранилищ.

Второй вариант предполагает минимизацию стоимости передачи документов между пользователями и хранилищами СЭД, а также между пользователями и другими информационными системами. В этом случае целевую функцию F2 можно представить как

N щ M mi

F2 = ЕЕ Wj + ЕЕ Wj - min, (2)

i=1 j=1 i=1 j=1

где ni — количество документов в г-м хранилище H^ mi — количество документов в г-й информационной системе N — количество хранилищ; M — количество информаци-

Wi'j

документа dj между пользователем и H^ Wj — стоимость передачи документа dj между пользователем и Ii. И в этом случае стоимости как параметры функции будут определяться архитектурой распределенной системы.

Третий вариант состоит в минимизации объемов электронных документов, хранящихся в СЭД. Оптимизация по данному признаку ведет к снижению непериодических затрат на хранение электронных документов, а также на их обновление, поскольку минимизация дублирования электронных документов приводит к снижению затрат на внесение изменений во все хранилища информации. При этом значительно увеличивается быстродействие поиска электронного документа. Однако уменьшение объемов информации за счет ликвидации ее дублирования имеет и отрицательные стороны. Это в первую очередь

возможность потери информации при неосторожном удалении электронного документа, а также увеличения стоимости передачи за счет необходимости передачи всех нужных документов между хранилищами СЭД. В данном случае целевая функция будет выглядеть следующим образом:

N щ

р = ^ т1п' (3) 1=1 3=1

где % — объем электронного документа ^ в Н; п — количество документов вЯ^ N — количество хранилищ СЭД. Такой подход напрямую не зависит от архитектуры системы (распределенное хранилище рассматривается как отдельные объекты системы), но имеет ряд сильных ограничений, которые не учитывают "окружение" будущей системы.

Четвертый вариант состоит в минимизации затрат на обновление электронных документов. При высокой степени изменчивости информации этот вариант приводит к значительному уменьшению количества копий. Но следует отметить, что уменьшение объемов хранимой информации за счет ликвидации ее дублирования имеет отрицательные стороны. Так, увеличение документопотоков информации, передаваемой между различными хранилищами СЭД, вызывает увеличение времени исполнения операций и стоимости поиска информации из-за необходимости обращения именно к тем хранилищам, где находятся запрашиваемые документы. Однако если хранилища информации территориально разделены, то время и стоимость передачи могут значительно превысить экономию от уменьшения объемов хранимой информации. Кроме того, при этом варианте значительно снижены показатели надежности системы. Данный подход позволяет построить целевую функцию Р4:

N щ

Р4 = ^ ^ ^ т1П' (4)

1=1 3=1

где щ — стоимость обнов ления ^ в Н; п — количество докуме нтов в Н; N — количество хранилищ СЭД.

Стоимость модификации электронного документа включает стоимость получения нужного документа пользователем, стоимость передачи измененной информации и стоимость непосредственно изменения содержимого документа. При выборе сервера, предназначенного для работы с большими объемами данных, стоимость непосредственного обновления информации существенно меньше стоимости поиска нужного электронного документа в базе и его передачи. Таким образом, нет смысла рассматривать отдельно задачу минимизации стоимости модификации электронного документа — она решается в рамках второго варианта.

Подводя итог обсуждению вышеперечисленных вариантов оптимизации, можно сделать вывод, что ни один из них не может быть применен в "чистом виде". Оптимальность документопотоков может быть достигнута только на основе интегрального пути — сочетания первых трех вариантов.

Воспользуемся хорошо зарекомендовавшим себя экономическим критерием [6], который минимизирует сумму затрат на хранение, передачу, поиск, обновление электронных документов и обеспечение безопасности хранения и передачи информации. Следует отметить, что наряду со стоимостью хранения и передачи информации существует другой важный для СЭД критерий — время передачи информации. Его можно выразить через стоимость передачи документов пользователю или введением дополнительного ограничения на максимально возможный временной интервал, в течение которого пользова-

тель может ожидать документ по своему запросу. Мы в дальнейшем объединим оба эти подхода.

Таким образом, интегральный экономический критерий £инт можно определить как

^инт _ (^хр + ^пхр + ^пинф) * т1п, (5)

где £хр — стоимость храпения информации; £пинф — стоимость получения данных из информационных систем; £пхр — стоимость получения данных пользователем из хранилищ

сэд.

Сформулируем постановку задачи оптимизации передачи данных в соответствии с определенным критерием в терминах метода целочисленного программирования [7, 8]. Рассмотрим отдельно каждый из объектов оптимизации и модифицируем его оценку с учетом возможных архитектурных решений для проектируемой системы.

2.1. Объем занимаемого электронными документами места в хранилищах СЭД

Введем индикатор, показывающий, какие из электронных документов находятся в хранилищах СЭД. Определим хц следующим образом:

_ Г 1, ¿ц € Иг, /„ч

Хг' _ \ 0, ¿ц € И, ^

где значение, равное "1", показывает, что документ ¿¿хранится в г-м информационном хранилище //.. / = I. /к. /ь — количество электронных документов в //.. / = 1, ТУ, ТУ — количество хранилищ.

Каждый электронный документ может иметь определенное количество копий Гц в различных хранилищах:

N

_ . (7)

г=1

Использование выражения (7) в качестве ограничения создает возможность управления избыточностью данных в СЭД.

Возможность хранения документов ограничена объемом хранилищ информации:

N и{ п

г=1 3=1 г=1

Здесь Уц — объе м ¿¿в Иг; пг — количество до куме нтов вИ^ N — количество хранилищ; °г — объем доступной памяти для размещения электронного документа в Иг.

Так как документ состоит из двух частей — содержимого и метаданных, введем индикаторы теЦ} и сопгз-}, показывающие, из каких метаданных и какого содержимого состоит ¿¿:

. Г 1,м} € Иг, те3 _ ( 0, м} € Иг] (9)

I 1, Ск € Иг,

С0Пг3} _ ( 0, Ск € Иг, (10)

гк гчк

— к-с шдсржимие и?, uj — {М

общий объем документа представляется как

где Мк обозначаем к-е метаданное и?, а Скк — к-е содержимое и?, и? — {Мк, С?к}. Тогда

X metijk ^к + X] С0Пг?к • (И)

к=1 к=1

Здесь — объе м МЦ электронного доку мента и? в Нг; уЦк — объе м С!к электронного документа и? в Н¿; пЦ — число метаданных и? в Н¿; пЦ — число компонентов коллекции, представляющих содержимое и? в Нг. Тогда формулу (8) можно переписать как

пУ п

X metijkУЦк + X С0П?кУ1к < X (12)

к=1 к=1 ¿=1

Данное ограничение регулирует общий объем электронных хранилищ документов и зависит только от двух параметров — физического объема внешней памяти и архитектуры распределенной системы хранилищ. Ограничение не влияет непосредственно на оптимизацию документопотоков, однако может оказаться довольно важным фактором для оценки количества хранилищ в распределенной системе и необходимой избыточности хранения информации.

2.2. Время получения электронного документа из г-го хранилища

сэд

Время получения электронного документа из Нг складывается из времени, затрачиваемого на передачу запроса в Нг, времени, затрачиваемого на поиск электронного документа в Нг, и времени, затрачиваемого на передачу документа из Нг пользователю.

Период, характеризующий среднее время ожидания электронного документа по запросу пользователя из Нг, обозначим через ¿¿. При этом необходимо отметить, что существует максимально допустимое время ожидания — Тг, которое не может быть превышено. Таким образом, можно сформулировать следующее ограничение:

и < тг. (13)

Частоту запросов к Нг обознач и м Чг. Очевидно, что частота об ращений Чг влияет на эффективность распределения информации в системе, поэтому для включения этого параметра в модель выразим Чг через х?:

п

Яг — X пц хц > (14)

?=1

где Пц — частота обращепий к и? в Нг за единицу времени, пг — количество электронных

Нг

Следует отметить, что время и зависит от у? и Чг. Обозначим пропускную способность канала связи, по которому передаются электронные документы между пользователем и хранилищем, через Яг. Тогда среднее время передачи документа можно представить в следующем виде:

tг — — (15)

где 1ц _ %/Яг — время, требуемое на передачу электронн ого документа ¿ц объемо м у г

Иг

Подставляя (15) в (13), получаем ограничение

1 п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— ^ /;;//;;./•;; < Г,. (16)

Чг 3=1

Через это ограничение можно выразить максимальный объем электронных документов, передаваемых между пользователем и хранилищами во временной период Тг. Особенно это становится необходимым при анализе топологии сети передачи данных как платформы для организации документопотоков. Увеличение объема передаваемой информации системой документооборота непосредственно будет влиять на выбор архитектурного решения для построения системы, а возможно, и для модификации корпоративной сети организации.

2.3. Время ожидания пользователем электронного документа из "внешней" информационной системы

В настоящее время при создании систем электронного документооборота все чаще делается упор на тот факт, что такая система должна не только обладать "традиционным" функционалом, но и служить платформой для интеграции работы с другими информационными системами, уже внедренными в рассматриваемой организации. Для учета этого фактора при построении модели введем дополнительное ограничение на время получения документа из "внешней" информационной системы.

Время получения документов из внешней (по отношению к СЭД) системы можно рассмотреть по аналогии со временем получения документов из хранилища. Отличие заключается в значительно больших временных затратах на поиск (а при необходимости и формирование) запрашиваемой информации, а также дополнительном времени, необходимом для регистрации полученного из информационной системы документа в СЭД. Время передачи документа из внешних информационных систем увеличится за счет существенно более низкой пропускной способности канала по сравнению с каналом между пользователем и хранилищем СЭД.

Под регистрацией электронного документа в СЭД понимаем формирование метаданных полученного электронного документа и помещение их в хранилище СЭД. Так как размер метаданных мал по сравнению с размером содержимого электронного документа, время регистрации электронного документа в СЭД также мало по сравнению с остальными временными составляющими интервала ожидания электронного документа из информационной системы. Поэтому временем регистрации документа в СЭД в данном случае можно пренебречь.

Время получения пользователем документа из информационной системы 1г можно рассчитать по аналогии со временем получения документа из хранилища Иг (15). Введем индикатор у^, показывающий, что документ ¿3 хранится в информационной системе 1г:

угз 40; ¿3 Ц (17)

где ] = 1 ,тг,гПг — общее количество документов в 1г, г = 1, М, М — число информационных систем.

Период, характеризующий среднее время ожидания ¿ц по запросу пользователя из I, обозначим через т%. Максимально допустимое время ожидания пользователем ¿ц из I — Т/. Соответственно сформулируем следующее ограничение:

т% < Т. (18)

Частоту запросов к 1% обозначим ^.Выразим через уц по аналогии с (14):

т'

Я'г = £ Пц УЦ , (19)

Ц=1

где пЦ — частота обращенпя к ¿ц в 1% за единицу времени; т% — количество электронных документов в 1%.

Обозначим пропускную способность канала связи, по которому передаются электронные документы из I, через Тогда среднее время передачи можно представить в виде

1 т

77 X (20)

4% ц=1

где тц = ьЦ/Я'% — время, требуемое па передачу ¿ц объемом ьЦ из I% . Подставляя (20) в (18), получаем

1 т' % Ц=1

Смысл этого ограничения такой же, как и в подразд. 2.2. Его также удобнее использовать для получения максимального объема документов, передаваемых из внешних систем в период времени Т/.

2.4. Определение стоимостей

Выразим стоимость храпения документов в хранилищах СЭД через хц

N П' / п'ц < \

^ = X X хЦ X теЦ Ц + X С0ПЦк , (22)

%=1 Ц=1 \&=1 к=1 /

где = Жгхр/У%хр — стоимость хранения единицы информации в Н% на определенный период времени (по умолчанию — один год); Ж%хр — стоимость Н% ; Ж%хр = Ж%в0 + Ж°0, Ж%в0 — стоимость владения оборудованием; Ж%в0 = Ж°гй, Ж° — стоимость самого оборудования; г — амортизационный коэффициент; й — дисконтные ставки (т.е. учет обесценивания); Ж%00 — стоимость обслуживания оборудования; Жхр = Ж%зп + Ж™ + Ж™ + Ж%а, Ж%зп — заработная плата администратора, Ж™ — стоимость технической поддержки, Ж™ — стоимость лицензионной политики, Ж%а — стоимость аренды; ухр — объем Н%.

Определим стоимость получения данных пользователем из хранилища Н%:

N ( 1 "' ^

^пхр = ( 7Т X/ '''I • (23)

%=1 ц=1 /

Здесь - стоимость получения единицы информации из Иг; = /УГР)Кг,

Ш"хр = Ж®0 + Шгт, Ш®0 — стоимость владения коммуникационным оборудованием на участке сети от пользователей до И г, Ж®0 = гШг0 — стоимость самого коммуникационного оборудования па участке сети от пользователей до Иг; Шгт — тарифный план, определяющий стоимость получения информации из Иг; упхр — объем переданных за выбранный интервал времени документов из Иг; Яг — пропускная способность канала до Иг.

Определим стоимость получения документов из информационных систем:

М / 1 Шг \

^пинф = ^ ( ттг тцг1%]Уц ) 5 (24)

= 1 \Чг =1 )

пинф 1 т пинф /ттгпинф /т гпинф\ гл/

где — стоимость получения единицы информации от вг = /Vг )Яг,

Ж™нФ = ж?0 + Ш]; + Ж"0, Ш®0 — стоимость владения коммуникационным оборудованием на участке сети от пользователей до I; Ш®0 = Шг0Ы, Шг0 — стоимость самого коммуникационного оборудования па участке сети от пользователей до Шгт — тарифный план провайдера, определяющий стоимость получения информации из 1г; Ш"0 — стоимость владения информационной системой 1г ; — объем переданных за выбранный интер-

вал времени документов из 1г (по умолчанию — один год); Я'г — пропускная способность канала до 1г.

2.5. Постановка задачи оптимизации

Для возможности управления вкладом каждой стоимости в итоговое значение целевой функции для нашей задачи необходимо в результирующую целевую функцию внести весовые коэффициенты, а именно:

f (X, Y, V, V') = UiSxp + U2Snxp + ^з£пинф; (25)

з

= 1. (26)

i=1

Окончательный вид целевой функции

N m / n''j <j \

f (X, Y, V, V') = ^ Y^ SiPxij S metijkvijfc + COnijkvjk +

i=1 j=1 \k=1 k=1 J

N / i m \ M / i m' \

+cü2 S [jyt YL •4''X,,/'/'/'/-'-wJ •Ч'""'Ф ~/'/'/.'/■/J • (27)

Матрицы X = {x^ i = 1, n j = 1, un} и Y = {y^- ¿=l,mj = l, шм} вместе с определяемыми элементами этих матриц объемами V = {% Ух^ ф 0, г = l,n, j = 1 ,п„} и V' = {vij ^Uij Ф 0, г = 1, m, j = 1, rn-м} составляют набор переменных задачи.

Полностью постановка задачи оптимизации выглядит следующим образом:

f (X, Y, V, V') ^ min (28)

при ограничениях

N

'У ] xij = rj; (29)

N т / пц пц \ п

X X хз X metíjfcvíjfe + X] < X °; (3°)

1=1 3=1 \к=1 к=1 I г=1

N / 1 т \ М / 1 т \

X (^дТ X+ X (^7 X ~/^'//У /^ < (31)

3

= 1- (32)

г=1

Для решения задачи оптимизации необходимо найти такие коэффициенты выражения (27), при которых значение f (X, У, V, V') становится минимальным для данного набора значений матриц X и У при ограничениях объема памяти, числа копий и времени получения электронных документов, задаваемых выражениями (2!)) (32).

2.6. Эффективные параметры задачи

Переменными в нашей задаче являются массивы индикаторов X и У, а также определяемые ими объемы V и V '.К параметрам уравнения, оптимальные значения которых мы будем искать, относятся:

— число хранилищ СЭД и число внешних информационных систем;

— пропускная способность каналов между пользователями, хранилищами и внешними информационными системами;

— стоимость хранения единицы информации в Н;

— стоимость получения единицы информации из Н и I.

Такие параметры, как пропускная способность каналов и объем хранилищ, зависят только от ресурсов вычислительной системы, которая является платформой для развертывания системы документооборота, и серверов, на которых обслуживаются сторонние информационные системы. Варьирование этих параметров возможно только в случае технической модернизации элементов вычислительно-коммуникационной системы, а следовательно, они не зависят от состояния СЭД. С другой стороны, выбор этих параметров будет определяться на этапе архитектурного проектирования системы.

2.7. Анализ целевой функции

Рассмотрим подробно каждое из слагаемых целевой функции.

Стоимость хранения документов в хранилищах СЭД. При рассмотрении полученной формулы для стоимости хранения документов (23) можно выдвинуть следующие предположения.

1. Если каждый документ представляет собой пару метаданные — содержимое документа, то nj < n'j.

2. Необходимо учитывать, что у "простых" документов (например, одно-, двухстраничных текстовых документов) объем метаданных сравним с объемом содержимого доку-

га' .

j

мента. Поэтому для оценки таких документов нельзя пренебрегать членом met ijk vj .

k=l

Однако объем документов, подготовленных в самой распространенной офисной системе MS Office, достаточно велик по сравнению с метаданными (например, с их обязательным

набором, составляющим порядка 20-30 метаданных). Исследования документооборота в КемГУ показали, что средний объем документа даже в случае "простых" документов составляет 800... 1000 кбайт, в то время как объем метаданных (текстовые поля в базах данных) около 80... 150 кбайт. Таким образом, можно сделать предположение об определяющем влиянии на 5хр объема выбранных документов vij при xij = 0. Этот объем определяется в момент выбора пользователем или другими особенностями сценария документооборота.

3. Объем информации, извлекаемой из хранилища Hi в некоторый небольшой период времени, будет существенно влиять на время передачи этой информации через каналы связи. Задержка, связанная с поиском и извлечением необходимого документа, в современных промышленных (даже реляционных) базах данных несущественна. Уменьшения этого времени можно добиться простыми приемами индексирования и кластеризации данных на уровне СУБД, управляющей данными в хранилище.

4. Простое уменьшение объема хранимых данных связано с удалением копий документов, расположенных в разных хранилищах. В наилучшем случае ограничение (29) преобразуется в

Однако следует помнить о том, что удаление копий может привести к снижению надежности хранения данных. Другая сторона этого шага — необходимость обеспечения проверки корректности (и целостности) данных, помещаемых в хранилище. Эту проблему можно решить выбором надежной (промышленной) СУБД и ее "точной" настройки на решение конкретной задачи. На первый план в этом случае выходит задача администрирования СУБД, а это легче обеспечить при централизованном управлении всей системой электронного документооборота.

5. Стоимость храпения единицы информации в г-м хранилище зависит от физических характеристик вычислительной системы: стоимости сервера и его обслуживания, стоимости программного обеспечения, а также максимально возможного объема внешней памяти, доступной для хранения данных.

Таким образом, можно с уверенностью сказать, что минимальный вклад этого слагаемого в уравнение (27), принимая во внимание объем документов, с которыми работает пользователь в определенный момент времени, будет обеспечиваться в случае, когда можно отказаться от распределенного хранения документов в силу значимости коэффициента для каждого из хранилищ НЭто приводит к выбору централизованного хранилища, что уменьшает стоимость хранения единицы информации. К тому же такая архитектура системы будет эффективно управляться и, что не менее важно, обновляться с меньшими финансовыми вложениями. Этот фактор может стать определяющим для образовательных учреждений.

Стоимость получения документов из хранилищ. Анализируя составляющие для ^пхр в формуле (23), можно выдвинуть следующие предположения.

1. Частота запросов пц к конкретному документу, определяемому через условие хц = 0 в любой момент времени, ограниченный неравенством (31), будет мала по сравнению с частотой запросов к данному хранилищу Величипа ^ может быть определена не только задачей документооборота, но и другими прикладными задачами, поскольку хранилища информации используются и другими системами. Кроме того, часть запросов к данным может находиться в данный момент времени в очереди, ожидая своего выполнения (хотя

N

(33)

1 п

в число (). эти запросы будут входить). Таким образом, величина — '/■;•''■; < 1 и не

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

является определяющим фактором для этого слагаемого.

2. Время получения документа из хранилища (¿ц) определяется двумя факторами: объемом запрошенного документа и пропускной способностью каналов передачи данных. Для рассматриваемой организации пропускная способность каналов передачи данных, как правило, не является сдерживающим фактором, поскольку локальные сети легко модернизируются до требуемых скоростей передачи информации, а "серверный сегмент" такой сети является "выделенным" и связывает необходимые ресурсы серверов информационных хранилищ достаточно мощными каналами. Кроме того, задача решается в условиях существования неравенства (16), которое ограничивает максимальный объем информации, передаваемой пользователем в текущий (достаточно большой) интервал времени Т, определяемый неравенством (31).

Таким образом, в случае устройства распределенного хранилища внутри университета выигрыш по сравнению с выбором единого централизованного хранилища не будет существенным.

В случае же размещения части хранилищ вне сети вуза, например в филиалах, картина будет несколько иной. При таком решении существенный выигрыш в скорости может быть достигнут лишь в случае, когда необходимая информация находится в хранилищах непосредственно этих филиалов. Отсюда следует, что у каждой организации должно быть как минимум одно свое хранилище, в котором будут находиться документы, участвующие в бизнес-процессе этой организации. В противном случае скорость доступа к документам будет резко снижена, поскольку пропускная способность внутренних каналов, как правило, составляет около 100 Мбайт/с, тогда как пропускная способность внешних каналов (между организациями) — около 2 Мбайт/с. В хранилищах вуза имеет смысл содержать только те документы, которые участвуют в его бизнес-процессах или бизнес-процессах, отражающих деятельность вуза и внешних организаций.

Стоимость передачи единицы информации из каждого хранилища определяется двумя составляющими: стоимостью владения коммуникационной сетью Жгв0 на требуемом участке сети и тарифным планом провайдера Жгт, у которого арендуется канал передачи дан-пых. Минимизация этих составляющих приводит к целесообразности размещения данных внутри локальной сети организации. При выборе архитектуры системы с централизованным хранилищем вариации стоимости передачи единицы информации зависят только от вариаций стоимости коммуникационного оборудования и расходов на его обслуживание и модернизацию.

Оценивая в совокупности описанные выше предположения, можно сделать вывод, что при централизованных хранении и передаче информации внутри локальной сети организации рассматриваемое слагаемое целевой функции будет давать минимальный вклад в уравнение (27). Следует также отметить, что он будет существенно меньше по сравнению с вкладом первого слагаемого в данное уравнение.

Стоимость получения документов из "внешних" информационных систем. Допущения и выводы, сделанные в предыдущем подразделе, могут быть применены для анализа слагаемого целевой функции, которое задано уравнением (24). Разница получения документов из хранилища и из внешней по отношению к СЭД системы незначительна. Однако для более конкретной оценки вклада этого слагаемого необходимо учитывать два обстоятельства.

1. Время получения документа из информационной системы будет неявно включать время поиска (а при необходимости и формирования) запрошенной информации. Кроме того, необходимо учитывать, что запрашивает информацию не только пользователь, но и другие информационные системы. Уменьшить влияние этого обстоятельства можно несколькими путями, например интегрировать хранилище документов с хранилищем "внешней" информационной системы.

2. К стоимости владения каналами передачи данных к "внешней" системе будет добавляться и стоимость владения самой этой системой Wf0. И этот фактор может стать существенным. Для компенсации его влияния разумным решением станет использование одних и тех же технологий при реализации такой системы или использование свободно распространяемого программного обеспечения.

Как и для предыдущего случая, архитектурное решение с использованием одного централизованного сервера для размещения данных "внешних" систем будет наилучшим, если нет веских аргументов за эксплуатацию и проектирование отдельных внешних систем.

2.8. Алгоритм выбора оптимальной архитектуры СЭД

Использование целевой функции (27) для оптимизации архитектуры проектируемой системы документооборота можно осуществлять по описанному ниже алгоритму.

1. На этапе анализа применимости требований к СЭД, а также предметной области необходимо определить оценки сверху для таких величин и свойств, как средний объ-

Vi

процессов; максимальная пропускная способность самого медленного участка передачи данных при наибольшей частоте обращения к хранилищу информации изнутри этого сетевого сегмента Ri; существующие ресурсы вычислительных систем и способности их модернизации для удовлетворения требований пользователей; необходимость сохранения копий документов в распределенном хранилище; необходимость модернизации сети передачи данных и ее стоимости; приемлемое время отклика СЭД на запрос документа T.

2. На основании полученных оценок вычислить: максимальный объем информации V*, передаваемой по сети передачи данных, с учетом ограничения (31); максимальный объем хранилищ информации в соответствии с требованиями пользователей и с учетом ограничения (32).

3. На этапе архитектурного проектирования получить оценки для максимальной частоты запросов к хранилищам данных и "внешним" информационным системам.

4. Подсчитать максимальные (оценочные^значения для 5<*р, 5<*хр, ^инф.

5. Управляя коэффициентами Ui(i = 1,3), получить различные вариации значения целевой функции (27) с учетом различных предлагаемых архитектурных решений.

6. Из полученных значений целевой функции fk (k = 1, К) выбрать искомое, пользуясь формулой

f = min {f\k = TT}. (34)

7. Полученное значение целевой функции обеспечит решение задачи оптимизации при любых соотношениях матриц X и У, поскольку решение уравнения (27) мы получили исходя из оценок сверху.

Использование при проектировании СЭД развитой CASE-системы позволит построить диаграммы на основании функциональных моделей и моделей потоков данных, которые могут стать основой для проведения имитационного моделирования с использованием,

например, аппарата сетей Петри, для подтверждения правильности выбора архитектуры будущей системы документооборота.

2.9. Выбор оптимальной архитектуры СЭД

Сформулированные требования и определение структуры электронного документа дали первые предпосылки выбора архитектуры СЭД. Для хранения содержимого электронного документа необходима база данных, позволяющая хранить документы различных типа и объема, а также осуществлять контекстный поиск по любым текстовым данным. Поскольку основная работа при поиске нужного электронного документа, какой-либо информации, а также при взаимодействии систем друг с другом будет происходить с метаданными электронных документов, для их хранения необходимо выбрать базу данных, способную обеспечить надежность хранения и обработки большого количества данных, а также приемлемую скорость работы с ними. В качестве такой базы выбрана объектно-реляционная база данных.

В соответствии с приведенным выше алгоритмом произведен выбор архитектуры СЭД. Принято решение о построении СЭД па основе единого централизованного хранилища, содержащего все документы без дублирования. Хранилище является в некотором смысле распределенным и состоит из двух частей — реляционной базы данных, предназначенной для хранения метаданных, и хранилища, ориентированного на работу с документами произвольного типа. Канал связи между этими двумя хранилищами должен обладать максимально возможной пропускной способностью.

Заключение

Результатом работы является модель оптимизации документопотоков на основе методов математического моделирования, использующая архитектурный подход. Разработан алгоритм выбора оптимальной архитектуры системы электронного документооборота. На основании данного алгоритма произведен выбор архитектуры системы электронного документооборота, разрабатываемой на данный момент в КемГУ.

Список литературы

[1] Проблемы и типовые решения создания информационной инфраструктуры регионального образовательного комплекса / К.Е. Афанасьев, A.M. Гудов, Ю.А. Захаров и др. Кемерово: Изд-во КемГУ, 2001.

[2] Гадов A.M., Завозкин С.Ю., Семехина М.В. Об одной модели электронного документооборота вуза // Матер. VIII Междунар. конф. по электронным публикациям "El-Pub 2003". Новосибирск, 2003.

[3] Гудов A.M., Завозкин С.Ю. Система электронного документооборота // Матер. XXV Всерос. научно-метод. конф. КемГУ "Проблемы обеспечения качества образования". Кемерово, 2004.

[4] Храмцовская Н.А. Что такое "документ"? // Делопроизводство и документооборот на предприятии. 2004. № 7.

[5] Барахнин В.Б., Леонова Ю.В. Информационная модель отношений между документами в информационной системе // Вычисл. технологии. 2005. Т. 10, спецвыпуск. С. 129-137.

[6] Бессон C.B. Оптимизация электронного документооборота в корпоративных системах: Дис. ... канд. экон. наук. М., 2001.

[7] Математическая теория оптимальных процессов / Л.С. Понтрягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. М.: Наука, 1983.

[8] Моисеев H.H., Нванилов Ю.П., Столярова Е.М. Методы оптимизации. М.: Наука, 1983.

Поступила в редакцию 20 февраля 2006 г. в переработанном виде — 16 марта 2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.