Научная статья на тему 'Управление данными в корпоративных ИС'

Управление данными в корпоративных ИС Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
362
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗА ДАННЫХ / РЕЛЯЦИОННАЯ МОДЕЛЬ / ИЕРАРХИЧЕСКАЯ РЕЛЯЦИОННАЯ МОДЕЛЬ / НОРМАЛИЗАЦИЯ / СЕМАНТИЧЕСКОЕ ТОЖДЕСТВО / РАСЧЕТ СЛОЖНОСТИ / НАСЛЕДОВАНИЕ / DATABASE / A RELATIONAL MODEL / A HIERARCHICAL RELATIONAL MODEL / NORMALIZATION / SEMANTIC IDENTITY / COMPLEXITY CALCULATION / INHERITANCE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Левков Александр Александрович

Предлагается метод построения иерархических реляционных ИС по критерию семантического тождества атрибутов (алгоритмов), позволяющий производить полную нормализацию схемы данных за небольшое количество шагов и реализовать дифференциальную модель описания алгоритмов. Использование данного метода существенно снижает избыточность схемы данных и алгоритмов и позволяет строить эффективные системы хранения и обработки данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Левков Александр Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Data management in corporate IS

The method of creation of hierarchical relational integrated circuits by criterion of semantic identity of the attributes (algorithms) is offered, allowing to produce circuit full normalization данныхза a small amount of steps and to implement differential model of the description of algorithms. Usage of the given method essentially reduces redundancy of the data scheme and algorithms and allows to build effective storage systems and data handlings.

Текст научной работы на тему «Управление данными в корпоративных ИС»

Уфа : УГАТУ, 2011

'Be&тн,а,к,

Т. 15, № 1 (41). С. 176-181

ЭЛЕКТРОНИКА, ИЗМЕРИТЕЛЬНАЯ ТЕХНИКА, РАДИОТЕХНИКА И СВЯЗЬ

УДК 62-50

А. А. Левков

УПРАВЛЕНИЕ ДАННЫМИ В КОРПОРАТИВНЫХ ИС

Предлагается метод построения иерархических реляционных ИС по критерию семантического тождества атрибутов (алгоритмов), позволяющий производить полную нормализацию схемы данныхза небольшое количество шагов и реализовать дифференциальную модель описания алгоритмов. Использование данного метода существенно снижает избыточность схемы данных и алгоритмов и позволяет строить эффективные системы хранения и обработки данных. База данных; реляционная модель; иерархическая реляционная модель; нормализация; семантическое тождество; расчет сложности; наследование

ВВЕДЕНИЕ

Построение эффективной системы управления организационно-техническими объектами является одной из наиболее актуальных современных задач. Сложность построения таких систем обусловлена сложностью структуры и неоднородностью связей самих организационно-технических систем - они не поддаются строгой формализации, в их функционировании можно различить ряд параллельных потоков различной физической природы, зачастую неявно связанных друг с другом и подверженных внешним, часто непрогнозируемым воздействиям [1, 2].

В качестве средства автоматизации и поддержки принятия решений таких систем используются корпоративные информационные системы (КИС), реализованные на основе реляционных СУБД и направленные на интеграцию данных и обеспечение сквозного управления [1]. Следует отметить, что даже использование таких комплексных и объемных систем, как BAAN, SAP, IFS Applications не решает полностью данной проблемы - данные системы являются комплексами бизнес-приложений (их количество может доходить до 70), где каждый из модулей решает свои задачи. Даже при использовании полной сборки таких пост-ERP-систем трудно говорить об эффективной автоматизации - отдельные модули даже одной фирмы зачастую используют несовместимые форматы данных, требуют дублирования ввода информации - т. е. не образуют единой информационной среды. Общее количество сущностей в таких системах может превышать тысячи (в перспективе построение БД из десятков тысяч сущностей), что приводит к качественному

росту сложности проектирования таких моделей

[3, 4].

Существенным фактором, затрудняющим эксплуатацию КИС, является высокая динамика изменения схемы данных (СД) и алгоритмов их обработки, обусловленная изменениями как в самой реальной системе, так и в окружающем мире, и не имеющая отражения в средствах моделирования, разработки и поддержки КИС. В случае изменения СД КИС происходит «перепроектирование» только изменяющихся элементов схемы данных, без учета возможных воздействий вносимых изменений на всю КИС в целом.

Как при первичной разработке КИС, так и при ее развитии, наиболее острой проблемой построения СДКИС является нормализация реляционных отношений. Исходя из теории и практики нормализации, она осуществляется на выявленных функциональных зависимостях (ФЗ) между атрибутами в отношениях [5]. При выявлении ФЗ нельзя опираться на механический анализ уже существующих данных: если г(Я), А с Я, В с Я; (А ^ В), и ("^, ¿2 е г: tl(A) = ^(А)) ^ ^\(В) = ^(В)), так как сама природа КИС такова, что существенная часть работы системы заключается в сохранении новой информации. Т. е. существующая информация всегда неполна, и выявленные для нее функциональные зависимости могут оказаться неверными при поступлении новой информации [3].

Для проведения полной нормализации необходимо построение единого ненормализованного отношения с последующим проведением

|А|! , ,2 , ,

= А - А

( A - 2)!

Контактная информация: (347) 273-77-17

Работа выполнена при поддержке РФФИ, грант

№ 09-08-00490-а

операций анализа данных на предмет определения функциональных зависимостей, где |А| -количество атрибутов в ненормализованном отношении. Очевидно, что такие операции трудно вычислимы, так как количество атрибу-

тов в едином ненормализованном отношении может превышать десятки тысяч (при AI = 1000

Ofull = 999000) - столько экспертных операций анализа данных необходимо провести. Это вынуждает разработчиков осуществлять первичное разбиение модели на N отдельных сущностей интуитивно, и потом нормализовать эти, уже сравнительно небольшие структуры [6]. В таком случае необходимо выполнение Opart =N(A|2 -- IAI) операций анализа (если считать количество атрибутов в сущности одинаковым, то O(CN)), однако модель в таком случае нормализуется лишь частично и возможно возникновение «распыленных» сущностей - т. е. ситуаций, когда производные сущности, полученные при нормализации из разных первоначальных сущностей, являются отражениями одной реальной.

Также существенным недостатком современных КИС является отсутствие формализации алгоритмов обработки данных. Максимальный уровень связности для алгоритмов - использование шаблонов и макроопределений на уровне БД КИС. Альтернативой является введение среднего слоя трансляции данных (Linq и пр.), что позволяет использовать UML-модели алгоритмов, но приводит к «распаду» единой модели на отдельные, слабосвязанные модули. Незначительное изменение в СД КИС при этом может привести к существенным изменениям в алгоритмах обработки данных и наоборот [7].

Таким образом, для обеспечения управления данными в КИС в данной статье предлагается нормализованная иерархия типов в качестве основы построения СД КИС [8]. Данный подход может быть выражен в терминах реляционной алгебры и не требует дополнительных преобразований моделей. Он позволяет снизить семантическую избыточность СД КИС, упрощает операции по ее модификации.

Дифференциальное описание алгоритмов обработки данных на уровне БД, использование которых позволит снизить избыточность алгоритмического наполнения БД КИС, существенно упростить операции с данными и СД КИС и реализовать «самоконструирующиеся» системы.

Метод расчета описательной сложности СД КИС, позволяющий проводить их количественную оценку и сравнение, с целью выбора более эффективной СД КИС.

1.СТРУКТУРА ОРГАНИЗАЦИИ БД КИС

Для построения эффективной структуры СД КИС автор предлагает использовать критерий семантического тождества атрибутов реляционных отношений и производить иерархизацию

СД путем слияния семантически тождественных атрибутов в отношениях в новые реляционные сущности, с последующим их связыванием по первичным ключам (построение иерархии типов/классов).

Если существуют отношения Х {хь х2,... ,х„} и У1{у1, у2,.,уп}, содержащие подмножества атрибутов Х'{х'ь х'2,...,х'т} с X и У'{у\, У2,...,Уи} с У, такие, что 8еш(хг) ° 8еш(у) (элементы семантически тождественны), где х, е X', и первичные ключи отношений РКх с X' и РКУ с У' (это условие всегда выполняется для суррогатных ключей, либо напрямую, либо через функцию преобразования ДРК, Е)), то формируются новые отношения:

Z1{z1, г2,.,гт}, такое, что 8еш(гг) ° 8еш(хг) ° 8еш(у-),

Z = X' и У',

X! = X - X,

У = У - У',

Отношения XI и У1 связываются вторичными ключами с отношением Z по первичным ключам Xl.pk ^ Z.pk, Уьрк ^ Z.pk, эти связи образуют иерархию, как показано на рис. 1.

Sem ( x 0) ° Sem ( у 0)

Sem ( x j) ° Sem ( у t)

Sem ( x 3) ° Sem ( у 2)

Sem ( x 4) ° Sem ( у 5)

Z3

РК z0

zl z2 z3

Х'З

PK,FK1 ¡sQ

x2

Y'3

S!Q

Sem(z0) ° Sem(x0) ° Sem(y0) Sem(zj) ° Sem(xj) ° Sem(yj) Sem(z2) ° Sem(x3) ° Sem(y2) Sem(z3) ° Sem(x4) °Sem(y5)

Рис. 1. Преобразование классической реляционной СД виерархическую

Таким образом, исходная сущность оказывается «распределенной» по иерархии новых сущностей, для обратного синтеза сущностей необходимо использовать рекуррентный алгоритм:

EfuU =

full

если $ ЕПред, то е,

E pk Efull

^ q Пред ’

Гесли 3 Епред , то Ае ,

IA u A,

•full

Предлагаемый метод иерархизацииСД КИС позволяет существенно снизить ее семантическую избыточность и значительно упростить операции манипуляций со схемой данных [9].

2. НАСЛЕДОВАНИЕ АЛГОРИТМОВ

При формировании иерархии типов возникают дополнительные промежуточные сущности, ранее не существовавшие в классической реляционной СД. Такие сущности хранят обобщенные данные по дочерней группе сущностей. Их использование дает возможность реализовывать универсальные алгоритмы работы с данными и увеличивает скорость выполнения подобных запросов [10].

Если М{р1, р2,..., рп} - множество алгоритмов, где каждый алгоритм определен как

Р1<Б,М'>, / = 1...п, М' с М и ^ - множество элементарных обращений к данным (в случае БД -к атрибутам) £<Л'>, где Л' с А{а1, а2,..., ат}, то при преобразовании классической реляционной СД к иерархической вводятся новые атрибуты апек по правилу:

Sem(anew) = Sem(a) ° Sem(aj), i Ф Ф j, i = 1...n , j = 1...n

(1)

Таким образом, если в классической реляционной модели $pi и $pj, такие, что "Sem(a’k) ° Sem(aJk) и M' 1 = M' j, то Semp) °

° Sem(pj) и с учетом (1) - введения новых атрибутов - в иерархической СД pi = pj, что позволяет определить в данном случае Mnew = M - pj. Т. е. происходит упрощение алгоритмического наполнения БД КИС путем слияния алгоритмов, обрабатывающих семантически подобные данные. Как показано на рис. 2.

Также, если в классической СД для sk $ai и $aj такие, что Sem(ai) ° Sem(aj), то с учетом (1)

new 'Г'

sk = sk - aj. Т. е. упрощаются элементарные

обращения к данным за счет уменьшения количества атрибутов в них.

Кроме того, построение иерархии сущностей делает возможным построение иерархии алгоритмов обработки данных в сущностях, т. е.

использование дифференциального метода реализации алгоритмов - наследование алгоритмов.

Pl(s(xl,x3))

P2(s(xl,x2))

Pl(s(yl,y2))

Y22

Pl(s(zl,z2))

Y'22

PK,FK1

X'22

PK,FK1

xO

x2

P2(s(xl,x2))

Рис. 2. Слияние алгоритмов в иерархической

сд

Т.е. если есть некое поддерево наследования - множество сущностей Е(е1, е2,..., еп), где каждой сущности сопоставлены методы

МДМг- сМ), ] = 1...п , то на сущности е, разрешено выполнение не только множества методов М1, но и всех методов родительских сущностей, т.е. согласно реккурентному алгоритму:

М'+ =

если $ Епред, ТО М,

М. + М,

пред

Наследование алгоритмов позволяет существенно уменьшить алгоритмическую избыточность системы и повышает надежность функционирования всей системы.

3.РАСЧЕТ СЛОЖНОСТИ СД КИС

Автор предлагает оценивать структурную сложность реляционной СД через общее количество элементов каждого типа. Таким образом, структурная сложность может быть представлена как многомерный вектор, где композицион-ность выражается через добавление дополнительной координаты вектора, величина которой

E

пред

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+

равна мощности множества элементов данного типа (т. е., к примеру, если у нас есть 5 корзин по 10 яблок в каждой, то мы имеем не только 50 яблок, но и 5 корзин). Это можно выразить следующим образом:

SZ _ 2 Zj (| Xj I, I yj |> _ (| z I, Xj I, Z'J, I yj I),

j=1

где z - множество композиционных элементов Z; j e [1..|Z|] (|Z| - мощность множества Z), где каждый Zj определен на множествах Xj и yj.

Структурно-алгоритмическая сложность СД (SDM) является суперпозицией структурной

(Strict) и алгоритмической (S™ )сложностей:

s DM __ S DM - S DM (2)

S Sstruct + Salg • (2)

Формульные выражения структурной сложности можно представить следующим образом:

-tDM / ciE Cl!

SDL = <sE.s',\c\.sV).

где 8е - сущностная сложность, 8 - индексная сложность, 8 - сложность связей, -

сложность представлений.

ЯЕ = (|Е|,£Е!іілН

\E\ ^IEj\ AhEj

s ={\i\,IE К=J a

SV =( \V\ \ AVj\Hi\ OVj

(3)

(4)

(5)

Алгоритмическая сложность для чисто реляционных систем может быть выражена следующим образом:

^ = (\Р\, 8*е‘, , Бира, Б1е1), (6)

где $*е1 - сложность запросов на выборку, Зт -сложность запросов на вставку, 8и-р‘1 - сложность запросов на обновление, Зе1 - сложность запросов на удаление.

5*е1 = I£Р=1 '¿¿1 \ \ О^ ЕР=1 '¿¿11 \ О^ \ V (7)

Sn _ (\ ins \, 2^1 Ainsp \z% 2=^ I om/kJ !j,

(8)

Supd _ (\ upd l, 2^ Ezf^l Aupdkj lj Ezf^l Oupdp

(9)

Sdel _ (l del l, EP_1 Tldfl Odelp lj- (10)

Полученные композиционные выражения сложности возможно привести к единому числовому параметру, воспользовавшись весовы-

ми коэффициентами: З = к]я]- , где к - зна-

чимость ]-го компонента сложности, которая определяется экспертным путем.

Таким образом, при помощи заданных формул возможно осуществление количественного расчета первичной сложности СД, как в векторном, так и нормализованном виде. Это позволяет сравнивать различные СД еще на этапе их проектирования, дает возможность оптимизировать их.

4. ОЦЕНКА ЭФФЕКТИВНОСТИ ИЕРАРХИЧЕСКОЙ СД КИС

Если считать дерево типов СД КИС сбалансированным и принять коэффициент семантической избыточности равным во всей иерархии и выразить его через степень узла дерева к, то основными ее характеристиками будут следующие:

Количество уровней в иерархии:

и =т+1.

1п(к)

Общее количество первичных элементов (сущностей) в иерархии:

| X | к -1 , к

Н х |

к -1 к -1 Количество распределяемых (вторичных) по иерархии свойств сущности(атрибутов, алгоритмов, индексов, ссылок, представлений):

\Х ’е \=

\Х\

что при \E\>>0 позволяет опре-

I е | и'

делить как общее количествотаких свойств для СД КИС, как

ь

\х "нх '|*---------.

и (к -1)

Данная зависимость имеет кумулятивный эффект виерархической СД КИС: количество производных элементов для распределяемых свойств (атрибутов в индексах, представлениях, операторов в алгоритмах)- третичных элементов - будет иметь вид

( к V

I X'"НХ'I*

и (к -1)

На графиках ниже отображены зависимости относительной сложности (|Х| / 1X1) в иерархической СД КИС для каждого типа элемента.

Как можно видеть из представленных зависимостей, иерархическая СД КИС показывает рост эффективности с ростом количества элементов в структуре.

Исходя из зависимостей (2-10), общая описательная сложность иерархической СД КИС можно представить следующим образом:

Shier = {1}X + {1 }X'' + {14}Х"',

т. е. использование иерархической организации приводит к росту единственного параметра -количества сущностей, 4 параметра уменьшаются по закону X", 14 - по закону X"'. Если принять веса всех компонентов сложности одинаковыми, то относительная сложность СД КИС (S°M

hier

/ S°M {st) выражается зависимостью, представленной на рис.4.

10

0,1

0,01

» ♦ ♦ « ♦ N

00 21 00 31 00 41 ■

^-4

А

00

Рис. 3. Зависимость относительного количества элементов в иерархической СД КИС от количество первоначальных элементов (к = 4)

Рис. 4. Зависимость относительной взвешенной сложности иерархической СД КИС от количества сущностей в структуре (к = 4)

При преобразовании классической СД КИС в иерархическую для проведения полного анализа необходимо выполнить

O

I A |!

I A |2 -1 A |

hier

автоматизиро-

2!(| Л | -2)! 2

ванных операций, не требующих экспертного участия. Это связано с тем, что операция определения семантического тождества коммута-

тивна, в отличие от функциональной зависимости.

При первичном построении иерархической СД КИС необходимо провести N экспертных разбиений на сущности, Ohierrev автоматизированных операций по построению иерархии сущностей и Ohierrev = (N(|A'|2 - |A'|)) операций по экспертному анализу функциональных зависимостей. Т. е. в иерархической СД КИС полная

О rev

hier экспертных операций (слияние семантически тождественных элементов делает невозможным появление «распыленных» сущностей)

На рис. 5 представлена зависимость относительной сложности нормализации иерархической и классической СД к = Ohierpnm / Ofun от количества сущностей в структуре.

-k

Рис. 5. Зависимость относительной сложности нормализации иерархической СД КИС от количества сущностей в структуре

Как видно из данной зависимости, проведение нормализации в иерархической СД КИС существенно проще, нежели в классической, и эффективность иерархической СД КИС увеличивается с ростом количества сущностей в системе.

ВЫВОДЫ

Построение эффективных СД КИС является важной научно-технической задачей. Классические методы нормализации структуры через единое ненормализованное отношение приводят к необходимости использовать О(Ы2) операций анализа в случае полной нормализации и О(Ы) в случае частичной; отсутствие средств по описанию и структурированию алгоритмов не позволяет реализовать описание системы в рамках единого базиса.

В данной статье автором предлагается построение иерархической СД КИС, использование которой позволяет:

• Осуществить полную нормализацию СД за количество шагов О(Ы / 1п (Ы)), что позволя-

1

S

ет избежать избыточности в хранении данных;

• структурировать данные и алгоритмы в рамках единой структуры, что позволяет осуществлять эффективное управление ими;

• снизить семантическую избыточность данных и алгоритмов путем слияния семантически тождественных атрибутов на родительских уровнях иерархии, что приводит к существенному уменьшению сложности СД КИС.

Использование предлагаемой иерархической СД КИС позволяет управлять процессом построения и модификации структуры по критерию семантического тождества, а численный расчет сложности СД КИС позволяет производить сравнительный анализ различных моделей с целью выбора наиболее эффективной. Все это позволяет строить более эффективные СД КИС и автоматизированно производить их оперативную реконфигурацию.

СПИСОК ЛИТЕРАТУРЫ

1. IntersoftLab «Интеграция корпоративных приложений: основные понятия» // http://citcity.ru/ 11132/ (дата обращения: 25.08.2010).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Гурьянов Л. В. Интеграция АСУТП в АСУ предприятия // www.old.krug2000.ru/reports/08-ent_a cs_integr.pdf (дата обращения: 25.08.2010).

3. Khalilov A. I. Data base organization in complex management information systems // Cybernetics and Systems Analysis, 02.02.2005.

4. Cong Yu, Jagadish H. V. Querying complex structured databases // VLDB. 2007.

5. Codd E.F. A relational model of data for large shared data banks // Communications of the ACM 13 .

6. Chen P. The entity-relationship model - toward a unified view of data // ACM Transactions on Database Systems (TODS), 1976.

7. Багуи С. Объектно-ориентированные базы данных: достижения и проблемы // Открытые системы. 2004. № 03.

8. Смит Д. М., Смит Д. К. Абстракции баз данных: агрегация и обобщение // СУБД. 1996. № 2.

9. Кузнецов С. Дубликаты, неопределенные значения, первичные и возможные ключи и другие экзотические прелести языка SQL // http://www. citforum.ru/database/articles/art_5. shtml (дата обращения: 25.08.2010).

10. Rapaport M. Object-Oriented Data Bases: The Next Step in DBMS Evolution // Comp. Lang. 1998. № 10.

ОБ АВТОРАХ

Левков Александр Александрович, доц. Дипл. магистр техники и технологий по информатике и вычисл. технике (УГАТУ, 2000). Канд. техн. наук по матем. и прогр. обеспечению вычисл. машин, комплексов и комп. сетей (УГАТУ, 2004). Иссл. в обл. баз данных, реляц. моделей данных, моделей физ. размещения данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.