УДК 004.6
ПРЕДСТАВЛЕНИЕ И ПРИМЕНЕНИЕ ЗНАНИЙ О КУБАХ-КОНЦЕПТАХ ДЛЯ ПОДДЕРЖКИ АДАПТИВНОГО МАНИПУЛИРОВАНИЯ ОБЪЕКТАМИ АНАЛИЗА OLAP*
А. В. Коробко, Т. Г. Пенькова
Институт вычислительного моделирования СО РАН 660036, Красноярск, Академгородок, 50, стр. 44. E-mail: [email protected]
Необходимость оперативной аналитической обработки больших объемов данных в задачах организационного управления требует создания новых подходов к реализации технологии OLAP. Качество анализа данных на основе OLAP во многом определяется доступностью исходных данных и прозрачностью аналитической модели предметной области. Актуальной является задача разработки методов и алгоритмов построения интегральной аналитической модели предметной области на основе структуры исходных данных и знаний эксперта. В основе работы лежит интеграция технологии оперативного анализа данных и анализа формальных понятий. Предложены продукционная модель знаний о кубах-концептах и алгоритм определения оптимального куба-концепта для поддержки адаптивного манипулирования объектами анализа предметной области. Рассмотрен пример логического вывода для концептуальной OLAP-модели научной деятельности организации.
Ключевые слова: концептуальное OLAP-моделирование, оперативная аналитическая обработка данных, инженерия знаний, формирование аналитических запросов.
REPRESENTATION AND IMPLEMENTATION OF KNOWLEDGE ABOUT CUBE-CONCEPTS FOR ANALYTICAL MANIPULATION SUPPORT
A. V. Korobko, T. G. Penkova
Institute of Computational Modeling of the SB RAS 50, building 44 Akademgorodok, Krasnoyarsk, 660036, Russia. E-mail: [email protected]
The necessity of the analytical processing of large data volume for organizational management requires the development of new approaches to OLAP technology. The quality of the data analytical processing is determined by accessibility of the primary data and by transparency of the domain analytical model. The issue of developing methods and algorithms for comprehensive (integral) analytical model constructing based on data source structure and expert knowledge. In this paper an original production rule model of knowledge about cube-concepts is proposed. An algorithm of optimal cube-concept determination for analytical manipulation support is suggested. An example of forward chain execution for science activity OLAP-model is described.
Keywords: conceptual analytical modeling, on-line analytical processing, knowledge computing, analytical demand assignment.
Повышение эффективности аналитической обработки больших объемов данных для принятия обоснованных решений требует развития средств адаптивного манипулирования объектами анализа в технологии OLAP (On-line analytical processing) [1-5]. Формирование каталога показателей дает возможность систематизировать объекты анализа, но не позволяет выполнять их совместную аналитическую обработку [2; 6]. Построение онтологии предметной области дает возможность оперировать всеми объектами, включенными в онтологию, но не позволяет оперативно формировать запросы в ходе аналитического эксперимента [7; В].
В авторских работах [9; 10], построения интегральной аналитической модели предметной области
предложен метод концептуального ОЬАР-моделиро-вания, позволяющий строить интегральную ОЬАР-модель предметной области в виде решетки многомерных кубов на основе экспертных знаний об объектах анализа и возможности их совместной аналитической обработки [11; 12].
Для реализации оригинального метода разработаны алгоритмы поиска кубов-концептов на основе контекста предметной области и построения концептуальной решетки ОЬ АР-кубов [5; 6]. С целью поддержки адаптивного манипулирования объектами анализа интегральной ОЬАР-модели актуальной становится задача определения оптимального куба-концепта на множестве всех объектов анализа предметной области.
*Работа выполнена при поддержке гранта ФЦП «Научные и научно-педагогические кадры инновационной России» на 2010-2013 годы (ГК № 02.740.11.0621) и гранта РФФИ № 12-07-31143.
В работе предлагаются продукционная модель представления знаний о кубах-концептах, упорядоченных отношением Галуа в виде концептуальной решетки кубов, и алгоритм определения оптимального куба-концепта для частной аналитической задачи на множестве всех доступных объектов анализа. Разработанные средства представления и применения знаний о кубах-концептах позволяют осуществлять адаптивное манипулирование объектами анализа ОЬАР, что значительно повышает эффективность аналитической обработки многомерных данных и способствует обнаружению новых знаний для принятия решений.
Интегральная аналитическая модель предметной области в виде концептуальной решетки ОЬЛР-кубов. Интегральная аналитическая модель предметной области строится путем применения анализа формальных понятий к аналитическим объектам в терминах технологии ОЬАР. Основу интегральной ОЬАР-модели составляет множество объектов анализа, которые используются для построения ОЬАР-кубов: множество показателей ¥ = {/1 /2, ..., /т} и множество измерений Б = {йь й2, ..., йп}. Между элементами множеств ¥ и Б определяется отношение сопоставимости Я - возможность совместной аналитической обработки показателей и измерений. Я с ¥хБ, /, й) е Я, если показатель / может быть проанализирован по измерению й,. Тройка (¥, Б, Я), в соответствии с теорией анализа формальных понятий [13; 14], представляет собой формальный
контекст К. Формальный контекст отражает знания эксперта об объектах анализа предметной области и о возможности их совместной аналитической обработки.
На основе формального контекста К определяется множество концептов - ОЬАР-кубов (кубов-концептов) по признаку сопоставимости объектов анализа. Для произвольных X с ¥ и У с Б определяется операция «штрих» следующим образом:
X ' = {й е Б | V/е X, /Яй)};
У ' = {/е ¥ | Vй е У (/Яй)}.
Пара (А, В), где А с ¥, В с Б такие, что А = В'
и В = А', называется кубом-концептом контекста К. Множество А состоит из показателей одинаковой размерности, которые могут быть проанализированы по всем измерениям из В. (А, В) - многомерный куб, полный относительно добавления показателей той же размерности и состава измерений. Множество показателей А представляет объем куба-концепта, а множество измерений В - содержание куба-концепта.
Множество всех кубов-концептов частично упорядочено отношением Галуа: (Аь В1) < (А2, В2), если А! с А2 и В2 с В! [15]. В этом случае, (А!, В!) - подкуб (А2, В2), а (А2, В2) - надкуб (Аь В1). Множество показателей надкуба включает множество показателей под-куба, а в свою очередь, множество измерений подкуба включает множество измерений надкуба. Упорядоченное отношением подкуб-надкуб множество всех кубов-концептов образует концептуальную решетку
OLAP-кубов и представляет собой интегральную аналитическую модель.
Модель представления знаний о концептах -OLAP-кубах
Для поддержки адаптивного манипулирования объектами анализа интегральной OLAP-модели разработана продукционная модель представления знаний о кубах-концептах. Модель основана на свойствах концептуальной решетки, согласно которым: надкуб любого куба-концепта решетки содержит наибольший объем (множество показателей) и наименьшее содержание (множество измерений), а подкуб, наоборот - содержит наибольшее содержание и наименьший объем. То есть, при переходе по ребру решетки от подкуба к надкубу происходит расширение объема и сокращение содержания и аналогично, при переходе по ребру решетки от надкуба к подкубу происходит сокращение объема и расширение содержания. Таким образом, модель знаний, представляющая концептуальную решетку кубов, отражает отношения между кубами-концептами решетки и между объемом и содержанием кубов-концептов. Разработанная модель содержит правила вида:
S:F:N: IF < (Acur = Asuper) & (P n X = 0) >
> THEN < Acur “^Asub >; (1)
SDN: IF < (Bcur = Bsub) & (Q n Y = 0) >
> THEN < В cur “^Bsuper (2)
S:F:N: IF <Acur = A > THEN < Bcur -^B >; (3) S:D:N: IF < Bcur = В > THEN < Acur A >. (4)
Здесь S - уникальное в базе знаний имя правила; F, Б - указатель назначения, характеризующий зону действия правила для показателей и измерений соответственно; N - приоритет применения правила, указывающий на преимущественное применение правила при разрешении конфликтов; Acur - начальное множество показателей для процедуры логического вывода; Asub - объем (множество показателей) подкуба; Asuper -объем (множество показателей) надкуба; P - множество показателей, удаляемых из объема надкуба при переходе к подкубу; X - множество показателей, требуемых для аналитической обработки; Bcur - начальное множество измерений для процедуры логического вывода; Bsuper - содержание (множество измерений) надкуба; Bsub - содержание (множество измерений) подкуба; Q - множество измерений, удаляемых из подкуба при переходе к надкубу; Y - множество измерений, требуемых для аналитической обработки. Символ ^ обозначает переход от одного куба-концепта к другому.
Правила (1) и (2) описывают переход по ребру концептуальной решетки. Правила типа (3) и (4) описывают отношение между множеством показателей и множеством измерений куба-концепта решетки. Правила типа (1) и (2) имеют более высокий приоритет по сравнению с правилами типа (3) и (4). Другими словами, приоритетным является переход от одного куба-концепта решетки к другому. В случае, если ни одно правило перехода не может быть выполнено, осуще-
ствляется подстановка множеств показателей или измерений соответственно.
Принципы поддержки адаптивного манипулирования объектами анализа на основе продукционной модели представления знаний. Интегральная аналитическая модель, построенная в виде концептуальной решетки ОЬАР-кубов, позволяет пользователю проводить аналитические эксперименты на множестве всех доступных объектов анализа предметной области [12]. Свойства концептуальной решетки позволяют определять дополнительные показатели и измерения, которые могут быть проанализированы вместе с выбранными пользователем объектами анализа. Поэтому поддержка адаптивного манипулирования объектами анализа заключается в формировании дополнительных показателей и измерений для оперативной аналитической обработки.
Согласно свойствам концептуальной решетки, множество всех кубов-концептов, удовлетворяющих текущему запросу пользователя, представляет собой подрешетку интегральной модели. Куб-концепт под-решетки, расположенный на самом верхнем уровне содержит максимальный набор дополнительных показателей - максимальный куб-концепт для текущего запроса. В свою очередь, куб-концепт подрешетки, расположенный на самом нижнем уровне содержит максимальный набор дополнительных измерений -минимальный куб-концепт для текущего запроса. Таким образом, определение максимального и минимального кубов-концептов для текущего пользовательского запроса и формирование максимальных наборов дополнительных объектов анализа - основная задача логического вывода.
Процедура определения дополнительных объектов анализа для текущего запроса соответствует прямой цепочке логического вывода и заключается в последовательном сравнении условий правила (антецедента) и выполнении соответствующих действий (консе-квента) [16].
Основными параметрами процедуры определения дополнительных объектов анализа являются текущий запрос пользователя, максимальный куб-концепт и минимальный куб-концепт. В начальный момент работы текущий запрос пользователя представляет собой пару (0, 0), максимальный куб-концепт - это куб-концепт, расположенный на самом верхнем уровне решетки кубов, минимальный куб-концепт - это куб-концепт, расположенный на самом нижнем уровне решетки кубов. При добавлении показателя в текущий запрос, начальное состояние определяется как множество показателей максимального куба-концепта подрешетки, соответствующей запросу на предыдущем шаге. В качестве входных параметров передаются множество требуемых показателей X и начальное множество показателей Асиг. Результат вывода - множество измерений Всиг, определяющее содержание минимального куба-концепта подрешетки, соответствующей запросу на текущем шаге. При добавлении измерения в текущий запрос начальное состояние определяется как множество измерений минимального куба-концепта подрешетки, соответствующей за-
просу на предыдущем шаге. В качестве входных параметров передаются множество требуемых измерений У и начальное множество измерений Всиг. Результат вывода - множество показателей Асиг, определяющее объем максимального куба-концепта подрешетки, соответствующей запросу на текущем шаге.
Алгоритм определения оптимального куба-концепта для частной аналитической задачи. Исходя из свойств концептуальной решетки и принципов поддержки адаптивного манипулирования объектами анализа, разработан алгоритм определения оптимального куба-концепта для частной аналитической задачи на множестве всех доступных объектов анализа предметной области. Блок-схема алгоритма представлена на рис. 1.
Алгоритм заключается в последовательном добавлении объектов анализа в пользовательский запрос и определения объема и содержания оптимального куба-концепта на основе применения правил вывода.
Работа алгоритма начинается с определения начального состояния переменных, участвующих в процессе поиска оптимального куба-концепта. Объем и содержание пользовательского запроса определяются как пустые множества. Содержание оптимального куба-концепта X0pt равно множеству показателей интегральной модели, объем оптимального куба-концепта У0^ равен множеству измерений интегральной модели. А8ир и В5ир определяются как содержание и объем максимального куба-концепта решетки, который соответствует точной верхней границе множества кубов-концептов В(К) - Бир(В(К)). Ам и Вы определяются как содержание и объем минимального куба-концепта решетки, который соответствует точной нижней границе множества кубов-концептов В (К) -М(В(К)).
Затем алгоритм ожидает выбора объекта анализа пользователем. Если объект анализа не был выбран, то алгоритм прекращает свою работу. После выбора объекта анализа определяется его тип, путем проверки вхождения к в множество Xopt. Если выбранный объект принадлежит содержанию оптимального куба-концепта, то к добавляется к содержанию пользовательского запроса X, тип объекта анализа t для выбора правил определяется как ‘¥ и значение Ат{ устанавливается равным А8ир. Если выбранный объект принадлежит объему оптимального куба-концепта, то к добавляется к объему пользовательского запроса У, тип объекта анализа t для выбора правил определяется как ‘Б’ и значение В8ир устанавливается равным В1П£. Если выбранный пользователем объект анализа не принадлежит оптимальному кубу-концепту, то алгоритм возвращается на этап выбора нового объекта анализа.
Для выбора правил в соответствии с их приоритетом, определяется параметр п, принимающий значения 1 и 2. Затем в цикле по 5, где 5 изменяется от 1 до мощности множества правил |Ь|, описывающих интегральную модель, происходит сначала выбор правила в соответствии с установленными значениями t и п, а затем проверка условий применимости правила и его выполнение.
(X, У) - запрос пользователя
Х0Р1 - содержание оптимального куба-концепта
зир(®(%)) - максимальный куб-концепт решетки <В(%)
к - объект анализа, добавляемый пользователем в запрос
( конец )
Рис. 1. Блок-схема алгоритма определения оптимального куба-концепта
(^2 1^3 d4 dб d6 d7 d8 d9 d10
ч: о і_ Автор Тип публикации Город Журнал База цитирования Грант Тип пособия Тип объекта интел. соб-ти Статус конференции
м Число публикаций X X X X X X X
Г2 Число материалов конф-ий X X X X X X X X
ГЭ Число учебных пособий X X X X X X
Г4 Число объектов интел. соб-ти X X X
Гб Число конференций X X X X X
Рис. 2. Фрагмент формального контекста научной деятельности организации
При / = ’В’ и п = 1 для проверки антецедента правила используется множество В8ир и объем пользовательского запроса У. В случае выполнения условий антецедента значение В8ир меняется в соответствии с консеквентом правила и проверка правил начинается с начала цикла.
При / = ’Б’ и п = 2 для проверки антецедента правила используется только множество В8ир. В случае выполнения условий антецедента значение ^8ир меняется в соответствии с консеквентом правила, содержание оптимального куба Хор становится равным ^8ир, заканчивается проверка правил и алгоритм переходит на этап выбора нового объекта анализа.
Таким образом, алгоритм обеспечивает поддержку построения пользовательского запроса для частной аналитической задачи в соответствии с интегральной ОЬЛР-моделью и формирует оптимальный куб-концепт (ХорЬ Уор) на каждом шаге построения пользовательского запроса. Объем найденного оптимального куба-концепта соответствует нижнему кубу-концепту подрешетки кубов, удовлетворяющих пользовательскому запросу, и содержит максимальное количество измерений для совместной аналитической обработки с текущим запросом пользователя. Содержание найденного оптимального куба-концепта соответствует верхнему кубу-концепту подрешетки кубов, удовлетворяющих пользовательскому запросу, и содержит максимальное количество показателей для совместной аналитической обработки с текущим запросом пользователя.
Адаптивное манипулирование объектами анализа на основе интегральной ОЬЛР-модели научной деятельности организации. Рассмотрим реализацию принципов адаптивного манипулирования объектами анализа и работу алгоритма поиска оптимального куба-концепта для интегральной ОЬЛР-модели научной деятельности организации.
На рис. 2 представлен фрагмент формального контекста научной деятельности организации, строки которого соответствуют показателям, а столбцы -измерениям. Используя сокращенные обозначения,
получим соответственно: ^ = {/[, / 2, / 3, / 4, / 5} и
Б = {й1, й2, й3, й4, й5, й6, й7, й8, й9, й10}. Отношение Я записывается следующим образом: Я = {(/1, й1),
(/{, d2), (/ї, ^, (/ь й4^ •••, (/5, й10)}.
На рис. 3 приведена концептуальная решетка ОЬЛР-кубов, построенная в рамках рассматриваемого формального контекста и представляющая интегральную аналитическую модель научной деятельности. На рис. 4 проиллюстрировано соответствие подре-шетки запросу пользователя на каждом шаге логического вывода.
Рис. 3. Концептуальная решетка ОЬЛР-кубов научной деятельности организации
Разработанные средства представления и применения знаний о кубах-концептах позволяют осуществлять адаптивное манипулирование объектами анализа предметной области.
Возможность выявления аналитических зависимостей между объектами анализа позволяет значительно повысить эффективность аналитической обработки данных и способствует обнаружению новых знаний для принятия управленческих решений.
Рис. 4. Соответствие подрешетки концептуальной OLAP-модели запросам пользователя: a) - (0, 0); b) - (f2, 0); c) - (£2, d7); d) - ({f1, f2}, d7); e) - ({f1, f2, f5}, d7); f) - ({f1, f2, f5}, ^б, d7})
Библиографические ссылки
1. Codd E. F., Codd S. B., Salley C. T. Providing OLAP //On-line Analytical Processing to User-Analists: An IT Mandate. CT Salley, EF Codd & Associates. 1993. Vol. 19.
2. Honorvar L., Campbell S., Showalter T. Use of online analytical processing (OLAP) in a rules based decision management system. United States Patent: US 2004/6430545 B1.
3. Ноженкова Л. Ф., Шайдуров В. В. OLAP-технологии оперативной информационно-аналитической поддержки организационного управления // Информационные технологии и вычислительные системы. № 2. 2010. С. 15-27.
4. Qwaider W. Q. Apply On-Line Analytical Processing (OLAP) With Data Mining For Clinical Decision Support // International Journal of Managing Information Technology (IJMIT) Vol. 4, No. 1, 2012 P. 25-37.
5. Tsois A., Karayannidis N., Sellis T. MAC: Conceptual data modeling for OLAP //Proc. of the International Workshop on DMDW. 2001. С. 28-55.
6. Шовкун A. B. Технология построения репозитория метаданных для хранилища данных // Научная сессия МИФИ-2003. Сборник научных трудов. Т 2. М. : МИФИ, 2003. С. 76-77
7. Lee J., Mazzoleni P., Sairamesh J., Touma M. System and method for planning and generating queries for multi-dimensional analysis using domain models and data federation, 2008. United States Patent: US 2008/7337170 B2.
8. Priebe T., Pernul G. Ontology-based integration of OLAP and information retrieval //Database and Expert Systems Applications, 2003. Proceedings. 14th International Workshop on. IEEE, 2003. С. б10-б14.
9. Коробко А. В., Пенькова Т. Г. Метод концептуального OLAP-моделирования на основе формального концептуального анализа // Вестник СибГАУ. Красноярск. 2010. Вып. 4(30). C. 74-79.
10. Пенькова Т. Г., Коробко А. В. Построение интегральной OLAP-модели на основе формального концептуального анализа // Информатизация и связь. 2011. № 3. С. 23-25.
11. Коробко А. В., Пенькова Т. Г. Алгоритмы формирования интегральной OLAP-модели предметной области // Вестник СибГАУ. 2011. Вып. 5(38). С. 49-55.
12. Penkova T. Korobko A. Method of constructing the integral OLAP-model based on formal concept analysis // Frontiers in Artificial Intelligence and Applications. IOS Press, ISSN 0922-б389. 2012. Vol. 243. P. 219-227, doi:10.3233/978-1-61499-105-2-21.
13. Wille R. Restructuring Lattice Theory: an
approach based on hierarchies of concept. Reidel, Dordrecht-Boston, 1982. Р. 445-470.
14. Ganter B., Wille R. Formal Concept Analysis: mathematical Foundations. Springer-Verlag. Berlin Heidelberg New York, 1999.
15. Биркгоф Г. Теория решеток. М. : Наука, 1984. 5б8 с.
16. Уэно Х., Исидзука М. Представление и использование знаний. М. : Мир, 1989.
5б
References
1. Codd E. F., Codd S. B., Salley C. T. Providing OLAP. On-line Analytical Processing to User-Analists: An IT Mandate. CT Salley, EF Codd & Associates. 1993, Vol. 19.
2. Honorvar L., Campbell S., Showalter T. Use of online analytical processing (OLAP) in a rules based decision management system. United States Patent: US 2004/6430545 B1.
3. Nozhenkova L. F., Shaidurov V. V. Informatsionnye tehnologii i vychislitelnye sistemy. 2010, № 2, p. 15-27.
4. Qwaider W. Q. Apply On-Line Analytical Processing (OLAP) With Data Mining For Clinical Decision Support. International Journal of Managing Information Technology (IJMIT), vol. 4, no. 1, 2012, p. 25-37.
5. Tsois A., Karayannidis N., Sellis T. MAC: Conceptual data modeling for OLAP. Proc. of the International Workshop on DMDW, 2001, p. 28-55.
6. Shovkun A. V. Nauchnaya sessiya MIFI-2003. Sbornik nauchnyh trudov. vol. 2. Moscow, MIFI, 2003, p. 76-77.
7. Lee J., Mazzoleni P., Sairamesh J., Touma M. System and method for planning and generating queries for multi-dimensional analysis using domain models and data federation, 2008. United States Patent: US 2008/7337170 B2.
8. Priebe T., Pernul G. Ontology-based integration of OLAP and information retrieval. Database and Expert Systems Applications, 2003. Proceedings. 14th International Workshop on. IEEE, 2003, р. б10-б14.
9. Korobko A. V., Penkova T. G. Vestnik SibGAU.
2010, № 4(30), p. 74-79.
10. Korobko A. V., Penkova T. G. Informatizatsiya I svyaz. 2011, № 3, p. 23-25.
11. Korobko A. V., Penkova T. G. Vestnik SibGAU.
2011, № 5(38), p. 49-55.
12. Penkova T. Korobko A. Method of constructing the integral OLAP-model based on formal concept analysis. Frontiers in Artificial Intelligence and Applications. IOS Press. 2012. vol. 243, p. 219-227, doi: 10.3233/978-1-б1499-105-2-21
13. Wille R. Restructuring Lattice Theory: an
approach based on hierarchies of concept. Reidel, Dordrecht-Boston, 1982, p. 445-470.
14. Ganter B., Wille R. Formal Concept Analysis: mathematical Foundations. Springer-Verlag. Berlin Heidelberg New York, 1999.
15. Birkgof G. Teoriya reshotok (Lattice Theory). Moscow, Nauka, 1984, 5б8 p.
16. Ueno H., Ishizuka M. Predstavlenie i ispolzovanie znaniy (The presentation and use of knowledge). Moscow. Mir. 1989.
© Коробко А. В., Пенькова Т. Г., 2013
УДК 519.6
ИССЛЕДОВАНИЕ ФУНКЦИЙ РОСТА В КОНЕЧНЫХ ДВУПОРОЖДЕННЫХ
ГРУППАХ ПЕРИОДА 5
А. С. Кузнецова
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, Красноярск, просп. им. газ. «Красноярский рабочий», 31. E-mail: [email protected]
Пусть В0 (2,5, к) - максимальная конечная двупорожденная бернсайдова группа периода 5 ступени нильпотентности к и {a1, a2} - порождающие элементы данной группы. Ранее автором совместно с А. А. Кузнецовым были получены функции роста В0(2,5, к) относительно порождающего множества {a1, af'a2, a-1} при к < 5 . В настоящей работе создан компьютерный алгоритм, вычисляющий функцию роста и диаметр графа Кэли конечной р-группы, заданной порождающим множеством А = {aj, a2}. На основе алгоритма получены функции роста групп В0 (2,5, к) относительно А для к < 5. Рассматриваемая задача помимо фундаментального значения, имеет также и приложения, например, при проектировании компьютерных вычислительных сетей. Сеть процессоров может быть представлена как неориентированный граф, в котором процессоры являются вершинами, а две вершины графа соединены ребром, если имеется прямое соединение между соответствующими процессорами. С одной стороны, желательно, чтобы между процессорами было как можно меньше соединений, а с другой, обмен данными между процессорами предпочтительно производить с наи-