УДК 004.9, 004.65
1 1 2 А.А. Зуенко , А.Я. Фридман , Б.А. Кулик
ИНТЕЛЛЕКТУАЛЬНЫЕ БАЗЫ ДАННЫХ (РЕЗУЛЬТАТЫ ВЫПОЛНЕНИЯ ПРОЕКТА 4.3 ПРОГРАММЫ № 15 ПРАН)*
Аннотация
В статье приведен обзор результатов разработки методов общей теории многоместных отношений (алгебры кортежей) в предметных областях, связанных с совместной обработкой данных и знаний. В работе излагается решение проблемы совмещения вероятностных и логических методов в рамках единого математического аппарата алгебры кортежей при прямом и обратном расчете надежности и безопасности структурно-сложных систем. Также приводится оценка сложности основных операций АК.
Ключевые слова:
общая теория многоместных отношений, алгебра кортежей, логико-вероятностный анализ, вероятностная логика.
A.A. Zuenko, A. Ya. Fridman, B-А. Kulik INTELLIGENT DATABASES: SURVEY OF RESULTS OBTAINED WITHIN THE PROJECT 4.3 OF THE PROGRAMME № 15 OF THE CHAIR OF RAS
Abstract
The paper describes development of a general theory of n-ary relations, namely n-tuple algebra (NTA), for the subject domains requiring combined processing of data and knowledge. We propose a solution of the problem to unite probabilistic and logical techniques in frames of a unified NTA mathematical method for implementing both direct and backward calculation of reliability and safety in structural complex systems. Also, we present complexity estimations for basic nTa operations.
Key words:
general theory of n-ary relations, n-tuple algebra, logical-probabilistic analysis, probabilistic logic.
Введение
В истории развития средств логического анализа можно выделить следующие этапы:
1. Силлогистика Аристотеля (IV век до н.э.).
2. Алгебраический подход: теория множеств, булева алгебра, элементы теории отношений (XVII- XIX век).
3. Теория формальных систем (рубеж XIX и XX веков).
4. Эра вычислительной техники (сер. XX века).
1 ИИММ КНЦ РАН
2 Институт проблем машиноведения РАН, г. С-Петербург
* Работа выполнена при финансовой поддержке РФФИ (проект № 09-07-00066, № 11-08-00641-а), ОНИТ РАН (проект 2.3 в рамках текущей Программы фундаментальных научных исследований) и Президиума РАН (проект 4.3 Программы № 15).
В фундаменте современной логики лежит математическая система, которая имеет несколько названий: аксиоматический метод, символическая логика, теория формальных систем (ТФС). ТФС начала развиваться в начале XX века, когда были открыты парадоксы наивной теории множеств. Тогда многие математики, логики и философы (Б. Рассел, Л. Витгенштейн, Д. Гильберт, Дж. Пеано и др.) решили, что ТФС может стать защитой от парадоксов и основой всей математики и логики, а алгебраический подход стал постепенно утрачивать свое влияние [1].
С приходом эры вычислительной техники вновь был поднят вопрос о поиске предпочтительного подхода к моделированию рассуждений на компьютере, выбор между алгебраическими методами и ТФС до сих пор не очевиден.
Язык математической логики есть частный случай ТФС. В системах искусственного интеллекта концепции ТФС воплотились в декларативном подходе, где знания имеют форму утверждений (или правил), записанных на некотором формальном языке, а задачи решаются путем применения процессов логического вывода к знаниям.
Альтернативу декларативному составляет процедурный подход, по сути алгебраический, в котором правила или высказывания выражаются в виде алгоритмов и, в конечном итоге, кода программы. К настоящему моменту исследователи пришли к выводу, что успешно действующие интеллектуальные системы должны сочетать в себе и декларативные, и процедурные элементы.
Развитие декларативного подхода сопровождается рядом трудностей и проблем, обусловленных его спецификой, включая перечисленные ниже.
1. Зачастую декларативный подход не позволяет оценить значения параметров системы, состав и число объектов, удовлетворяющих заданным условиям. Как следствие, декларативные языки искусственного интеллекта значительно усложняются из-за необходимости их наполнения различными "недекларативными" процедурами и функциями. В последнее время наблюдается также тенденция программирования интеллектуальных систем не с помощью специфических языков искусственного интеллекта, а на базе процедурно-ориентированных языков. При этом сохраняется разрыв между "декларативной" теорией и "процедурной" практикой.
2. Полноценный логический анализ систем включает в себя не только логический вывод, но также анализ неопределенностей и противоречивости, формирование гипотез, абдуктивных заключений. Однако, если задачи логического вывода и решаются при помощи законов классической логики, то для остальных задач привлекаются в основном неклассические логики, где эти законы нарушаются. Другими словами, отсутствует единый математический аппарат, позволяющий унифицировать дедуктивный и недедуктивный анализ.
3. Современные интеллектуальные системы состоят из двух типов разнородных объектов: баз данных (БД) и баз знаний (БЗ). Представление и обработка данных (фактов, таблиц, графов, сетей, текстов и т.д.) осуществляется алгебраическими методами, а модели баз знаний (предикаты, фреймы, семантические сети, правила) строятся на основе декларативного подхода. Это существенно затрудняет сопряжение БД и БЗ в одной системе.
Традиционно к недостаткам алгебраического подхода в применении к задачам логического анализа относят высокую вычислительную сложность
алгоритмов их решения (так называемую проблему "экспоненциальной катастрофы"). Однако полностью решить эту проблему не удается и средствами ТФС, несмотря на то, что здесь достигнуты значительные положительные результаты.
Попытка изложить методы логического анализа рассуждений на языке, отличающемся от языка ТФС, сегодня представляется проблематичной. В рассматриваемом проекте был разработан инструмент логико-семантического анализа в рамках алгебраического подхода, опирающийся на понятие многоместного отношения.
1. Алгебра кортежей как общая теория многоместных отношений
Термин "многоместное отношение" широко используется при моделировании и анализе информационных и управляющих систем, он же позволяет найти более тесную связь логики высказываний и предикатов со структурами данных и знаний, применяющимися в информатике. В математике под теорией отношений понимается либо теория бинарных отношений, либо реляционная алгебра. Первая служит для отображения графов, семантических сетей, систем логического анализа на решетках и т.д. Вторая тесно связана с системами управления базами данных (СУБД). Однако с помощью бинарных отношений в общем случае нельзя выразить отношения и предикаты с размерностью более двух, а реляционная алгебра не предназначена для решения многих задач логического анализа.
Следовательно, общей теории многоместных отношений, пригодной для решения задач логико-семантического анализа, до сих пор не существовало. Для реализации такой теории авторами разработана математическая система, названная алгеброй кортежей (АК) и базирующаяся на представлении многоместных отношений в виде новых структур (С-кортеж, С-система, В-кортеж, В-система) табличного или матрицеподобного типа (АК-объектов). Теоретические основы АК подробно изложены, например, в [2].
Здесь выделим лишь наиболее значимые отличия АК от упомянутых теории бинарных отношений и реляционной алгебры:
1. В АК в качестве основной структуры выступает не элементарный кортеж, а декартово произведение множеств, что обеспечивает более "компактное" (по сравнению с прототипами) представление многоместных отношений в памяти компьютера, а также сокращение вычислительных затрат (повышение эффективности) при их обработке.
2. В АК обобщены операции алгебры множеств на случай, когда многоместные отношения не являются подмножествами одного и того же декартова произведения. Для работы с отношениями, требующими преобразований к единой схеме отношения, в АК введено пять операций с атрибутами (столбцами АК-объектов). Свойства операций АК опираются на свойства декартовых произведений.
3. Для С-кортежей и С-систем определены структуры, которые являются их дополнениями.
Перечисленные особенности АК позволяют отнести ее к классу булевых алгебр (сохранить изоморфизм с алгеброй множеств) [3]. С другой стороны,
доказано, что все структуры и операции АК имеют эквиваленты в многосортном исчислении предикатов.
В результате, АК позволяет унифицировать представление различных структур знаний (предикатов, бинарных отношений, графов, семантических сетей и т.д.) и данных, например, реляционных таблиц. А также реализацию многих сложных процедур (соединение, композиция, транзитивное замыкание, квантификация и т.д.), связанных с обработкой многоместных отношений и предикатов [4-7].
2. Возможности алгебры кортежей в логическом анализе данных и знаний
В плане расширения возможностей логического анализа данных и знаний АК дает следующие преимущества:
1. В АК предложены новые методы решения таких стандартных задач логического вывода, как порождение возможных следствий из заданной системы посылок, проверка правильности следствия. Как показали исследования, применение методов алгебры кортежей к стандартным задачам логического анализа способствует ускорению процедур их решения, поскольку при выводе учитывается внутренняя структура обрабатываемых знаний, а не только выполнимость отдельных подстановок [8, 9].
2. Свойства АК-объектов позволяют не только осуществлять логический вывод, но и решать задачи, выходящие за пределы дедукции: порождение и анализ гипотез, поиск абдуктивных заключений, которые входят в состав модифицируемых рассуждений. Отличительная особенность предлагаемых методов решения состоит в том, что они реализованы в рамках классической логики, то есть не используют неклассические логики (немонотонные логики, логики умолчаний и т.д.), в которых допускаются нарушения некоторых законов булевой алгебры и алгебры множеств [10, 11].
3. Для организации процедур логико-семантического анализа систем посылок без привлечения неклассических логик в АК введено понятие "коллизия", с помощью которого удается устранить несоответствие между формальной логикой, где система посылок проверяется лишь на противоречивость (контрадикторность), и естественными рассуждениями, где требуется более тонкий анализ несовместности посылок (например, выявление контрарных следствий) [12-14].
4. Алгебра кортежей позволяет распараллеливать алгоритмы логического вывода, то есть производить обработку знаний аналогично обработке табличных данных в реляционных СУБД [4, 7].
5. В АК разработаны алгоритмы сокращения трудоемкости вычислительных процедур, направленные на снижение остроты проблемы "экспоненциальной катастрофы". Эти алгоритмы используют матричные свойства АК-объектов (монотонные и бесконфликтные блоки и т.п.), позволяющие не только эффективного распараллеливать вычисления, но и, зачастую, снизить сложность решаемых задач до полиномиальной. В АК выявлены новые структурные и статистические классы конъюнктивных нормальных форм с полиномиально распознаваемым свойством выполнимости. Доказано, что если КНФ выражена как В-система, где содержатся только три
равномерно распределенные (с вероятностью 1/3) символа: 1, 0 и 0, такая КНФ разрешима в среднем за полиномиальное время [2, 8, 9].
6. Разработаны методы погружения АК-объектов в вероятностное пространство (ортогонализация, метод квантования интервалов и т. д.) [2, 8].
Изложенное обосновывает целесообразность применения алгебраического подхода для унификации процедур управления данными и обработки знаний в интеллектуальных системах.
Ниже приводится перечень важнейших научных достижений по Программе, касающихся применения алгебраического подхода в системах концептуального моделирования, а именно при реализации семантического интерфейса реляционных баз данных в системе ситуационного концептуального моделирования [15]:
1. На основе аппарата многосортных алгебр разработан контекстный подход к управлению сложными ограничениями в ходе анализа нерегламентированных путевых запросов и содержимого баз данных при исследовании слабо формализуемых предметных областей, в частности, в системах моделирования и информационных системах [16-18]. Результат включен в годовой отчет ИИММ КНЦ РАН.
2. Для повышения корректности процедур логического анализа данных и знаний в интеллектуальных системах разработана алгебра условных кортежей. По сравнению с известным аппаратом алгебры кортежей, представление реляционных отношений, запросов к ним и структурных ограничений предметной области в виде объектов предложенной алгебры расширяет возможности обработки информации и позволяет автоматизировать обработку логических формул, содержащих элементарные одно- и двуместные предикаты без кванторов [4, 19-21]. Результат включен в годовой отчет ИИММ КНЦ РАН.
3. Предложен метод семантического анализа данных и знаний на основе разработанной теории многоместных отношений с использованием алгебры кортежей и алгебры условных кортежей [19, 21-24]. Результат включен в годовой отчет ИИММ КНЦ РАН.
4. Разработан метод контекстного управления ограничениями в ходе анализа нерегламентированных путевых запросов к реляционным базам данных проблемно-ориентированных информационных систем. Контексты задач, прикладных программ, запросов и баз данных формируются на основе аппарата многосортных алгебр [25-27]. При исследовании слабо формализуемых предметных областей использование метода обеспечивает отбор ограничений, актуальных в текущей ситуации обработки запроса, что повышает быстродействие системы. Результат включен в список "Научные достижения в 2010 году" ОНИТ РАН.
Помимо систем моделирования в работах [2, 28-30] были продемонстрированы и другие возможные применения алгебры кортежей и алгебры условных кортежей.
Из вышеизложенного следует, что за счет разработанных обобщенных операций и отношений аналитические возможности и области применения объектов алгебры кортежей существенно расширены по сравнению с математическими структурами, применяющимися в настоящее время при моделировании и анализе отношений, в частности, в теории бинарных отношений и реляционной алгебре. Далее детально излагается решение
проблемы совмещения вероятностных и логических методов в рамках единого математического аппарата алгебры кортежей при прямом и обратном расчете надежности и безопасности структурно сложных систем, а также приводится оценка сложности основных операций АК, поскольку эти вопросы наименее полно освещены в приведенном перечне публикаций.
3. Анализ неопределенностей с помощью АК
Совмещение понятий "логика" и "вероятность" вызывает немало трудностей. В настоящее время имеется два основных научных направления, представляющих различные взгляды на эту проблему: “логико-вероятностный анализ” (ЛВА) и “вероятностная логика”.
В рамках логико-вероятностного анализа решается прямая задача, когда при заданных вероятностях элементарных событий выполняется расчет вероятности сложного события. В обратной задаче постановка иная - на основе заданных оценок о вероятностях некоторых сложных событий, представленных формулами исчисления высказываний, нужно найти вероятности элементарных событий, после чего можно рассчитать вероятную оценку других сложных событий, отличающихся от исходных. Обратные задачи - предмет изучения вероятностной логики.
При реализации вероятностных методов в АК используется такая операция, как ортогонализация. Ее суть заключается в том, чтобы в рамках С-системы, погружаемой в метрическое пространство, сформировать попарно непересекающиеся С-кортежи. Ортогонализация позволяет значительно упростить расчеты в случаях, когда требуется учитывать все возможные пересечения пар, троек и т.д. С-кортежей, в частности при работе с вероятностными характеристиками.
Ортогонализация. Рассмотрим основные соотношения ортогонализации, используемые в математической логике.
Дизъюнктивная нормальная форма (ДНФ) называется ортогональной, если любая пара ее конъюнктов не имеет общих выполняющих подстановок. Ортогонализация - это преобразование, переводящее произвольную формулу в эквивалентную ей ортогональную ДНФ. В общем случае ортогональной также можно считать любую формулу вида Я, v Я2 v ... v Hk. если для любой пары (Я,. Я;) ее подформул соблюдается Я, л Hj = false при условии, что / Ф j. Это равносильно пустоте пересечения АК-объектов, моделирующих формулы Hj. Оценка меры ортогональной формулы, если известна мера //(Я,) каждой из ее подформул Н,, может быть вычислена с помощью простого суммирования мер составных частей.
Частный случай ортогональной функции - совершенная ДНФ (СДНФ), в которой каждый конъюнкт содержит столько литералов, сколько переменных в данной формуле. В АК совершенной ДНФ соответствует С-система, где каждый С-кортеж содержит в качестве компонент только одноэлементные множества. В основе существующих методов ортогонализации лежит следующее соотношение, полученное П.С. Порецким для формул исчисления высказываний:
Дизъюнкция Н\ v Н2 v ... v Н^ эквивалентна ортогональной ДНФ вида
(^)v(^ л Н2) v ... v (~Н~Х лН~2 л... лйй л#*).
С-система называется ортогональной, если пересечение любой пары содержащихся в ней различных С-кортежей пусто. Ортогонализация диагональной С-системы (В-кортежа) производится согласно теореме 1 [2].
Теорема 1. В-кортеж вида ]Q1 Q2 ... Qm-1 Qm[, где Qi - произвольные компоненты, преобразуется в эквивалентную ему ортогональную С-систему:
"а *
01 02
01 02 • 0т- 1 *
°1 02 ••• 0-т-1 0-ш
* *
* *
Рассмотрим пример. Пусть в схеме отношения [ХУТ], где X = У = 2 = {а, Ъ, с, А}, задан В-кортеж ]{а, с} {А} {Ъ, А}[. Тогда по теореме 1 получим следующие равенства:
]{а, с} {А} {Ь, А}[ =
[а, с} * *
* [ё} *
* * [Ь, ё}
[а, с} *
[Ь, ё} [ё}
[Ь, ё} [а, Ь, с}
[Ь, ё }
причем вторая С-система ортогональна.
Ортогонализация произвольных АК-объектов сводится к ортогонализации эквивалентных им В-систем (преобразованию В-систем в ортогональные С-системы). Для этого требуется:
1) выразить исходный АК-объект как В-систему;
2) представить В-систему как пересечение В-кортежей;
3) каждый В-кортеж преобразовать в ортогональную С-систему с использованием теоремы 1;
4) выполнить пересечение промежуточных ортогональных С-систем, опираясь на теорему 2 [2].
Теорема 2. Если Р и Q - ортогональные С-системы, то пересечение этих С-систем либо пусто, либо состоит из одного С-кортежа, либо представляет собой ортогональную С-систему.
Рассмотрим пример ортогонализации для В-системы
[а, с} [ё } [Ь, ё}
р = 0 [а, ё} [а, с}
[Ь, с} 0 [Ь}
имеющей ту же схему отношения и состав атрибутов, что и в предыдущем примере. Используя теоремы 1 и 2, получим:
Р =
[а, с} [Ь, ё} [Ь, ё}
[ё} [а, Ь, с}
[Ь, с}
[а, ё }
[Ь}
[Ь, ё} {с} [а} [с} [Ь} [ё } [Ь} [ё }
[а, ё } [а, ё }
[Ь, с} [ё} [ё} [а} [а}
[а, ё }
[Ь, с}
[Ь} [а, с}
[Ь} [Ь, ё} [Ь} .
[а, с}
Если заданы вероятностные меры компонент, то вероятность всей системы вычисляется суммированием всех произведений мер компонент, содержащихся в каждом С-кортеже ортогональной С-системы.
Кроме того, ортогонализация дает эффективные средства уменьшения трудоемкости алгоритмов преобразования АК-объектов в альтернативные классы и, в частности, В-систем в С-системы.
Логико-вероятностный анализ. В настоящее время ЛВА надежности и безопасности структурно сложных систем, разработанный И.А. Рябининым и его учениками, широко используется как в теоретических исследованиях, так и в практических приложениях [31-33]. Однако ЛВА применяется в основном в моделях исчисления высказываний, и при переходе к более сложным моделям со многими состояниями приходится использовать методики, предназначенные для частных случаев.
В ЛВА обычно в качестве исходных данных при вероятностных расчетах используются не логические формулы, а структурные схемы, отображающие причинно-следственные связи между множествами элементарных событий в системе. Если такие схемы могут быть представлены логическими формулами, то они легко преобразуются в вероятностные модели АК [2]. Логическая функция ^, связывающая состояние системы с состоянием элементов, в ЛВА называется функцией работоспособности системы (ФРС). В качестве примера рассмотрим двухполюсник с мостиковой схемой, изображенный на рисунке.
а
Рис. Мостиковая схема
Ь
Такая схема, в частности, описывает систему энергоснабжения какого-либо объекта, в которой Х\ и Х2 - источники энергии, Х3 - распределительный щит, Х4 и Х5 - потребители. Здесь элемент Х3 выполняет роль переключателя, в силу чего между полюсами а и Ъ допустимы только следующие пути: ХХ4, Х2Х5,
ХХХ5, Х2Х3Х4.
Пример 1. Пусть множество путей в двухполюснике можно представить как ДНФ:
Р=(Хх лХ4) V (Х2 лХ5) V (Х2 лХ3 лХ4) V (X лХ3 лХ5).
Каждый элемент системы имеет два состояния (работоспособен и неисправен) и известны вероятности рI безотказной работы всех элементов. Требуется по ФРС определить вероятность безотказной работы всей системы.
В АК функцию Р можно отобразить как С-систему в универсуме Х1хХ2хХ3хХ4хХ5 = {О, I}5 (для упрощения компоненты {0} и {1} далее записываются как 0 и 1):
^ * 1 *
* 1 * * 1
* 1 1 1 *
1 * 1 * 1
а ее отрицание - как В-систему
R =
R =
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Используя методы АК, представленные в [2], преобразуем В-систему R в ортогональную С-систему:
R =
0 * * *
1 * * 0 *
* 0 * 1
* 0 *
1 * * 0
0 0*** *^*00 0 10 10
10*00 1 0 0 0 1
* 0 * * *
1 * 0
0
1
1
Поскольку уже известно распределение вероятностей событий в атрибутах (- вероятность безотказной работы элемента; qt = 1 - pt - вероятность отказа), то можно сразу, используя ортогональную С-систему R, написать формулу для расчета вероятности безотказной работы системы:
P(R) = 1 - P( R) = 1 - (qq + p2q4qs + qpq3p4q5 + piqiqq + Piq2q3q4Ps).
В ЛВА пока не разработан единый подход к анализу и оценке вероятностных характеристик систем со многими состояниями, в то время как в АК эта проблема в общем случае решена.
Пример 2. Предположим, что теперь некоторые элементы мостиковой схемы (рис.) имеют не 2, а 3 состояния. Система задана в универсуме
ХгхХ2хХ3хХ4хХ5 = {аь а2}х{Ьь Ь2, 63}х{сь с2, съ}х{ёъ ё2, ¿/3}х{еь е2, е3}. Модель такой системы в АК имеет вид:
а} * * * е, е2}
* Ь Ь2} * [ёх, ё2} *
* [Ь2, Ьз} [сг, с2} * (е2, е3}
а} * [с2, сз} [ёз}
-2^3і
*
Распределение вероятностей элементарных событий приведено в табл. 1.
Таблица 1
Распределение вероятностей
Х1 Х2 Хз Х4 Х5
а\ а2 Ь1 Ь2 Ьз С1 С2 С3 <$2 $3 Є1 Є2 Є3
0.6 0.4 0.5 0.2 0.3 0.4 0.3 0.3 0.4 0.2 0.4 0.7 0.2 0.1
Необходимо выполнить расчет вероятностей событий Q. Для вычисления Р^) сначала найдем дополнение Q:
Я =
а} 0 0
0 [Ь3} 0
0 Ь} [сз}
а} 0 ^}
[ез}
}
0 [Єї}
іх, ё2} 0
Используя методы АК, преобразуем Я в ортогональную С-систему:
Я =
Н} [Ь\} [с} Ш *
Ц} Ь} * Ш [ез}
а} [Ь2,Ьз} [с} Ш &}
а} [Ьз} * [ё1, ё2 } &}
Ц} [Ь2,Ьз} [сз} ё} [ез}
а} [Ьз} [сз} [ё\, ё 2} [е2, ез
Ц} [Ьз} [сз} [ё\, ё 2} [ез}
Подставляя в эту матрицу значения вероятностей из таблицы, получим значение Р( 2 ) = 0.13012. Отсюда Р^) = 1 - Р( 2 ) = 0.86988. Заметим, что вероятности сложных компонент, например, {Ъ2, Ъ3}, равны сумме вероятностей элементов этих компонент.
А = [{1} *];£ = [* {Щ-А^в= А V В = ]{0} {!}[ =
Вероятностная логика. Термин "вероятностная логика" получил широкое распространение в работах по искусственному интеллекту после опубликования статьи известного специалиста по искусственному интеллекту Н. Нильсона [34]. Его идея была продолжена другими исследователями. Анализ работ по вероятностной логике показывает, что в них результатом соединения классических понятий "вероятность" и "логика" оказываются некоторые неклассические логики. В частности, Н. Нильсон для решения обратной задачи предложил теорию, использующую геометрические построения и концепции возможных миров. Далее приводится концепция вероятностной логики через призму алгебры кортежей без нарушения законов классической логики.
Рассмотрим пример, приведенный в статье по вероятностной логике
Н. Нильсона [34].
Пример 3. Дана совокупность событий, заданных формулами А и A zd В исчисления высказываний, при этом P{A)=pi и Р(А^В)=р2. Требуется оценить вероятность P(B) события B.
Покажем, как данная задача решается с помощью АК.
В задаче имеются две логические переменные (A, B), которые можно считать элементарными событиями. Предположим, что вероятность этих событий равна соответственно Р(А) и Р(В). Выразим заданные формулы в структурах АК, используя универсум АхВ = {О, I}2:
'{0} * "
(здесь /)-кортсж преобразован в ортогональную С-систему).
На основании этого найдем формулы вероятностей событий А и A zd В: Р(А) = pú Р(А^В) = ( 1 - Р(А)) + Р(А)Р(В) = р2.
Получилась система из двух уравнений:
P(A) = pi;
(1 - P(A)) + P(A)P(B) = p2, из которой несложно вывести:
р(В) = Pi+Pi~l Pi
Это точный ответ. В [34] ответ получен как интервальная оценка:
р2+ рх-1< Р(В) < р2.
Ответ, полученный методами АК, также позволяет по значениям заданных вероятностей событий оценить допустимость или недопустимость этих событий. Это можно сделать, используя неравенства:
рі+р2-\>0ирі+р2-\<рі.
Из НИХ следует допустимость событий при условии Р\+ р2> 1. Второе неравенство после преобразования становится очевидным: р\<\. Таким образом, верхняя граница для P(B), полученная Н. Нильсоном, избыточна.
В общем случае алгоритм решения задач вероятностной логики следующий. Пусть заданы исходные логические формулы F, с известными вероятностями P(F) и формула G, вероятность которой P(G) требуется вычислить. Тогда выполняется следующая последовательность операций:
1) формулы F¡ и G преобразуются в ортогональные С-системы;
2) для каждой из полученных систем составляется уравнение регрессии ВД и Е(в);
3) составляется и решается система уравнений {Е(^)};
4) если система уравнений {Е(^)} имеет единственное решение, то полученные значения переменных подставляются в формулу Е(О) и находится точный ответ.
Приведем более сложный пример.
Пример 4. Даны вероятности событий, описанных формулами исчисления высказываний: Р(А з С )=р\, Р{{А л В) V В) = р2; Р(А \/В)=ръ. Требуется найти вероятность события (А V С).
Выразим заданные события в терминах АК:
{0} * *
А^ С = А V С «]{0} 0 {0}[ =
{1} * {0}
(А л В) V В <=>
{} {0} * {1}
А V В »]{!} {0} 0[ =
ivCo]{ 1} 0 {!}[ =
{ 1} * *
{0} {0} -{1} * * {0} * {1}_
Пусть х = P(A); у = P(B); z = P(C). Тогда для первых трех событий получим следующую систему уравнений:
(1 - х) + х(1 - z) = рь
х(1 - y) + y = Р2;
х + (1 - х)(1 - у) = Рз.
Результатом решения этой системы будет:
z=-
2~Р2~Рз' Р2+Р3-1
Далее построим уравнение регрессии для события A v С: х + (1 - x)z. Подставляя в это уравнение значения вычисленных вероятностей, находим:
Р(АуС,= '-Л(2-Л-Р>К
р2 +рз -1
В предыдущих двух примерах был получен точный ответ. Но такая ситуация возможна не всегда, в частности, когда число полученных уравнений меньше числа переменных. Но неопределенности возможны и тогда, когда количество уравнений и переменных одинаково. Рассмотрим пример.
Пример 5. Пусть вероятности событий заданы логическими формулами:
Р(А V В) = а; Р(А лВ) = Ь.
Требуется найти оценку P(A) и P(B). Выразим данные события в системе как ортогональные С-системы:
'{I} *
ivßo]{l} {1}[ =
{0} {1}
Составим систему уравнений: P(A) + (1 - P(A)) P(B) = a;
;^лВо[{іі {і}].
Р(А)Р(В) = Ъ.
Решая данную систему уравнений, получим
а + Ь ±-у](а + Ь)2 -4Ь а + Ь + ^(а + Ь)2 - 4Ь
Р{А)=---------------------;Р(В)=- 2
Видно, что полученные решения не дают однозначного ответа в тех случаях, когда подкоренное выражение не равно 0.
Чтобы охарактеризовать вычислительную сложность алгоритмов в АК, далее приводится оценка вычислительной сложности операций с АК-объектами.
4. Оценка вычислительной сложности алгоритмов
Значительная задач (например, задача выполнимости КНФ), возникающих в логическом анализе при организации процедур вывода, относится по вычислительной сложности к классу ЛР-полных [35], то есть приводит к алгоритмам экспоненциальной сложности. Однако имеется немало частных случаев этих задач, которые решаются за полиномиальное время. Для задачи выполнимости КНФ к таковым относятся КНФ, в которых каждый дизъюнкт имеет не более двух литералов, или КНФ, содержащие только хорновские дизъюнкты. Выявление частных случаев с полиномиально распознаваемым свойством выполнимости имеет большое значение в прикладных исследованиях, поскольку способствует ускорению алгоритмов.
Известные частные случаи могут быть интерпретированы и в структурах АК, но здесь появляются дополнительные средства снижения трудоемкости, в частности за счет анализа монотонных и бесконфликтных блоков [2, 8].
Особенность АК состоит в том, что операции и сравнения с АК-объектами сводятся к операциям и сравнениям с множествами, являющимися компонентами этих АК-объектов. Во многих приложениях компоненты представляют собой конечные множества, либо могут быть сведены к системам конечных множеств (например, системы из конечного числа интервалов, заданных на действительной числовой оси). С учетом этого для оценки вычислительной сложности алгоритмов в среде АК примем сложность операций с компонентами равной некоторой константе С. Тогда можно считать, что вычислительная сложность всех операций и сравнений над АК-объектами зависит только от размерностей участвующих в операциях и сравнениях АК-объектов. В табл. 2 приведены различные сочетания АК-объектов и операций над ними, знаком "+" помечены сочетания, для которых алгоритмы выполнения соответствующих операций полиномиальны при условии, что все домены атрибутов есть простые множества (а не многоместные отношения).
Из табл. 2 видно, что вычислительная сложность операций зависит от класса структур используемых при этом АК-объектов. Например, проверка включения С-кортежа в С-систему выполняется в общем случае с помощью алгоритма экспоненциальной вычислительной сложности, в то время как алгоритм проверки включения С-кортежа и даже С-системы в В-систему имеет полиномиальную сложность. В табл. 2 отсутствуют операции пересечения, объединения и дополнения. Операция дополнения АК-объекта во всех случаях требует алгоритмов полиномиальной вычислительной сложности, но при этом система преобразуется в альтернативный класс. Операции пересечения и объединения АК-объектов, относящихся к одному классу, выполняются
алгоритмами полиномиальной сложности. Трудности возникают в случаях, когда для реализации операций или сравнений требуется преобразование С-систем или В-систем в альтернативный класс.
Задача преобразования АК-объекта в альтернативный класс для случая, когда АК-объект есть В-система (или С-система), по вычислительной сложности выходит за предел ЫР--полных задач и относится к классу #Р-полных, то есть задач перечисления.
Таблица 2
Трудоемкость операций АК
Действие С-кортеж С-система .О-кортеж О-система
Проверка принадлежности заданного элементарного кортежа в + + + +
Проверка включения С-кортежа в + + +
Проверка включения С-системы в + + +
Проверка включения В-кортежа в + + +
Проверка включения В-системы в
Кванторная операция Ух + + +
Кванторная операция Зх + + +
Если требуется преобразовать АК-объект Я размерности тхп ( п - число атрибутов, а - число кортежей) в альтернативный класс, то в худшем случае потребуется Спт операций (каждая строка Я преобразуется в систему из п кортежей и необходимо выполнить такой же объем операций, как при вычислении декартова произведения полученных после преобразования систем). Причем это соотношение справедливо, даже если каждая компонента является подмножеством множества {0, 1} (модели исчисления высказываний). На первый взгляд представляется, что при реализации в структурах АК задач, относящихся в исчислении высказываний и в исчислении предикатов к классам ^Р-полных, трудоемкость решения не только не уменьшается, но в ряде случаев даже увеличивается. Однако, как показывает практика, большинство задач логического анализа можно решить без преобразования АК-объектов в альтернативные классы [2]). Если же таких преобразований не избежать, то даже в том случае, когда матрица АК-объекта содержит сравнительно небольшое число фиктивных компонент, методы уменьшения трудоемкости на основе матричных свойств АК-объектов оказываются удобными для использования. Иногда для таких "плотных" АК-объектов удается найти частные случаи, когда сложность преобразования полиномиальна [2, 36].
Для разреженной матрицы АК-объекта оценка Cnm заменяется оценкой Ckm, где k << n. Поиск и разработка новых методов снижения трудоемкости алгоритмов в АК значительно упрощается за счет большей регулярности структур АК-объектов по сравнению с формальными представлениями логических систем. В частности, матричное представление АК-объектов позволяет естественно применять методы распараллеливания алгоритмов.
При реализации в АК алгоритмов задач, относящихся в соответствующих логических моделях к классам ЛР-полных, существенную роль в уменьшении их трудоемкости играет предварительная ортогонализация структур. В этом случае соответствующая организация вычислений в дереве поиска решения приводит к более интенсивному отсечению ветвей, что часто значительно уменьшает общее число вычислительных операций.
Заключение
Таким образом, АК реализует общую теорию многоместных отношений, пригодную для решения следующих задач обработки данных и знаний:
1) унифицированное представление данных и знаний;
2) моделирование систем дедуктивного вывода;
3) моделирование и анализ модифицируемых рассуждений (гипотезы, абдукция и т.д.) и рассуждений с неопределенностями;
4) логико-семантический анализ моделируемых систем;
5) сокращение трудоемкости алгоритмов решения сложных задач логического анализа;
6) вероятностный анализ логических систем.
В конечном счете, в рамках законов классической логики предложен новый алгебраический подход к унифицированному представлению основных видов данных и знаний, встречающихся в интеллектуальных системах, и решению задач дедуктивного и недедуктивного логико-семантического анализа.
Резюмируя итоги выполнения проекта, можно утверждать, что на базе предложенных основе алгебры кортежей и алгебры условных кортежей разработан методологический и алгоритмический аппарат комбинированного логико-семантического анализа баз данных и знаний.
Литература
1. Бурбаки, Н. Теория множеств / Бурбаки Н. - М., Мир, 1965. - 465 с.
2. Кулик, Б.А. Алгебраический подход к интеллектуальной обработке данных и знаний / Б.А. Кулик, А.А. Зуенко, А.Я. Фридман - СПб.: Изд-во Политехн. ун-та, 2010. -235 с.
3. Зуенко, А.А. Синтез методов логико-семантического анализа в рамках законов классической логики / А.А. Зуенко // Настоящий сборник. - С. 112-119.
4. Зуенко, А.А. Унификация обработки данных и знаний на основе общей теории многоместных отношений / А.А. Зуенко, Б.А. Кулик, А.Я. Фридман // Искусственный интеллект и принятие решений, 2010. - Вып. 3. - С.52-62.
5. Kulik, B. Algebraic Method of Intelligent Data and Knowledge Processing /B. Kulik, A. Fridman, A. Zuenko // Proceedings of First Russia and Pacific
Conference on Computer Technology and Applications (Vladivostok, 6-9 September, 2010). - pp.130-135.
6. Artemieva, I.L. Integration of Ontologies, Knowledge and Data Archives into Ontology-Based Modeling Systems / I.L. Artemieva, A. A.Zuenko, А. Ya.Fridman. // Pattern Recognition and Information Processing (PRIP'2011): Proceedings of the 11th International Conference (18- 20 May, Minsk, Republic of Belarus). - Minsk: BSUIR, 2011. - рр.303-306.
7. Зуенко, А.А. Интеграция баз данных и знаний интеллектуальных систем на основе алгебраического подхода / А.А. Зуенко, Б.А. Кулик, А.Я. Фридман // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (0STIS-2011): материалы Междунар. научн.-техн. конф. (Минск, 10-12 февраля 2011 г.) -Минск: БГУИР, 2011. - С.59-70.
8. Kulik, B. Algebraic Approach to Logical Inference Implementation. / B. Kulik, A. Fridman, A. Zuenko // Computing and Informatics (CAI), Slovakia (в печати).
9. Kulik, B. Logical Inference and Defeasible Reasoning in N-tuple Algebra / B. Kulik, A. Fridman, A. Zuenko // In: “Diagnostic Test Approaches to Machine Learning and Commonsense Reasoning Systems”, IGI Global (в печати).
10. Kulik, B. Modified Reasoning by Means of N-Tuple Algebra / B. Kulik, A. Zuenko, A. Fridman // Pattern Recognition and Information Processing (PRIP'2011): Proceedings of the 11th International Conference, 18-20 May, Minsk, Republic of Belarus). - Minsk: BSUIR, 2011. - рр.271-274.
11. Kulik, B. Logical Analysis of Intelligence Systems by Algebraic Method / B. Kulik, A. Fridman, A. Zuenko // Cybernetics and Systems 2010: Proceedings of Twentieth European Meeting on Cybernetics and Systems Research (EMCSR 2010). - Vienna, Austria, 2010. - pp.198-203.
12. Кулик, Б.А. Анализ семантики на основе общей теории многоместных отношений./ Б.А. Кулик, А.А. Зуенко, А.Я. Фридман// Системный анализ и информационные технологии: тр. Четвертой Междунар. конф., г. Абзаково, Россия, 17-23 августа 2011 г. - Т.1. - Челябинск: Изд-во Челяб. гос. ун-та, 2011. - С.88-94.
13. Кулик, Б.А. Теория отношений как инструмент семантического анализа данных и знаний./ Б.А. Кулик, В.Г. Курбанов, А.Я. Фридман // Вестник СПбГУ, 2010. -Вып. 4. -С.86-96.
14. Кулик, Б. А. Управление логико-семантическим анализом на основе теории отношений / Б.А. Кулик, А.А. Зуенко, А.Я. Фридман // VIII Всерос. школа-семинар «Прикладные проблемы управления макросистемами», г. Апатиты, 29 марта - 2 апреля 2010 г. Материалы докл. - Апатиты: Изд-во КНЦ РАН,
2008. - С.23-24.
15. Фридман, А.Я. Ситуационное моделирование природно-технических комплексов / А.Я. Фридман, О.В. Фридман, А.А. Зуенко. - СПб.: Изд-во Политехнического ун-та, 2010. - 436 с.
16. Фридман, А.Я. Контекстный подход к обработке ситуаций в системах концептуального моделирования / А.Я. Фридман, А.А. Зуенко // Искусственный интеллект. Интеллектуальные системы (ИИ-2009). Материалы Х Междунар. научно-техн. конф. - Таганрог: Изд-во ТТИ ЮФУ,
2009. - С.118-120.
17. Зуенко, A.A. Kонтекстный подход в системах сопровождения открытых моделей предметной области / A.A. Зуенко, AÆ Фридман // Искусственный интеллект и принятие решений. 2008. - №3. - С.41-51.
18. Зуенко, A.A. Aнализ контекстов при моделировании слабо формализованных предметных областей / A.A. Зуенко, БА. ^лик, AÆ Фридман // Двенадцатая нац. конф. по искусственному интеллекту с междунар. участием KИИ-2010,г. Тверь, Россия, 20 -24 сентября 2010 г.: тр. конф. Т.2 -М.: Физматлит, 2010. - С.164-172.
19. Зуенко, A.A. Aнализ корректности запросов к базам данных систем концептуального моделирования средствами алгебры кортежей / A.A. Зуенко, БА. ^лик, AÆ Фридман // Искусственный интеллект. Интеллектуальные системы (ИИ-2009: мат. X Междунар. научно-техн. конф. - Таганрог: Изд-во ТТИ ЮФУ, 2009. - С.86-88.
20. Зуенко, A.A. Развитие алгебры кортежей для логического анализа баз данных с использованием двуместных предикатов / A.A. Зуенко, AÆ Фридман // Известия PAH. Теория и системы управления.- 2009. - №2. - С.95-103.
21. Зуенко, A.A. Aвтоматический контроль корректности процесса моделирования в рамках алгебраического подхода / A.A. Зуенко, AÆ Фридман, БА. ^лик // Труды ^льскою научного центра PAH. Серия: Информационные технологии. - Amra™, 2010. - Вып. 1. - С.18-22.
22. Зуенко, A.A. Метод семантического анализа нерегламентированных запросов в реляционной базе данных с иерархической структурой / A.A. Зуенко, AÆ Фридман // Труды ИСA PAH. Прикладные проблемы управления макросистемами / под ред. Ю.С. Попкова, ВА. Путилова.- М., ^ижный дом "ЛИБРО^М", 2008. - Т. 39. - С.141-159.
23. Зуенко, A.A. Логический вывод при семантическом анализе нерегламентированных путевых запросов / A.A. Зуенко, AÆ Фридман // Одиннадцатая нац. конф. по искусственному интеллекту с междунар. участием KИИ-2008,
г., Дубна, 28 сентября - 3 октября 2008: труды конф. - М., ЛЕHAHД, 2008. -Т.1. - С.298-304.
24. Зуенко, A.A., ^лик БА., Фридман AÆ Интеллектуализация анализа сложных запросов в реляционных СУБД / A.A. Зуенко, БА. ^лик, AÆ Фридман // 21-я Международная ^ымская конференция «СВЧ-техника и телекоммуникационные технологии» ^рыМи^^И). Севастополь, 12— 16 сентября 2011 г.: мат. конф. — Севастополь : Вебер, 2011. — C. б1, б2.
25. Зуенко, A.A. Управление контекстом при организации интеллектуа-лизированного интерфейса БД в системах моделирования на основе концептуального подхода. / A.A. Зуенко, AÆ Фридман // Труды ИСA PAH. Прикладные проблемы управления макросистемами / Под ред. Ю.С. Попкова, ВА. Путилова. - М., ^ижный дом «ЛИБPОKОМ», 2008.
- Т.39. - C.12S-141.
26. Зуенко, A.A. Kонтекстно-ориентированное управление данными в системах моделирования сложных объектов / A.A. Зуенко, AÆ Фридман // Информационные технологии в региональном развитии: сб. научн. тр. ИИММ KHЦ PAH.- Amra™: Изд-во KHЦ PAH, 2009. - Вып. IX. - С.45-50.
27. Зуенко, А.А. Управление ограничениями в системах концептуального
моделирования: имеющийся задел и перспективы / А.А. Зуенко,
А.Я. Фридман // Настоящий сборник. - С.120-127.
28. Зуенко, А. А. Примеры применения алгебры кортежей в интеллектуальном анализе данных / А. А. Зуенко, Б. А. Кулик, А. Я. Фридман // Двенадцатая нац. конф. по искусственному интеллекту с междунар. участием КИИ-2010,
г.Тверь, 20-24 сентября 2010 г.: тр. конф. Т. 3. - М.: Физматлит, 2010.
- С.279-287.
29. Зуенко, А.А. Семантическая обработка информации в современных фактографических системах / А.А.Зуенко, А.Я. Фридман // Труды Кольского научного центра РАН. Серия: Информационные технологии. -Апатиты, 2010. - Вып. 1. - С.23-28.
30. Кулик, Б.А. Алгебраическое моделирование вопросно-ответных систем / Б.А. Кулик, А.Я. Фридман, А.А. Зуенко // Материалы первой российской научной конф. с междунар. участием «Системный анализ и семиотическое моделирование (SASM’2011)». - Казань: Изд-во «Фэн» Академия наук РТ, 2011. -C.290-298.
31. Рябинин, И.А. Надежность и безопасность структурно-сложных систем / И.А. Рябинин - СПб., Политехника, 2000. - 248 с.
32. Рябинин, И. А. Логико-вероятностные методы исследования надежности структурно-сложных систем / И.А. Рябинин, Г.Н.Черкесов. - М.: Радио и связь, 1981. - 264 с.
33. Соложенцев, Е.Д. Сценарное логико-вероятностное управление риском в бизнесе и технике / Е.Д. Соложенцев - СПб., Издательский дом "Бизнес-пресса", 2004. - 432 с.
34. Nilsson, N. J. Probabilistic Logic / N.J. Nilsson // Artificial Intelligence. -1986.
- №28. - pp. 71-87.
35. Гэри, М. Вычислительные машины и труднорешаемые задачи / М. Гэри, Л. Джонсон. - М.: Мир, 1982. - 416 с.
36. Кулик, Б.А. Новые классы КНФ с полиномиально распознаваемым свойством выполнимости / Б.А. Кулик // Автоматика и телемеханика, 1995.
- № 2. - С. 111-124.
Сведения об авторах Зуенко Александр Анатольевич
к.т.н., научный сотрудник. Учреждение Российской академии наук Институт информатики и математического моделирования технологических процессов Кольского научного центра РАН.
Россия, 184209, г. Апатиты Мурманской обл., ул. Ферсмана, д. 24А. e-mail: [email protected].
Alexander A. Zuenko
PhD (2009), a researcher of the Institution of Russian Academy of Sciences, Institute for Informatics and Mathematical Modeling of Technological Processes, Kola Science Center оf RAS. Russia, 184209, Apatity Murmansk region, Fersman St. 24А.
Фридман Александр Яковлевич
д.т.н., проф., зав. лабораторией. Учреждение Российской академии наук Институт информатики и математического моделирования технологических процессов Кольского научного центра РАН.
Россия, 184209, г. Апатиты Мурманской обл., ул. Ферсмана, д. 24А. e-mail: [email protected].
Alexander Ya. Fridman
Dr. of Sci (Tech.), Professor, head of Laboratory. Institution of Russian Academy of Sciences, Institute for Informatics and Mathematical Modeling of Technological Processes, Kola Science Center cf RAS.
Russia, 184209, Apatity Murmansk region, Fersman St. 24А.
Кулик Борис Александрович
д.ф.-м. наук, ведущий научный сотрудник. Учреждения Российской Академии Наук Институт Проблем Машиноведения РАН (ИПМаш РАН).
Россия, 199178, Санкт Петербург, Васильевский остров, Большой проспект, 61. e-mail: [email protected]
Boris A. Kulik
Dr. of Science (Physics and Mathematics), leading researcher in the St.-Petersburg Institute of Problems in Machine Science of the Russian Academy of Sciences.
Russia, 199178, St. Petersburg,V. O., Bolshoj prosp., 61.