Юркова Т.М., Егоров С.Н. КОНЦЕПЦИИ ПОСТРОЕНИЯ ИНФОРМАЦИОННОЙ СИСТЕМЫ УПРАВЛЕНИЯ НА ОСНОВЕ УЧЕТА ПРЕДПОЧТЕНИЙ ПОЛЬЗОВАТЕЛЯ
Развитие Интернет-технологий дало мощный толчок развитию новых направлений бизнеса, в том числе обеспечило создание сетевых торговых инфраструктур. Происходящее на этом фоне развитие мирового рынка товаров и услуг приводит к возникновению ряда новых проблем. Огромный объем предложений, широкое разнообразие товаров и услуг, высокая динамика изменений рынка ведет к резкому возрастанию сложности и трудоемкости работ, увеличивает трудоемкость услуг, значительно повышая их стоимость, а в некоторых случаях доводят их до функциональных отказов.
В подобной ситуации нужна кардинальная смена самой концепции обработки информации, в том числе с использованием всемирной паутины, которая бы позволила более содержательно отвечать запросам клиентов, более оперативно реагировать на изменяющиеся требования и гибко адаптироваться к условиям рынка за счет сокращения объемов ненужной информации, упрощения процедур их обработки и т.д.
Ставится задача более качественного и эффективного нахождения соответствий спроса и предложения за счет повышения уровня персонификации и индивидуализации информации, анализа типов пользователей и их интересов, оперативности и гибкости в подаче информации (следование за постоянно меняющимися интересами пользователей), удобства получения, обработки и рассылки информации, постоянного поиска наилучшего из существующих на данный момент вариантов, организации процедур учета вкусов и интересов пользователя, возможных альтернатив и др.
Создание Интернет-технологий, обеспечивающих учет индивидуальных предпочтений пользователей для интегрированного предложения различных дополнительных (сопутствующих, интегрированных) сервисов, например, в случае продажи авиабилета это может быть выбор гостиницы, кросс - продажа билетов на культурные события, бронирование ресторанов, сдача в аренду машин и др., что оказывает существенное влияние на продвижение товаров и услуг за счет учета дополнительных требований и пожеланий, предоставляемых пользователем.
Одной из основных методологий фиксации знаний является формирование онтологии предметной области [1]. При этом онтология сроится на основе выделения классов терминов, отношений и преобразований, соответствующих физическим и абстрактным сущностям, и необходимых для решения задач предметной области. Подобное представление предметной области служит сигнатурой для создания модели предметной области S (Subject), которое будем определять следующим образом [2]:
On^S = (jS, RS, ’
где Ts (Terms) -конечное множество классов терминалов (понятий) предметной области S, обладающих качественными признаками, которые составляют их отличительную особенность в онтологии; R (Relations)
- конечное множество отношений между классами терминов; Axs (Axioms) - конечное множество аксиом
(функций интерпретации), заданных на классах и отношениях онтологии.
Вся работа с заданием предпочтений пользователей, описаний имеющихся товаров и услуг и анализом соответствия ведется на основе онтологии. Здесь под термином «онтология» понимается языковозависимая концептуальная модель предметной области, являющаяся механизмом формализованного описания предметных областей.
Формально каждую i -ю онтологию можно представить в виде кортежа:
O = (Of ,oR,oO),
где OC - множество концептов i -й онтологии; OR - множество отношений между понятиями i -й онтологии, например, «часть - целое» и т.д.; OO - множество операций концептов i -й онтологии. Концепт
онтологии описывает содержание понятия предметной области, определяет его смысловую наполненность в отвлечении от конкретно-языковой формы его выражения.
Множество операций концептов представляется следующим образом:
OO = {о° I j = J},
где OO - множество операций j -го концепта i -й онтологии; jf =|oO |; Of может быть пустым.
O° = {Oijk I k = iTKf} ,
где Ojjx - k -я операция j -го концепта i -й онтологии; К°° - количество операций j-го концепта; OO может быть 0. Далее необходимо определить, каким образом бизнес-процессы связаны со знаниями о соответствующих им предметных областях. Формально каждый бизнес-процесс Bp можно записать в виде кортежа:
BP = (BpA, Uj, FLj, IN,, OUT) ,
где BPA - множество атрибутов процесса; U - множество субпроцессов; FL - множество потоков, связывающих субпроцессы; IN - множество входов; OUJ - множество выходов i -го бизнес-процесса. Множество атрибутов i -го бизнес-процесса имеет вид:
BPA = (ABP, GBP, ViBP) ,
где ABP - множество атрибутов, идентифицирующих i -й бизнес-процесс; GBP - множество целей; V BP
— множество индикаторов, соответствующих целям i-го бизнес-процесса.
Отдельный j -й субпроцесс нижнего уровня иерархии i -го бизнес-процесса можно представить в виде:
Uj = (UA, F°) ,
где UA - множество атрибутов j -го субпроцесса; Ff - множество бизнес-функций субпроцесса. Каждую бизнес-функцию (работу) fO еFO можно представить так:
fO = (FA, p) ,
A г-.
где F - множество атрибутов, идентифицирующих бизнес-функцию; pе P - участник-исполнитель работы; P - множество всех исполнителей бизнес-процессов.
Каждый i -й поток (данных или управления) FL- из множества потоков j-го бизнес-процесса можно задать следующим образом:
FLj = (FLA, fl,Obj) ,
где FLA - множество атрибутов i -го потока; fl(. = (Ujm,U ■„) - кортеж декартового произведения
Uj xUj,Uj - множество субпроцессов j -го бизнес-процесса; Uym,Uin - субпроцессы j -го бизнес-
процесса; Ojj — множество объектов, передаваемых в i-м потоке, причем Obj может быть 0. Тогда, описывая бизнес-процесс на основе онтологии, каждой бизнес-функции fO е FO можно поставить в соответствие операцию из соответствующей онтологии:
f° ^ Okml ,
где okrri е°0 - l -я операция m-го концепта к -й онтологии. Из этого следует, что исполнителю бизнес-функции можно поставить в соответствие следующее:
Р ^ Okm ,
где ofm е°С - m-й концепт к -той онтологии. Каждый объект obj eObj , передаваемый в i -том потоке,
также соответствует концепту из онтологии, на основе которых описывают бизнес-процесс.
Таким образом, перед описанием процессов нужно выполнить формализацию предметных областей, в рамках которых они выполняются. Для этого необходимо описать концепты онтологии, а именно: объекты
(например, документы), которые используются в потоках, связывающих субпроцессы бизнес-процесса; и исполнителей бизнес-функций. Следует отметить, что при описании исполнителей в онтологии следует описать их доступные операции, выполнение которых позволит реализовать бизнес-функции процесса.
Обычно на начальном этапе формирование онтологии осуществляется методом интроспекции. Согласно этому методу инженер знаний обращается к своим априорным знаниям и эксплицирует их в рамках предметной области. Недостатком такого метода является его субъективизм, что откладывает отпечаток личностного представления на все последующие этапы формирования онтологии.
Предлагаемый подход формирования онтологии использует принципы объектно-ориентированного анализа и состоит в поэтапной, нисходящей детализации корпусов NFL-континуума с последующим выделением конструкций типа объект (корпуса NFL-континуума) - атрибуты и взаимодействия между объектами. В случае, если в качестве NFL-континуума имеем текстовые источники информации, то «корпус NFL-континуума» есть не что иное, как предложение текста. Устойчивые именные группы (например, в текстах ими могут быть имена существительные), в NFL -континууме помогают описать множество объектов, которые объединяются в классы терминов, образуя фактор-множество. Здесь на помощь инженеру знаний может прийти словарь, в котором накоплены кластеры слов, близких друг к другу. Кластеры накапливаются путем сбора статистики из большого числа источников. При этом выбираются не прагматические отношения между именными группами, а просто статистические, что позволяет отсечь синонимию. В процессе непосредственного использования NFL-континуума автоматизированной информационной системой приходится неизбежно наталкиваться на целый ряд проблем лингвистической природы. Одной из главных таких проблем является проблема разрешения анафорических связей. Анализируя способы наименования объектов в документах, следует различать референциальное тождество имен, т. е. отношение, связывающее имена одного и того же объекта, и анафорическую связь имен - отношение между двумя именами, из которых значение одного содержит отсылку к другому. В работе [2] предлагается использовать для каждого объекта в заданной ситуации некоторое прямое имя, которое отличает его от всякого рода непрямых - классификаторов и функциональных имен, т. е. наименований данного предмета через :го отношение к какому-то другому. Подобного рода проблемы носят имманентный характер, ибо, по мнению Никколо Гуарино, онтология есть языковозависимая концептуальная модель.
Разработка автоматизированных информационных систем, основанных на знаниях, требует решения проблем эксплицирования и фиксации в базе знаний информации, содержащейся в NFL (Natural Formal Language) - континууме по некоторой предметной области. В данном случае под NFL- континуумом понимается вся совокупность источников информации на естественных и формализованных языках. Представление первичной информации основано на использовании алфавита, построенного на множестве символов. Наименьшей информативной единицей представления информации является слово, заданное на k-ой последовательности символов. Подобное представление информации дает возможность подвергать анализу не только чисто документальную, текстовую информацию, но и структурированную, числовую информацию, содержащую фактические сведения.
При этом необходимо синтезировать систему, ориентированную на анализ предпочтений пользователей, приходящих на сайт, с анализом групп пользователей и их интересов, а также с возможностью выяснения насколько получаемые результаты соответствуют пользовательскому запросу.
Таким образом, разработка удобной интеллектуальной системы поиска наилучших вариантов на основе Интернет - запросов пользователей к базе данных обеспечит повышение производительности и индивидуальности обработки запросов.
Предполагаемое использование системы - поддержка Интернет - сайтов, ориентированных на работу с пользователем, и предоставление ему по запросу определенной информации или услуг. Например, данная система может использоваться для работы Интернет-магазинов, Интернет-порталов или поисковых систем.
На следующем этапе из корпусов NFL-континуума извлекаются факты, те части NFL-континуума, которые содержат реальные события и явления. По аналогии с логикой высказываний, предложения характеризуют сложные высказывания, а факты рассматриваются как простые высказывания, представляющие собой простые утвердительные предложения. Далее все факты группируются по объектам. Некоторые факты могут явно упоминать объекты, это свидетельствует о том, что объекты были идентифицированы соответствующим образом. В других фактах объекты подразумеваются неявно (анафорическая связь имен), тем не менее, все факты группируются с объектами. Один и тот же факт может быть соотнесен с разными объектами. Для удобства используется матрица K0nt (Knowledge-Ontology), где столбцы представляют группы, в данном случае группы «объект» и «факты», а строки - соответствующие записи, в которые помещаются названия объектов и перечисляются относящиеся к ним факты. В матрице K группа «объект» представлена в виде множества Ts/= {^.,,..., t, -\,...tn J , где i= 1, 2, ...,n, а п - число идентифицированных объектов. Множество
Ts/впоследствии вырождается в классы терминов. Затем необходимо последовательно разделить факты
для каждого объекта на три группы и добавить их в матрицу K0nt в виде новых столбцов. Разделение следует проводить с помощью как семантического, так и синтаксического разбора фактов. Разделение факта для первой группы состоит в выявлении необходимых постоянных признаков, принадлежащих объекту, которые назовем атрибутами объекта. Группа атрибутов (Attributes) в матрице K0nt представлена множеством A 2 = a 2,..., a 2,".am 2} , где j = 1, 2, ..., п, a m - число атрибутов соответствующего объекта.
Атрибуты объекта характеризуют его свойства и могут упоминаться в фактах именами прилагательными, наречиями и именами существительными, которые до этого не были определены в качестве объектов.
Далее для каждого объекта добавляется вторая группа, вариации поведения (Behavior). Представим данную группу в виде Bs/3 = b 3,..., bj 3, ...Зр 3} , где j = 1, 2, ..., р, а р - число вариаций поведения со-
ответствующего объекта. В эту группу помещается каждая вариация поведения объекта, которая может быть вызвана какой-либо переданной ему информацией, т. е. посылкой некоторого сообщения. Вариации поведения определяют совершаемые объектом действия, которые путем манипуляции его атрибутов переводят объект из одного состояния в другое. На этом же этапе возможно уточнение и пополнение списка атрибутов множества A .
Поведение объектов не определяется случайным образом. Объекты отзываются на стимулы в форме сообщений. Причем та или иная вариация поведения определяется посылкой объекту сообщения, требующего, чтобы объект выработал именно такой способ поведения. В фактах, указывающих на взаимодействие объектов, выявляется субъект предложения и объект предложения, над которым субъект совершает действие
путем посылки сообщения. Таким образом. Формируется группа взаимодействия Cs/4 = {с 4,..., С-4, ...Cs4} . Элементы С:
Су ^ представляются в следующем виде: объект-инициатор -> посылает сообщение ->объект-приемник.
Сообщение, посылаемое объектом-инициатором, для объекта-приемника может являться одновременно и вариацией поведения, изменяющим его состояние. В частности, в контексте текстов на вариации поведения и взаимодействия указывают глаголы, причастные и деепричастные обороты.
В результате факты, ранее соотнесенные с объектами, трансформируются в три новые группы, и исходная матрица К0п} примет вид
где столбцы представлены множествами классы понятий Ts - атрибуты, As - вариации поведения, Bs -взаимодействия C В строках размещаются соответствующие экземпляры классов, т. е. выделенные ранее объекты и элементы групп. Причем записи в строках отражают семантику фактов и являются не чем иным, как множеством аксиом (функций интерпретации) - Ax , заданных на объектах и определяющих взаимодействия между ними. Пара объект - атрибуты образует конечное множество классов - Ts, а группы вариации поведения - взаимодействия составляют конечное множество отношений - R . Естественным ограничением, накладываемым на множества Ts, Rs и Axs , является их конечность и непустота. В случае, если R и Axs
- пустые множества, онтология Onts трансформируется в простой словарь. Такая онтология может быть
полезна для спецификации, пополнения и поддержки словарей предметной области, но онтологии-словари имеют ограниченное использование, поскольку не вводят эксплицитно смысл терминов [1] . Онтологии часто приравнивают к таксономическим иерархиям классов, но онтологии не должны быть ограничены этими формами. В онтологиях только задание аксиом позволяет ограничить возможные интерпретации определенных терминов для рассматриваемого NFL-континуума.
Предлагаемый подход исключает пустоту множеств R и Ax , что дает возможность вводить иерархическую систему понятий, связанных между собой различного рода отношениями. Понятия организованы в иерархии, связи внутри которых структурированы так, чтобы осуществлять логический вывод на основе перехода от общего к частному и обратно. В процессе декомпозиции и классификации объектов используются такие универсальные отношения как: генерация - is_a «есть некоторый», классификация -
instance of «быть примером», агрегация - part_of «быть частью», ассоциация - member of «быть элементом». Выделение фактов из описания предметной области вида «объект - атрибут - действие» позволяет представлять знания как набор правил, каждое из которых состоит из двух частей: из антецедента и
консеквента или условия и результата, или (как в порождающей грамматике) левой и правой частей. Такая концепция позволяет использовать системы продукции [3]. Интегрирование модели представления знаний с продукционными системами позволяет учитывать взаимодействие причинно-следственных отношений различных типов.
В качестве основы моделирования выбрана так называемая «модель Аристотеля» [3], предлагающая для пользователя такие базовые концепты, как «объект», «сценарий действий», «отношение» и «атрибут». Данная модель позволяет представлять нечеткую и неструктурированную информацию в удобном виде, обеспечивая стандартные требования к онтологии - прозрачность, расширяемость, адекватность и пр.
ЛИТЕРАТУРА
1. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб: Питер, 200, 384 с.
2. Якимов В.Н., Дьяконов Г.Н., Машков А.В. Формирование онтологии предметной области на основе анализа NFL - континуума. Информационные технологии, № 3, 2006, с. 36-39.
3. Андреев В.В., Виттих В.Ф., Батищев С.В., Ивкушкин К.В., Минаков И.А., Ржевский Г.А., Сафронов А.К., Скобелев П.О. Методы и средства создания открытых мультиагентных систем для поддержки процессов принятия решений // Изв. АН. Теория и системы управления. 2003. № 1.
K Ont =