Гибридный подход к построению систем поддержки решений1
В. Н. Юдин, Л. Е. Карпов
Аннотация. Системы поддержки принятия решений, в которых результаты вывода по правилам дополняют результаты рассуждений по прецедентам - очередной шаг вперед по сравнению с моделями, поддерживавшими только одну из парадигм знаний. В существующих на данный момент гибридных системах основным инструментом вывода являются порождающие правила, а прецеденты используются лишь для обработки исключений. В описываемом подходе к поддержке решений для второй очереди исследовательской системы ИСП РАН и созданной на ее основе системе поддержки врачебных решений «Спутник Врача», рассуждения по правилам и прецедентам дополняют друг друга в условиях неоднозначной оценки неполностью описанного случая. Отсутствие существенного признака для одного из правил зачастую делает непригодным применение самих порождающих правил. На текущем этапе проекта разработана методика двухэтапной оценки случая, где сначала используется прецедентный подход с целью получить представление о возможной принадлежности случая тому или иному классу (так называемый дифференциальный ряд состояний случая). На основе этой информации, на втором этапе, уже по правилам вывода проводится обратный логический вывод от возможного заключения, как гипотезы, - к фактам, подтверждающим эту гипотезу. Это снижает затраты на поиск недостающих признаков и существенно ограничивает перебор ветвей при движении по цепи правил.
Ключевые слова: система поддержки принятия решения, вывод по прецедентам, добыча данных, вывод на основе правил, база прецедентов, мера близости, классы эквивалентности, пространство признаков, неполнота описания, дифференциальный ряд состояний, обратный логический вывод.
Введение
В институте системного программирования несколько лет проводятся исследования различных подходов к построению систем поддержки принятия решений при работе со сложными объектами, описания которых плохо формализуются и часто остаются неполными, не описывающими все
1 Работа поддержана грантами Российского фонда фундаментальных исследований № 12-01-00780, № 12-07-00214
особенности поведения объектов с необходимым уровнем детализации. Эта работа неоднократно поддерживалась Российским фондом фундаментальных исследований (см. [1-15]). В рамках общего исследования авторами строится пример системы поддержки решений, в которой в качестве объекта рассматривается организм человека. Организм человека - объект действительно сложный для понимания, хотя его исследования продолжаются уже не одну тысячу лет. Однако знаний, необходимых для проведения точной диагностики и исправления выявленных отклонений от нормы, пока явно недостаточно.
Первые варианты создаваемой системы строились на основе сочетания методов добычи данных (Data Mining) и логического вывода на основе прецедентов (Case-Based reasoning). В последнее время в рассмотрение попали также методы логического вывода знаний на основе правил, что в ещё большей степени позволяет называть создаваемую систему гибридной. Часто методы вывода по прецедентам и правилам противопоставляют друг другу, однако их сочетание позволяет получить в гибридной системе дополнительные преимущества.
Вывод, основанный на правилах (продукциях), позволяет интегрировать знания в систему с помощью правил описательной логики. Очень часто вывод на основе правил используется в реактивных системах, то есть в системах, которые отслеживают в одном или нескольких приложениях факты возникновения интересующих их событий, в частности, событий, сигнализирующих о критических условиях. Фиксация события приводит к выполнению действия, управляющего ситуацией. Для этого правила в программных системах обычно записываются в виде пар “событие-действие”. В некоторых моделях правило может содержать ещё и условие, то есть логический предикат над параметрами события, вычисляемый при обнаружении события. Предикат определяет, нужно ли выполнять указанное действие. В таких случаях говорят, что модель следует парадигме “событие-условие-действие” (event-condition-action - ЕСА):
«ПРИ <событие> ЕСЛИ (условие) ТО (заключение)»
Правила записываются в некотором порядке, который облегчает их понимание, но реально между ними нет отношения упорядоченности.
Модели, основанные на правилах, гораздо менее структурированы и меньше отражают порядок в общем потоке действий, чем многие другие подходы. Они больше подходят для тех ситуаций, в которых имеется не очень много ограничений на выполняемые действия, и где, следовательно, небольшое число правил может определять всю схему взаимодействий составных частей комплексной системы. Правила позволяют также моделировать асинхронные события, то есть события, которые могут произойти на любой стадии процесса управления, что делает их вполне пригодными для определения логики управления исключительными ситуациями, которые по своей природе асинхронны.
В самом общем виде данные, используемые при записи и обработке правил, можно разделить на данные, связанные с отдельными приложениями, и управляющие данные. Прикладные данные - это, например, параметры, посылаемые или получаемые в сообщениях, или извлекаемые из приборов при проведении измерений. Управляющие данные используются для вычисления условий перехода, а в общем случае это те данные, которые используются при проведении технологического процесса (например, при медицинской диагностике или управлении производственным процессом). В большинстве систем управляющих данных немного, их типы ограничены строковыми, целыми или вещественными типами, хотя иногда могут использоваться и составные типы - массивы или структуры. Значения управляющих данных обычно непосредственно извлекаются из сообщений и измерительных приборов.
Прикладные данные более сложны и разнообразны. Один из подходов для работы с ними заключается в их трактовке как чёрных ящиков, которые можно только передавать от одного вида деятельности другому. Другой подход пытается сделать все данные явными, вставляя соответствующие определения данных в состав описания правил.
Чёрные ящики имеют свои преимущества. Одно из них - в том, что модель может игнорировать обмены сложными данными между видами деятельности. Ранние системы из прагматических соображений использовали именно этот подход.
Условия в записи правил представляют собой посылки правил и состоят из одной или нескольких пар “атрибут-значение”, соединённых логическими связками “И”, “ИЛИ”, “НЕ”. Заключение выражает либо некоторый факт, либо указание на определённое действие, подлежащее исполнению. Механизм логического вывода отыскивает правила, в состав которых входят введённые факты, и актуализирует те, которым эти факты соответствуют. Правило срабатывает, если имеет место совпадение представленного факта с условием правила, при этом заключение сработавшего правила также становится фактом.
По мере срабатывания правил может быть подтверждено или опровергнуто конечное заключение. Метод рассуждений от фактов - к заключениям носит название прямой логический вывод. При обратном логическом выводе рассуждение идёт от заключения, как гипотезы - к фактам, подтверждающим эту гипотезу.
Уже давно получили популярность при описании принятия решений в медицине деревья решений [16]. Деревья, имеющие одну точку входа, называемую корнем, можно считать частным случаем правил вывода.
Вывод на основе прецедентов представляет собой метод принятия решений, моделирующий человеческие рассуждения. Метод использует знания о предыдущих ситуациях или случаях (прецедентах), которыми могут быть встречавшиеся ранее проблемы или типичные случаи, а также принятые в
связи с ними решения. При рассмотрении новой проблемы (текущего случая) находится похожий прецедент в качестве аналога. Вместо того чтобы искать решение каждый раз сначала, можно попытаться использовать его решение, возможно, адаптировав к текущему случаю.
Накопленная совокупность прецедентов, наполняемая как смоделированными случаями, так и случаями из практики, образует так называемую «базу прецедентов». Система, построенная по такому принципу, является самообучаемой: чем больше прецедентов содержится в базе, тем больше спектр их возможных значений, тем выше вероятность найти “наиболее подходящий” прецедент, следовательно, выше качество принимаемого решения.
Каждая из моделей обладает как преимуществами, так и недостатками. Идея вывода по правилам позволяет получить решение, не требующее доказательств, но она подразумевает наличие хорошо формализованной задачи. Основные достоинства таких систем - лёгкость восприятия каждого отдельного правила, несложность процесса внесения изменений, простота логического вывода, модульность представления знаний, независимость правил друг от друга. К недостаткам таких систем можно отнести отличие от структур знаний, свойственных человеку, неясность взаимных отношений правил, трудность понимания логики процессов, описанных большим числом правил. Такая модель представляет один из наиболее редких подходов к решению проблемы.
Основное достоинство систем на основе прецедентов - простота и лёгкость реализации, но они не создают моделей и правил, обобщающих предыдущий опыт. Такие системы эффективно работают только при наличии большой базы прецедентов. Одна из основных проблем - выбор подходящих прецедентов, который упирается в оценку схожести прецедента и текущего случая. Использование признакового описания, когда объект определяется набором своих характеристик, недостаточно характеризует его в системах подобного рода. При оценке объекта набор его признаков мало что даёт для исследователя до тех пор, пока этот объект не будет сравнен с множеством других подобных объектов на обладание общими, либо разными характеристиками. Для этого используют дополнительные знания о проблемной области, или, как их еще называют, фоновые знания. Один из способов оценки сходства или различия между объектами - разбиение их на классы эквивалентности, внутри которых объекты считаются равными. Классы могут быть построены различными способами: с помощью
экспертного знания, на основе обучающей выборки, или путём кластеризации базы прецедентов. Возможны также сочетания этих способов. Разбиение на кластеры можно считать частным случаем разбиения на классы, когда не требуется этап предварительного обучения.
В обоих подходах к принятию решений задачу поддержки принятия решений в том или ином виде можно свести к решению задачи классификации, где на
входе системы - набор признаков объекта, а на выходе - принадлежность к классу.
Метод
На очередном шаге проводимых в ИСП РАН исследований осуществлён переход к изучению гибридных систем поддержки принятия решений, в которых методика использования порождающих правил сочетается с методикой использования прецедентов. Такие системы можно рассматривать как очередной шаг вперед по сравнению с простейшей оболочкой, поддерживающей единственную парадигму представления знаний. Существующие прикладные системы с гибридной архитектурой ориентированы в основном на использование правил, а прецеденты используются лишь для обработки исключений. Новизна предлагаемого подхода заключается в том, что в механизме выработки решения результаты вывода по правилам и результаты рассуждений по прецедентам стали взаимно дополнять друг друга. Имея накопленную базу прецедентов, дополняя знания, полученные на основе изучения ранее встречавшихся случаев, действиями в ситуациях, заранее предусмотренных правилами поведения, можно решать различные задачи, связанные, в частности, с дифференциальной диагностикой, выбором лечения, оценками исхода заболеваний.
Большая часть существующих подходов к построению систем, основанных на прецедентах, сосредоточена на отборе прецедентов. В основе подходов к отбору лежит оценка схожести прецедента и текущего случая. Существующие подходы к такой оценке предполагают, что в основе описаний объектов лежит общий набор признаков. В реальных условиях, особенно в медицине, это не выполняется. Необходим метод оценки в условиях, когда объект исследования не полностью описан и оценивается неоднозначно.
Для осуществления оценки в пространстве всех признаков обычно вводится некоторая метрика. В этом же пространстве определяется точка, соответствующая текущему случаю, и на основе выбранной метрики находится ближайшая точка, представляющая прецедент. Однако в некоторых случаях ввести метрику не удаётся. В этих случаях вместо метрики используется так называемая мера близости. При разработке системы упор был сделан на работу в условиях неопределённости, когда объект (текущий случай) не полностью описан и попадает в смешение различных понятий. В медицине такая ситуация возникает, если в условиях дефицита времени и ресурсов выявлен недостаток информации о пациенте. Авторами был предложен алгоритм поиска наиболее подходящего прецедента для неполностью описанных объектов, базирующийся на разбиении базы прецедентов на классы эквивалентности.
Текущий случай
Plia 1. Оценка близости в системе.
Отношения между текущим случаем и классами выявляются в проекциях классов на пространство признаков случая. Недостаточно описанный случай может попасть в проекцию класса, к которому он не принадлежит, только потому, что у него не хватает признака, который дифференцировал бы его от этого класса. Наибольшую информацию об отсутствующих признаках могут дать аналоги - прецеденты, которые в признаковом пространстве случая ведут себя идентично по принадлежности к классам, то есть попадают в ту же область пересечения. Расстояние между текущим случаем и прецедентом определяется как разность количества классов, куда попал текущий случай (эти классы образую так называемый дифференциальный ряд случая), и количества классов из этого числа, в котором находится прецедент (рис. 1).
Как указывалось, задачу поддержки принятия решений можно свести к решению задачи классификации, где на выходе - принадлежность объекта классу. Перед реализацией гибридного метода была поставлена основная задача - на основании набора признаков объекта определить его принадлежность классу, возможно доопределив существенные признаки.
В системе, реализованной в ИСП РАН (прецедентный подход) для неполностью описанных объектов искомая принадлежность это -дифференциальный ряд классов возможной принадлежности объекта (рис. 1). Задача оценки (распознавания) объекта включает подзадачу - поиск признака, который дифференцировал бы его от классов дифференциального ряда, к которым он не принадлежит.
Медицина - прецедентная наука, но такой механизм явно не применяется при описании случаев в медицинской литературе, хотя понятие “дифференциальная диагностика” и послужила исходным пунктом для 452
разработки описанного метода. Несмотря на это, примеры в медицине часто описываются с помощью правил “если-то”, а в последнее время также иллюстрируются деревьями решений. На самом деле деревья решений представляют собой частные случаи продукционных правил. Задача оценки при использовании деревьев решений не меняется, а остаётся всё той же: начиная с корня дерева, проверяя узлы как существенные признаки объекта, дойти до одной из листовой вершин, представляющих класс объекта.
Вывод по прецедентам, в том модифицированном виде, как он здесь описан, оптимально подходит для неполностью описанных объектов, так как позволяет сразу оценить классы возможной принадлежности объекта. Остается только дифференцировать эти классы. В свою очередь, вывод по правилам для таких объектов может оказаться неприменим. Отсутствие существенного признака (используемого в узле) может сделать невозможным как вход в набор порождающих правил, так и прохождение указанного узла, делая непригодным весь механизм.
Рис. 2. Обратный логический вывод в деревьях решений.
На текущем этапе разработки системы реализована методика двухэтапной оценки случая, объединяющих оба механизма принятия решений, где вначале используется прецедентный подход с целью получить представление о возможной принадлежности случая тому или иному классу (дифференциальный ряд). На втором этапе, на основе этой информации, но уже по правилам вывода, проводится обратный логический вывод от возможного заключения, как гипотезы, - к фактам, подтверждающим эту гипотезу. В качестве заключений берутся классы дифференциального ряда. Если представить этот процесс в дереве решений, то вывод идёт от листовых вершин одного или нескольких деревьев (где листья помечены
предполагаемыми классами) к корням {рис. 2). Это снижает затраты на дополнительные исследования недостающих признаков и существенно ограничивает выбор ветвей при движении по цепи правил.
Казалось бы, вывод по прецедентам и по правилам - самодостаточные методы, каждый из которых может решить задачу оценки объекта от признаков к классам. Но в условиях неоднозначной оценки объекта вывод по правилам дополняет рассуждения по прецедентам в механизме выработки решения. В новой версии системы правила вывода могут формироваться как обобщение базы прецедентов, а также на основе экспертного знания, а арсенал предметной области может быть пополнен ассоциативными правилами и деревьями решений.
Заключение
Гибридные системы можно рассматривать как очередной шаг вперед по сравнению с простейшими моделями, поддерживающими только одну парадигму представления знаний. Однако в существующих на данный момент гибридных системах основным инструментом вывода являются порождающие правила, а прецеденты используются лишь для обработки исключений из правил.
В работе представлен подход, объединяющий оба механизма принятия решений, в попытке преодолеть или ослабить недостатки каждого из механизмов, пользуясь знаниями, добываемыми в предметной области методами добычи данных.
Предлагаемый подход позволит интегрировать имеющиеся в предметной области знания в механизм выработки решения таким образом, чтобы результаты вывода по правилам и результаты рассуждений по прецедентам взаимно дополняли друг друга.
Подход пригоден при работе с не полностью описанными объектами в условиях, когда накладываются ограничения по времени и ресурсам. Ранее авторами уже были разработаны алгоритмы отбора прецедентов на основе предложенной меры схожести, в которых была изначально учтена специфика работы с нефиксированным набором показателей, что особенно характерно для медицинских приложений, но этими приложениями не могут и не должны ограничиваться.
Авторам представляется, что такой подход, где методика использования порождающих правил сочетается с методикой использования прецедентов, востребован и актуален.
Литература
[1] JI. Е. Карпов, В. Н. Юдин, «Методы добычи данных при построении локальной метрики в системах вывода по прецедентам», Препринт Института системного программирования РАН, № 18, 2006, стр 1-42, http://citfontm.ru/consultinz/BI/data mining/
[2] JL Е. Карпов, В. Н. Юдин, «Адаптивное управление по прецедентам, основанное на классификации состояний управляемых объектов», Труды Института системного программирования РАН (ИСП РАН), т. 13, № 2, Институт системного программирования РАН, 2007, стр. 37-57, ISBN 5-89823-026-2. ISSN 2220-6426 (Online), ISSN 2079-8156 (Print), http://www.ispras.rU/ru/proceedinzs/docs/2007/13/2/isp 2007 13 2 37.pdf http://www.citforum.ru/consultinz/BI/karpov/
[3] JI. E. Карпов, В. H. Юдин, «Интеграция методов добычи данных и вывода по прецедентам в медицинской диагностике и выборе лечения», Математические методы распознавания образов. Сборник докладов 13-й Всероссийской конференции, октябрь 2007, МАКС Пресс, 2007, стр. 589-591, ISBN 978-5-317-02060-6, http://www.mmro.m/fíles/mmrol3.pdf
[4] В. H. Юдин, JI. Е. Карпов, А. В. Ватазин, «Процесс лечения как адаптивное управление человеческим организмом в программной системе "Спутник врача"», Альманах клинической медицины, т. 17, № 1, МОНИКИ, 2008, стр. 262-265, ISBN 978-5-98511-032-6 (Т. XVII, ч. 1), ISBN 5-9900012-1-5, http://www. i san, troitsk. ru/win/blockl. pdf
[5] В. H. Юдин, JI. E. Карпов, А. В. Ватазин, «Методы интеллектуального анализа данных и вывода по прецедентам в программной системе поддержки врачебных решений», Альманах клинической медицины, т. 17, № 1, МОНИКИ, 2008, стр. 266-269, ISBN 978-5-98511-032-6 (Т. XVII, ч.
1), ISBN 5-9900012-1-5, http://www. i san, troitsk. ru/win/blockl. pdf
[6] JI. E. Карпов, A. H. Томилин, В. H. Юдин, «Репликация и валидация в распределенной системе поддержки врачебных решений», Труды Всероссийской научной конференции "Научный сервис в сети Интернет: решение больших задач", МГУ, 2008, стр. 387-392, ISBN 978-5-211-05616-9, http://azora. sum, ni/abrau2008/pdf043.pdf
[7] JI. E. Карпов, В. H. Юдин, А. В. Ватазин, «Виртуальная интеграция и консолидация знаний в распределенной системе поддержки врачебных решений», Научно-практическая конференция ЦФО РФ «Актуальные вопросы гемафереза, хирургической детоксикации и диализа», МОНИКИ, 2009, стр. 36. ISBN 978-5-98511-054-8.
[8] А. В. Ватазин, JI. Е. Карпов, В. Н. Юдин, «Виртуальная интеграция и консолидация знаний в распределенной системе поддержки врачебных решений», Альманах клинической медицины, т. 20, 2009, стр. 83-86. ISSN 2072-0505.
[9] А. В. Ватазин, JI. Е. Карпов, В. Н. Юдин, «Многопараметрическое управление сложным объектом в программной системе поддержки врачебных решений», III Евразийский конгресс по медицинской физике и инженерии "Медицинская физика - 2010", 21-25 июня 2010 г., т. 4, МОНИКИ, 2010, стр. 415-417.
[10] А. В. Ватазин, В. Н. Юдин, JL Е. Карпов, «Многопараметрическое управление сложным объектом в программной системе поддержки врачебных решений», Ежегодная научно-практическая конференция Центрального Федерального округа РФ "Актуальные вопросы заместительной почечной терапии, гемафереза и трансплантационной координации", МОНИКИ, 2010, стр. 8. ISBN 978-5-98511-091-3.
[11] Leonid Karpov, Valery Yudin, «The Case-Based Software System for Physician's Decision Support», Sami Khari, Lenka Lhotska, Nadia Pisanti (eds.), "Information Technology in Bio- and Medical Informatics, ITBAM 2010", Proceedings of the First International Conference, Bilbao, Spain.
Lecture Notes in Computer Science Sublibrary: SL 3, Springer Verlag, Berlin, Heidelberg, 2010, pp. 78-85. ISSN 0302-9743.
[12] L. E. Karpov, V. N. Yudin, A. V. Vatazin, «Multi-Parametric Control of Complex Object in the Program System for Physician's Decision Support», Proceedings of the 12-th International Workshop on Computer Science and Information Technologies (CSIT'2010), Russia, Moscow - St. Petersburg, September 13-19, v. 1, Ufa State Aviation Technical University, 2010, pp. 28-30.
[13] JI. E. Карпов, В. H. Юдин, «Обмен данными в распределённой системе поддержки решений», Труды Института системного программирования, т. 19, Институт системного программирования РАН, 2010, стр. 71-80, ISBN 978-0-543-57630-9, ISBN 978-5-4221-0085-9, ISSN 2220-6426 (Online), ISSN 2079-8156 (Print),
httD://www.isDms.ru/ru/Droceedines/docs/2010/19/isD 19 2010 71.pdf
[14] Л. E. Карпов, В. H. Юдин, «Многопараметрическое управление на основе прецедентов», Труды Института системного программирования, т. 19, Институт системного программирования РАН, 2010, стр. 81-93, ISBN 978-0-543-57630-9, ISBN 978-5-4221-0085-9, ISSN 2220-6426 (Online), ISSN 2079-8156 (Print),
httn://wwwAsnrasjv/ni/nroceedines/docs/2010/19/isn 19 2010 81.pdf
[15] А. В. Ватазин, Л. E. Карпов, Ю. Г. Сметанин, В. Н. Юдин, «Программная система поддержки врачебных решений с гибридной архитектурой на основе правил и прецедентов», V Троицкая конференция "Медицинская физика и инновации в медицине (ТКМФ-5)", Сборник материалов, том 2, стр. 425-427. 2012, РАН, Троицкий Научный Центр, ISBN 978-5-89513-272-2.
[16] Hillary Don, «Decision making in critical care», University of California School of Medicine San Francisco, California, В. C. Decker Inc., The С. V. Mosby company, 1985, есть русский перевод: X. Дон «Принятие решения в интенсивной терапии», М.: Медицина, 1995, 224 с., ISBN 5-225-00489-Х, ISBN 0-941158-35-7.