щения изображения m х m дискретных элементов. Пусть вычисления и геометрические преобразования осуществляются на некотором абстрактном вычислителе с временем сложения tc и умножения ty . Считаем, что эталонные значения отображений вычислены до начала распознавания. Соотношение времени распознавания алгоритмов выглядит как
m2(ty +3tc +3q(ty +tc))
Y =---------------і------,
sm2(ty +2tc)+^s2qtc
или после упрощений с учетом ty = 3tc
г =
6 + 12q
5s + — s2 2
q
m
2
(7)
Из (7) следует почти линейный характер зависимости у от числа эталонов q , так как вторым слагаем в знаменателе для практических значений m и q можно пренебречь (m значительно больше q). Делаем вывод, что с увеличением числа эталонов выигрыш во времени распознавания для предлагаемого алгоритма возрастает. Так, для случая
s = 10, q = 10, m = 16 имеем у = 2,5 , а при
s = 10, q = 20, m = 16 у = 4,5 . Кроме того, значение Y уменьшается с ростом числа отображений (признаков) s .
Было проведено сравнительное компьютерное моделирование двух алгоритмов для изображений
16х16 элементов с числом градаций, равным 8, количеством эталонов q = 10, отображений s = 8 для преобразований смещения при действии аддитивного шума. Эксперимент показал, что разработанный алгоритм распознавания для выбранного класса эталонов и соответствующего набора отображений обладает помехозащищенностью не худшей, чем традиционный алгоритм, и позволяет осуществлять уверенное распознавание с вероятностью, большей 0,99 при уровне сигнал-шум, равном 5. Алгоритм распознавания с нормализацией обеспечивает эту вероятность при уровне сигнал-шум, равном 6. Достаточно высокая помехозащищенность объясняется многократным характером измерений и отсутствием нормализующих воздействий.
Выигрыш в быстродействии в эксперименте составил y = 2, что подтверждает эффективность подхода и целесообразность его применения при решении задач инвариантного распознавания изображений.
Литература: 1. Путятин Е.П., Аверин С.И. Обработка изображений в робототехнике. М.: Машиностроение, 1990. 320 с. 2. Гороховатский В.А., ТрипутеньВ.В. Алгоритм параллельной нормализации аффинных преобразований для цветных изображений // Радиоэлектроника и информатика. 1997. Вып. 1. С. 97-98.
Поступила в редколлегию 22.11.1998 Рецензент: д-р техн. наук Путятин Е.П.
Гороховатский Владимир Алексеевич, канд. техн. наук, доцент кафедры применения ЭВМ ХТУРЭ. Научные интересы: обработка изображений в компьютерных системах. Адрес: Украина, 310141, Харьков, пр. Ленина, 14, тел. 40-94-19.
УДК 681.142.1.01
ПРОГНОЗИРОВАНИЕ ВОЗМОЖНЫХ СОБЫТИЙ В СИСТЕМАХ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
ХОДАКОВ В.Е., ШЕРСТЮК В.Г.,
СТЕПАНСКИЙ К.Г., ДИДЫКА.А., КОЗУБ НА, ГРИГОРОВА А.А., РАДВАНСКАЯ Л.Н.__
Обосновывается существенная роль методов и действий, направленных на предсказание возможных ситуаций в процессе принятия решений. Анализируются текущая и целевая ситуации, определяются пути достижения последней.
1. Введение
В настоящее время использование технологий информационных хранилищ (Data Warehousing), переработки данных (Data Mining) и извлечения знаний (Knowledge Discovery) становится все более популярным при решении задач обработки больших массивов информации. Практически все вновь разрабатываемые системы сбора и анализа информации используют, частично или полностью, эти технологии.
В крупных организациях (как государственных, так и коммерческих) генерируется огромное количество информации в виде документов, отчетов и т.п.
Все документы фиксируются и сохраняются. Однако организации, несмотря на огромное количество информации, в большинстве случаев не могли извлечь из нее максимальную выгоду, потому что вся эта информация была разрозненна и не структурирована. Для того чтобы адекватно и своевременно проанализировать ее, необходимы большие затраты времени и средств. Но эти затраты, ввиду неразвитости механизмов извлечения информации из информационных хранилищ, не окупали себя.
Системы, построенные на основе технологии извлечения знаний, выдают пользователю уже не порции необработанной информации, которые еще нужно осмыслить, а решение или несколько альтернативных решений, которые пользователь может принять или отвергнуть. Применение таких технологий кардинально повышает производительность труда служащих, так как им уже не надо просматривать самостоятельно огромные объемы информации. В их обязанности входит анализ полученных от системы решений и принятие или непринятие их.
Можно выделить четыре основных типа операций, связанных с процессом извлечения знаний из данных.
1) Предсказание возможных ситуаций путем построения модели предметной области. Это наиболее часто используемая операция. Ее цель состоит в том, чтобы на основании упорядоченной во времени информации, находящейся в хранилище, построить некую модель, на основании которой можно предсказывать будущие ситуации. Такое прогнозирование по образцу традиционно строилось с использо-
РИ, 1998, № 4
45
ванием статистических методов. Наиболее ценным является то, что оно позволяет генерировать постижимые и объяснимые модели. В большинстве своем такие модели строятся путем формулирования множества правил “если, то ”.
2) Анализ связей. В то время, как цель предыдущей операции — построить обобщенное описание содержания информационного хранилища, цель анализа связей состоит в установлении связей между его структурными элементами. Анализ связей — относительно новая операция, ее применение стало возможным в связи с развитием технологий извлечения знаний из данных.
3) Сегментация информационного хранилища. В связи с ростом объемов информации, которую необходимо обрабатывать, часто требуется разбить информационный массив на несколько разделов (кластеров), что позволит ускорить доступ, построить модель и провести анализ связей не над всей базой, а только над ее отдельными сегментами.
4) Обнаружение отклонений. Цель этой операции состоит в обнаружении противоречий и несоответствий в информационных массивах и определении причин возникновения отклонений—из-за наличия шума, ошибок или иных причин. Эта операция обычно применяется совместно с сегментацией информационных хранилищ.
Наиболее существенную роль в процессе функционирования систем поддержки принятия решений (СППР) играют методы и операции, позволяющие прогнозировать возможные ситуации путем анализа уже имеющейся информации. Именно построение правильного прогноза позволяет принять наиболее верное и адекватное решение. Исходя из этого, остановимся на вопросе создания прогнозирующей подсистемы более подробно.
2. Система поддержки принятия решений
Так как извлечение знаний очень тесно взаимосвязано с другими элементами СППР, то имеет смысл сначала рассмотреть структуру всей системы, которая состоит из трех основных элементов:
1) информационное хранилище (ИХ);
2) система извлечения информации (СИД);
3) система принятия решения (СПР).
Кроме основных элементов, должны присутствовать подсистемы сбора информации, выборки информации из ИХ и представления результатов конечному пользователю. Рассмотрим функциональные обязанности и процессы взаимодействия этих составляющих СППР на примере работы торгового предприятия, имеющего сеть розничных торговых точек.
Важной задачей, от решения которой зависит успешное или неуспешное построение всей системы, является правильный выбор предметной области (ПО). Для сети розничных магазинов пределы ПО могут простираться далеко за рамки магазинов и торговли вообще. Это могут быть информация о районе, где находятся торговые точки, статистические данные о районе, о городе, а может быть и более обобщенная информация. Подобные предметные области следует разбивать на две подобласти.
— Контролируемая ПО — те объекты и процессы, на которые может влиять и которые может изменять пользователь. Это, например, графики поставок
товара, функционирования магазинов, номенклатура товаров, ценовая политика и т.п.
— Неконтролируемая ПО — все остальные объекты и процессы, которые для системы являются условно-постоянными. Это могут быть внешние для системы розничных магазинов объекты, например, демографическая ситуация, экономические и социальные процессы, протекающие в регионе, и многое другое.
Информационное хранилище содержит в себе большой объем информации о работе фирмы. Через подсистему сбора информации в ИХ с определенной периодичностью (например, один раз в день) поступает информация о продажах в магазинах, о поставках товара, об изменении номенклатуры, о характеристиках товаров, о покупателях и т.п. Такая информация активно используется в процессе принятия решений в торговом предприятии и накапливается в его информационных массивах (это накладные о перемещении товара, акты переоценок и списания, инвентаризационные отчеты и т.п.), однако чаще всего, однажды полученная, она редко используется в дальнейшем и не окупает своего хранения..
Можно выделить два основных источника, из которых информационное хранилище может получать информацию. Первый — это внутренний источник, о котором мы писали выше. Это информация о работе магазинов, поступающая в ИХ с определен -ной периодичностью. Информация из этого источника наиболее проста в обработке, так как ее формат заранее определен и нет необходимости проводить сложные проверки достоверности.
Второй источник — внешний. Это информация о состоянии дел на рынке, о спросе и предложении. Важный аспект — исследование и внесение данных в ИХ о состоянии дел у конкурирующих фирм. На первый взгляд, вспомогательными являются данные о демографической, экономической, экологической и социальной ситуации в регионе. Однако такая информация позволяет вскрыть глубинные корни той или иной закономерности и дает возможность более точно и адекватно управлять ситуацией. Следует заметить, что сбор и обработка такой информации довольно сложны и дорогостоящи. Информация, поступающая извне, обычно не систематизирована. Ее сложно привести в приемлемый для обработки вид. Кроме того, велика вероятность того, что полученная извне информация является недостоверной, а проверка достоверности требует поиска дополнительной релевантной информации, и только проверка на взаимную непротиворечивость может дать более или менее правильный результат.
Рассмотрение только внешней или только внутренней информации не даст положительного результата при построении модели ПО. Лишь изучение их вместе и детальный анализ взаимосвязей между ними позволяют понять процессы, протекающие в ПО.
Фирмам, занимающимся розничной торговлей, для решения их специфических задач наиболее подходит представление модели ПО в виде набора правил. Каждое правило представляет одну закономерность, которую СИД выявила в ИХ. Наиболее часто используется правило вида “если, то ”, т.е. в первой части находится некоторый набор посылок, а во второй — следствие или следствия, которые возникают в результате актуализации этих посылок.
46
РИ, 1998, № 4
Можно сказать, что такая модель представляет собой некоторую область влияния, где определено, какие последствия могут возникнуть при каких изменениях текущей ситуации. Можно привести несколько примеров таких правил.
Закономерности, отмеченные в отдельных магазинах:
МАГАЗИН №1
“С вероятностью 30% можно утверждать, что если клиент купил чипсы, то он купит еще и “Пепси-колу”;
“С вероятностью 70% можно утверждать, что если в пятницу после 17 часов в магазин зайдет женщина, то она купит на менее 1 кг мяса”;
Магазин № 2
Закономерности, свойственные всей сети магазинов:
“С вероятностью 80% можно утверждать, что если магазин посетит покупатель с месячным доходом более 1000 гривен, то он сделает покупку на сумму не менее 20 гривен”;
“С вероятность 90% можно утверждать, что если цена “Пепси-колы” в наших магазинах выше цены в магазине конкурентов более чем на 5%, то ежедневные запасы “Пепси-колы” на складе увеличатся более чем на 10%”;
Закономерности, свойственные для всего региона:
“С вероятностью 98% можно утверждать, что уровень продаж к Новому году увеличится более чем на 40%”;
“С вероятность 55% можно утверждать, что при повышении дневной температуры в летний период до 25 градусов уровень продаж мороженого увеличится на 30%”;
Понятно, что закономерности не являются абсолютными. Этим правилам можно верить, а можно и не верить; кроме того, можно верить в одни правила больше (или меньше), чем в другие. Поэтому каждое правило должно иметь соответствующую оценку, которая отражает доверие к нему системы. Областью определения этой оценки является промежуток от 0 до 1 (или как в приведенных выше примерах, может измеряться в процентах). При этом если доверие равно 0, то правило не имеет места в данной предметной области, а если равно 1, то во всех случаях возникновения посылок, указанных в правиле, обязательно актуализируются все следствия этого правила.
Модель не является стабильной структурой. В процессе функционирования системы она постоянно изменяется и пополняется все новыми и новыми правилами, причем изменения направлены на улучшение этой модели (во всяком случае с точки зрения системы). Бесконечность функционирования СИД обеспечивается двумя причинами. Первая — это постоянное обновление и добавление информации в ИХ, которая может содержать уточнение старых или новые правила. Вторая — это невозможность, ввиду ограниченности вычислительных возможностей системы, охватить весь объем информации, релевантный исследуемой закономерности. Ввиду второй причины система может проводить оценку достовер-
ности правила по уже имеющейся информации, с последующим уточнением этой оценки.
Точно так же, как мы предположили, что в ИХ уже находятся данные, предположим, что СИД на основании этих данных уже имеет некоторую модель предметной области; в нашем случае это модель функционирования сети розничных магазинов.
Наличие некоторой сформированной модели ПО принципиально важно для третьего элемента СППР— системы принятия решений (СПР). СПР тесно взаимодействует как с СИД, так и с ИХ, хотя более критичным для ее функционирования является наличие модели. К ИХ система принятия решения обращается для получения исходных данных о текущем состоянии, проверки результатов принятого решения и других, не связанных с моделью предметной области, данных. Целью функционирования СПР является определение способов решения задач, поставленных пользователем. Такими задачами могут быть, например, “Как получить максимальную прибыль в этом месяце? ” или “ Как добиться наилучшего коэффициента оборачиваемости товара?” и т.п. СПР, получив такое задание, должна на основании модели ПО и данных о текущей ситуации, взятых из ИХ, выдать пользователю одно или несколько альтернативных решений, которые могут позволить достигнуть намеченных целей с большей или меньшей степенью вероятности.
3. Роль прогнозирования в процессе принятия решений
Важнейшую роль при формировании альтернатив играет процесс прогнозирования будущих ситуаций. Можно сказать, что для СПР прогнозирование — основная задача функционирования. Прогнозирование — это предсказание ситуаций, которые могут возникнуть в будущем, на основании информации, полученной в предыдущие моменты времени.
Можно выделить два основных типа прогнозов.
— Свободные прогнозы — это те, которые не имеют перед собой цели достижения какой-либо определенной ситуации, а функционируют на основании предположения, что все процессы, протекающие в ПО, останутся неизменными в течение исследуемого промежутка времени. Например, может быть составлен такой прогноз: “К концу года ежемесячная прибыль повысится на 3% ” или “Через 2 недели, при том же графике поставок товара, его ежедневный запас возрастет на 20%” .
— Целенаправленные прогнозы, их целью является определение необходимых изменений, которые нужно произвести в ПО для того, чтобы достигнуть некоторой, заранее определенной ситуации. Такие прогнозы — это цель для систем принятия решений. Они прогнозируют не то, какая ситуация возникнет через определенный промежуток времени, а то, какова вероятность достижения целевой ситуации путем принятия того или иного решения (или нескольких решений). Например, “Для повышения прибыли на 7% вам следует снизить цену на 3% и уменьшить ежедневный запас товаров на складе на 10%” или “Для увеличения коэффициента оборачиваемости вам необходимо отказаться от закупок некоторого товара”.
РИ, 1998, № 4
47
4. Процесс построения прогнозов
Процесс построение прогноза можно разбить на несколько этапов:
1. Определение целевой ситуации.
2. Анализ текущей ситуации и выявление различий между текущей и целевой ситуациями.
3. Свободное прогнозирование, с акцентом на изменяемых характеристиках.
4. Определение путей достижения целевой ситуации.
5. Оценивание полученных альтернатив и выбор наилучшей.
Для реализации перечисленных выше этапов СПР должна иметь в своем распоряжении еще одну (описательную) модель ПО, содержащую ее структуру:
— описание текущей ситуации;
— описание всех возможностей изменения этой ситуации.
5. Описание текущей ситуации
Ситуация есть некоторое зафиксированное состояние предметной области. Под ситуацией мы понимаем описание полного множества всех объектов, находящихся в ПО, которые имеют определенные свойства и вступают друг с другом в некоторые отношения в некоторый период времени. В нашем примере объектами могут быть товары, магазины, покупатели. Каждый такой объект имеет определенный набор характеристик. Например, для Товара — это цена, вес, наценка. Для Магазина — это ежедневный объем продаж, общая площадь торгового помещения, режим работы. Для Покупателя — это возраст, месячный доход и т.д. Кроме того, все объекты могут взаимодействовать друг с другом посредством выполнения некоторых действий (изменений) в предметной области. Например, Покупатель “покупает” Товар, Товар “поступает” в Магазин, Магазин “продает” Товар и т.п. Текущей ситуацией будем называть состояние ПО, в котором она находится в настоящий момент, т.е. на основании последних данных, поступивших в ИХ. Текущую ситуацию в некотором магазине можно описать, например, так.
Магазин № 10
характеристики магазина: размер, режим работы, количество отделов, размер складских помещений, количество персонала и т.п.;
характеристики, полученные путем анализа: средняя ежедневная выручка, средняя ежедневная прибыль, среднее количество покупателей, посещающих магазин каждый день, средняя сумма, на которую покупатели делают покупки за одно посещение, и т.п.
Текущая ситуация по информации, полученной из внутренних источников:
НОМЕНКЛАТУРА (список товаров с ценами);
ВЫРУЧКА;
КОЛИЧЕСТВО ПРОДАННОГО ТОВАРА;
КОЛИЧЕСТВО ПРИХОДА ТОВАРА;
АКТЫ ПЕРЕОЦЕНКИ ЗА ДЕНЬ;
АКТЫ СПИСАНИЯ;
ВОЗВРАТ ТОВАРА НА ЦЕНТРАЛЬНЫЙ
СКЛАД;
КОЛИЧЕСТВО ПОКУПАТЕЛЕЙ;
ОСТАТКИ ТОВАРА;
Текущая ситуация по информации, полученной из внешних источников:
ИНФОРМАЦИЯ О КОНКУРЕНТАХ;
ИНФОРМАЦИЯ О СИТУАЦИИ НА РЫНКЕ;
СТАТИСТИЧЕСКАЯ ИНФОРМАЦИЯ
О РЕГИОНЕ;
ИНФОРМАЦИЯ О ПОГОДНЫХ И
ЭКОЛОГИЧЕСКИХ УСЛОВИЯХ;
Для того чтобы определить, какие изменения необходимо произвести в ПО, необходимо знать, какие вообще изменения может произвести пользователь или предприятие с объектами ПО. Таким образом, необходимо определить все возможные (важные для решения задач функционирования системы) изменения для каждого объекта предметной области, но не всей, а только контролируемой ее части. Такое изменение состоит в замене некоторой характеристики объекта. Следовательно, само изменение можно представить в виде тройки:
1) наименование изменяемого объекта;
2) характеристика, которая изменяется;
3) диапазон, в котором может изменяться эта характеристика.
Это изменение можно назвать “элементарным”, так как оно предполагает изменение только одной характеристики.
Множество может как заполняться с ИХ, так и заноситься пользователем. Автоматическое формирование таких знаний должно быть возложено на СИД. Кроме того, все возможности должны быть оценены с точки зрения сложности их актуализации. Другими словами, система должна знать, насколько много нужно затратить усилий, чтобы актуализировать ту или иную возможность. Такая оценка может принимать значения в промежутке от 0 до бесконечности. Чем больше значение этой оценки, тем менее привлекательна эта возможность для системы и тем меньше вероятность того, что она будет выбрана для достижения необходимой цели. Следовательно, к трем характеристикам изменения нужно добавить еще одну — количество затрачиваемых усилий на единицу изменения характеристики.
Приведем для примера часть множества возможных изменений:
(Сок апельсиновый, цена 50 коп. ... 1 грн,55);
(Магазине №12. Количество отделов, 1 ... 10, 2000);
(Масло сливочное, запас на центральном складе, 0 ... 5000 кг, 700);
Из множества возможностей необходимо выделить подмножество, элементы которого мы будем называть “потенциями”. Потенцией назовем ту возможность, которая может быть реализована пользователем в настоящее время в сложившейся текущей ситуации. Например, нельзя изменить цену товара, которого нет в наличии, или нельзя изменить качественные характеристики товара, если товара с такими характеристиками нет на складе, и т.п. Понятно, что в зависимости от изменений текущей ситуации изменяется и множество потенций.
Рассмотрим процесс построения прогноза по каждому этапу в отдельности.
48
РИ, 1998, № 4
6. Определение целевой ситуации
Как было отмечено, пользователь через подсистему ввода-вывода задает СППР некоторую задачу (следуя современным тенденциям развития пользовательского интерфейса, такой запрос может быть представлен в естественно-языковой форме), в нейв неявной форме находится цель, которую хочет (или не хочет) достигнуть пользователь, например “Как достичь повышения прибыли на 5%?”. Если запрос задан на естественном языке, то он направляется в подсистему языкового анализа, где преобразовывается в формальную, понятную для компьютера форму. Далее из данного запроса выделяются целевые характеристики, в нашем примере — это “увеличить прибыль на 5%”, а после более детальной обработки получаем “целевая_прибыль = сегодняш-няя_прибыль + 5%”. Таким образом, мы получили характеристику, по которой будем сравнивать прогнозируемые ситуации. Значит, в целевой ситуации значение характеристики “прибыль” должно быть на 5% больше настоящего значения. Это не означает, что не следует обращать внимание на изменения, которые претерпевают другие характеристики ПО, и учитывать их изменения при выборе наилучшей альтернативы.
7. Анализ текущей ситуации и выявление различий между целевой и текущей ситуациями
В примере различия между текущей и целевой ситуациями указаны явно: “прибыль должна быть больше на 5%”, что означает, что целевая ситуация будет отличаться от текущей прибылью, кроме того, явно задана и величина этого различия (5%). Однако это лишь частный случай. Задача может быть задана неявно, например, “Как повысить посещаемость магазинов людьми с достатком выше среднего?” или “ Как распределить поставки товаров в магазины для уменьшения времени их нахождения на прилавках?”. Для таких запросов определить целевую ситуацию более сложно. Эта сложность в основном состоит в выделении основных характеристик, кото -рые необходимо контролировать в процессе прогнозирования, а главное — определить ту величину, на которую должны измениться значения контролируемых характеристик, чтобы удовлетворить запросы пользователя.
Для оценки различий между текущей и целевой ситуациями необходимо определить функцию, которая количественно измеряет различие (назовем ее РАЗНИЦА). Эта функция должна в качестве параметров получать две ситуации и возвращать некоторое множество, содержащее все отличающиеся характеристики этих ситуаций, выраженные количественно. Результат применения функции РАЗНИЦА к текущей и целевой ситуациям следующий:
РАЗНИЦА (целевая_ситуация, текущая_ситуа-ция)={(целевая_прибыль=текущая_прибыль + 5%)}
Для сравнения различных альтернативных решений на основании функции РАЗНИЦА необходимо построить некую оценку различия двух структур, которая бы однозначно характеризовала это различие (назовем ее РАЗЛИЧНОСТЬ). Сложность формализации такой оценки состоит в том, что некоторые изменяющиеся характеристики имеют различные
масштабы и их трудно привести к общему знаменателю. Более того, некоторые характеристики вообще трудно выразить количественно, например, цвет изделия или расположение товаров на прилавке. На этом этапе особенно активно используется описание текущей ситуации, и для построения адекватного и актуального прогноза необходимо, чтобы оно как можно точнее описывало ситуацию, сложившуюся на данный момент.
После завершения этапа мы имеем две структуры. Первая — описание текущей ситуации, а вторая - те целевые изменения, которые должны быть достигнуты согласно поставленной задаче. Кроме того, мы имеем вспомогательную функцию РАЗНИЦА для измерения различий между двумя структурами и оценку РАЗЛИЧИЕ, основанную на функции РАЗНИЦА.
8. Определение путей достижения целевой ситуации
Это основной этап процесса прогнозирования. Именно на этом этапе происходит объединение знаний о закономерностях, т.е. модели предметной области, которая строится СИД, с описательной моделью ПО.
На основании сказанного выше уточним содержание правила о закономерности, которая была извлечена из ИХ. Раньше мы говорили, что такие правила строятся в форме “если ... то ... ”. Теперь определим, что должно стоять на месте троеточий. В качестве посылок будем использовать количество событий в ПО, приводящих к изменению характеристик объектов, отличных от тех, которые являются прямым результатом изменений, указанных в посылке. Следует отметить, что важным параметром такого правила является время, через которое после актуализации событий, указанных в левой части правила, возникнут следствия, перечисленные в правой его части. Значение этого параметра должно быть представлено в каких-нибудь универсальных единицах, например секундах, часах и т.п., в зависимости от специфики задачи.
Правило можно представить в виде четверки:
1. Множество посылок, т.е. некоторое подмножество из множества возможных событий или значений характеристик объектов, актуализация которых является необходимым и достаточным условием для реализации этого правила.
2. Множество следствий, т.е. некоторое подмножество из множества изменений, возникших вследствие событий, указанных в посылках. Вместо значений диапазонов изменений указываются уже кон -кретные значения изменений, которые происходят во время реализации этого правила.
3. Оценка достоверности этого правила.
4. Время, через которое актуализируются следствия этого правила.
Введем понятие курса событий, под которым будем понимать некую последовательность изменений в предметной области. Целевым курсом событий будем называть такой курс, который текущую ситуацию преобразовывает в целевую. Построение таких целевых курсов событий и является целью процесса прогнозирования. Курс событий представляет собой цепочку вида: текущая ситуация—действия пользователя — изменения в ситуации, следствия действия-новая ситуация—действия пользователя — изменения в ситуации — ... — целевая ситуация.
РИ, 1998, № 4
49
9. Свободное прогнозирование
При построении свободного прогноза система предполагает, что все параметры предметной области не изменяются пользователем для достижения какой-либо цели, а функционируют точно так же, как в предыдущие моменты времени. Изменения в системе происходят согласно только тем закономерностям, которые были извлечены СИД из ИХ.
Целью функционирования алгоритма свободного прогнозирования в качестве этапа целенаправленного прогнозирования является определение, может ли быть достигнута целевая ситуация из текущей, не прибегая к насильственным изменениям в ПО, в разумный период времени. Если это так, то все варианты достижения целевой ситуации, полученные во время свободного прогнозирования, будут использованы на более поздних этапах в множестве альтернатив.
Альтернатива может быть выбрана в случае, когда все процессы в предметной области согласуются с целями пользователя и нет необходимости производить какие-либо манипуляции (а значит, затрачивать усилия) для достижения целей, которые и так будут достигнуты. В отдельных случаях результаты, полученные во время свободного прогнозирования, позволят системе отказаться от проведения дальнейших исследований данных, что может сэкономить немалое количество и времени, и ресурсов.
Процесс свободного прогнозирования производится следующим образом. Выбирается промежуток времени, на который делается прогноз. Дальше с помощью правил, содержащихся в модели предметной области, происходит генерация будущих ситуаций на основании текущей ситуации. Просматриваются все правила и выбираются те, которые могут быть актуализированы в настоящей ситуации. Затем на основании изменений, которые являются следствиями актуализированных правил, строится новая ситуация и так продолжается до тех пор, пока алгоритм не построит ситуацию, которая, по мнению системы, может возникнуть в заранее определенный будущий момент времени. Таким образом, свободное прогнозирование ведется от текущей ситуации к какому-то будущему моменту времени, в который будет достигнута целевая ситуация. Периодичность, с которой система должна строить будущие ситуации (в промежуточные моменты времени), должна в общем случае быть кратна тому промежутку времени, который принят в качестве единицы измерения длительности действия правила. Например, если в качестве единицы выбран день, то периодичность должна измеряться в днях (каждый день, каждую неделю, каждый месяц и т.д.).
Рассмотрим подробнее построение дерева возможных событий на примере построения одной итерации алгоритма прогнозирования.
Вначале мы имеем информацию о текущей ситуации и набор закономерностей, которые СИД извлекла из ИХ. В этом множестве закономерностей необходимо выделить подмножество правил, которые могут быть актуализированы в настоящей ситуации. Назовем правила, находящиеся в этом подмножестве, актуальными. Теперь это подмножество необходимо разбить на определенное количество альтернативных процессов. Это производится путем определения закономерностей, которые имеют одни
и те же посылки, но различные следствия. Таким образом, формируются альтернативы возможных событий. Однако альтернатив может быть довольно много, а каждая лишняя — это прежде всего большие затраты времени и усилий. Значит, необходимо выделить самые вероятные альтернативные события (это может быть реализовано путем введения пороговых значений вероятности), по которым и будет проводиться дальнейшее прогнозирование. Эти альтернативные события представляют собой первые ветви дерева возможных событий, исходящие из корня (текущей ситуации). Затем для каждой ветви строится своя ситуация, которая для этой ветви становиться текущим событием. Это событие сравнивается с целевой ситуацией с помощью описанной выше оценки РАЗЛИЧИЕ. Если это сравнение дает положительный результат, что означает достижение целевой ситуации, то прогнозирование по этой ветви прекращается, а весь путь от корня к этой конечной ситуации запоминается в списке альтернативных курсов событий. Если результат сравнения отрицательный и данная ситуация не достигла временной границы, процесс прогнозирования продолжается снова. Когда полученная на очередном шаге итерации ситуация пересечет границу прогнозирования и сравнение с целевой ситуацией даст отрицательный результат, то такой курс событий отбрасывается.
По окончанию работы алгоритма свободного прогнозирования мы имеем некоторое множество альтернативных курсов событий. В качестве примера можно привести такой курс событий, полученный путем свободного прогнозирования, для рассматриваемой нами предметной области.
Период прогнозирования 1 неделя, прогноз производиться с шагом в один день.
03.05.98 г.
ОПИСАНИЕ СИТУАЦИИ
выручка — 250 грн.
остаток чая — 20
СОБЫТИЯ
завоз партии свежего печенья
РЕЛЕВАНТНЫЕ ПРАВИЛА
к концу дня возрастет уровень продажи на 5% (вероятность 55%)
увеличится продажа освежающих напитков и чая (вероятность 45%)
04.05.98
ОПИСАНИЕ СИТУАЦИИ
выручка — 330 грн
остаток чая — 5
Для того чтобы избежать излишних вычислений, о чем мы говорили ранее, необходимо провести оценку вероятности реализации каждого курса событий. Если часть уже сформированных курсов имеет довольно неплохие шансы стать реальностью и достичь целевой ситуации, то чаще всего нет необходимости проводить дальнейшее прогнозирование.
50
РИ, 1998, № 4
10. Целенаправленное прогнозирование
После проведения свободного прогнозирования, если оно не дало положительного результата, можно приступить к целенаправленному прогнозированию. В отличие от свободного прогнозирования, процесс целенаправленного прогнозирования проводится не от текущей ситуации, а от целевой в сторону текущей. Опишем этот процесс подробнее.
Сначала с помощью описанной выше функции РАЗНИЦА определяем множество различий между целевой и текущей ситуациями. Затем в множестве всех возможных изменений ищем такие возможности, которые позволяют произвести изменения, выделенные функцией РАЗНИЦА. Полученное множество возможностей проверяют на возможность актуализации в текущей ситуации, т.е. на то, являются ли они потенциями или нет. В общем случае ключевые изменения характеристик не должны быть доступны в текущей ситуации. Если такое произошло, это означает, что задан запрос, который не нуждается в прогнозировании. Однако второстепенные характеристики могут быть изменены сразу, и отбрасывать возможность реализации этих изменений нельзя.
Если имеется прямая возможность достигнуть целевой ситуации, то она заносится в число альтернатив и на этом чаще всего алгоритм может завершить свою работу. Однако такая ситуация может возникнуть только в результате неправильно сформированного запроса. В большинстве случаев возможности изменять такую характеристику не окажется не только в числе потенций, но и вообще во всем множестве возможных изменений объектов предметной области пользователем.
Не обнаружив простого достижения целевой ситуации, система начинает поиск закономерностей из модели предметной области, которая позволит достичь целевой характеристики. Может быть два результата поиска: такой закономерности не найдено, и СПР отправляет специальный запрос СИД на целенаправленный поиск способов достижения целевой ситуации (в конце концов такая закономерность должна быть найдена, в противном случае система вынуждена будет выдать пользователю сообщение о невозможности прогнозирования событий для достижения целевой ситуации) или такая закономерность найдена. Каждая найденная закономерность становится отдельным альтернативным процессом достижения целевой ситуации. Полученная закономерность (будем рассматривать одну альтернативу) имеет посылки, при актуализации которых она реализуется. Система должна проверить, актуальны ли эти посылки в текущей ситуации. Если да, то такая альтернатива считается завершенной и заносится в множество альтернативных курсов событий. Если нет, то система пытается найти в множестве возможностей способы приведения предметной области к ситуации, в которой может реализоваться выбранная закономерность. Если такие возможности найдены, то весь этот процесс формируется как курс события и заносится в список альтернатив. Если нет, то операции повторяются снова, пока из текущей ситуации не станет возможен переход в целевую.
После работы этого алгоритма формируется список альтернативных курсов событий, которые позволяют достичь указанной в задании пользователя
цели. Приведем пример такого целенаправленного курса событий.
Цель - увеличение прибыли на 5%.
03.05.98(воскресенье)
ОПИСАНИЕ СИТУАЦИИ
прибыль за день - 500
АКТИВНЫЕ ЗАКОНОМЕРНОСТИ
в понедельник прибыль уменьшается в среднем на 7% (вероятность 90%);
цена на копченую колбасу выше, чем у конкурентов, колбаса не продается (вероятность 55%);
отсутствие достаточного запаса прохладительных напитков снижает прибыль (вероятность 70%);
в дни между 1 и 10 мая наблюдается повышение спроса на спиртные напитки (вероятность 70%);
вместе со спиртными напитками покупают обязательно колбасу (вероятность 50%);
Доступные действия (потенции)
снизить цену на колбасу, так чтобы она была ниже цены у конкурентов на 1%;
довезти прохладительные напитки; увеличить запасы спиртных напитков; ввести скидку на одновременную покупку спир -тного напитка и колбасы;
10.05.98
прибыль за день - 700
11. Оценка альтернатив
Полученные альтернативы еще нельзя представлять конечному пользователю, так как их количество может быть достаточно большим. Для того чтобы пользователь мог выбрать наилучшую альтернативу, они должны быть упорядочены по определенному принципу или их необходимо оценить. Для этого наиболее подходит оценка курсов событий по нескольким, заранее определенным критериям, затем составление обобщенной оценки, которая и позволит выделить наиболее удачные альтернативы. Основными для описанных выше альтернатив являются оценки: достоверности данного курса, количества затраченных на реализацию этого курса усилий и продолжительности его реализации во времени.
Для получения обобщенной оценки все оценки по отдельным критериям должны быть приведены в единый масштаб. Затем для каждого критерия должен быть назначен свой коэффициент, показывающий приоритетность этого критерия. Выбор коэффициентов может меняться в зависимости от конкретной реализации СППР и даже от конкретной ситуации. Обобщенная оценка формируется путем сложения всех оценок по всем критериям, умноженных на соответствующий коэффициент приоритетности.
После завершения процесса оценки из списка альтернатив выбираются несколько с наибольшей оценкой и предоставляются пользователю.
РИ, 1998, № 4
51
12. Заключение
Мы рассмотрели работу одной из подсистем СППР — прогнозирующей подсистемы. Однако для достижения хороших результатов разработчики систем поддержки принятия решений должны максимально тесно интегрировать все ее структурные элементы. Во время своего функционирования элементы СППР активно взаимодействуют друг с другом, и удаление одного из них сделает невозможным функционирование других. На самом деле подсистема принятия решений активно использует как знания, полученные системой извлечения данных, так и сами данные, напрямую обращаясь к информационному хранилищу. Точно так же СИД не только постоянно исследует данные в ИХ, но и пользуется прогнозами, полученными от СПР и позволяющими отыскать большее количество закономерностей в предметной области. А информационное хранилище пополняется не только за счет данных, поступающих извне, но и за счет результатов работы СПР и СИД. Такие данные могут постепенно заполнять белые пятна предметной области.
Указанный подход не является единственно возможным. Кроме того, все описанное выше не есть строго определенный алгоритм — это в большей степени указание направлений, в которых движется работа, для построения строгой и адекватно функционирующей системы прогнозирования.
Поступила в редколлегию 25.11.1998 Рецензент: д-р техн. наук, проф. Петров Э.Г.
Ходаков Виктор Егорович, д-р. техн. наук, профессор, зав. кафедрой программного обеспечения ЭВМ Херсонского государственного технического университета. Научные интересы: информационное обеспечение
систем автоматизации производственных процессов и управления. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел.(0552)55-17-31.
Шерстюк Владимир Григорьевич, канд. техн. наук, доцент кафедры программного обеспечения ЭВМ Херсонского государственного технического университета. Научные интересы: интеллектуальные системы представления знаний и моделирования рассуждений, распределенные базы данных и знаний. Адрес: Украина, Херсон-8, Бериславское шоссе, 24, тел. (0552)55-17-31.
Степанский Константин Григорьевич, аспирант Херсонского государственного технического университета. Научные интересы: интеллектуальные системы представления знаний. Адрес: Украина, Киев, ул. Артема, 77, тел. (044)216-82-30.
Дидык Алексей Александрович, аспирант Херсонского государственного технического университета. Научные интересы: распределенные интеллектуальные системы. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел. (0552)55-17-31.
Козуб Наталья Александровна, ассистент кафедры ПО ЭВМ Херсонского государственного технического университета. Научные интересы: интеллектуальные системы представления знаний. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел.: (0552)55-17-31.
Григорова Анжела Анатольевна, ассистент кафедры ПО ЭВМ Херсонского государственного технического университета. Научные интересы: интеллектуальные системы предсавления и извлечения знаний. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел. (0552) 55-17-31.
Радванская Людмила Николаевна, соискатель кафедры ПО ЭВМ Херсонского государственного технического университета. Научные интересы: системы поддержки принятия решений. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел.: (0552)55-17-31.
УДК 681. 335.001.53
РЕФЛЕКТОРНАЯ СИСТЕМА ОБРАБОТКИ ЕСТЕСТВЕННОЯЗЫКОВЫХ ТЕКСТОВ В АСУ СТРОИТЕЛЬСТВОМ СЛОЖНЫХ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ
ТЕСЛЯ Ю.Н.
Раскрываются особенности разработки и использования средств естественно-языкового общения в энергетическом строительстве. Излагаются принципы и метод построения систем естественно-языкового общения на основе положений и выводов теории информационного взаимодействия.
1. Задачи естественно-языкового общения в АСУС сложных энергетических объектов
Эффективность построения автоматизированных систем управления во многом зависит от языковых средств описания объектов и процессов управления [1]. Поэтому адаптивность и мобильность языков общения с “компьютером”, непроцедурный характер описаний объектов и процессов управления, использование “контекстов” и “умолчаний” — непременное условие рациональной конструкции языковых средств.
Известные отечественные и зарубежные системы обработки естественно-языковой информации имеют или экспериментальный характер, или узкую специализацию и не удовлетворяют требованиям систем автоматизированной переработки информации в управлении строительством сложных энергетических объектов. Кроме того, и затраты на создание таких систем значительны, что не позволяет широко использовать их в энергетическом строительстве [2, 3].
Но тем не менее без таких средств значительно снижается производительность автоматизированных систем при наполнении информационной базы строительства, повышаются затраты на выполнение рутинных действий, таких как кодировка информации, поиск в информационной базе и др.
Использование систем естественно-языкового общения в энергетическом строительстве связано с рядом специфических особенностей объекта управления: значительной длительностью и сложностью производственного процесса, существенными изменениями в проектно-сметной документации по ходу выполнения строительно-монтажных работ, неполнотой документации, низкой надежностью источников информации, разнообразием выходной документации, формируемой по запросам различных пользователей, трудноформализуемостью большинства входных документов [4]. В соответствии с этим требования и ограничения к системам обработки естественно-языковых текстов определяются мо-
52
РИ, 1998, № 4