Systems of Control, Communication and Security
sccs.intelgr.com
УДК 004.81
Моделирование субъективного выбора при неопределенности относительно состояния окружения и его изменения
Виноградов Г. П.
Постановка задачи: формальная теория выбора развивалась путем абстрагирования от субъективных факторов. Это привело к созданию нормативной теории принятия решений «идеальным» субъектом. Она не может рассматриваться как релевантная при моделировании поведения. Решение этой проблемы в настоящее время связано с результатами, полученными в теории рефлексивных игр и теории информационного управления системами, обладающими волей и интеллектом. Однако, несмотря на обилие работ в данном направлении, проблема остается актуальной. Целью работы является разработка модели принятия решений, учитывающей, как и почему в реальных условиях происходит «отход» субъекта от нормативной рациональности. Используемые методы: решение задачи субъективно рационального выбора основано на использовании методов системного анализа, теории активных систем и мультиагентных систем. Новизна: в работе показано, что закономерности отхода субъекта от «идеального» рационального выбора к субъективно рациональному связаны с особенностями идентификации и понимания состояния окружения и свойств своих интересов. Внешние факторы связаны с обязательствами, которые принимает на себя агент. Внутренние факторы отражают интересы субъекта, индуцируемые его потребностями и этической системой, которой он придерживается. Доказано, что выбор субъектом осуществляется на основе представлений о ситуации выбора, которые отражают различные аспекты понимания субъектом ее свойств и образуют информационную структуру представлений, как множество возможных вариантов представлений. Оценки удовлетворенности текущей ситуацией выбора субъектом приводят к изменению структуры интересов субъекта, и он может ее выбирать. Показано, что агент при принятии решений использует три множества альтернатив: управляющие, структурные и идентификации. Это предполагает существование трех виртуальных сторон, осуществляющих выбор соответствующих альтернатив. Правила выбора таких альтернатив в зависимости от понимания субъектом обстановки и структуры своих интересов формируются путем нахождения компромисса, и проблема моделирования выбора приобретает игровое содержание. Результат: использование представленного решения направлено на создание биотехнических комплексов и систем, которые бы действовали таким образом, чтобы по результатам их работы невозможно было бы отличить от действий разумного человека. Проведенное моделирование показало, что поведенческие модели принятия решений, в которых используется игровой подход к распределению усилий агента в процессе выработки и реализации решений, можно рассматривать как адекватный реальному. Появляется возможность управления процессами формирования представлений агента о ситуации выбора и це-леобразования. Практическая значимость: представленное решение позволяет 1) объяснить принятие решений субъектом в конкретных ситуациях; 2) делать предсказания о возможных реакций другого субъекта в различных ситуациях; 3) решать задачу активного прогноза, когда управляющая сторона создает у управляемой стороны нужный образ будущего.
Ключевые слова: рефлексивное управление, принятие решений, модель, принятие решений, компромисс.
Библиографическая ссылка на статью:
Виноградов Г. П. Моделирование субъективного выбора при неопределенности относительно состояния окружения и его изменения // Системы управления, связи и безопасности. 2018. № 2. С. 191-212. URL: http://sccs.intelgr.com/archive/2018-02/10-Vinogradov.pdf Reference for citation:
Vinogradov G. P. Simulation of subjective choice under uncertainty about the state of environment and its changes. Systems of Control, Communication and Security, 2018, no. 2, pp. 191-212. Available at: http: //sccs. intelgr.com/archive/2018-02/10-Vinogradov (in Russian).
Системы управления,связи и безопасности №2. 2018
Systems of Control, Communication and Security sccs.intelgr.com
Актуальность
В настоящее время усилия исследователей направлены на решение проблемы моделирования принятия субъективно рациональных решений естественной или искусственной сущностью, обладающей способностью эндогенно формировать цели исходя из обязательств и своих интересов [1, 2]. Результатом исследований должно быть создание биотехнических комплексов и систем, которые бы действовали таким образом, чтобы по результатам их работы невозможно было бы отличить от действий разумного человека. Одним из подходов решения этой проблемы является агентно-ориентированное программирование [1, 5]. Агент рассматривается как система, способная адекватно реагировать на изменение внешней среды, не предусмотренное явно встроенными поведенческими механизмами. Именно это свойство и делает концепцию агента привлекательным инструментом для решения многих задач, возникающих сегодня в области информационных технологий.
Однако модели принятия решений, положенные в основу поведения агентов и созданные на основе логической теории, оказались практически не реализуемыми [12]. Развитие теории мультиагентных систем в настоящее время направлено на решение комплекса проблем, концентрирующихся вокруг феномена субъективного выбора [12].
Формальная теория выбора [6] развивалась путем абстрагирования от субъективных факторов, что привело к созданию нормативной теории принятия решений «идеальным» субъектом. Однако логика развития проблемы выбора привела к необходимости изучения того, как и почему в реальных условиях происходит «отход» субъекта от нормативной рациональности, как человек находит решение в условиях неполноты информации, неопределенности [6, 7, 13]. Решение этой проблемы в настоящее время связано с результатами, полученными в теории рефлексивных игр и теории информационного управления системами, обладающими волей и интеллектом [1, 8-10], поведенческой теорией систем искусственного интеллекта [12]. Однако, несмотря на обилие работ в данном направлении [11], проблема остается актуальной. В частности, стоит вопрос, как управлять поведением искусственных и естественных сущностей путем воздействия на процесс принятия решений? В поведенческой модели принятия решений полагается, что в основу выбора человеком положены его субъективные представления о ситуации выбора [5]. В работах [5, 12] показано, что представления, знания, опыт и интеллект агента формируются как результат его взаимодействия со средой и другими агентами, выражаемые в виде символьных моделей. То есть символьные модели следует рассматривать как результат индивидуальных процессов наблюдения, восприятия, осознания, понимания, интерпретации и обобщения. Тогда процесс формирования представлений и решения следует рассматривать как эволюционный, выполняемый в несколько циклов, а не как привнесенный извне. То же касается и процесса целе-полагания.
Второй аспект связан с управлением поведением естественных и искусственных сущностей. Определим в соответствии с [1] рефлексивное управление как некоторое информационное воздействие на формирование субъективной
Системы управления,связи и безопасности №2. 2018
Systems of Control, Communication and Security sccs.intelgr.com
модели реальности у субъекта (далее агента), цель которого - склонить его к принятию решения, выгодного контролирующей стороне. Его реализация станет возможной только тогда, когда будут созданы модели принятия решений агентом, у которого есть внутренние образы себя и воздействующей на него стороны, и которые учитывают его субъективное понимание ситуации выбора [1, 2, 5]. Их использование позволит делать оценки эффективности информационного воздействия до того, как оно будет произведено. Отметим, что в нормативной теории принятия решений считается, что процесс принятия решений является неконтролируемым фактором.
Развитие идеи субъективно рационального выбора на основе теории нечетких множеств [1, 2] открыло возможность:
1) объяснить принятие решений субъектом в конкретных ситуациях;
2) делать предсказания принимающим решение возможных реакций другого субъекта в различных ситуациях;
3) решать задачу активного прогноза, когда управляющая сторона создает у управляемой стороны нужный образ будущего.
Субъективно рациональный выбор предполагает, что мотивация выбора определяется как внешними, так и внутренними факторами. Внутренние факторы отражают интересы субъекта, индуцируемые его потребностями и этической системой, которой он придерживается. Оценки удовлетворенности текущей ситуацией целеустремленного состояния субъектом, как показано в [2], могут приводить к изменению структуры интересов субъекта, и он ее может выбирать. Поскольку предпочтения субъекта в процессе выбора отражают его интересы, то можно определить множество О альтернативных вариантов структуры предпочтений, которые согласно [3] будем называть структурными альтернативами.
Исходные предположения и постановка задачи
1. Выбор субъектом осуществляется на основе представлений о ситуации целеустремленного состояния, которая формально определена в [2]. Представления формируются путем восприятия субъектом своего окружения. Уровни восприятия окружения - это семь подмножеств систем, в которых представлены и обособлены субъективные модели среды и собственного поведения индивидом (подробнее см. в работе [15]).
2. Компоненты представления отражают различные аспекты понимания субъектом ситуации целеустремленного состояния и образуют информационную структуру представлений. Множество возможных вариантов представлений обозначим через X.
3. Для множества состояний окружения 5 множество наблюдаемых состояний окружения удовлетворяют условию ^ п х , то есть представления субъекта могут содержать как объективную составляющую, так и фантомную.
4. Структурные альтернативы субъект выбирает в зависимости от оценок удовлетворенности значениями свойств ситуации целеустремленного состояния.
Systems of Control, Communication and Security
sccs.intelgr.com
5. Формирование представлений осуществляется на основе процедур восприятия, осознания и анализа согласно с когнитивными возможностями субъекта.
В соответствии с введенными предположениями субъект при принятии решений использует три множества альтернатив: управляющие C (способы действия), структурные G и идентификации X. Следовательно, можно предположить существование трех виртуальных сторон, осуществляющих выбор соответствующих альтернатив. Правила выбора таких альтернатив в зависимости от понимания субъектом обстановки и структуры своих интересов будем называть стратегиями.
Пусть принятие решения выполняется в несколько циклически повторяемых этапов, и способы действия выбираются на каждом этапе (n = 1, 2, ...) из множества C в зависимости лишь от текущего представления о состоянии окружения х е X. Это связано с тем, что совместный надсознательный (интуитивный) и сознательный (формальный) анализ состояния окружения позволяет на каждом этапе вырабатывать все более четко формулируемое и обоснованное решение, при котором уверенность у субъекта в его реализуемости и возможности достижения желаемых состояний превышает некоторый порог. При этом существуют ограничения Cx с C на допустимость выбора альтернатив в зависимости от представлений о состоянии окружения х е X. Динамика процессов в окружении субъекта недоступна прямому восприятию, поэтому представления о ней формируется путем применения процедур идентификации, суть которых сводится к выбору варианта представлений в зависимости от наблюдаемого состояния. При этом существуют и известны ограничения Xs с X на допустимость представлений в качестве альтернатив идентификации в зависимости от наблюдаемых состояний s е S.
Исходя из этих предположений, следуя [3], введем определения стратегий.
Однозначное отображение X: X^C такое, что X(x) е Cx, xeX, называется функцией выбора или управления. Упорядоченный набор (Xi, ..., X„) = X" - стратегией выбора на шаге n<rc; lim |X"| = X" х при п^гс будем называть стратегией,
направленной на достижение локального идеала, определяющего смысл существования субъекта.
Однозначное монотонное отображение S^X такое, что ^(s)eXs, seS, называется функцией идентификации; упорядоченный набор (£i, ..., £и) - стратегией идентификации на горизонте длины п<гс; последовательность { ^, n = 1,2,...} - стратегией идентификации на ограниченном горизонте. Поскольку субъект стремится к формированию полезных1 представлений, то существует lim = при я^гс.
1 Структурные альтернативы субъект выбирает в зависимости от оценок удовлетворенности значениями свойств ситуации целеустремленного состояния. Представления, которые позволяют находить альтернативы, повышающие эти оценки и являются полезными.
Systems of Control, Communication and Security
sccs.intelgr.com
Так как множества 5 и Худовлетворяют условию |5| > |Х|, то однозначное отображение 5^Х порождает разбиение множества 5 на подмножества £,-1(х) = е 5 : = х} с 5, х е X. Подмножества х) с 5, х е X, являются связными множествами, то есть любой элемент х) однозначно определяет соответствующее представление хеХ. Следовательно, можно говорить, что подмножества £,-1(х) с 5, х е X, образуют классы эквивалентных представлений. Это позволяет для формализации представлений субъекта использовать методы теории мягких вычислений, например, так, как описано в [4].
Выбранная в момент п структурная альтернатива уп е О является структурным выбором на п-м шаге принятия решений; упорядоченный набор (уп,..., у^) = уП - стратегией структурного выбора на горизонте принятия решений длины п<гс; последовательность { уП, п = 1, 2, ...} - стратегией структурного выбора на ограниченном горизонте. Поскольку субъект стремится к соответствию своей структуры интересов требованиям принятой им этической системы, то существует Нш{уП} = ух при п^гс.
Модель принятия решений с изменяющейся структурой предпочтений
Согласно [2] критерий выбора стратегии управления имеет смысл ожидаемой удельной ценности целеустремленного состояния по результату, формализация которой имеет вид функции полезности Б^(Сх5хХ), зависящей от структурной альтернативы gеО как от параметра. Поскольку процесс управления начинается с некоторой ситуации хеХ, то критерий £ф (АП I уП) также будет зависеть и от ситуации хеХ как от начального условия. Так как при этом множество ситуаций X конечно, то критерий Ефп (%п I уП) будет окончательно представляться вектором в пространстве ЯХ размерности |Х|. Его компоненты будем записывать в виде Ефп (%п I уП)(х), х е X. По результату выбора субъект испытывает эмоциональное переживание, поэтому качество стратегии структурного выбора уП следует описывать в виде критерия, имеющего смысл «удовлетворенности результатами выбора». Следовательно, качество стратегии п -
у^ естественно описывать сверткой вектора ожидаемой полезности Ефп (Ап | уП) е ^ в некоторый функционал р: ^ ^ К1. Тогда критерий качества стратегии уп можно записать в виде рп (АП I уП) = Р(Ефп (А^ I уп)) е К1.
Качество своих представлений субъект связывает с оценками возможности достижения желаемых состояний от управления се С, а также с возможностью расширения множества С[ путем включения в него эффективных альтернатив. В работе [5] в качестве критерия оценки представлений использовать
Системы управления,связи и безопасности №2. 2018
Systems of Control, Communication and Security sccs.intelgr.com
термы лингвистической переменной «полезность», которые строятся на значениях ЕфП | уП). При этом оценки полезности будут зависеть от стратегий
управления X п, структурного выбора уП как от заданных условий. Обозначим
критерий «полезность» следующим образом (^ | ХП, уП). Поскольку процесс идентификации начинается с некоторого состояния sеS, то этот критерий будет зависеть от состояния задаваемого в качестве начального условия. Так как при этом множество состояний £ конечно, то критерий идентификации
будет представляться вектором (^П | ХП, уП) в пространстве Я размерности
|£|.
В ситуации целеустремленного состояния качество стратегий управления и структурного выбора описывается соответственно критериями
ЕфП (XП | уП)е ЯХ и цП (уП | XП) е Я 1, имеющими смысл удельной ценности по
результату и удовлетворенности результатами выбора, а качество стратегии
идентификации характеризуется критерием (^П | XП, уП)е Я£, имеющим
смысл полезности представлений для достижения желаемых состояний. Использование введенных критериев предполагает определение соответствующих информационных структур или моделей, позволяющих выполнить соответствующий выбор.
Будем предполагать существование информационной структуры представлений I, которая отражает знания и опыт субъекта о: 1) способах действия (управления), 2) своих интересах и предпочтениях, 3) динамике перехода окружения в различные состояния. Тогда можно предположить, что существует структурное преобразование этой структуры в информационную структуру, обеспечивающую возможность построения критерия удельной ценности
ЕфП (ХП | уП) и модели предметной области. Такое преобразование будем называть «преобразованием удельной ценности», а индуцируемую им информационную структуру будем называть «информационной структурой удельной ценности ситуации целеустремленного состояния по результату» и обозначать
и = и(1).
Аналогично, если существует структурное преобразование структуры I в информационную структуру, обеспечивающую возможность построения критерия идентификации (^П | ХП, уП) и модели процедур идентификации, то
такое преобразование будем называть «преобразованием идентификации» и обозначать Я, а индуцируемую им информационную структуру будем называть «информационной структурой идентификации» и обозначать Я = Я(1).
Представления субъекта о ситуации целеустремленного состояния является субъективными и качественными, построенными на основе наблюдений и анализа процесса перехода окружения под действием управления се С в различные состояния Обозначим правило такого перехода через д^ (£ | £ х С)
Systems of Control, Communication and Security
sccs.intelgr.com
из 5 х С в 5. Фактически субъект для оценки ценности возможных результатов использует построенную по результатам стратегии идентификации £,П модель
(XIX х С) из X х С в X. При ее построении учитываются стратегии управ-
ления А п, структурного выбора у ^, либо такими стратегиями он задается. Это
означает, что преобразование фактической функции д8 (51 5 х С) в функцию
понимания субъектом процессов в его окружении О (XIX х У) возможно лишь в апостериорном режиме в зависимости от используемых стратегий (АП , уП, ). Такое преобраз°вание и построение критерия ожидаемой удельной ценности ЕфП (А I уП) возможно при последовательном формировании информационных структур «полезности» в зависимости от используемых стратегий. Это условие будем записывать в виде иП = и(%П,уП,^П)(!)' п = 1,2,... .
Поскольку это условие является необходимым для формирования критерия ожидаемой полезности и модели предметной области, то оно должно указываться всякий раз при его использовании. Отметим, что критерий ЕфП (АП I уП) неявно зависит от стратегии идентификации £,П за счет введения в модель выбора индуцированной структуры ип. Как было отмечено выше, критерий РП ( уП I АП) е К1 качества структурного выбора определяется сверткой критерия ЕфП (АП I хП) е . Общность информационной структуры их формирования позволяет записать
Ефп(АП|^X
Рп (Ефп С^П I АП)),
ип = и (АП, уП, ^)(I).
Для построения критерия идентификации требуется использование некоторой функции, которая имела бы смысл «полезности». Для этого надо построить вербальные оценки на значениях функции полезности Еф8 (5 х X х У). Требуемое преобразование существует и может выполняться в априорном режиме (т. е. до выбора решений).
Такое преобразование определяется субъектом относительно нечеткой
меры, которая может быть построена, если задана функция д8 (51 5 х С) из 5 х С в 5. Поскольку ее аналог в представлении субъекта имеет вид (XIX х С), и он может ее однозначно задать в информационной структуре I, то, следовательно, не требуется дополнительных преобразований. Построение функции «полезности представлений» исчерпывает необходимое структурное преобразование. С учетом этих соображений критерий идентификации окончательно запишем в виде
Systems of Control, Communication and Security
sccs.intelgr.com
Уп кП|ХП, уП ),
Я = Я( I).
Из введенных определений и построений следует, что критерии качества этих видов стратегий различны и взаимозависимы. Тогда проблема выбора имеет игровое содержание и сводится к отысканию устойчивого компромисса между стремлением к максимизации ожидаемой удельной ценности целеустремленного состояния по результату и минимизации возможных потерь от неправильных представлений. Такой компромисс называется равновесием.
Заметим, что поскольку информационная структура «удельной ценности»
иП = и(Хп, уП, )(1), в условиях которой строится критерий цп (ЕфП (уП | ХП)),
должна формироваться последовательно в зависимости от используемых стратегий, то искомые равновесия будут взаимозависимы не только на каждом этапе п = 1, 2, ... формирования решений, но они будут зависеть также и от решений, выбираемых на предшествующих шагах. С учетом этого эти равновесия естественно называть динамическими.
ООО
Тройка стратегий { ХП, уП, ¡1 }, удовлетворяющих условиям
ЕФп (Хп|У1П) г ЕфП(ХП|уП) VX1n, Цп (у0П|Х°П) >Цп (у П | Х°П) Vу п,
ип=и (Х°п, у"1, ¡1)(I);
и
ООО о о
Уп | у1 , Х1 ) > Цп | у1 , Х1 ) ^ ,
[Я = Я( I), п = 1,2,.....
определяет состояние динамического равновесия.
Согласно предположениям количество циклов формирования решения не ограничено. Тогда состояние динамического равновесия должно иметь смысл, в том числе при п—гс. Для его существования естественно потребовать выполнения следующих дополнительных условий:
1) при п—гс критерии качества стратегий должны стремиться к некоторым пределам;
2) такие пределы не должны зависеть от начальных условий. Поскольку критерии в явном виде не заданы, то выполнение этих свойств
не очевидно. Это требует задания нужных свойств и затем явного указания критериев, удовлетворяющих этим свойствам.
Согласно введенным предположениям критерии качества стратегий
Х , у , с, при п—^гс имеют пределы, тогда тройка стратегий (Х , у , с, ) опре
о œ
о œ
о
.œ
Systems of Control, Communication and Security
sccs.intelgr.com
деляет асимптотическое состояние стационарного равновесия, если для нее существуют пределы, удовлетворяющие условиям:
о о о
I /Л 00 I 00ч. , /Л 00 , 00ч х/лОО
Ф(А !у )>Фп(А ^ ),УА ; I ) >Рп(уОА"),Уу";
о о о
и = и (А 00, у 00, )(I);
o o
V^V 00, R = R(I ).
o o o
00 ч . /С 00 I л 00 00 wt-ООч
у ) у ,V£ );
о о о
^ ,. 00 00 \ г
Сами стратегии (А , у , £ ) будем называть стационарными.
Таким образом, содержание проблемы моделирования выбора состоит в отыскании компромисса между стремлением к достижению максимальной ожидаемой удельной ценности по результату и минимальных потерь от неверных представлений с учетом их взаимной зависимости. Согласно принципу равновесных решений этот компромисс должен быть «не улучшаем» одновременно по всем компонентам интересов.
При достижении такого компромисса можно утверждать, что интересы субъекта реализуются с «наилучшим результатом». Если при этом динамические равновесия удовлетворяют требованиям асимптотической стационарности при п^гс, то можно также утверждать, что интересы субъекта реализуются с «наилучшим результатом» на каждом шаге, в том числе при п^гс. Отсюда следует, что динамические равновесия определяют смысл и способ реализации интересов с «наилучшим результатом». С учетом этого динамические равновесия естественным образом определяют внутреннюю цель при принятии решений. Этот вывод вытекает из следующих рассуждений. В соответствии с пунктами 1 и 2 исходных предположений у субъекта существуют три аспекта интересов. Первый связан с управлением эволюцией его объекта интересов. Второй - с выбором структуры своих интересов и третий связан с идентификацией ситуации выбора. в соответствии с этим предполагается наличие трех множеств альтернатив. Выбор конкретных альтернатив производится в соответствии с соответствующим критерием. Критерии следует считать различными и взаимозависимыми в совокупности. Следовательно, проблема выбора имеет игровое содержание с корпоративными интересами, так как конкретная сторона интересов представляет определенную сторону многоаспектных интересов субъекта и его интересы являются доминирующими для выделенных сторон. Отсюда следует, что состояние равновесия игры при п^гс естественным образом определяют внутреннюю цель при принятии решений.
Упрощенно структуру модели принятия решений на основе субъективных представлений можно представить схемой (рис. 1).
<
Systems of Control, Communication and Security
sccs.intelgr.com
Критерий
Рис. 1. Структура модели принятия рационального решения на основе субъективных представлений
Пример использования предложенного подхода при управлении технологическими узлами и агрегатами
Для иллюстрации приведенной выше модели принятия решений рассмотрим пример управления технологическим процессом непрерывного типа со следующими свойствами:
- на изменение состояния технологических агрегатов особенно в агрессивных средах существенное влияние оказывает режим ведения процесса;
- сложный характер тепло и массообменных процессов в сочетании с недостаточной изученностью химических превращений и необходимость учета качественных параметров при ведении процесса не позволяет получить формальное описание объектов управления;
- отсутствует возможность прямого измерения состояния активности реакционных процессов в присутствии катализатора, изменяющего свои свойства под действием реакционной среды;
- для получения математической модели приемлемыми являются статистические модели, а также модели, развитые в теории искусственного интеллекта;
- неполная адекватность «жестких» моделей и алгоритмов реальному процессу предполагает активное участие и использование профессиональных знаний операторов, принимающих решения при управлении технологическими узлами;
- использование косвенных параметров для характеристики активности реакционных процессов предполагает использование вербальных оценок и, следовательно, нечетких категорий.
Приведенный перечень свойств показывает, что нахождение режимов ведения процесса, повышающих выход целевого продукта - это сложная, трудоемкая и длительная во времени работа, требующая высокой квалификации, мотивированности и самоотдачи участвующих в ней специалистов. Управление такими процессами проводится в основном на интуитивном уровне с примене-
Systems of Control, Communication and Security
sccs.intelgr.com
нием неформализованных методов, основанных на искусстве, практическом опыте, экспертных оценках и дорогостоящих экспериментальных проверках по оценке качества управления и его повышения. Использование высоко агрессивных компонентов и применение катализаторов, изменяющих свою активность под их воздействием, придает процессу свойства слабой структурированности, нестационарности, неопределенности.
Это позволяет сделать вывод, что мотивация управления основывается на интересах (потребностях, предпочтениях) персонала, и он рассматривает свое участие в его управлении как средство их удовлетворения.
Для иллюстрации дальнейших рассуждений представим объект управления как показано на рис. 2.
Помеха ш
режимных параметров
Рис. 2. Технологический процесс, как объект управления
В процессе функционирования технологический процесс может переходить в различные состояния в случайные моменты времени, в том числе, и в состояние, определяемое понятием «авария». Отсюда возникает необходимость как выполнения специальных организационно-технических мероприятий, направленных на элиминирование влияния описанных выше факторов, так выбора режимов ведения процесса. Если принять гипотезу о рациональном поведении агента, то он будет стремиться к максимизации степени достижения субъективно понимаемых интересов (извлекать наибольшую пользу). Они могут быть представлены согласно результатам, полученным выше и в [2], целевой функцией для агента с номером к в виде
max
zl eZ, XneX
Еф g ( ci ( yj ( xf, zi )) )-EE g ( xf, yj ( zi ) )
Достижение максимума этой целевой функции предполагает, что агент должен наблюдая состояние объекта управления (множество 5) формировать представление хеХ о технологической ситуации. Сформированное представление позволяет агенту характеризовать состояние объекта управления и свое отношение к нему с помощью соответствующих вербальных шкал. Полученные оценки определяют отношение агента к состоянию объекта как с точки зрения успешности и возможности реализации своих интересов (полезность), так и с точки зрения правильности (истинности) своих представлений, и их можно рассматривать как субъективные оценки ситуации целеустремленного состояния
Systems of Control, Communication and Security
sccs.intelgr.com
[16]. Очевидно, что формирование множества Х(опыт) является индивидуализированным и субъективным, и решается доступными для него средствами. Выделение классов эквивалентных представлений можно рассматривать как «идентификацию» объекта управления. Количество классов, число элементов в каждом и значения элементов могут изменяться во времени либо в связи активным поведением элементов предметной области (активность понимается в смысле, определенном в [9]). Идентификация может выполняться как в пассивном режиме, так и режиме активного эксперимента. На практике активный эксперимент выполняется с некоторым шагом во времени £>0, выбираемым из множества О. Поэтому значения £ играют роль структурных альтернатив.
Значительное количество признаков, имеющих качественную (вербальную) природу, учитываемых при принятии решений, и учет субъективных интересов агента предполагает разработку мер для оценки отношения агента к выделенным сторонам процесса выбора.
Модели истинности и полезности представлений агента. Пусть агент рассматривает субъективную модель р е Р представлений о некоторой предметной области Б, характеризуемую набором признаков X. Пусть рассматрива-
с
ется некоторое подмножество признаков X с X, по мнению агента являющееся достаточным для описания предметной области. Тогда 2Х будет определять множество Р доступных вариантов представлений. Определим последовательность
С Со
X 1 с X 2 с X 3 С... с X, как расширение объема знаний о предметной области.
о
Субъективная модель представлений, учитывающая набор X с X и
С
определяющая в сознании агента модель М (X ) предметной области - это
AAA Л
А
точка в пространстве (XS, Р(X), PlX, BelX ) ; PlX ^ R, BelX ^ R,
А А
R ^[0,1], <, max, min),R ^ [0,1], <, min), max). P(X) - множество некоторых правил, определяющих связи между входами и выходами. Меры Pl, Bel характеризуют своими значениями отношение агента к истинности и полезности своих суждений о своих представлениях (модели) об исследуемом объекте (предметной области). Очевидно, что первая мера косвенно позволяет оценить возможные потери при ошибочном представлении, а вторая позволяет охарактеризовать мотивацию агента.
*
Неопределенным параметром х , определяющим качество представлений агента при управлении каталитическим процессом синтеза в производстве хла-донов и фторопластов, является активность катализатора. Она изменяется во времени вследствие процессов «самоотравления», зависящих от режима ведения процесса. Его математическую модель можно рассматривать как неопреде* *
лённый элемент в пространстве (Xs , P(X), Plх , Belх ). Тогда его значение
Systems of Control, Communication and Security
sccs.intelgr.com
X * х *
может быть определено с помощью введенных мер: ^ (х ) = Р1 (х = х),
* . * .
_ у V у Ф
гх (х ) = Ве1х (х ф х), х е X [14].
Первоначальные представления о состоянии катализатора строились на основе измерения уровня реакционной массы. Оператор оценивает величину уровня с помощью лингвистической переменной «уровень реакционной массы». Формализация этого описания выполнена с помощью лингвистической переменной <2ь„ т , О, М>, где - уровень реакционной массы, Т -
г 2-1
к к
12 3
{^,^,^} термы со значениями {«малый уровень», «средний уровень»,
«большой уровень»} соответственно. Для них заданы нечеткие множества
-1 -2 -3 „
, , , описывающие семантику базовых значений переменной 2н„ и соответствующие функции принадлежности, исходя из значений выхода полезного продукта и величин не прореагировавших входных материальных потоков. Построение функций принадлежности для каждого терма осуществлялось на основе количественного парного сравнения степеней принадлежности.
Управление ходом процесса синтеза состояло в выборе значений режимных параметров, удерживающих значение уровня реакционной массы, равной одному из значений, соответствующих терму «средний уровень». Результат такого управления: выход полезного продукта не превышал 68%, частая смена катализатора вследствие «самоотравления», большие потери исходных продуктов, значительные затраты труда, разброс показателей качества от смены к смене, неудовлетворенность операторов оценкой их работы. Агент (технолог отделения, мастера смен) охарактеризовали степени истинности и полезности своих знаний об объекте управления, равными соответственно 0,45 и 0, 3.
В соответствии с описанным выше подходом в области изменения показателей качества выходного потока выбирается подобласть в окрестности некоторой точки у0, в которой значения показателей качества принимаются оператором как удовлетворительные. Окрестности можно поставить в соответствие область режимов Б2 в пространстве режимов . При неизменном положении в пространстве режимов дрейф подобласти будет характеризовать изменение реакционной активности в агрегате под действием неконтролируемых возмущений (изменения активности катализатора, уменьшение реакционной зоны, снижение адсорбционной способности и т.п.). Коэффициенты регрессионных моделей, связывающие в этих областях выходные переменные с режимными, также будут характеризовать состояние реакционной активности в агрегате.
Принадлежность конкретного значения вектора показателей качества, выхода, режимных параметров к множеству определяется оператором по
Systems of Control, Communication and Security
sccs.intelgr.com
данным косвенных измерений. Функции {z(t), y(t), v(t)} - временные функции или динамические процессы, определенные на интервале t eT. Тогда в условиях неопределенности о причинно-следственных связях между этими параметрами и неточностью измерений для описания таких процессов использована модель процесса с нечеткой мерой вида
1 '
Мп = {x(t,A),t e T,x e X с R1,A e ü, ¡},
определенной на борелевском поле В подмножеств ü действительной число-1 ' вой оси R в пространстве (Q , B, ц) и удовлетворяющей трем основным условиям:
1) условие ограниченности ц(0)=О, ц( ü )=1;
2) условие монотонности A, B с Q, A с B, ц (A)< ц(В);
!
3) условие непрерывности a.eQ, j = 1,2,...ад, lim ц(а j) = |u(lim(a j)).
j
Модель технологического процесса агрегата с изменяющейся реакционной активностью как системы будет представлять собой упорядоченные пары входного {z(t), t eT} и выходных процессов {y(t),v(t),t eT} и может быть
определена выражением М = {z(t),y(t),v(t): z(t),y(t),v(t) е Мп}.
s
Пусть представления агента о зависимости между режимными параметрами z(t), выходом y(t) и показателями качества v(t) могут быть выражены операторами y = F (z) и v = ^ (z). Тогда описание технологического процесса, как
нечеткую систему, можно описать нечеткими отношениями F1 и F2, то есть распределениями нечеткости ц (z[t ], y[t ]) и (v[t ],y[t ]). Это означает, что при
известном режиме ведения процесса z оператор ставит в соответствие в нечетких множествах R(z, y) и R(z, v) нечеткие подмножества Ry(z) и Rv(z) с условным распределением нечеткости соответственно ц y = (y[t ] / z[t ]) и Ц v = (v[t]/ z[t ]).
Переход системы из одного состояния в другое при изменении реакционной активности описывается с помощью нечеткого оператора перехода с условным распределением нечеткости цy = (y[t +1] / z[t]), |v = (v[t +1] / z[t]).
Следовательно, модель агрегата с изменяющейся реакционной способностью можно описать с помощью операторов F1 и F2, преобразующих распределение нечеткости, в виде y(t) = F1(!1(y[t], z[t])), v(t) = F2(!2(v[t], z[t])).
Такой подход позволяет объединить субъективные суждения агента о технологической ситуации и результаты, получаемые с помощью формальных методов и строить модель субъективных представлений агента о поведении объекта управления на основе описанного выше подхода. Свои представления агент о свойствах технологической ситуации выражает с помощью правил, содержащих элементарные высказывания zz{t) есть Z,, где Z - лингвистическая переменная, описывающая режимный параметр и характеризуемая набором
Systems of Control, Communication and Security
sccs.intelgr.com
{и2 Т , 2,О, М}, здесь и2 - наименование лингвистической переменной,
например, уровень реакционной массы, температура в рубашке реактора и т.п.; Т - множество ее значений (терм-множество), представляющее собой наименования нечетких переменных, областью определения который является множество 2; О - синтаксическая процедура (грамматика), позволяющая генерировать новые термы; М - процедура, позволяющая задать новому терму нечеткую переменную, то есть приписать ему нечеткую семантику путем формирования соответствующего нечеткого множества.
В общем случае субъективное представление агента о поведении объекта управления описывается в виде совокупности правил:
П1: если 21 (0 есть 21 и ... и 2™ есть 2™, то у/21, ¿2,..., 2т), /=1, п; (1) Пк: если 2^)есть 2^ и ... и 2™^) есть 2™, то ^=/(21,..., 2т), к= 1,пу. (2)
Здесь 21к - нечеткие переменные соответствующие введенным термам,
Пк
- система экспертных высказываний, образующие импликации вида Пк = если 2^) есть 2[ и ..и 2т(0 есть 2™,
1
то У = (21 п, 22 п...п п2™) ^ Х,=£(21,..., 2т), к=кпу, (3)
где 2\, 22, .... 2>п с Т,.
Если в заключении (1), (2) заменить у=/(21, 22,..., 2т) на нечеткие переменные, соответствующие термам выходных переменных, то (3) преобразуется к виду
Пк = если 2 к (^ есть 2к и ..и 2^(1) есть 2^,
то У = (2к п 22 п. п2™) ^ V, к=йу, (4)
где 2к, 22 , 2к е Т2, V е .
Выражение (3) позволяет комбинировать в правой части математические модели и экспертные высказывания, а выражение (4) использует только экспертные оценки.
Адекватность модели (3) обеспечивается подбором вектора параметров функций принадлежности, структурой зависимости /(2^..., 2т) и ее параметрами, а также количеством правил в базе правил к. Как показали экспериментальные исследования, наиболее приемлемой является ТБК-модель, позволяющая использовать в нечеткой модели статистические данные о ходе технологического процесса.
Идентификация параметров нечеткой модели (4) производится путем минимизации невязки в({) выходов объекта у^) и у(1) и моделей у(2(£ ),п,2,, г(2(^),п, 2, d)
еу (0 = У(0 - У(2(г\ п 2, d), ^ (I) = у(1) - 2(1), п, 2, d) путем варьирования вектора d, параметров порядка п и к.
Systems of Control, Communication and Security
sccs.intelgr.com
Известные алгоритмы идентификации нечетких моделей, основанные на минимизации квадратичной функции потерь ^(ву (0) = ¿у (0 и (¿)) = е2(0,
предполагают синтез сложных процедур структурной идентификации, в которых эффективность результата определяется их взаимодействием и порядком их запуска. Поэтому предложено решать задачу идентификации в три этапа. На первом этапе с помощью алгоритма самоорганизации определяются области варьирования режимных параметров и выходных параметров. Затем на полученных множествах значений агентом задаются соответствующие терм множества, определяются вид и параметры их функций принадлежности. Одновременно определяются возможное количество правил в нечеткой модели и границы применения каждого правила. В пределах границы применения правила определяются вид и структуры зависимостей ^=//(21,..., 2т) иу=//(21,..., 2т).
Принятие решения о корректировке режима ведения технологического процесса принимается, если выход целевого продукта уменьшается на 1%. Компенсация возмущений, в основном по составу входных материальных потоков, проводилась агентами в окрестности номинального режима по эмпирическим правилам, полученных опытным путем.
Поэтому за параметр реакционной активности технологических агрегатов процесса принят выход целевого продукта. Это позволило вид моделей у7=//(21,., 2т) иу/=//(21,., 2т) представлять в виде полиномов следующего вида
п _ п
Vг = аю + £ аг1 (х1,^ X г =1,п, у = X V, (5)
] = 1 '
' V j j i = 1
где а- (К) - функция, определяющая зависимость коэффициентов регрессии от реакционной активности агрегата; х j, I ■) - заданные функции от нагрузки
по входу Ху и режимных параметров I ■.
В случае использования статистических методов для построения математических моделей технологических агрегатов изменение реакционной активности агрегатов выражается через зависимость вектора коэффициентов модели от неконтролируемого параметра «состояние катализатора». Для уменьшения вычислительной сложности алгоритмы была использована модель аддитивного дрейфа параметров модели. Причем неконтролируемые возмущения оказывают влияние только на одно из слагаемых модели, в качестве которого принят свободный член регрессионной модели.
Зависимость скорости изменения реакционной активности агрегата от величины нагрузки по входу и параметрами режима в (5) описывается дифференциальным уравнением = Г(К, I, х, о, ?), где шеО - случайная помеха.
Таким образом, построение моделей процессов с косвенным способом контроля реакционной активности технологических агрегатов сводится к выполнению следующих этапов:
Systems of Control, Communication and Security
sccs.intelgr.com
1. В пространстве изменения режимных параметров для каждого технологического агрегата выполняется разбиение множества значений на подмножества с помощью алгоритма самоорганизации.
2. Для каждого режимного параметра агрегата в выделенном подмножестве определяется лингвистическая оценка «степень принадлежности» точек с термами «большая, средняя, малая», строятся функции принадлежности.
3. Формируется база правил: определяется носитель соответствующего нечеткого множества и вид функции принадлежности. Строятся соответствующие базы правил области , Б к, Б у, Б2.
4. Выбирается структура полинома х •, 2 ■), и для каждого временного
сечения определяются коэффициенты а • • моделей.
ч
5. Полученные выражения подставляются в правую часть базы правил, и для каждого временного интервала рассчитывается ошибка в^) и соответствующая ей мера. Если значения ^(еу ^)) = еу (0 и (?)) = ) принимается
как неудовлетворительное, то выполняется корректировка функций принадлежности и выполняется пересчет параметров модели.
Значения выхода целевого продукта2, полученные по результатам моделирования со значениями режимных параметров, соответствующих лингвистической оценке «большая степень принадлежности», образуют выборку для построения модели изменения реакционной активности технологического агрегата.
Алгоритм экстракции новых знаний
1. Создать варианты начальных представлений о ситуации выбора, в котором есть хотя бы одно достоверное звено требуемого знания, с различной степенью полезности, используя доступные способы пассивной и активной идентификации. Сохранить эту информацию в базе знаний. Использовать априорную информацию в сходных ситуациях выбора.
2. Провести эксперимент по оценки параметров модели начальных представлений. Выполнить анализ полученной информации и сделать обоснованное предположение о том, в каком направлении можно повысить степень полезности представлений о ситуации выбора (формирование гипотетических звеньев знания). Это предполагаемое направление будет не точным, а нечетким (вероятностным, выраженным в лингвистической форме), оно будет представлять собой некоторый диапазон возможных направлений поиска.
3. Выбрать способы действия, используя результаты п. 2, оценить результаты и выполнить поиск новых знаний в выбранных направлениях, начиная с наиболее вероятных. Оценить степень их полезности и вероятность достижения желаемых состояний. Если вариант возможной ситуации целеустремленного
2 Целевой продукт - это часть материального потока, для получения которого и создается технологический процесс.
Systems of Control, Communication and Security
sccs.intelgr.com
состояния считается как удовлетворительный, то новое полезное звено знаний найдено переход к следующему шагу. Иначе вернуться к шагу 2).
4. Сохранить информацию о новом звене знаний в базе знаний и переход к шагу 2).
Для реализации своих интересов и при сформированном представлении агент выбирать значения режимных параметров и величину нагрузки по входу материальных потоков. Их значения образуют множество управляющих действий.
На основе полученных выше результатов по моделированию принятия субъективно рациональных решений была разработана общая алгоритмическая схема вычислительной процедуры построения динамических равновесий. Она включает в себя алгоритмы вычисления локальных равновесий, формирования информационной структуры «удовлетворенности» полученным на каждом шаге результатом, формирования информационной структуры «полезности» представлений.
Разработанная вычислительная схема была использована при решении задач управления в производстве хладонов и фторопластов. Результаты экспериментальных исследований приведены на рис. 3-6. Здесь п - число циклов.
Рис. 3. Динамика изменения оценки Рис. 4. °ценки уд°влетв°ренности полезности представлений свойствами ситуации выбора
Рис.5. Процент выхода целевого Рис. 6. Время пробега катализатора продукта
Полученные результаты показывают, что модели принятия решений, в которых используется игровой подход к распределению усилий агента в процессе выработке и реализации решений, позволяют существенно повысить эф-
Системы управления,связи и безопасности №2. 2018
Systems of Control, Communication and Security sccs.intelgr.com
фективность управления в системах, где существенное значение имеет поведение производственного персонала.
Выводы
Предложена модель принятия решений агентом, способным формировать внутреннюю цель и использующим субъективные представления о ситуации выбора. Показано, что цель выбора состоит в максимизации удельной ценности ситуации выбора по результату в случае, когда результат выбора определяется субъективными представлениями агента о ситуации выбора и о своих интересах. При принятии решений он использует три множества альтернатив: управляющие С (способы действия), структурные О и идентификации X. Следовательно, можно предположить существование трех виртуальных сторон, осуществляющих выбор соответствующих альтернатив, являющихся равновесными стратегиями. Тогда проблема индивидуального выбора имеет игровое содержание.
Предложенная в статье модель относится к классу поведенческих моделей систем искусственного интеллекта. Ее сущность состоит в возможности моделирования процессов формирования знаний о предметной области и принятия решений человеком с последующим переносом найденных стратегий для реализации в искусственных системах. Предложенный подход позволяет формировать модели знаний и принятия решений агентов в процессе реализации поведенческих актов. Эту модель можно рассматривать как проблемно -независимую, применимую для широкого класса систем искусственного интеллекта, требующих сложного поведения в слабоструктурированных и плохо формализуемых средах.
Работа выполнена при государственной финансовой поддержке РФФИ инициативного научного проекта № 17-01-00728.
Литература
1. Лефевр В. А. Конфликтующие структуры. - М.: Советское радио, 1973. - 158 с.
2. Виноградов Г. П., Кузнецов В. Н. Моделирование поведения агента с учетом субъективных представлений о ситуации выбора // Искусственный интеллект и принятие решений. 2011. № 3. С. 58-72.
3. Баранов В. В. Динамические равновесия в задачах стохастического управления и принятия решений при неопределенностях // Известия РАН. Теория и системы управления. 2002. № 3. С. 77-93.
4. Виноградов Г. П., Борисов П. А., Семенов Н. А. Интеграция нейросетевых алгоритмов, моделей нелинейной динамики и методов нечеткой логики в задачах прогнозирования // Известия РАН. Теория и системы управления. 2008. № 1. С.78-84.
5. Виноградов Г. П., Шматов Г. П., Борзов Д. А. Формирование представлений агента о предметной области в ситуации выбора // Программные продукты и системы. 2015. № 2 (110). С. 83-94.
Системы управления,связи и безопасности №2. 2018
Systems of Control, Communication and Security sccs.intelgr.com
6. Herbert A. Simon. The Sciences of the Artifical - The MIT Press Cambridge, Massachusets, London Englad.1996. - 231 p.
7. Edwards W, Tversky A. Decision making - Harmondsworth Middlesex, England. Penguin Books, 1972. - 480 p.
8. Новиков Д. А., Чхартишвили А. Г. Прикладные модели информационного управления. - М.: ИПУ РАН, 2004. - 129 с.
9. Новиков Д. А., Чхартишвили А. Г. Рефлексивные игры. - М.: Синтег, 2003. - 160 c.
10. Чхартишвили А. Г. Теоретико-игровые модели информационного управления. - М.: ПМСОФТ, 2004. - 227 с.
11. Карпов А. В. Общая психология субъективного выбора: структура, процесс, генезис. - Институт психологии РАН; Яросл. гос. ун-т. Ярославль, 2000, 328 с.
12. Городецкий В. И., Самойлов В. В., Троцкий Д. В. Базовая онтология коллективного поведения автономных агентов и ее расширения // Известия РАН. Теория и системы управления. 2015. №5. С. 102-121.
13. Канеман Д., Словик П., Тверски А. Принятие решений в неопределенности: Правила и предубеждения. - Харьков: Гуманитарный центр, 2005. - 632 c.
14. Пытьев Ю. П. Математическое моделирование субъективных суждений модельера-исследователя о модели объекта исследования // Математическое моделирование. 2013. Т. 25. № 4. С. 102-125.
15. Виноградов Г.П., Кузнецов В.Н. Постнеклассические научные исследования сетевых отношений в интеллектуальных организациях // Труды Конгресса по интеллектуальным системам и информационным технологиям «IS&IT'14». Научное издание в 4-х томах. Том 1. - М.: Физматлит, 2014. -С. 423-429.
References
1. Lefevr V. A. Konfliktuyushchie struktury [Conflicting structures]. Moscow, Sovetskoe radio Publ., 1973. 158 p. (in Russian).
2. Vinogradov G. P., Kuznetsov V. N. Modelirovanie povedeniya agenta s uchetom sub"ektivnykh predstavlenii o situatsii vybora [Modeling of agent behavior taking into account subjective ideas about the situation of choice]. Artificial intelligence and decision making, 2011, no. 3, pp. 58-72 (in Russian).
3. Baranov V. V. Dinamicheskie ravnovesiya v zadachakh stokhasticheskogo upravleniya i prinyatiya reshenii pri neopredelennostyakh [Dynamic equilibria in stochastic control and decision-making problems with uncertainties]. Journal of Computer and Systems Sciences International, 2002, no. 3, pp. 77-93 (in Russian).
4. Vinogradov G. P., Borisov P. A., Semenov N. A. Integratsiya neirosetevykh algoritmov, modelei nelineinoi dinamiki i metodov nechetkoi logiki v zadachakh prognozirovaniya [Integration of neural network algorithms, nonlinear dynamics models and fuzzy logic methods in forecasting problems]. Journal of Computer and Systems Sciences International, 2008, no. 1, pp.78-84 (in Russian).
Системы управления,связи и безопасности №2. 2018
Systems of Control, Communication and Security sccs.intelgr.com
5. Vinogradov G. P., Shmatov G. P., Borzov D. A. Formirovanie predstavlenii agenta o predmetnoi oblasti v situatsii vybora [Formation of agent's ideas about the subject area in the situation of choice]. Programmnye produkty i sistemy, 2015, vol. 10, no. 2, pp. 83-94 (in Russian).
6. Herbert A. Simon. The Sciences of the Artifical. The MIT Press Cambridge, Massachusets, London Englad.1996. 231 p.
7. Edwards W, Tversky A. Decision making. Harmoudsworth Middlesex, England Penguin Books, 1972. 480 p.
8. Novikov D. A., Chkhartishvili A. G. Prikladnye modeli informatsionnogo upravleniya [Applied models of information management]. Moscow, Institute of Control Science of Russian Academy of Science Publ., 2004. 129 p. (in Russian).
9. Novikov D. A., Chkhartishvili A. G. Refleksivnye igry [Reflexive game]. Moscow, Sinteg Publ., 2003. 160 p. (in Russian).
10. Chkhartishvili A.G. Teoretiko-igrovye modeli informatsionnogo upravleniya [Game-theoretical models of information management]. Moscow, PMSOFT Publ., 2004. 227 p. (in Russian).
11. Karpov A. V. Obshchaya psikhologiya sub "ektivnogo vybora: struktura, protsess, genesis [General psychology of subjective choice: structure, process, Genesis]. Institute of psychology, Russian Academy of Sciences; Yaroslavl state University, Yaroslavl Publ. 2000. 328 p. (in Russian).
12. Gorodetskii V. I., Samoilov V. V., Trotskii D. V. Bazovaya ontologiya kollektivnogo povedeniya avtonomnykh agentov i ee rasshireniya [Basic ontology of collective behavior of Autonomous agents and its extension]. Journal of Computer and Systems Sciences International, 2015, no. 5, pp. 102-121 (in Russian).
13. Kaneman D., Slovik P., Tverski A. Prinyatie reshenii v neopredelennosti: Pravila i predubezhdeniya [Judgment Under Uncertainty: Heuristics and Biases]. Kharkov, Humanitarian center, 2005. 632 p. (in Russian).
14. Pyt'ev Yu. P. Matematicheskoe modelirovanie sub"ektivnykh suzhdenii model'era-issledovatelya o modeli ob"ekta issledovaniya [Mathematical modeling of subjective judgments of the designer-researcher about the model of the object of study]. Mathematical Models and Computer Simulations, 2013, vol. 25, no. 4, pp. 102-125 (in Russian).
15. Vinogradov G. P., Kuznetsov V. N. Postneklassicheskie nauchnye issledovaniya setevykh otnoshenii v intellektual'nykh organizatsiyakh [Postnonclassical scientific research into network relationships in intelligent organizations]. Trudy Kongressa po intellektual'nym sistemam i informatsionnym tekhnologiyam «IS&IT'14» Nauchnoe izdanie v 4-kh tomakh [Proceedings of the Congress on intelligent systems and information technology "IS&IT'14". Scientific publication in 4 volumes]. Moscow, Fizmatlit Publ. 2014, vol. 1, pp. 423-429 (in Russian).
Статья поступила 4 апреля 2018 г.
Системы управления,связи и безопасности №2. 2018
Systems of Control, Communication and Security sccs.intelgr.com
Сведения об авторе
Виноградов Геннадий Павлович - доктор технических наук, профессор. Профессор кафедры информатики и прикладной математики. Тверской государственный технический университет». Область научных интересов: теория мультиагентных систем; принятие решений; моделирование поведения. E-mail: [email protected]
Адрес: 170026, Россия, г. Тверь, набережная Аф. Никитина, д. 22.
Simulation of Subjective Choice under Uncertainty about the State of Environment and its Changes
G. P. Vinogradov
Problem statement: the formal theory of choice was developed by abstracting from subjective factors. This led to the creation of a normative theory of decision-making "ideal" subject. It can not be regarded as relevant in modeling the behavior. The solution of this problem is currently associated with the results obtained in the theory of reflexive games and the theory of information management systems that have will and intelligence. However, despite the abundance of work in this direction, the problem remains relevant. The aim of the work is to develop a decision-making model that takes into account how and why in real conditions there is a "departure" from the subject of normative rationality. Methods used: the solution of the problem of subjectively rational choice is based on the use of methods of system analysis, the theory of active systems and multiagent systems. Novelty: it is shown that the regularities of the subject's departure from the "ideal" rational choice to the subjectively rational one are connected with the peculiarities of identification and understanding of the state of the external environment and the properties of their interests. External factors relate to obligations assumed by the agent. Internal factors reflect the interests of the subject, induced by his needs and the ethical system he adheres to. It is proved that the choice of the subject is based on the ideas of the situation of choice, which reflect the various aspects of the subject's understanding of its properties and form the information structure of representations as a set of possible variants of representations. Assessments of satisfaction with the current situation of the subject's choice lead to a change in the structure of the interests of the subject, and he can choose it. It is shown that the agent uses three sets of alternatives in decision-making: control, structural and identification. This implies the existence of three virtual parties that choose their alternatives. The rules for choosing such alternatives, depending on the subject's understanding of the situation and the structure of their interests, are formed by finding a compromise and the problem of modeling the choice acquires game content. The result: the use of the presented solution is aimed at creating biotechnical systems and systems that would operate in such a way that the results of their work could not be distinguished from the actions of a reasonable person. The simulation showed that behavioral models of decision-making, which use a game approach to the distribution of the agent's efforts in the process of decision-making and implementation, can be considered as adequate to the real. There is a possibility of management of processes of forming of representations of the agent on a situation of the choice and purpose formation. Practical significance: the presented solution allows 1) to explain the decision-making of the subject in specific situations; 2) to make predictions about the possible reactions of another subject in different situations; 3) to solve the problem of active forecast, when the managing party creates the desired image of the future for the controlled party.
Key words: reflexive management, decision-making, model, decision-making, compromise.
Information about Author
Gennady Pavlovich Vinogradov - Holder of an Advanced Doctorate of Engineering Sciences, Full Professor. Professor at the Department of Applied Mathematics and Informatics. Tver State Technical University. Field of research: theory of multi-agent systems; decision - making; behavior modeling. E-mail: [email protected]
Address: Russia, 170026, Tver, nab. Af. Nikitina, d. 22.