УДК 004.896 ББК 32.813
МОДЕЛЬ КОМАНДНОГО ПОВЕДЕНИЯ АГЕНТОВ (РОБОТОВ): КОГНИТИВНЫЙ ПОДХОД1
Кулинич А. А.2
(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)
Предложена математическая модель кооперации агентов в динамических ситуациях, основанная на критериях полезности агентов и когнитивного диссонанса их отношений. Модель основана на работах социальных психологов, исследовавших особенности поведения людей в малых социальных группах и объясняющих принципы их функционирования и устойчивости. На основе предложенной модели разработана имитационная модель игры агентов (роботов) в виртуальный футбол. Разработанная имитационная модель позволяет моделировать различные аспекты командного и эгоистичного поведения агентов.
Ключевые слова: кооперация агентов, критерии полезности, когнитивный диссонанс, когнитивная карта, правило поведения агента, командное поведение, эгоистичное поведение.
1. Введение
Исследование кооперации агентов (автономных роботов) возможно с использованием абстрактных математических моделей их взаимодействия в виде многоагентной системы. Много-агентная система состоит из множества интеллектуальных, общающихся между собой агентов (роботов), которые могут объединять свои ресурсы для решения сложных задач.
1 Работа выполнена при финансовой поддержке РФФИ (проект №14-01-00817).
2 Александр Алексеевич Кулинич, кандидат технических наук, старший научный сотрудник ([email protected]).
В рамках теории многоагентных систем был предложен ряд теоретических концепций, определяемых как теории командной работы агентов. Это теория общих намерений [17] и теория общих планов [20]. Эти две теории командной работы ориентированы на BDI (Belief-Desire-Intention) [22] - архитектуру агентов, которая считается основной при реализации интеллектуальных агентов. В рамках BDI архитектуры агентов описываются «ментальные» состояния агентов в терминах их убеждений, желаний (целей) и намерений. Задача теорий командной работы заключается в том, чтобы построить модели и методы согласования убеждений, желаний множества агентов, а также намерений для реализации их совместной работы. Естественно такое согласование требует многочисленных коммуникаций между агентами.
Теория общих намерений основана на двух типах базовых понятий. Первый тип понятий - это ментальные понятия: события (отражают состояние внешнего мира); убеждения (отражают достоверные знания агента о внешнем мире); цель агента; взаимные убеждения (отражающие общие достоверные знания множества агентов о внешнем мире (конъюнкция знаний агентов)). Понятия этого уровня ответственны за отражение действительности в терминах убеждений (достоверных знаний) агента. Второй тип понятий - это понятия для описания поведения агентов: индивидуальные и общие обязательства (это обязательства по достижению индивидуальной или общей цели коллектива агентов); соглашения (отражают условия отказа агентом от своих обязательств); индивидуальные и общие намерения (отражают особенности коллективного взаимодействия агентов). К недостаткам теории общих намерений относят трудности при построении плана работы команды агентов в динамических ситуациях [3, 4], когда план приходится пересматривать в динамическом контексте ситуации.
В теории общих планов [20] основными базовыми понятиями являются понятия группового плана и индивидуальных ментальных понятий агентов (намерений, убеждений и т.д.). Для выполнения группового плана агенты должны прийти к соглашению о действиях, которые они будут выполнять, реализуя
групповой план. Таким образом, теория общих планов описывает множество взаимосвязанных намерений и убеждений агентов, работающих в команде.
В теориях общих намерений и общих планов агенты часто не могут построить общий план, выполняя только частичные планы, многократно пересматривая их. Такой перманентный пересмотр планов возникает в динамических ситуациях, а также при условии противодействия соперников - агентов, препятствующих командной работе группы агентов [3, 4].
Для многих случаев моделирования командной работы оказывается достаточным использование агентов с простой реактивной архитектурой (стимул-реакция). Агент с реактивной архитектурой реагирует некоторым действием на любое изменение среды, в которой он находится. Для реализации реактивной архитектуры необходимо перечислить возможные состояния среды и всевозможные реакции на эти состояния. Интерес к моделированию коллективного поведения простых реактивных агентов появился в 60-е годы прошлого столетия. Так, в работах [1, 12, 16] на основе изучения коллективного поведения конечных автоматов были заложены теоретические основы коллективного взаимодействия агентов. С помощью реактивных агентов реализуется, как правило, несложное командное поведение агентов - это образование стаи или роя агентов, которое реализуется с помощью роевых и эволюционных алгоритмов [5]. Исследуются разнообразные алгоритмы обхода стаей (роем) агентов препятствий, уклонение от столкновения [9] и т.д.
Агенты с реактивной архитектурой могут решать и более сложные задачи, если определены правила их поведения в среде и модели среды их функционирования. Например, если предположить, что агенты рациональны и ведут себя в соответствии с некоторой функцией полезности, пытаясь ее максимизировать, то задачи коммуникации агентов для командной работы могут быть значительно сокращены.
Рассмотрим, например, алгоритмы образования коалиций, основанные на методах решения кооперативных игр. Задача образования коалиции в рамках этой теории решается при условии
рациональности агентов и полной информированности всех агентов о целях, ресурсах и стратегиях других агентов, а также при условии их рационального поведения и возможности дележа выигрыша, полученного коалицией агентов. Коалиционную игру представляют форме характеристической функции [7]. Игра задается множеством агентов А и характеристической функцией у(-) на всех возможных подмножествах агентов - коалициях. Выигрыш коалиции определяется как сумма индивидуальных выигрышей всех участников коалиции. Считается, что агенты коалиции могут делиться своими выигрышами, рационально распределяя его между другими участниками коалиции. Дележ х = (х1, х2, ..., х„) выигрыша коалиции у (К) должен удовлетворять определенным условиям, одно из которых - это условие индивидуальной рациональности агента. Это условие означает, что выигрыш любого агента коалиции XI должен превышать его выигрыш у ({/}), если бы этот агент действовал самостоятельно, т.е. XI > у ({/}), I е К. Понятие решения в коалиционной игре связано с устойчивостью дележа. Дележ выигрыша должен лишать участников коалиции мотиваций покидать коалицию, обеспечивая ее устойчивость. Для этого он должен доминировать дележи выигрыша других коалиций. Существуют методы решения кооперативных игр (С-ядро, МН-решения и др.) [7]. Однако при обеспечении полной информированности агентов эти методы имеют экспоненциальную сложность вычислений и коммуникаций между агентами относительно их числа, что ограничивает возможность их практического применения [11].
Еще одна группа методов - это методы, основанные на моделировании поведения агентов при образовании коалиций на основе теорий социального выбора и социальной зависимости субъектов [18, 19, 21]. Эти методы позволяют оперативно решать вопросы образования открытых динамических коалиций, состав которых может меняться в процессе решения задачи, а агенты могут свободно входить в состав коалиции или выходить из нее [18, 19, 21].
Здесь задано множество агентов A = {ai}, для каждого из которых определены: ACT(a) - множество возможных действий агента a; RES(at) - множество ресурсов агента a; PL(ai) - план действий агента ai для достижения цели Oj. План действий агента реализуется им для достижения цели путем манипулирования имеющимися ресурсами. План можно представить парой PL(ai) = (acti, res/), где acti е ACT(ai), resi e RES(a)
Если у агента ai для реализации плана достижения собственной цели нет ресурса resi g RES(ai), но этот ресурс есть у агента aq, resi eRES(aq), то считается, что агент ai может обратиться к агенту aq с просьбой передать недостающий ресурс. Если ресурс будет выделен, то агент ai становится зависимым от агента aq. Эта зависимость становится устойчивой, если агент ai в свою очередь поделится каким-либо своим ресурсом с агентом aq. Зависимости между агентами могут возникать по отношению ресурсов и действий. К недостаткам этого подхода относят отсутствие стимула у агентов для кооперации. Это связано с отсутствием общей цели или отсутствием знаний у агентов о зависимости между их целями [13].
Использование в модели кооперации агентов известных закономерностей предметной области позволяет снизить сложность процесса коммуникаций между ними [11,19], повысить их автономность и возможности командной работы в динамических ситуациях.
В этой работе предложена модель кооперации агентов, основанная на моделях социального поведения, изложенных в работах социальных психологов Д. Хоманса [15] и Л. Фестингера [14]. В этих работах предложены: модель функционирования малых социальных групп (коалицию можно рассматривать как малую социальную группу) на основе обмена полезностями и концепция когнитивного диссонанса, позволяющая оценить субъективные ощущения агентов о справедливости в коалиции и моделировать ее устойчивость.
2. Базовая модель
Рассмотрим динамическую систему и множество агентов А, которые пытаются изменить состояние системы на выгодное для каждого из них состояние. В качестве математической модели системы выбрана модель представления экспертных знаний о процессах в динамической системе в виде качественной когнитивной карты [6]. В когнитивной карте определено множество факторов ситуации F = {//}, упорядоченное множество лингвистических значений факторов Li = {1,}, Ц < 1у+ь / = 1, ..., п, ]= 1, ..., т, и причинно-следственные отношения между факторами - W.
Динамика изменения факторов ситуации в когнитивной карте задается системой конечно-разностных логико-лингвистических уравнений (1) 7(^+1) = WY(t),
где W - система правил «Если, то», заданная на множестве всех возможных значений факторов ситуации W: xi Li ^ xi Li; 7(0 -состояние ситуации - это вектор лингвистических значений (1у ,..., 1„ь), т.е. 7(0 = (1у ,..., 1пЪ), Ц е Li, V/, - правило вывода.
Логико-лингвистические модели [10] позволяют описывать динамические ситуации, параметры которых могут быть измерены экспертным способом и представлены в качественных порядковых шкалах. Динамика моделируется с помощью системы продукционных правил, отражающих закономерности предметной области. Применение такого рода моделей значительно расширяют класс моделируемых ситуаций.
Каждый агент характеризуется следующим кортежем:
Гд, еф ^д(7д , gg)),
где
1) gg = (1ц, .■■, 1пЪ) - вектор целевых факторов и их лингвистических значений для агента д;
2) гд = (1у, ..., 1пЪ) - стратегия управления агента д, где гд е ид, ид = х, Lgir, Lgir с Li - ресурсы агента д. Считается, что если агент д применяет стратегию гд для достижения своей цели
gq, то прогноз развития ситуации на п шагах моделирования определится из соотношения (1) при условии, что Yq(0) = гч, т.е.
3) Yq(1) = W0rq, Yq(2) = Yq(1), ..., Yq(n) = W0Yq(n-1).
4) е^(и^), (v(rq))) ^ К+ - эффективность достижения агентом целевой ситуации, где и^) - полезность целевой ситуации, и: gq ^ R+; v(rq) - затраты агента для достижения целевой ситуации, V: rq ^ R+;
5) ^^(п), gq) - возможность достижения агентом q целевой ситуации за счет собственных ресурсов в условиях противодействия агентов противников.
При определении возможности достижения целевой ситуации считается, что в пространстве состояний (х, L) определена метрика р(а, Ь), а,Ь е х, Lг■. Тогда возможность достижения цели агентом определяется как близость прогнозной ситуации Yq(n) и его целевой ситуацией gq:
gq) = Р^(п), gq).
При этом прогноз развития ситуации Yq(n) для каждого агента строится с учетом противодействия противников [6]. По сути, этот показатель определяет потенциальную «силу» каждого агента коалиции без поддержки потенциальных сторонников при условии противодействия противников.
2.1. НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ ОБРАЗОВАНИЯ КОАЛИЦИИ
Очевидно, что в качестве потенциальных сторонников в конфликтной ситуации необходимо выбирать агентов, цели которых близки. Сторонниками считается множество агентов с близкими целями, т.е. К с А, p(gi, gq) < £, V/, q е К, £ - критерий близости целей, определяется экспертом. При этом остальные агенты А\К считаются противниками коалиции. Близость целей агентов - это необходимые условия образования коалиции, не позволяющие судить об ее устойчивости. В настоящей работе на основе теории социального поведения субъектов [15] анализируется взаимная полезность агентов при объединении их ресурсов для достижения общей цели. Считается, что дисбаланс во взаимной полезности агентов в коалиции создает у них ощу-
щения несправедливости, которые увеличивают их мотивации выхода из коалиции, угрожающих ее устойчивости. Для оценки ощущений агентов о несправедливости в коалиции используется теория когнитивного диссонанса [14].
2.2. КРИТЕРИЙ ВЗАИМНОЙ ПОЛЕЗНОСТИ АГЕНТОВ В КОАЛИЦИИ
Агенты q и i называются взаимно полезными, если объединение их стратегий ri © гд увеличивает возможность достижения собственных целей (е gi) агентами q и i в условиях противодействия их противников. То есть если ¡и(УНд, £.) < gl), М(¥+д, gq) < gq). Степень полезности Р(,, q) агента q для агента i определяется из соотношения
(2) Р(,, q) = 1 - ^^ , Ж, Е,)
где ц(Уг+С, е), - возможности достижения агентами q и i своих целей при объединении их стратегий; ¡и(Ус, ес), ц(У., е) - возможности достижения агентами q и i своих целей собственными силами в условиях противодействия противников.
Полезность игрока q для игрока i максимальна, т.е. Р(,, q) = 1, когда при объединении их стратегий игрок i достигнет своей цели £.. В этом случае М(^г+С, Ег) = Р(^г+С, £■) = 0. Если при объединении стратегий расстояние до цели не изменилось, М(^,+сс, Ег) = н(¥г, Ег), то полезность игрока нулевая, Р(г, с) = 0. И, наконец, если при объединении стратегий расстояние до цели увеличилось, ¡и(¥г+с, £.) > £.), то игрок с вреден для игрока ,.
Социальное поведение в социальной группе - это обмен ценностями между агентами (ресурсами, полезностями и т.д.). Целостность группы достигается при балансе «сил» между обменами при условии, что каждый агент получает при этом максимальную выгоду [15].
По критерию взаимной полезности коалиция К устойчива, если агенты коалиции одинаково полезны друг для друга
Р(/, q) = P(q, /), V/, q е К, и имеют равную эффективность участия в коалиции, т.е. е. = еп.
' Ч
2.3. КРИТЕРИЙ КОГНИТИВНОГО ДИССОНАНСА
Наличие дисбаланса взаимной полезности или эффективности агентов, включенных в коалицию, приводит к возникновению скрытых (латентных) конфликтов в коалиции, которые характеризуют ощущения каждого агента о несправедливости в коалиции, и определяются уровнем его когнитивного диссонанса. Когнитивный диссонанс - это противоречие в системе знаний человека, порождающее у него неприятные переживания и побуждающее его к действиям, направленным на устранение этого противоречия [14]. Когнитивный диссонанс вызывает у субъекта (агента) стремление уменьшить его или препятствовать его росту. Проявление этого стремления у агентов приводит к изменению его поведения [14], которое приводит к их выходу из коалиции, т.е. к неустойчивости коалиции.
Степень когнитивного диссонанса по взаимной полезности между агентами /, ч определяется из соотношения
(3) DW (ч,/) = ^ ч) — Р(4,0 , /) = ч), V/, Ч, / * ч.
КЧ ' Р(/,Ч) + Р(ч,/)
Степень когнитивного диссонанса по эффективности между агентами /, ч определится из соотношения
е — е Е Е
(4) DW (/, ч) = --Ч-, Оь(1, ч) = - оь(ч, /), V /, Ч, / * ч.
е + еч
По критерию когнитивного диссонанса устойчивая коалиция определится следующим образом: коалиция К устойчива, если для всех агентов /, ч е К их когнитивные диссонансы по полезности и эффективности близки к нулю: П (/, Ч) « 0, П(/, Ч) « 0^/, Ч.
3. Пример
В качестве примера рассмотрим описание в терминах предложенной модели кооперативного взаимодействия агентов, иг-
рающих в футбол. Моделирование игры в футбол считается «полигоном» для демонстрации возможностей разнообразных методов искусственного интеллекта, определяющих поведение искусственных агентов - роботов. С 1997 года проходят международные соревнования роботов ^оЬоСир), играющих в футбол. На деле это соревнование научных и инженерных школ, разрабатывающих роботов, методы и алгоритмы их поведения в сложной динамической игре. Возникающая при этом конкуренция между разработчиками роботов не способствует опубликованию методов и алгоритмов, реализующих поведение роботов-футболистов. В работе [8] изложены основные методы и подходы к моделированию игры в виртуальный футбол.
В настоящее время популярность набирает виртуальный футбол с футбольными командами, состоящих из виртуальных игроков (программных агентов) [2]. В этой игре характеристики игрока и характеристики его командного поведения индивидуально настраиваются пользователем (футбольным менеджером) для создания виртуальной футбольной команды. Созданные таким образом многочисленные виртуальные футбольные команды участвуют в соревнованиях (чемпионатах) в интернете для определения лучшей команды и, следовательно, лучших настроек виртуальной футбольной команды. Несмотря на зрелищность 3D-визуализаций трансляций футбольных матчей виртуальных команд, в этом случае модель виртуального футболиста неизвестна и возможностей для экспериментов по моделированию его поведения на основе предложенных выше идей практически нет.
Поэтому далее опишем игру в футбол в терминах рассмотренной выше базовой модели кооперативного взаимодействия агентов (игроков) на основе взаимной полезности и когнитивного диссонанса.
Игру в футбол будем считать динамической системой. Параметры этой системы суть положение игроков (агентов) двух противоборствующих команд А = {аг} и В = {Ьг} на футбольном поле. Состояние футбольной игры как динамической системы будем характеризовать вектором положения всех
игроков - агентов и мяча на плоскости в последовательные моменты времени:
(5) Y(t) = (хж(0; УаШ, ■■■, (Xbi(t); ybi(t), Ball), i = 1, ..., N,
где N - число агентов обеих команд; t = 1, ..., n; Ball = (xm(t);
ym(t)) - координаты мяча.
Координаты ворот противников заданы интервалами: ворота команды А - Ga = (xa; [ya1, ya2]) и, соответственно, ворота команды В - Gb = (хь; [ybi, Уь2 ]).
Цели игроков команды А - забить мяч в ворота команды В, т.е. Va„ ga, = (Xm(t); ym(t)) | (Xm(t); ym(t)) e (хь; [yM, yb2]), и, соответственно, игроков команды В - забить мяч в ворота команды А, т.е. Vb„ gb, = (Xm(t); ym(t)) | (xm(t); ym(t)) e (Xa; [yai, Уа2]). То есть игроки каждой команды изменяют координаты мяча до тех пор, пока они не совпадут с координатами ворот противника.
Стратегии игроков (агентов) команд А (В) - это их действия на каждом шаге дискретного времени. Далее будем описывать поведения игроков команды А, предполагая что поведение игроков команды В описывается аналогично. Итак, действия игроков команд следующие:
• r1(ai, t) - движение к мячу;
• r2(ai, t) - движение с мячом к воротам;
• r3(ai, t) - удар по воротам;
• r4(a¡-, t) - перемещение в позицию паса;
• r5(ai, a, t) - пас партнеру по команде.
Любое из названных действий игроков изменяет состояние ситуации Y(t).
Эффективность игрока - это соотношение его ожиданий вознаграждения за игру u(a) к результативности его игры v(rq). Результативность игрока выражается интегральной оценкой его результативных действий. Под результативными действиями понимаются следующие действия: r3(ai) - удар по воротам и r5(ai, a, t) - пас партнеру по команде.
Возможность достижения цели игроками команд А (В) определяется ресурсами агента. В данном случае под ресурсами агента понимаются его индивидуальные характеристики и особенности его позиция на поле.
Будем рассматривать следующие характеристики позиции игрока:
• d(ai, Gв, О = р((хж(0; Уаг(О), (хЫЬ); [Уа1, Уой])) - близость
агента к воротам противника;
• d(aг, Ь, г) = рЦХа(г); Уа&)), (хЬ](г); уЬ](Щ - близость противников, которые могут помещать игроку.
Индивидуальные характеристики игрока - это его индивидуальная скорость У(аг) и его действия г^аи г), ..., г5(аи а, г).
3.1. КООПЕРАЦИЯ АГЕНТОВ НА ОСНОВЕ КРИТЕРИЯ ИХ ПОЛЕЗНОСТИ
В работе [6] было показано, что полезными агентами для кооперации являются агенты, имеющие большую возможность достижения цели. Определим правило вычисления полезности агента, выразив ее через составляющие их возможности достижения цели, и определим их действия.
Агент ai полезен своим партнерам по критерию близости к воротам противника (Ксв), если d(ai, Gв) < d(aq, Gв), I Ф д, q = 1, ..., N/2. То есть агент полезен, если он находится ближе всех своих партнеров к воротам противника. В этом случае значение этого критерия равно единице, т.е. Кс = 1.
Агент полезен своим партнерам по критерию близости противников (К3), если d(ai, Ь) > d(aq, Ь), I Ф д, д = 1, ..., N/2, ) = N/2 + 1, ..., N. То есть агент полезен, если он находится дальше всех своих партнеров от игроков противника. В этом случае значение этого критерия равно единице, т.е. Кв = 1.
Агент ai полезен своим партнерам по критерию скорости (КУ), если У(аг) > У(ад), I Ф д, д = 1, ..., N/2. То есть агент полезен, если его скорость больше скоростей остальных партнеров. В этом случае значение этого критерия равно единице, т.е. К = 1.
Интегральная характеристика полезности агента определяется значением функции: Р(аг) = F(KGB, К3, КУ).
В качестве одного из вариантов такой функции рассмотрим линейную свертку с коэффициентами предпочтений полезностей положения игрока - а, Д, у полученных с помощью процедуры парных сравнений. В этом случае,
Р(а) = аКо + /К3 + уК¥, а + /3 + у= 1.
Тогда Р(а) = 1 при КоВ = К3 = К = 1, и Р(а) = 0 при
КоВ = К3 = К = 0.
3.2. ВЫБОР СТРАТЕГИИ АГЕНТА НА ОСНОВЕ АНАЛИЗА ПОЛЕЗНОСТИ АГЕНТОВ
Построить план взаимодействия игроков одной команды для достижения цели в динамической ситуации и в случае противодействия игроков (агентов) противника оказывается затруднительным. Поэтому в данном случае для игроков (агентов) формулируются правила поведения агентов, учитывающие закономерности игры в футбол.
Правила поведения игроков предписывают им действия, которые способствуют командной работе для достижения цели. В этой работе рассмотрены два типа правил:
• командной игры;
• эгоистичного поведения.
Правило командной игры будем рассматривать для двух случаев: агент не владеет мячом; агент владеет мячом. Для агента, не владеющего мячом, определено следующее множество правил Wь = {^ы, ^ь2}:
• правило wь^ если агент находится ближе к мячу, чем другие агенты команды, то он выбирает действие Г\(а, 0 (движение к мячу);
• правило wь2: если есть другой агент, который находится ближе к мячу, то агент выбирает действие г4(аг-, 0 (перемещение в позицию паса).
Для агента, владеющего мячом, выбор действия основан на анализе полезности партнеров по команде. В этом случае также определено множество правил WnЬ = ^пЪ3, wnЬ4, wnЬ5}:
• если полезность игрока, владеющего мячом, выше, чем полезность остальных партнеров, т.е. Р(аг) > Р(ад), / Ф д, д = 1, ..., N/2, то агент выбирает действие в зависимости от расстояния до ворот противника.
о правило wnЬ3: при большом расстоянии выбирается действие г2(а,, 0 (движение с мячом к воротам);
o правило wnb4: при близком расстоянии выбирается действие r3(ai, t) (удар по воротам). • правило wnb5: если полезность игрока, владеющего мячом, ниже, чем полезность одного из партнеров, то выбирается действие r5(ai, a, t) - пас партнеру по команде (a;), имеющему большую полезность.
Правила эгоистичного поведения агентов будут рассмотрены в следующем разделе.
3.3. УСТОЙЧИВОСТЬ КООПЕРАЦИИ АГЕНТОВ
Ранее при принятии агентом решения учитывалась только полезность агентов для достижения цели на одном такте. Для анализа устойчивости кооперации агентов необходим анализ взаимной полезности агентов и анализ когнитивного диссонанса их эффективности на протяжении игры.
В базовой модели взаимная полезность игрока определялась (2) как соотношение возможностей достижения цели при объединении стратегий двух игроков и собственными силами. Считается, что объединение стратегий должно увеличивать (по крайней мере не уменьшать) возможность достижения цели каждым игроком. В рассматриваемом примере будем считать, что передача паса партнеру, основанная на анализе его полезности, увеличивает возможность достижения этим партнером цели, т.е. дает ему возможность забить гол.
Поэтому взаимная полезность агентов в игре в футбол определяется суммарным числом пасов между парой агентов:
X r5(ai, aj, t)
P(a., a,) = -^-^-, P(aP a') = 1 - Pa a)
' j X r5(ai,aj,t) + Xr5(aj,a,t)
t=1,...,n t=1,...,n
Здесь = 1, n r5(aa, t) и = 1, n r5(a;, at) - число пасов агента a. агенту aj и, соответственно, aj агенту a. за промежуток времени игры t = 1, ..., n.
Агенты с неравной взаимной полезностью характеризуются когнитивным диссонансом, вычисляемым по формуле (3), и могут изменять свое поведение. Изменение поведение проявляется
в изменении правил выбора агента на основе полезности агента партнера.
При анализе когнитивного диссонанса по эффективности агентов считается, что агенты получают вознаграждение пропорционально их результативности (забитые голы). Эффективность агента определится из соотношения
X гз(а, 1)
Е(а,) =-
'3^
t=1,...,n
Z r3(ai,t)
'3
t=1.....n
i=1.....«/2
где в числителе число голов, забитых игроком a, за период времени t = 1 ,..., n; в знаменателе общее число голов, забитых игроками команды.
Агенты с неравной эффективностью характеризуются когнитивным диссонансом по эффективности, вычисляемой по формуле (4), и могут изменять свое поведение, изменения правила выбора агента на основе полезности агента партнера.
Правило эгоистического поведения может применяться при наличии когнитивного диссонанса при выполнении агентами командной работы.
Множество правил эгоистического поведения агента We = {wei, we2} следующее:
• правило wei: если игрок, владеющий мячом, выбирает действие г5(а, a, t) - пас партнеру по команде (а), имеющему большую полезность, и если когнитивный диссонанс этого игрока (а) по отношению к партнеру (а) близок нулю, DE(a1, а)« 0, то пас передается, т.е. выполняется действие f5(a„ a, t);
• правило we2: если игрок, владеющий мячом, выбирает действие г5(а, a, t) - пас партнеру по команде (а), имеющему большую полезность, и если когнитивный диссонанс этого игрока (а) по отношению к партнеру (а) больше нуля, DE(ai, а) > s, то пас не передается, выполняются действия: r2(ah t) - движение с мячом к воротам и (или) г3(а, t) - удар по воротам. Здесь s определяется экспертом как область нечувствительности к небольшим значениям когнитивного диссонанса.
Иными словами, при эгоистическом поведении игрока он не передает пас наиболее полезному игроку, если этот игрок имеет большую эффективность, т.е. имеет лучшую результативность и получает большее вознаграждение. Эгоистический игрок действует самостоятельно, пытаясь повысить свою результативность (забить гол) и, соответственно, получить вознаграждение.
3.4. МОДЕЛИРОВАНИЕ ДИНАМИКИ
В базовой модели состояние управляемой множеством агентов динамической системы изменяется под действием стратегий всех агентов. При этом считается, что все агенты применяют свои стратегии одновременно на первом дискретном шаге моделирования, прогнозируя развитие ситуации на п шагов. Изменение состояния системы описывается системой правил W, представленных в уравнении (1).
При описании игры в футбол агенты изменяют состояние системы на каждом дискретном шаге моделирования, используя для этого продукционные правила из множеств правил Wb, Wnb, We, описанных выше. Каждое продукционное правило из этих множеств состоит из двух частей:
• часть «Если...» включает условия срабатывания правила. Условия срабатывания правила зависят от вектора состояния футбольной игры ДО (5), а также от вычисляемых по этому вектору индивидуальных характеристик полезности, когнитивного диссонанса каждого игрока;
• часть «То.», включающая действие, которое будет выполнено при выполнении условий из части «Если». Под действиями здесь понимаются действия г1((а), О, ..., г5(а, а, О, которые изменяю вектор состояния футбольной игры У(0 (5) на новое состояние У^ + 1).
Множество всех правил W = Wb и Wnb и We и Wpl назовем базой правил, где
• Wb - множество правил поведения игрока, не владеющего мячом;
• Wnb - множество правил поведения игроков, владеющих мячом;
• We - множество правил эгоистичного поведения;
• Wpi - множество правил вычисления индивидуальных характеристик игроков по вектору состояния игры Y(t).
Тогда уравнение динамики игры в футбол будет описано уравнением (1) базовой модели.
3.5. ЭКСПЕРИМЕНТ И ОБСУЖДЕНИЕ
Предложенная модель кооперации агентов была исследована экспериментально. Для этого в среде моделирования много-агентных систем VisualBots for Excel [23] была разработана программа, моделирующая игру в футбол двух команд, состоящих из четырех игроков. Агенты в каждой команде незначительно отличались по скорости. Так, агенты 1 и 3 команды А и агенты 1 и 4 команды В имеют скорость равную 1, агенты 2 обеих команд имеют скорость 0,9, а агент 4 и агент 3 команд соответственно А и В имеют скорость 0,7.
Считается, что все агенты получают вознаграждение пропорционально количеству забитых голов, независимо от выигрыша или проигрыша команды.
Перед экспериментальным исследованием ставились две задачи. Первая задача заключается в проверке правдоподобности теоретической модели кооперативного взаимодействия на основе их полезности и когнитивного диссонанса их взаимодействия. Вторая задача заключалась в проверке механизмов взаимодействия агентов при решении кооперативной задачи.
В качестве механизма взаимодействия агентов была рассмотрена модель с общей памятью. Суть этой модели заключается в том, что все агенты сохраняют координаты своего положения на поле в общей памяти и не общаются между собой непосредственно.
Каждый агент может считать информацию об агентах своей команды или агентах из команды противника из общей памяти и на основе ее анализа (полезности игрока (агента)) принимать действия, описанные выше в теоретической модели.
На рис. 1 показано окно системы моделирования, в котором игроки разных команд обозначены как фигуры насекомых:
«Пчелки» и «Божьи коровки». Ломаная линия в этом окне показывает траекторию мяча (мяч обозначен точкой) в процессе его распасовки игроками команды.
На рис. 2-5 показаны результаты экспериментов. Здесь по оси абсцисс показаны номера игроков команд, а по оси ординат - количество пасов партнерам (рис. 2 и рис. 4) и забитых голов (рис. 3 и рис. 5) в двух сериях игр: без учета и с учетом диссонанса игроков.
Рис. 1. Окно системы моделирования
12 3 4
Рис. 2. Пасы игроков команды А
25 20 15 10 5 0
□ Без диссонанса
□ С диссонансом
12 3 4
Рис. 3. Голы игроков команды А
100
80-
60-
40-
20-
0- А
□ Без диссонанса
□ С диссонансом противника
12 3 4 Рис. 4. Пасы игроков команды В
25 20 15 10 5 0
□ Без диссонанса
□ С диссонансом против ника
12 3 4
Рис. 5. Голы игроков команды В
Имитационное моделирование поведения агентов на основе анализа полезности агентов (без диссонансов) показало, что агенты с меньшими скоростями характеризуются меньшей результативностью по забитым голам, но не по количеству пасов партнерам (игрок №4 команды А, игрок №3 ко-
манды В). Это может быть интерпретировано как самоорганизация агентов в команде. То есть агенты с меньшей скоростью выполняют задачи защитников, а агенты с большей скоростью играют в нападении.
При моделировании поведения агентов с учетом диссонансов диссонансы учитывались только для игроков команды А. То есть все игроки команды А при передаче паса партнеру учитывают не только его полезность, но и диссонанс с партнером по эффективности. Если эффективность партнера выше, чем у игрока, передающего пас, то пас не передается. Этот игрок, из-за зависти или эгоистических соображений, пытается самостоятельно забить гол и получить вознаграждение.
На рис. 2 и рис. 3 показано, что результативность распасовки игроков команды А при учете диссонансов агентов резко снизилась. Снизился и диссонанс по эффективности (забитым голам) - все игроки забивают одинаковое количество голов и, следовательно, получают равное вознаграждение. Игроки же команды В, играющие с «эгоистичной» командой А, повысили свою результативность (рис. 4, рис. 5).
4. Заключение
Предложена математическая модель командной работы агентов на основе критериев полезности агентов и их когнитивных диссонансов. Модель основана на работах социальных психологов, исследовавших особенности поведения людей в малых социальных группах и объясняющих принципы их функционирования, устойчивости, сплоченности и т.д. На основе предложенной модели разработана имитационная модель игры агентов (роботов) в виртуальный футбол. Разработанная имитационная модель позволяет моделировать различные аспекты командного поведения агентов.
Имитационное моделирование командного поведения агентов на основе предложенных математических моделей выявило, что индивидуальные отличия агентов по скорости перемещения создают условия самоорганизации в команде. Так, в командах
появляются агенты, выполняющие разные задачи: «нападающие» и «защитники» - это агенты с большей и меньшей скоростями соответственно.
Моделирование эгоистичного поведения агентов одной из команд выявило факт уменьшения когнитивного диссонанса этих агентов (все агенты забивают равное число голов) и увеличения индивидуальной игры, что выражается в сокращении числа пасов в эгоистичной команде.
Предложенная модель может служить алгоритмической основой для реализации поведения автономных роботов в задачах кооперации в сложных динамических ситуациях и в условиях противодействия противников.
Литература
1. ВАРШАВСКИЙ В.И., ПОСПЕЛОВ Д А. Оркестр играет без дирижера. - М: Наука 1984. - 208 с.
2. Виртуальная футбольная лига. - [Электронный ресурс]. -URL: http://www.virtualsoccer.ru/ (дата обращения: 16.07.2014).
3. ГОРОДЕЦКИЙ В.И. Теория, модели, инфраструктуры и языки спецификации командного поведения автономных агентов. Обзор (Часть 1) // Искусственный интеллект и принятие решений. - 2011. - №2. - С. 19-30.
4. ГОРОДЕЦКИЙ В.И. Теория, модели, инфраструктуры и языки спецификации командного поведения автономных агентов. Обзор (Часть 2) // Искусственный интеллект и принятие решений. - 2011. - №3. - С. 34-47.
5. КАРПОВ В.Э. Коллективное поведение роботов. Желаемое и действительное // Современная мехатроника. Сб. научн. трудов Всероссийской научной школы (г. Орехово-Зуево, 22-23 сентября 2011). - Орехово-Зуево, 2011. - С. 35-51.
6. КУЛИНИЧ А.А. Модель поддержки принятия решений для образования коалиций в условиях неопределенности // Искусственный интеллект и принятие решений. - 2012. -№2. - С. 95-106.
7. ОУЭН Г. Теория игр. - М.: Мир, 1971. - 230 с.
8. ОХОЦИМСКИЙ Д.Е., ПАВЛОВСКИЙ В.Е., ПЛАХОВ А.Г., ТУГАНОВ А Н., ПАВЛОВСКИЙ В В. Моделирование игры роботов-футболистов в пакете «Виртуальный футбол» // Мехатроника. - 2002. - №1. - С. 2-5.
9. ПАВЛОВСКИЙ В.Е., КИРИКОВА Е.П. Моделирование управляемого адаптивного поведения гомогенной группы роботов // Искусственный интеллект. - 2002. - №4. -С. 596-605.
10. ПОСПЕЛОВ Д.А. Логико-лингвистические модели в системах управления. - М.: «Энергоиздат», 1981. - 232 с.
11. СМИРНОВ А.В., ШЕРЕМЕТОВ Л.Б. Модели формирования коалиций кооперативных агентов: состояние и перспективы исследований // Искусственный интеллект и принятие решений. - 2011. - №1. - С. 36-48.
12. СТЕФАНЮК В.Л., ЦЕТЛИН МЛ. О регулировке мощности в коллективе радиостанций // Проблемы передачи информации. - 1967. - Т. 3, №4. - С. 59-67.
13. ТАРАСОВ В.Б. От многоагентных систем к интеллектуальным организациям. - М.: Эдиториал УРСС, 2002. - 352 с.
14. ФЕСТИНГЕР Л. Теория когнитивного диссонанса. - СПб.: Ювента, 1999. - С. 15-52.
15. ХОМАНС ДЖ. Социальное поведение как обмен. Современная зарубежная социальная психология. - М.: Изд-во Московского университета, 1984. - С. 82-91.
16. ЦЕТЛИН М.Л. Исследования по теории автоматов и моделированию биологических систем. - М.: Наука,1969. - 316 с.
17. COHEN P., LEVESQUE H.J. Teamwork // Nous. Special Issue on Cognitive Science and Artifical Intelligence. - 1991. -No. 25(4). - P. 487-512.
18. CONTE R., EDMONDS B., MOSS S. and etc. Sociology and Social Theory in Agent Based Social Simulation // A Symposium: Computational and Mathematical Organization Theory. -2001. - Vol. 7, №3. - P. 183-205.
19. GENESERETH M., GINSBERG M. AND ROSENCHEIN J. Cooperation without Communication // Proc. Annual Conf. Assoc. Artificial Intelligence, Philadelphia, 1986. - P. 51-57.
20. GROSZ B., KRAUS S. Collaborative Plans for Complex Group Actions // Artificial Intelligence. - 1996. - №86. - P. 269-358.
21. SICHMAN J., CONTE R., CASTELFRANCHI C. et al. A social reasoning mechanism based on dependence networks // Proc. 11th European Conference on Artificial Intelligence (ECAI), Amsterdam, Netherlands, 1994 - P. 188-192.
22. RAO A.S., GEORGEFF M.P. BDI Agents: From Theory to Practice // Proc. First International Conference on Multi-Agent Systems (ed. V.Lesser). - AAAI Press/The MIT Press, 1995. -P.312-319.
23. Visual Bots. Visual Programming for Agent-Based Simulation. -[Электронный ресурс]. - URL: http://www.visualbots.com/ downloads.htm (дата обращения: 16.07.2014).
MODEL OF AGENTS (ROBOTS) COMMAND BEHAVIOUR: COGNITIVE APPROACH
Alexander Kulinich, Institute of Control Sciences of RAS, Moscow, Cand.Sc. ([email protected])
We suggest a mathematical model of agents' cooperation in dynamics, which employs agents' utility functions and cognitive dissonance of their relations. The model is based on the theories of social psychologists investigating behavior of people in small social groups and explaining principles of their functioning and stability. We illustrate the suggested model with a simulation of a virtual soccer game of agents (robots). The developed simulation allows modeling diverse aspects of agents' cooperation and selfish behavior.
Keywords: cooperation of agents, criteria of utility, cognitive dissonance, a rule of the agent behavior, command behavior, selfish behavior.
Статья представлена к публикации членом редакционной коллегии П.Ю. Чеботарёвым
Поступила в редакцию 17.07.2014.
Опубликована 30.09.2014.