Научная статья на тему 'Задача о диффузной бомбе'

Задача о диффузной бомбе Текст научной статьи по специальности «Математика»

CC BY
247
84
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Проблемы управления
ВАК
Область наук
Ключевые слова
ГРУППОВОЕ ПОВЕДЕНИЕ / РЕФЛЕКСИЯ / АДАПТАЦИЯ / GROUP BEHAVIOR / REFLEXION / ADAPTATION

Аннотация научной статьи по математике, автор научной работы — Корепанов Всеволод Олегович, Новиков Дмитрий Александрович

Для так называемой задачи о диффузной бомбе (задачи о групповом проникновении через систему обороны) проведен имитационный сравнительный анализ шести вариантов, различающихся «интеллектуальностью» поведения (адаптивность, способность к рефлексии, прогнозированию и др.) подвижных объектов (ПО). Показано, что наделение ПО возможностью учета параметров системы обороны и прогнозирования поведения других ПО повышает эффективность группового проникновения через систему обороны.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Корепанов Всеволод Олегович, Новиков Дмитрий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Задача о диффузной бомбе»

УДК 517.977;51-77

ЗАДАЧА О ДИФФУЗНОЙ БОМБЕ

В.О. Корепанов, Д.А. Новиков

Для так называемой задачи о диффузной бомбе (задачи о групповом проникновении через систему обороны) проведен имитационный сравнительный анализ шести вариантов, различающихся «интеллектуальностью» поведения (адаптивность, способность к рефлексии, прогнозированию и др.) подвижных объектов (ПО). Показано, что наделение ПО возможностью учета параметров системы обороны и прогнозирования поведения других ПО повышает эффективность группового проникновения через систему обороны.

Ключевые слова: групповое поведение, рефлексия, адаптация.

1. ВВЕДЕНИЕ: ЗАДАЧИ ГРУППОВОГО УПРАВЛЕНИЯ В УСЛОВИЯХ ПРОТИВОДЕЙСТВИЯ

Во многих прикладных областях возникают задачи управления группой подвижных объектов (ПО), совместно выполняющих некоторое задание (см., например, работу [1]). Это задание может заключаться, например, в поиске подвижных или неподвижных объектов в заданной области пространства, или в проникновении в заданную область, или в поражении целей и др. Как правило, группа ПО функционирует в конфликтной среде, т. е. в условиях противодействия (обнаружения, информационного противодействия, уничтожения) — со стороны объектов поиска, системы охраны или обороны (элементы которой условно называют «сенсорами»), обеспечивающей защиту границ области, целей и др.

Введем следующую систему классификаций задач группового управления в условиях противодействия:

• цель группы ПО: поиск, проникновение в область;

• цель поиска или поражения (далее — целевой объект (ЦО)): одна, несколько; подвижная, неподвижная;

• движение происходит: на плоскости, в трехмерном пространстве;

• время поражения ЦО: фиксировано, минимизируется; ограничено, произвольно;

• число сенсоров1: один, два, несколько;

1 Типовой также является «обратная задача» (Barrier Coverage) — поиск сети сенсоров (их числа, свойств и местоположения), обладающей требуемыми свойствами — см. обзор [2].

• сеть сенсоров: для ПО априори известна, неизвестна; сенсоры: подвижные, неподвижные;

• ПО: один, несколько;

• скорость ПО: постоянная, может варьироваться;

• ограничения на скорости и ускорения ПО: отсутствуют, присутствуют;

• распределение ЦО (и (или) задач, функций и т. п.) среди ПО осуществляется: централизованно, автономно (децентрализованно); программно, в реальном времени;

• планирование траекторий ПО (включая обеспечение избежания столкновений) осуществляется: централизованно, автономно; программно, в реальном времени;

• взаимодействие ПО (прогноз и координация в зависимости от вероятности обнаружения): учитывается, не учитывается;

• вид функционала риска обнаружения ПО (вид зависимости от скорости ПО, расстояний до сенсоров; суммирование сигналов на сенсорах и др. — см. далее).

Каждая комбинация значений признаков классификаций по различным основаниям характеризует соответствующий класс задач. Так, например, обзор задач планирования траекторий движения (Route Planning, Cooperative Path Planning) множества ПО в отсутствии противодействия (в неконфликтной среде) приведен в работе [3]. Обзор тех же (в основном дискретных) задач с учетом противодействия (Optimal Risk Path Planning) приведен в работе [4]. Обзор задач распределения ЦО (Coordinated Target Assignment) можно найти в работах [5, 6]. Отметим, что в большинстве зарубежных работ исследователи в целях упрощения переходят от непрерывной задачи к дискретной (разбивают рассматриваемую область пространства на

конечное число множеств — например, строят диаграмму Вороного).

Обзор задач, порождаемых приведенной системой классификаций, не является целью настоящей работы. Далее рассматривается одна из возможных постановок, а именно — цель группы, состоящей из нескольких ПО, движущихся на плоскости, заключается в «поиске» (поражении) неподвижного ЦО; время достижения ЦО не фиксировано; имеется несколько неподвижных сенсоров; ПО движутся с постоянной по абсолютной величине заданной скоростью (направление движения может меняться); планирование ими траекторий осуществляется децентрализовано (автономно) в реальном времени. Информированность ПО (та информация о параметрах системы обороны и других ПО, которой они обладают на момент планирования траекторий) детализируется далее, как и вид функционала риска обнаружения (см. выражения (2) и (5)). Критерием эффективности действий группы ПО будем считать их число К, достигших ЦО. Данный класс задач можно условно назвать «задача о диффузной бомбе».

Ключевая отличительная характеристика рассматриваемой в настоящей работе модели состоит в «кооперативном» децентрализованном принятии подвижными объектами решений по выбору траекторий движения в условиях, когда вероятность обнаружения (уничтожения) каждого из них зависит от относительного расположения всех членов их группы.

Сначала приведем постановку «некооперативной» задачи и некоторые известные методы ее решения, а затем рассмотрим случай, когда вероятность индивидуального обнаружения и (или) поражения зависит от взаимного расположения всех ПО.

1. ПЛАНИРОВАНИЕ ТРАЕКТОРИЙ В УСЛОВИЯХ ПРОТИВОДЕЙСТВИЯ

Рассмотрим следующую задачу. Заданы началь-

у-го ПО до 1-го сенсора обозначим через р..(?) =

и

ные положения (х..(0), у.(0)),у = 1, К0 , на плоскости К0 подвижных объектов. Их цель — оказаться в точке с координатами (х *, у *). Положение у-го ПО в момент времени * > 0 обозначим через (хц.(?), у.(?)),

его скорость — через

vi(t) = Х. )2 + (У.)

время

первого попадания в точку (х *, у *) — через Т..

Имеются N неподвижных сенсоров с координатами (а, Ь), I = 1, N, имеющих возможность суммировать приходящие на них в один и тот же момент времени сигналы. Расстояние от

= ,/(х.(0 - а,)2 + (у.(0 - Ь)2.

В общем случае риск обнаружения у-го ПО системой сенсоров описывается следующим функционалом:

Т м (V (тт

О 1 = н Р .

(рц( *))"

(1)

где «сигнал» на сенсоре (слагаемое в выражении (1)) зависит от скорости ПО и расстояния от последнего до сенсора. Из вида функционала (1) следует, что риск обнаружения ПО зависит от значений «сигналов» на различных сенсорах. Показатель степени к характеризует физическое поле, в котором осуществляется обнаружение [7], а показатель степени т — зависимость уровня интенсивности излучаемого сигнала от скорости движения объекта (например, сигналов первичного гидроакустического поля [8]). Значения к соответствуют:

• к = 1 — первичному гидроакустическому полю в мелком море;

• к = 2 — тепловому полю, первичному электромагнитному полю и первичному гидроакустическому полю в глубоком море;

• к = 3 — магнитному полю;

• к = 4 — вторичному (при активном режиме обнаружения) электромагнитному и гидроакустическому полям.

Для случая одного сенсора и движения одного ПО на постоянной скорости решение задачи выбора оптимальной траектории получено в работе [9].

В работах [10, 11] доказано, что в случае одного ПО, движущегося с переменной скоростью, и одного сенсора оптимальная траектория и режим изменения скорости таковы, что текущее значение суммарного «сигнала» постоянно во времени. В работе [7] это свойство оптимальной траектории и режима изменения скорости обобщено на случай одного ПО и нескольких сенсоров (см. также статью [8]). Анализ свойств функционала обнаружения, основывающийся на переходе в комплексную плоскость, осуществлен в работе [12]; в работе [5] исследованы свойства функционала обнаружения. «Сводка» результатов приведена в табл. 1.

Свойства оптимальных траекторий позволяют сформулировать эвристику, использующую идею о том, что плоскость может быть разбита на N областей (каждая соответствует своему сенсору), а оптимальные траектории должны проходить по границам этих областей. Другим примером может служить используемое в работе [6] разбиение на многогранники Вороного (причем траектории движения группы ПО определяется при условии движения различных ПО по различным граням этого

Таблица 1

Основные известные результаты

Число ПО Число сенсоров

Один Два Не менее трех 3

Один Несколько Скорость ПО постоянная [9], скорость ПО переменная [10, 11] Скорость ПО переменная [13] Скорость ПО постоянная [9], скорость ПО переменная [7, 8] «Взаимодействие» ПО не учитывается [6]

многогранника). Альтернативой служит сеточное разбиение плоскости, что позволяет свести задачу к дискретной задаче поиска «кратчайшего» пути (где длина определяется вероятностью обнаружения ПО и (или) длиной траектории, и (или) энергетическими или временными критериями [6, 9]).

Отметим, что ни в одной из перечисленных работ не рассматривается «взаимодействие» ПО, к описанию результатов имитационного моделирования которого мы и переходим.

2. «НЕКООПЕРАТИВНАЯ» МОДЕЛЬ

Пусть все ПО движутся с постоянной по абсолютной величине скоростью у0. Зная расположение сенсоров и их условные неотрицательные чувствительности {с}, I = 1, N, мы можем по аналогии с выражением (1) для каждой точки (х, у) плоскости определить риск (вероятность обнаружения)

r(x, y) = min <j ^

N

i = 1 x - at )2 + (y - bt )2 )k

; 1 \ (2)

обнаружения отдельного ПО, находящегося в этой точке.

Пусть время дискретно. Шаг времени обозначим через т, через р обозначим вероятность уничтожения обнаруженного ПО (для простоты будем считать, что эта вероятность не зависит от координат точки обнаружения, времени и скорости ПО — учет в будущих исследованиях этих зависимостей представляется перспективным), через

е(х, у) = (х * — х, у * — у)/а] (х - х*)2 + (у - у*)2 — единичный вектор направления на ЦО в точке (х, у), через р((х, у); (#, м>)) — евклидово расстояние между точками (х, у) и (#, w), через sA(x, у) — круг радиуса А > 0 с центром в точке (х, у).

Рассмотрим несколько стратегий поведения ПО.

Вариант I. Первый (самый простой) вариант, когда каждый ПО движется по прямой, соединяющей его начальное положение с ЦО. Соответствующий ПО условно назовем неинтеллектуальным.

В рамках варианта I каждый ПО в каждый момент времени должен знать только свое текущее положение и положение ЦО.

Более «интеллектуальные» ПО должны учитывать текущие и (или) будущие вероятности их обнаружения. Для описания их поведения определим множество таких точек, что: 1) в них ПО может оказаться, начав двигаться из точки (х, у) со скоростью у0, через время т; 2) вероятность обнаружения ПО не превышает пороговой величины 8; 3) плюс сама точка (х, у):

(x, У) = {(q, w)|p((x, y); (q, w)) = v0x; r(q, w) < 5} и {(x, y)}.

(3)

Линию уровня суммарного сигнала г (х, у) = 8 будем называть пороговой линией. Обозначим Рго) 5 (х*, у*) — проекцию положения ЦО на

О-

множество S (x, у) (т. е. ближайшая в смысле евклидова расстояния до ЦО точка этого множества; если такая проекция не единственна, выберем равновероятно любую из них).

Вариант II. Введем следующие правила планирования ПО своих траекторий (алгоритм некооперативного поведения).

Шаг 1. В каждый период времени ПО, находящийся в точке (x, y), с вероятностью p r(x, y) уничтожается системой обороны, а с вероятностью 1 — p r(x, y) продолжает движение.

Шаг 2. Продолжив движение, ПО к началу следующего периода времени окажется в точке (u, v), где

(u, v) е

Proj 5 (x*, У*), если

Х> У)

(x, y)g Proj 5 (x*, y*),

x У)

иначе

(x, y) + min{ Vot; p((x, y); (x*, y* ))}e(x, y).

Первый случай в выражении (4) соответствует неудалению от ЦО при условии, что риск обнаружения не превысит пороговый. Второй случай — «прорыв» по прямой к ЦО (в случае, если не удается обеспечить выполнение условия непревышения вероятностью обнаружения порогового значения, т. е. когда следование этому условию приводит к удалению от ЦО).

(4)

В рамках алгоритма некооперативного поведения, ПО, находящийся в некоторой точке, должен иметь оценки риска обнаружения только для ^т-окрестности этой точки; т. е. поведение ПО локально-оптимально, и требует только локальной информации. Отметим, что при активном режиме обнаружения (к = 4) эта локальная информация может вычисляться посредством экстраполяции текущих измерений сигналов сенсоров. При пассивном режиме достаточно потребовать знания всеми ПО координат и чувствительностей сенсоров (что дает им возможность рассчитать риск (2) для произвольной точки плоскости).

Некооперативное поведение группы ПО будет описываться следующим образом: для каждого момента времени для каждого ПО выполнять последовательно шаг 1 и шаг 2 до тех пор, пока либо не будут уничтожены все ПО, либо все уцелевшие ПО не достигнут ЦО.

3. «КООПЕРАТИВНАЯ» МОДЕЛЬ

Взаимодействие ПО будем учитывать следующим образом: предположим, что вероятность обнаружения данного ПО зависит не только от текущих расстояний от него до сенсоров, но и от того, насколько близко к нему расположены другие ПО (пример — рост эффективной поверхности рассеяния). Другими словами, условно можно считать, что ПО служат «сенсорами» друг для друга, и по мере их взаимного сближения растет вероятность обнаружения.

Обозначим через

+

RMj, У/) = min 1 r (xj' y) +

^_а_

1 * j 1 + Xj - x,)2 + (yj - y,)2)k

(5)

риск обнаружения j-го ПО, находящегося в точке (Xj, у^.), с учетом его взаимодействия с другими ПО, где а — неотрицательная константа.

Вариант III. Подвижные объекты прорываются к ЦО по прямой, не учитывая и не прогнозируя вероятности их обнаружения. Данный вариант соответствует варианту I с точностью до замены риска

(2) на риск (5). Информированность ПО при этом такая же, что и в варианте I.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Вариант IV. Алгоритм «кооперативного» поведения будет описываться шагами 1' и 2', которые с точностью до замены риска (2) на риск (5) совпадают соответственно с шагами 1 и 2, причем в выражении (5) суммирование ведется по тем ПО, которые к текущему моменту не были уничтожены.

Вариант IV соответствует варианту II с точностью до замены риска (2) на риск (5).

В данном случае для планирования своей траектории каждый ПО, помимо информации, необходимой во втором варианте, должен знать теку-

2

щие координаты всех ПО2.

4. РЕФЛЕКСИВНАЯ МОДЕЛЬ

Будем считать, что в группе присутствуют ПО двух типов. Объекты первого типа — назовем их нерефлексирующими — действуют в соответствии с алгоритмом «кооперативного» поведения (вариант IV). Объекты второго типа — назовем их рефлексирующими [14] — действуют более сложным образом: каждый из них, считая всех остальных нерефлексирующими [15], прогнозирует их поведение. Другими словами, рефлексирующий ПО точно рассчитывает, где окажутся в следующий момент времени другие ПО (действующие в соответствии с вариантом IV) и выбирает направление своего движения с учетом прогнозируемых положений других ПО.

Определим шаги 1 ' ' и 2 ' ' как шаги, которые с точностью до замены риска (5) на прогнозируемый риск совпадают соответственно с шагами 1 ' и 2 '.

Вариант V. Алгоритм рефлексивного поведения группы ПО: для каждого момента времени для каждого нерефлексирующего ПО выполнять последовательно шаги 1 ' и 2 ', а для каждого рефлексирующего ПО выполнять последовательно шаги 1 ' ' и 2 ' ', пока все уцелевшие ПО не достигнут ЦО.

Отметим, что в рамках алгоритма рефлексивного поведения (вариант V) информированность каждого ПО должна быть такой же, что и в случае кооперативного поведения (вариант IV).

5. АДАПТИВНАЯ МОДЕЛЬ

Специфика интеллектуальных агентов заключается, в частности, в том, что каждый агент в качестве информации для корректировки своих представлений о неопределенных параметрах может использовать не только результаты наблюдения за внешней средой, но и результаты наблюдения за поведением других агентов, пытаясь «объяснить», почему они выбрали именно наблюдаемые действия [16]. Применительно к задаче о диффузной

Возможно обобщение «кооперативной» модели на случай, когда каждый ПО имеет свой фиксированный «радиус обзора» и при планировании своей траектории имеет информацию и учитывает (в выражении типа (5)) только те другие ПО, которые находятся от него на расстоянии, не превышающем этот радиус.

1

бомбе это означает, например, что, даже не имея возможности непосредственно измерять (или не имея априорной информации) о значениях вероятности обнаружения в той или иной точке пространства, адаптивный ПО, наблюдая изменения траекторий других ПО, может восстанавливать информацию о пороговой линии.

Пусть имеются ПО двух типов. Предположим, что все ПО в каждый момент времени знают свое текущее положение и положение цели. Дополнительно ПО первого типа в каждый момент времени знают оценки риска обнаружения для У0т-окрест-ности своего текущего положения, а ПО второго типа в каждый момент времени знают (или могут измерить) текущие координаты всех ПО первого типа.

Объекты первого типа действуют в соответствии с вариантом II, а ПО второго типа на каждом шаге сначала на основании наблюдения за движением других ПО вычисляют оценку расположения пороговой линии. Затем они действуют в соответствии с вариантом II, подставляя в аналог выражения (3) свою текущую оценку пороговой линии. Другими словами, ПО второго типа ведут себя адаптивно (в смысле работ [16, 17]).

Условно ПО первого типа можно назвать «разведчиками» — они лучше информированы (и, наверное, дороже) и проводят разведку боем, добывая информацию о системе обороны (точнее — о пороговой линии) для других ПО (второго типа).

«Предельными» являются два случая — когда все ПО первого типа (тогда имеем вариант II) или когда все ПО второго типа (тогда имеем вариант I).

6. СРАВНЕНИЕ РАЗЛИЧНЫХ ВАРИАНТОВ ПОВЕДЕНИЯ ПОДВИЖНЫХ ОБЪЕКТОВ

Итак, имеем шесть вариантов поведения ПО (см. табл. 2).

Возникает вопрос, как соотносятся между собой эффективности использования ПО тех или иных стратегий. Нахождение ответа на этот вопрос в общем аналитическом виде представляется вряд ли возможным, поэтому был выбран путь создания имитационной модели.

7. РЕЗУЛЬТАТЫ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ

Рассмотрим следующую имитационную модель, реализованную в среде AnyLogic. Выберем К0 = 100, N = 7, е1 = 100, р = 0,5, 8 = 0,03. Начальные положения ПО, ЦО, сенсоры и линии уровня суммарного «сигнала» изображены на рис. 1 (пороговая линия изображена утолщенной).

Пример результатов группового проникновения через систему обороны для варианта II приведен на рис. 2, где черными кружками обозначены уничтоженные ПО. Видеофайл моделирования для вари-

Таблица 2

Варианты поведения ПО

Модель Вариант Учет вероятности обнаружения Учет положений других ПО Прогноз поведения других ПО Информированность

некооперативная I Нет Нет Нет В каждый момент времени каждый ПО должен знать только свое текущее положение и положение ЦО

II Да Нет Нет Дополнительно к варианту I в каждый момент времени каждый ПО должен знать оценки риска обнаружения для У0т-ок-рестности своего текущего положения

кооперативная III IV Нет Да Да Да Нет Нет Как в варианте I Дополнительно к варианту II в каждый момент времени каждый ПО должен знать текущие координаты всех остальных ПО

рефлексивная V Да Да Да Как в варианте IV

адаптивная VI ПО первого типа Да Нет Нет Как в варианте II

ПО второго типа Нет Да Да Дополнительно к варианту I в каждый момент времени каждый ПО второго типа должен знать текущие координаты всех ПО первого типа

70

СОЫТВОЬ БС!ЕМСЕ8 № 5 • 2011

Рис. 1. Начальное расположение ПО, ЦО (звездочка), сенсоры (треугольники) и линии уровня суммарного «сигнала» (2)

анализу вероятности уничтожения в ^-окрестности текущего положения, существенно повышает эффективность преодоления системы обороны (например, при p = 0,5 эффективность увеличивается с 38 до 53 — примерно на 40 %)

Отметим, что варианты I, II и III—V не сравнимы между собой, так как в последних учитывается взаимодействие ПО и вероятности их обнаружения выше. Поэтому приведем рис. 4, содержащий для вариантов III—V зависимости эффективности K действий группы ПО от вероятности p (меняющейся в диапазоне от 0,4 до 0,6) уничтожения обнаруженного ПО при а = 0,03 (в варианте V считается, что половина всех ПО рефлексирующие).

Видно, что, опять же, рост интеллектуализации ПО повышает эффективность преодоления системы обороны (вариант V самый эффективный, далее идет вариант IV, затем вариант III).

На рис. 5 приведена зависимость эффективности K действий группы ПО от значений параметра а, отражающего взаимовлияние ПО.

к

90

70 60 50 40 30 20 10

А

в

—.___

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

0 ОД 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

Рис. 3. Зависимость эффективности К действий группы ПО от вероятности р уничтожения обнаруженного ПО для вариантов I (тонкая линия) и II (жирная линия)

Рис. 2. Пример результатов группового проникновения через систему обороны для варианта II

анта II см. на сайте журнала http://pu.mtas.ru в электронном Приложении 1 к настоящей статье.

На рис. 3 для вариантов I и II приведены зависимости эффективности К (здесь и ниже каждая точка на графике эффективности отражает результат усреднения по 200 испытаниям) действий группы ПО от вероятности р уничтожения обнаруженного ПО. Естественно, с ростом вероятности уничтожения эффективность уменьшается.

Видно, что переход от варианта I к варианту II, т. е. рост интеллектуализации ПО благодаря их

0,4 0,42 0,44 0,46 0,48 0,5 0,52 0,54 0,56 0,58 р

Рис. 4. Зависимость эффективности K действий группы ПО от вероятности p уничтожения обнаруженного ПО для вариантов III (штриховая линия), IV (тонкая линия) и V (жирная линия)

Обозначим через К * е {0, 1, ..., К0} число рефлексирующих ПО. График зависимости К(К *) при а = 0,25 приведен на рис. 6.

Видно, что с ростом доли рефлексирующих ПО эффективность действий группы увеличивается. Более того, «выживаемость» рефлексирующих ПО выше — среднее число рефлексирующих ПО, достигших ЦО, больше, чем нерефлексирующих (причем в рассматриваемой имитационной модели, например, при 200 испытаниях и равном числе рефлексирующих и нерефлексирующих ПО эта оценка статистически значима).

В заключение настоящего параграфа приведем результаты имитационного моделирования для адаптивной модели. Пусть вероятность уничтожения обнаруженного ПО равна 0,5. На рис. 7 представлена зависимость числа ПО, достигших цели, от числа ПО второго типа (горизонтальные линии соответствуют точкам А и В на рис. 3 — эффектив-ностям, равным соответственно 53,74 и 37,97) для двух случаев — когда все ПО движутся одновременно (нижняя кривая) и когда сначала оборону преодолевают ПО первого типа, а потом уже на-

Рис. 5. Зависимость эффективности К действий группы ПО от значений параметра а

Рис. 6. Зависимость эффективности К действий группы от числа рефлексирующих ПО К*

Рис. 7. Зависимость эффективности К действий группы ПО от числа ПО второго типа

чинают двигаться ПО второго типа (верхняя кривая). Видеофайл моделирования взаимодействия агентов в последнем случчае см. на сайте журнала http://pu.mtas.ru в электронном Приложении 2 к настоящей статье.

Видно, что 80 % ПО второго типа обеспечивают в рассматриваемом примере почти такую же эффективность, что и использование только дорогостоящих ПО первого типа.

ЗАКЛЮЧЕНИЕ

В настоящей работе для задачи о диффузной бомбе проведен имитационный сравнительный анализ шести вариантов, различающихся «интеллектуальностью» поведения ПО. Показано, что наделение ПО возможностью учета параметров системы обороны и прогнозирования и (или) анализа поведения других ПО повышает эффективность решения задачи о групповом проникновении через систему обороны. С другой стороны, понятно, что «платой за интеллектуальность» служит рост массогабаритных характеристик, энергетических, вычислительных и других ресурсов, которыми должны обладать ПО. Поэтому при решении каждой конкретной задачи придется оптимизировать баланс между этими критериями и собственно эффективностью проникновения через систему обороны.

Многообещающим представляется рассмотрение модификаций предложенных моделей путем варьирования условий обнаружения (поражения) и процедур планирования ПО своих траекторий. Например, возможен следующий вариант. Обозначим через R0(x, y) = max r(q, w) — макси-

(q, w) e (x, y)

мальный из рисков обнаружения отдельных ПО, находящихся на расстоянии, не большем А, от точ-

ки (х, у); через Щ(х, у) = # {]\(х, у) е sA(x, у)} — число ПО, находящихся в А-окрестности точки (х, у); знак # обозначает мощность множества. «Коопе-ративность» учтем следующим образом: будем считать, что, если Щ(д, w) > Ктах (имеется «критическая масса»), то все ПО, находящиеся в области sA(q, будут обнаружены с вероятностью Я0(д, м>) и в случае обнаружения гарантированно уничтожены. Назовем эту модель моделью критической массы. Введем следующее правило планирования подвижными объектами своих траекторий. В каждый период времени для ПО, находящегося в точке (х, у) проверяется условие Щ(и, V) > Ктах, где точка (и, V) определяется выражением (4). Если это условие не выполнено, то выполняется шаг 1. Если условие Щ(и, V) > Ктах выполнено, то все ПО, находящиеся в области sA(x, у), уничтожаются с вероятностью Я0(х, у), а с вероятностью 1 — Я0(х, у) продолжают движение. В данной модели рефлексирующий ПО может прогнозировать поведение других ПО и в случае, если он вычисляет, что в результате своих действий в соответствии с шагом 2 он попадет в область, где окажется критическая масса ПО, то он стремится избежать попадания в эту область.

Перспективными также представляются:

• рассмотрение синхронизации и (или) минимизации времени поражения ЦО отдельными ПО (как показано в работе [5], существует определенный дуализм между временем движения до ЦО и вероятностью обнаружения);

• введение зависимости вероятности обнаружения ПО от их числа и скорости;

• введение зависимости вероятности уничтожения ПО от их числа, координат и (или) скорости;

• использование, быть может в качестве эвристик, полученных в [1, 3, 4] результатов о свойствах оптимальных траекторий;

• обобщение «кооперативной» модели на случай, когда каждый ПО имеет свой фиксированный «радиус обзора» и при планировании своей траектории имеет информацию и учитывает (в выражении типа (5)) только те другие ПО, которые находятся от него на расстоянии, не превышающем этот радиус;

• исследование более сложных разбиений агентов на ранги рефлексии и учет их взаимной информированности [18];

• получение аналитических решений для частных случаев задачи о диффузной бомбе.

ЛИТЕРАТУРА

1. Каляев И.А., Гайдук А.Р., Капустян С.Г. Модели и алгоритмы коллективного управления в группах роботов. — М.: Физматлит, 2009.

2. Liu B., Dousse O., Wang J., Saipulla A. Strong Barrier Coverage of Wireless Sensor Networks / ACM MobiHoc08, 2008.

3. Zheng С., Li L., Xu F, Sun F. Evolutionary Route Planner for Unmanned Air Vehicles // IEEE Transactions on Robotics. — 2005. — Vol. 21, № 4. — P. 609—620.

4. Anisi D., Thunberg J. Swedish Defense Research Agency, 2007. Report FOI-R-2266-SE. — 68 p.

5. Добровидов А.В., Кулида Е.Л., Рудько И.М. Выбор траектории движения объекта в конфликтной среде // Проблемы управления. — 2011. — № 2. — С. 64—75.

6. Beard R., McLainy T., Goodrich M. Coordinated Target Assignment and Intercept for Unmanned Air Vehicles // Proceedings of IEEE2002 International Conference on Robotics and Automation. Washington DC, 2002. — P. 2581—2586.

7. Абрамянц Т.Г., Маслов Е.П., Яхно В.П. Уклонение подвижного объекта от обнаружения группой наблюдателей // Проблемы управления. — 2010. — № 5. — С. 73—79.

8. Абрамянц Т.Г., Маслов Е.П., Рудько И.М., Яхно В.П. Уклонение подвижного объекта от обнаружения группой наблюдателей при малых отношениях сигнал/помеха // Обработка информации и управление. — 2011. — № 2.

9. Zabarankin M., Uryasev S., Pardalos P. Optimal Risk Path Algorithms // Cooperative Control and Optimizaton. Ch. 1 / Eds. Murphey R., Pardalos P. — Dordrecht: Kluwer Acad., 2002. — P. 271—303.

10. Галяев А.А., Маслов Е.П., Рубинович Е.Я. Об одной задаче управления движением объекта в конфликтной среде // Известия РАН. Теория и системы управления. — 2009. — № 3. — С. 134—140.

11. Галяев А.А., Маслов Е.П. Оптимизация законов уклонения подвижного объекта от обнаружения // Изв. РАН. Теория и системы управления. — 2010. — № 4. — С. 43—53.

12. Галяев А.А. О функционале обнаружения при движении объекта в конфликтной среде // Автоматика и телемеханика. — 2010. — № 4. — С. 100—105.

13. Галяев А.А. О задаче прорыва между двумя сенсорами при движении объекта в конфликтной среде // Автоматика и телемеханика. — 2010. — № 5. — С. 3—10.

14. Новиков Д.А., Чхартишвили А.Г. Рефлексивные игры. — М.: СИНТЕГ, 2003.

15. Новиков Д.А. Модели стратегической рефлексии (обзор) // Автоматика и телемеханика. — 2011 (в печати).

16. Новиков Д.А. Математические модели формирования и функционирования команд. — М.: Физматлит, 2008.

17. Новиков Д.А. Модели адаптации команд // Управление большими системами. — 2008. — № 20. — С. 57—76.

18. Корепанов В.О., Новиков Д.А. Метод рефлексивных разбиений в задачах группового поведения и управления // Проблемы управления. — 2011. — № 1. — С. 21—32.

Статья представлена к публикации членом редколлегии

Е.Я. Рубиновичем.

Корепанов Всеволод Олегович — ст. математик,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

® (495) 334-90-51, И [email protected],

Новиков Дмитрий Александрович — чл.-корр. РАН,

зам. директора, S (495) 334-75-69, И [email protected],

Институт проблем управления им. В.А. Трапезникова РАН,

г. Москва.

i Надоели баннеры? Вы всегда можете отключить рекламу.