Математические структуры и моделирование 2002, вып. 10, с. 19-25
УДК 517.977
ОБ АЛГОРИТМАХ ОПТИМАЛЬНОГО ПОИСКА НЕПОДВИЖНЫХ ЦЕЛЕЙ
Б.К. Нартов
The problems of the control of searching the fixed targets in real time scale and the problems of the planning of searching the fixed targets with the loss risk are reduced to the optimum control problems in the work.
Введение
В работах [1-4] мы исследовали возможности одного нового подхода к формализации некоторых известных задач поиска неподвижных целей, общими для которых были следующие исходные данные: односвязной области G С E2 достоверно принадлежат K неподвижных точечных целей с известными функциями плотностей распределения вероятностей fk(x), 1 < k < K,x = (x\,x2) Є [G], где [G] - замыкание области G. В замыкании [G] произвольным образом расположены в начальный момент времени t = 0 N поисковых единиц (ПЕ). При движении каждая ПЕ является центром окружности радиуса а, заметающей в области G полосу шириной 2а - «полосу поиска»; попавшая в полосу цель считается обнаруженной.
£i(t) = (£1 (t),£\(t)) - траектория i-й ПЕ, 1 < i < N, 0 < t < tf, tf -время поиска;
K = K({£i(t)|0 < t < tf, 1 < i < N},t) - случайная величина - количество целей, обнаруженных на интервале времени (0, t), соответствующее стратегии поиска u = {£j(t)|0 < t < tf, 1 < i < N}.
В числе прочих в [1-4] был исследован и сведен к задаче оптимального управления общий случай задачи планирования слепого поиска, а именно:
Считая реальные состояния поиска на заданном интервале (0, tf) неизвестными, вычислить стратегию поиска u* = {£*(t)|0 < t < tf, 1 < i < N}, максимизирующую математическое ожидание количества целей, обнаруживаемых за время поиска tf (во всех формализуемых ниже задачах оптимальному управлению соответствуют максимальные скорости ПЕ).
Для формализации этой задачи использовалась специальная, зависящая как от управления, так и от времени функция F, реализующая над областью поиска дифференцируемый профиль, повторяющий движения ПЕ. При этом к моменту окончания поиска высота профиля с заданной точностью равна единице над
© 2002 Б.К. Нартов
E-mail: [email protected]
Омский филиал Института математики СО РАН
Работа поддержана грантами РФФИ (проекты 01-01-00303 и 01-07-90003)
20
Б.К. Нартов. Об алгоритмах оптимального поиска...
просмотренными областями, в том числе и над областями пересечений и самопересечений полос поиска, и с заданной точностью равна нулю вне просмотренных областей.
Таким образом, для произвольных начальных условий и ограничений, накладываемых на управление ПЕ, исходная задача планирования поиска была приведена к виду
J(u) = J f (x)F(x,u,tf )ds ^ max, (1)
G
K
где f (x) = У fk (х),то есть сведена к стандартной задаче оптимального управ-k= 1
ления.
Ниже, упрощая некоторые доказательства, мы представляем и дополняем результаты [1 - 4] по управлению поиском в реальном масштабе времени, а также многокритериальному поиску и задачам оптимального форсирования с риском гибели.
1. Управление поиском в реальном масштабе времени
Считая состояния поиска, то есть моменты и координаты обнаружения целей, известными, сформулируем следующую задачу: построить управление поиском в реальном масштабе времени, максимизирующее математическое ожидание числа обнаруженных целей M[K(U)(tf))], где
U(t) = u-(t)Uu+(t),u-(t) = {ф(т)|0 < т < t, 1 < i < N}, u+(t) = {ф(т)| t < т < tf, 1 < i < N},u = u(tf).
Для решения этой задачи необходимо ответить на следующие вопросы:
1. Необходимо ли в процессе управления поиском на интервале времени (0,t1), где t1 - момент первого обнаружения цели, корректировать исходную функцию плотности распределения f (х) в функционале (1)?
2. Как корректировать исходную функцию плотности распределения f (х) в момент первого и последующих обнаружений (K ^ K — 1 ^ K — 2 ^ • • • 2 ^ 1) и между обнаружениями?
Покажем сначала, что для случая одной цели и произвольного количества ПЕ (K = 1,N > 1) оптимальное управление поиском в реальном масштабе времени - при произвольном дискрете перерассчета - совпадает с оптимальным планом, рассчитанным из (1) в начальный момент поиска.
Пусть на некотором интервале (0,t) С (0, tf) реализовано управление, рассчитанное в начальный момент времени, и цель не обнаружена. Обозначим: f (х) - плотность распределения цели;
G1 С G - область, просмотренная на интервале управления (0,t);
G2 С G - область, назначаемая в момент t для просмотра на интервале (t,tf);
h = / f (x)ds;
Gi
І2 = / f (x)ds.
G2\(GinG2)
Математические структуры и моделирование. 2002. Вып. 10.
21
Запишем задачу оптимального управления, а именно - задачу максимизации условной в вероятности обнаружения цели на интервале (t,tf) :
(1 — Ii)(1i + I2) —— max. (2)
Первый сомножитель в (2) - константа задачи, что приводит (2) к виду
(Ii + /2) — max
или
J f (x)ds + J f (x)ds — max
G1 G2\(GinG2)
или, объединяя области интегрирования,
J f(x)ds — max,
U
что сохраняет на (t,tf) оптимальность траекторий ПЕ, рассчитанных в начальный момент времени.
Таким образом, в случае K = 1 ,N > 1 оптимальное управление поиском в реальном масштабе времени (до обнаружения цели или истечения заданного времени поиска tf) совпадает с оптимальным планом слепого поиска, вычисляемым из (1).
Существенно сложнее и интереснее оказывается случай K > 1, N > 1, требующий, вообще говоря, непропорциональной коррекции исходных значений fk, 1 < k < K .В этом случае практически реализуемое управление представляет собой последовательность оптимальных планов, перерассчитываемых через назначаемое время At, малое по сравнению с tf, ив моменты обнаружения целей. При этом очередной план действует в течение At или до очередного обнаружения цели. В общем случае такое управление поиском на (0, tf), разумеется, неустойчиво относительно выбора At. Однако эта неустойчивость -неустранимый недостаток любого алгоритма, реализующего поиск - как в реальном масштабе времени, так и в варианте планирования (что следует уже из необходимости численного представления fk (x)).
Искомое преобразование
fk(xo) — fk(x0,u-(t),t) для случая K > 1, N > 1 удобно представить в виде fk (xo ,u-(t),t) = fk (xo) ■ A(xo,u-(t),t) ■ Bk (u-(t),t) ■ Ck (u-(t),t). (3)
Физический смысл множителей A и B прост:
A =1 — F(x0,u (t),t),
(4)
то есть A констатирует хотя бы одно касание x0 Є G хотя бы одной поисковой единицей на истекшем интервале управления (0,t), а именно: A к, 1 - не было касания, A к 0 - было касание.
Bk
1
1 — / fk(x)F(x,u-(t),t)ds''
G
(5)
22
Б.К. Нартов. Об алгоритмах оптимального поиска...
то есть Bk корректирует исходные значения fk (x) в предположении, что при любой последовательности обнаружений на интервале (0, t) k-я цель не обнаружена (считая fk (x) > 0 для всех k и х, а номера обнаруживаемых целей неидентифицируемыми, мы максимально усложняем задачу и вплоть до последнего обнаружения (если оно состоялось) считаем вероятности существования всех целей отличными от нуля).
Множитель Ck(х) = 1 до первого обнаружения, а на интервале (ti, ti+1) между i-м и i + 1-м обнаружениями имеет вид
Ck
Р i(U (t),t) - pk (u (t),t) p i(u-(t),t)
(6)
где Pi - вероятность обнаружения i целей к моменту t Є (ti,ti+i) при управлении u- (t), элементарно выражающаяся через интегралы
Ik = у fk(x)F(x,u (t),t)ds, 1 < k < K;
G
Pk - сумма слагаемых из Pi с участием множителя Ik (см.рис.1).
Таким образом, Ck суть вероятность того, что к моменту t k-я цель не обнаружена. Очевидно, что Ck(t_K) = 0, k = 1,..., K.
Сомножители A и Bk непрерывны на (0, tf), Ck может испытывать разрывы 1-го рода в моменты обнаружения целей.
Результаты (3)-(6) тривиально модифицируются для алгоритма управления с прямым вычислением приращений K, для чего достаточно во всех случаях заменить J fk(x)F(x, u-(t), t)ds на J fk(x)ds, где Gt - область, просмотренная
G GtCG
к моменту t.
Полученные результаты распространяются и на задачи поиска стационарных целей в трехмерном пространстве. Рассмотрим, например, поиск с помо-тттью шаровых ПЕ, заметающих в трехмерной области поиска соответствующие объемы. Для расширения (1)-(6) на этот класс задач достаточно во всех случаях заменить интегрирование по поверхности интегрированием по объему.
2. Многокритериальный поиск и задачи форсирования
Вернемся к задаче слепого поиска для случая одной цели и одной ПЕ. Дополним исходные данные и переформулируем цель поиска. Пусть дополнительно в области G достоверно находится регистрирующая единица (РЕ) с соответствующей функцией плотности распределения вероятности r(x), x Є G. Если РЕ попадает в полосу поиска ПЕ, то ПЕ и РЕ удаляются из задачи (см. рис.2).
Необходимо рассчитать план слепого поиска, для которого
pi(tf)+ Р2(tf) ^ max, (7)
где pi(tf) - вероятность существования ПЕ к заданному моменту времени tf; p2(tf) - вероятность обнаружения цели к моменту tf.
Математические структуры и моделирование. 2002. Вып. 10.
23
Рис. 1. Ситуация обнаружения цели
Рис. 2. К двухкритериальной задаче поиска
24
Б.К. Нартов. Об алгоритмах оптимального поиска...
Обозначим траекторию ПЕ через £(t), 0 < t < tf. Выше рассмотрено преобразование (f(x),£(t)) — (f(x,£(t)) для функции плотности распределения вероятности нахождения цели в точке x Є G. Построим соответствующее преобразование (r(x),£(t)) — r(x,£(t)) для функции плотности распределения вероятности нахождения регистрирующей единицы в точке x Є G.
Из нормировки J r(x)ds = 1 вероятность существования ПЕ к моменту вре-
G
мени t определяется выражением
pi(t) = 1 — J r(x)F(x,£(t),t)ds.
G
(8)
Далее, используя свойства F, можно записать:
dp2(t) = (1 — r(x)F(x,£(t),t)ds) ■ r(x)dF(x,£(t),t)ds.
G
G
Отсюда, интегрируя и учитывая (8), приводим (7) к виду
J(£(t),tf) = J r(x)F(x,£(t),tf)ds +
G
tf
+ J ((j r(x)F(X, {(*), 0ds — 1)j f (X) ■ dF(X, {(*), *>*><# - rnin . (9)
0 G G
Мы формализовали двухкритериальную задачу слепого поиска со следующей таблицей возможных исходов (0 - обнаружение или гибель):
Объекты Исходы
Цель 1 0 1 0
ПЕ 1 1 0 0
РЕ 1 1 0 0
Заметим, что в отличие от однокритериальных задач в двухкритериальном случае (9) результат поиска на (0 ,tf) зависит не только от просмотренной к моменту t области, но и от последовательности ее просмотра.
Отдельной группой задач, формализуемых в рамках предлагаемого подхода, являются задачи форсирования, в частном случае - задачи оптимального покидания некоторой области.
Пусть в области G находятся РЕ с известными плотностями распределения и ПЕ с заданными начальными координатами. Решаемая на (0, tf) задача состоит в оптимальном, по критерию минимизации потерь, выводе ПЕ на границы G (предполагается, что кинематический ресурс ПЕ достаточен). Подобные задачи можно рассматривать как упрощение соответствующих задач двухкритериального поиска - но лишь в случае заданных конечных координат ПЕ. В случае
Математические структуры и моделирование. 2002. Вып. 10.
25
свободных конечных координат ПЕ задача оптимального покидания все же сводится к задаче оптимального управления, но оказывается существенно сложнее исходной. Полученная нами к настоящему времени формализация общего случая задачи оптимального покидания весьма громоздка и, ввиду заведомой неустойчивости функционала качества относительно разнотипных параметров, вряд ли имеет прикладную ценность. Среди полученных здесь частных результатов можно отметить следующий: алгоритм перехода от оптимального плана к оптимальному управлению в РМВ совпадает с соответствующим алгоритмом перехода для задач оптимального поиска (с точностью до вычеркивания гибнущих, то есть регистрируемых ПЕ).
ЛИТЕРАТУРА
1. Nartov B.K. Conflict of Moving Systems. AMSE Press, France, 1994. 87 p.
2. Нартов Б.К. и др. Конфликт сложных систем. Модели и управление. М.: Изд-во МАИ, 1995. 120 с.
3. Нартов Б.К., Чуканов С.Н. Модели траекторного управления. Омск: Изд-во Ом-ГУ, 2001. 95 с.
4. Нартов Б.К. Управление подвижными объектами. Формализация и модели. Омск: Изд-во ОмГУ, 2002. 83 с.