УДК 539.75
Вестник СПбГУ. Сер. 10, 2013, вып. 3
В. П. Якушев, В. В. Карелин, В. М. Буре
БАЙЕСОВСКИЙ ПОДХОД В ЗАДАЧЕ УПРАВЛЕНИЯ КИСЛОТНОСТЬЮ СРЕДЫ*)
Введение. В связи с расширением сферы применения компьютерных технологий появилась необходимость в управлении такими объектами, для которых отсутствует адекватная математическая модель, при этом закономерности, описывающие поведение объекта, известны не полностью. Зародившийся подход к новым задачам управления основывается на идее приспособления управляющей системы к свойствам конкретного объекта, о котором заранее известно лишь к какому классу управляемых объектов он относится. В статье рассматривается один из таких объектов.
Как указано в работах [1, 2], известкование почв представляет собой высокоэффективный прием повышения плодородия. Главная цель известкования - устранение избыточной кислотности среды. Кислотность среды определяется значением показателя pH, при этом pH = 6,3-6,5 считается эталонным [1, 2]. В [2] отмечено, что на почвах с pH = 6,3-6,5 поступление радионуклидов и тяжелых металлов в растения снижается в 3-8 раз, а также в несколько раз уменьшается их миграция в грунтовые воды. На почвах с оптимальной реакцией среды (pH 6,3-6,5) существенно повышается продуктивность растений. Как показали многочисленные исследования ( см. [1, 2] и др.), без поддерживающего известкования кислотность почв увеличивается во времени (снижается уровень показателя pH), происходит деградация почв. В исследованиях почв в разных странах Европы (Англия, Германия) неоднократно было отмечено явление резкого изменения реакции среды в почве, что приводило к необходимости применения дорогостоящих мер для восстановления оптимальных значений этого важнейшего агрохимического показателя. В работе [2] указывается, что темп увеличения кислотности почвы (снижения показателя pH) зависит от уровня реакции среды, чем выше величина pH, тем относительно быстрее понижается ее значение. Обычно исследуют среднегодовое уменьшение pH или среднегодовое увеличение кислотности почвы. В связи со сказанным представляется возможным в качестве некоторого приближения описывать динамику снижения показателя pH стохастическим линейным разностным уравнением первого порядка, наличие случайной компоненты обусловлено почвенной неоднородностью. Учитывая «неизбежную вариабельность» почвы, растений, микроорганизмов [1], можно говорить о распределении pH для всего поля, при этом будем считать, что оптимальное значение кислотности известно [2], обозначим его K. Следуя подходу, предложенному в работе [3], предположим, что поле разбито на небольшие однородные участки одинаковой площади (элементарные), причем внутри элементарного участка показатель pH одинаков, но между элементарными участками имеется
Якушев Виктор Петрович — академик Россельхозакадемии, доктор сельскохозяйственных наук, профессор, директор Агрофизического научно-исследовательского института, 195220, г. Санкт-Петербург; e-mail: [email protected].
Карелин Владимир Витальевич — кандидат физико-математических наук, доцент, 199034, Санкт-Петербургский государственный университет; e-mail: [email protected].
Буре Владимир Мансурович — доктор технических наук, профессор, 199034, Санкт-Петербургский государственный университет; e-mail: [email protected].
*) Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 12-01-00752).
© В. П. Якушев, В. В. Карелин, В. М. Буре, 2013
некоторая его вариабельность, обусловливающая необходимость введения случайной компоненты. Таким образом, имеющаяся индивидуальная изменчивость во времени кислотности элементарных участков моделируется введением случайной компоненты. В силу вышесказанного будем описывать разность между оптимальным значением кислотности K и измеренным уровнем кислотности почвы (показатель pH) в момент времени (год) t случайным управляемым процессом xt.
Постановка задачи. Управляемый случайный процесс xt полностью задан, если известна его переходная функция распределения [4, 5, 7]
P(dxt+1\xt,ut), (1)
заданы начальное распределение P(xi) и некоторая допустимая стратегия ut = (ui,...,ut). Под стратегией управления будем понимать совокупность правил выбора управлений. Если переходная функция (1) зависит от «последних» значений xt и ut, то она называется марковской. Если марковская переходная функция управляемого процесса замыкается марковской стратегией, то процесс, определяемый этой переходной функцией, становится марковским.
В реальных ситуациях переходная функция зависит от неизвестного параметра в G ©. При этом знание его для целей выбора управления не обязательно, но желательна близость оценки распределения к истинному распределению. Причем близость этих функций будем понимать в смысле следующей метрики:
p(Pi,P2) = sup V \Pi(Ai) - P2(Ai)\.
Основным аппаратом при установлении факта сходимости используем информационную меру рассогласования между оцениваемым распределением P2(Ai) и оценкой Pi (Ai), под которой будем понимать информационное число Кульбака-Лейблера [8]
I LJ ,„. 1}7г
т\Р2)= j[ln^}Pi(y)m(dy),
Р2 (у)
У
где Р\(у) и Р2(у) - две плотности распределений на измеримом пространстве У относительно положительной меры ш(Лу). Величина I(Р1; Р2) не является метрикой, но обладает некоторыми свойствами, благодаря которым может быть применена в качестве меры рассогласования между Р2 (А^) и Р1(А^)
1. Если интеграл I(Р1; Р2) существует, то I(Р1; Р2) ^ 0. При этом I(Р1; Р2) = 0 тогда и только тогда, когда Р1 = Р2 почти всюду (относительно ш(Лу)).
2. Справедливо неравенство [6]
/(Р1;Р2)>1 / \р,{у) - PMmidy)
2
Таким образом, метрику р можно оценивать сверху величиной 2а/2/, т. е. для того чтобы р ^ 0, достаточно, чтобы I ^ 0.
Предположим, что X - п-мерное евклидово пространство Нп, а функции Р1,Р2 -нормальные распределения со средними 0,1 и а2, ковариационными матрицами V и У2. Тогда I имеет вид
I(VUV2) = ^{indetViVf1 + SpV1-1V2 - п + Aa'Vf1 Аа}.
Для семейства нормальных распределений выполняется следующее полезное свойство. Пусть Ро(х) - произвольное распределение в Нп со средним а и ковариационной матрицей V. Рассмотрим семейство Q нормальных распределений в Нп, до(х) - нормальная плотность с тем же центром в а и ковариационной матрицей V. Тогда справедлива
Теорема 1 [6]. Для любого д(х) € Q выполняется неравенство I(Р0; д0) ^ I(Р0; д). Равенство достигается тогда и только тогда, когда д = д0.
Байесовский подход к оцениванию параметров условного распределения. Пусть условное распределение процесса х: г зависит от неизвестного постоянного параметра в € ©, Р(¿хг+1 \хг, в), хг = {х1, х2,хг}.
В математической статистике существует много методов оценки параметров, например такие как минимаксный подход, когда статистические решения оцениваются по «худшему» из возможных значений в, байесовский подход, при котором для неизвестного параметра в вводится в) - некоторое распределение на (в, Э), называемое априорным распределением, и др. В работе рассматривается байесовский подход. В дальнейшем будем предполагать, что Р(хг+1\хг,в) = Рд(хг+^хг).
Пусть в) принадлежит некоторому семейству К, которое доминируется мерой п(вВ). Плотность в) относительно п(вВ) обозначим ь'(в). Предположим, что р(в) -какая-либо измеримая функция параметра в € ©, тогда байесовской оценкой этой функции называется величина
<р(х*)= [ ¥>(выв\х)п(3,в),
в
где
Рд (х*)щ-1(в)
) = Гр/ п (п\ (му (2)
] Рд (хг)и—1(в)и(ав)
в
Функция щ(в\хг) называется апостериорной плотностью распределения параметра в.
Процесс хг, определяемый переходной функцией Рд(хг+1 \хг), можно трактовать как частично наблюдаемый марковский процесс в фазовом пространстве © х X с переходной функцией для в : в г = вг+\. Используем известную конструкцию [4] для построения вспомогательной модели процесса с полной информацией. В качестве фазового пространства рассмотрим пространство {X, К}, где К - пространство распределений на ©. Оно является борелевским пространством. Определим переходную функцию в пространстве {X, К} следующим образом:
Р(хг+1\хг,щ) = ! Рд(хг+1\хг)щ(в\хг)п(3в), (3)
в
здесь плотность распределения рассматривается по формуле (2), которая примет вид
Для задания процесса задаются начальное распределение Р\(х\) и априорная плотность МО) =
Далее будем рассматривать замкнутые системы управления. Под стратегией будем понимать последовательность ф = {фг} . Пусть ф - некоторая допустимая стратегия. Задание стратегии определяет при каждом в € © распределение вероятностей
на X* с помощью переходной плотности
Рв, ф(х*+1 \х*) = Рв (х*+1\х*,ф*(х*)). Рассчитаем плотность распределения вектора х* = {Х1, ...,х*}:
Ре,фХ) = П Рв^хк\хк-1Р1(х1)). к=2
Теперь поясним вероятностный смысл формул (3) и (4). Введем на множестве пар {х*; в} меру Р, плотность которой имеет вид
Рф (х* ,в) = Рв , ф(х*)^(в). Эта плотность расщепляется на две:
(6)
в которых
Рф (х*,в) = Рф (в\х* )Рф (х*), Рф (х*) = I Рф (х*1в)и(йв).
(7)
Лемма 1. Распределение Рф (в\х*) удовлетворяет рекуррентным соотношениям (4), т. е. выполняется соотношение
Ъ(в)= Рф (в\х*).
Доказательство. На основании (6) имеем Рф (в\х
*. Рв,ф(х*)ч(в) _ Рв,ф(х*\х*-1)Рв,ф(х*-1)^(в)
Рф (х*)
Рф(х«-1) Рв,ф (з^\хь~1)Рв^ф (ж*-1 )г/1 (6) Рф(х') Рф(х*-1)
Рф (х*)
Рф
Ч*(х*)
где
Так как
Ч*(х*) =
t^ _ ^
Рф (х*)
Рф (х*-1)
Рф (в\х*)и(3,в) = 1,
то и
т. е.
Рф{в\х*-1)Рв}фЫх*-1)п{с1в)
Чг{хг)
е*+1 (в)= Рф (в\х*-1)
Ч*(х*) = I Рв,ф(х*\х*-1)&-1 (в)и(св)
х
и
удовлетворяют рекуррентным соотношениям (3) и (4). Очевидно, &1(в) = VI(в) и д\(х\) = Р1(х1). Следовательно, при Ш ^ 1 выполняются равенства
Vь(в) = Рф(в\хг), дг = Рг(хг\хг-1, иг)
и тождество
иг(в)Рф (хг) = Рдф(хг)иг(в). Следствие 1. Для Ш^(хг) справедливо равенство
I Ед-ффг)иг(в)3п(в) = I хг)Рф(хг)тг(3хг). (8)
в х
Лемма 2. Пусть и (в) - произвольная функция, для которой существует интеграл
& = ! и(в)иг(в)п(М), (9)
в
тогда существует (с вероятностью 1) интеграл
в
и выполняется соотношение
6+1 = У и(в)иг+1(в)п(ав)
Е(&г+1\хг,иг) = (10)
т. е. последовательность является мартингалом (относительно {хг,иг}). Доказательство. Так как
Рд (хг+1\хг)
в
то
£г+1Р(хг+1\хг,иг)т^хг+1 )= ^ т(йхг+1 ^ и(в)иг+1(в)Рд(хг+1\хг)п(М)
х х
= у п(ёв)и(в)иг(в) у Рд(хг+1 \хг)т(х+1) = / и(в)иг(в)п(сШ). в х в
Следствие 2. Пусть
а? = ! \и(в) - &\2иг(в)п(М).
Тогда справедливо соотношение
Е(а2+1\хг,иг)= а? - Е{(&+1 - &г?\хг,иг}. Следовательно, последовательность а? является супермартингалом. 172
Следствие 3. Пусть © - линейное множество в Еп, вг - среднее значение вектора в с плотностью распределения и^в), Бг - корреляционная матрица. Тогда справедливы соотношения
Е{вг+\\хищ} = вг, Е{Бг+1\хг,щ} * Бг.
Доказательство. Положим р(в) = С в, где С - постоянный вектор. Тогда = С БгС. Получим, что для любого вектора С выполняется неравенство
Е{(С'Бг+С\xuvt)} * С БС.
Из (10) следует Е(&г+1 — &)2 = Еа^ — Еа'2+1. Таким образом, для любой & вида (9) справедливо неравенство — < а2, в частности при = С в
ж
Е^С'\вг+1 — вг\2 <а2. г=1
Так как С - произвольный вектор, имеем
ж
Е\в+1 — вг\2 <а2.
г=1
Асимптотическое поведение апостериорных распределений. Рассмотрим асимптотические свойства последовательности Определим переходную функцию процесса {хг, Лг} соотношениями
Р(хг+1 \хг, ЛгР9(хг+1\хг)Лг(в)н(с1в), (11)
в
Предположим, что хг наблюдается, но распределение Лг(в) неизвестно. В качестве оценки функции Лг(в) выбираем распределение щ(в) по рекуррентному соотношению (4) с произвольным начальным значением V1(в).
Наша задача установить, что при Т переходная функция Р(хг+1\хг, VI) стано-
вится близкой к Р (хг+1 \хг ,Лг).
Теорема 2 [6]. Пусть {хг, Лг} - марковский процесс, определяемый соотношениями (11) и (12). Тогда выполняется следующее неравенство:
Ч § ч * / -
Ыв) Ыв)\
Л1(в)и(ав), (13)
где 1г = I(Р(■\хг),Лг; Р(-\хг^)).
Следствие 4. С вероятностью 1 справедливы соотношения
ж
Е1г * +оо, Иш I = 0.
г=1
Распределение Ai (в) - произвольное. Например, в качестве Ai (в) может быть взято любое распределение, сосредоточенное в сколь угодно малой окрестности uo точки во. Тогда и все распределения А1(в) сосредоточены в этой окрестности. Процесс {xt,At} можно трактовать следующим образом: et - случайная величина с распределением Ai (в), xt+i - случайная величина с условным распределением Pg (xt+i\xt), причем при всех t ^ 1 выполняется включение et G uo. Таким образом, процесс xt можно считать процессом, переходная функция которого определяется параметром, подверженным «малым» возмущениям.
Итак, установлена сходимость оценки переходной функции к нестационарной переходной функции Pg(xt+i\xt). Если множество в конечно, то окрестность точки вi совпадает с точкой ei (можно выбрать дискретную топологию). B этом случае интегральные соотношения принимают вид конечных или бесконечных сумм, а функции щ(в) превращаются в вероятностные последовательности vt(i), i = 1, 2,... . Соотношение (13) можно записать следующим образом:
E ^ < - vi(io), где io - номер переходной функции, определяющий процесс x¿;
ж
/t = /(Pió;Pt), Pt = Y1 Pi(xt+i\xt)vt(i).
t=i
Постановка задачи адаптивного оптимального управления. Применим байесовский подход к построению адаптивных оптимальных систем. Как класс допустимых стратегий возьмем совокупность произвольных измеримых функций предыстории,
т. е. ut = фt(xt).
Пусть на реализациях процесса {xt, ut} задана функция q(xt, ut). Тогда за критерий качества стратегии ф можно взять функцию
_! т
J(0;VO= I™ 77; y^Ee,x/>q(xt,ut), (14)
T—>00 T ' ' t=i
где Eg,- - условное распределение по Pg,ф, определяемое соотношением (5). Функция q(xt,ut) называется доходом или платой в зависимости от того, находится максимум или минимум критерия (14). Вместе с критерием (14) рассмотрим функционал
T
Jt (в; ф) = Eg, q(xt,ut). (15)
t=i
Вообще говоря, нет стратегии ф, которая минимизировала бы критерий (15) при каждом в G в. Однако для критерия (14) существование такой стратегии обеспечивается наличием достаточных статистик в = £t(xt), таких, что в G в с вероятностью 1. Возможность определить в позволяет в принципе выбрать оптимальное управление, соответствующее этому параметру.
Стратегию ф, минимизирующую критерий (14) для каждого в G в, будем называть адаптивной оптимальной стратегией; стратегию, минимизирующую критерий (14) с точностью до величины е, - e-оптимальной стратегией.
Общим методом определения оптимальных стратегий в задачах с конечным чист
"о
лом шагов является динамическое программирование. Пусть Vт - оценка оптимальной стратегии на отрезке [0, Т]
sup^^ q(xt,ut) + г(хт^ ,
где г(хт) - финальная плата, и 0 ^ s ^ t ^ T. Обозначим
Vq = sup q(xt,ut), Ur = q(xt,ut) + Er(xt+\\xt ,ut).
u
Тогда VI [г] = {уи)г вт на X. Отсюда следует, что при £ из промежутка [0, Т] имеем
"Т[г] = "Т ["Т [г]] на хо.
Это уравнение выражает принцип динамического программирования, согласно которому для оптимизации управления на отрезке [0, Т] при финальной плате г можно оптимизировать управление сперва на промежутке \Ь, Т] (при той же финальной плате), а затем на промежутке [0,£] при финальной плате Vт[г].
Однако непосредственное использование этого метода для задач с бесконечным временем функционирования невозможно, так как полный «доход» в них бесконечен, можно ставить задачу оптимизации среднего дохода за единицу времени. Однако уравнения динамического программирования могут быть применены (с некоторой модификацией) и в этом случае.
Байесовская постановка задачи оптимального управления системой состоит в задании меры V(в) на множестве параметров и рассмотрении критерия (15). В силу равенства (8) выполняется соотношение
,1т(ф^) = Ч(хг, (16)
где Е,ф<и - символ усреднения (см. (7)). Таким образом, минимизация критерия (15) эквивалентна определению оптимального управления процессом {хг^г} с переходной функцией, рассматриваемой по формулам (3), (4) и критерию (16). Для бесконечного времени критерием оптимальности является функционал
-1оо(Ф) = Ит 71~МФ)-
1 —>ж Т
Канонические стратегии. При построении оптимального адаптивного управления выбор стратегии осуществляется, максимизируя суммарный доход за все время управления. Если доход за промежуток времени [0, Т] неограниченно увеличивается при Т ^ х, то следует выбирать ту из двух стратегий, для которой этот рост быстрее.
А. А. Юшкевич [5] ввел понятие канонической стратегии в задаче оптимизации среднего «дохода» единицу времени. Для задачи минимизации критерия (14) это понятие выглядит следующим образом. Пусть существуют функции г(х) и "(х) такие, что
Ы[Е{г(хг+1 хи иг} + д(хг, щ)\ = и
= Е{г(хг+1)^г, хи ф(хг)} + д(хг, ф(хг)) = г(хг) + "(хг), (17)
v
о
причем v(xt) является мартингалом
E{v(xt+i)\xt,^(xt)} = inf E{v(xt+i)\xt,ut} = v(xt). ut
Стратегия ф, входящая в уравнение (17), называется канонической, а совокупность трех функций {iß(x),v(x),r(x)} - канонической тройкой. Каноническая стратегия (если она существует) при каждом T ^ 1 минимизирует сумму
т
jt = E{^2 q(xt, ut) + r(xT)}. t=i
При этом оказывается, что J = infu JT = Tv(xi) + r(xi). Пусть, как и раньше, в -случайная величина и v(0) - распределение вероятностей для в. Предположим, что для каждого в G в существует каноническая тройка {фд(x), vg (x), rg (x)} для критерия (14), причем vg не зависит от x (т. е. все начальные состояния равнодоходны). Введем в рассмотрение функционалы
h(x,v ) = J rg v(e)n(de), g(x, v )= J vg ь>(в)и(3,в). в G
Пусть переходная функция процесса (xt,vt) задается соотношениями
P (xt+i\xt,vt,ut) = J Pg (xt+i\xt,ut)vt(e)n(de),
G
(f). _ Pg{xt+l\xuut)
P(xt+i \xt, vt,ut)
Тогда справедлива
Теорема 3 [6]. Стратегия ф, определяемая соотношением
ф = argmin[E{h(xt+i,Vt+i)\xt ,vt,ut)} + q(xt,vt,ut)], (18)
Ut
минимизирует при каждом T > 1 функционал
(t=T+i ^
Jt = Es q(xt,vt,ut) + h(xt,vt)\ .
При этом минимальное значение функционала J равно
J = inf JT = (T - 1)g(vi) + Eh(xT,vT).
Ut
Алгоритм адаптивного стабилизирующего управления в линейной системе управления. Рассмотрим линейное разностное уравнение n-го порядка
k=n-1 k=m
xt+i = akxt-k ßkut-k + ft+i. (19)
k=0 k=0
Здесь ak ,ßk - постоянные коэффициенты, ft - последовательность независимых гаус-совских величин с нулевым средним и дисперсией а2,ut - управление, ßo = 0.
Пусть коэффициенты вк, известные величины хг и иг наблюдаются, коэффициенты а неизвестны. Предположим, что объект (19) - минимально-фазовый, т. е. корни многочлена
k=m
Ь(Х) = £ ßkxk
k=0
лежат вне единичного круга. Качество управления объектом оценим с помощью функционала
J = lim —
тT
t=T
£>2 ■
г=1
Допустимые управления - произвольные измеримые функции иг = фг(хг). Теперь установим, что стратегия ф, определенная соотношением (18) для абстрактной схемы, обеспечивает стабилизацию в среднем квадратическом траектории уравнения (19). Пусть vt(в) - плотность нормального случайного вектора со средним значением вг и корреляционной матрицей Бг. Введем следующие обозначения: гг = (хг,хг-1, ...,хг-п) -фазовый вектор уравнения (19). Тогда это уравнение можно представить следующим образом:
zt+1 = Azt + Ь втzt + ßkut-k + ft+1
k=0
где
A=
( 00...00 \ 10...00
У 00...01 )
Ь =
1
0 .0..
Пусть квадратическая форма V(z) вектора z имеет вид
V(zt) = nx2t +(п - lS)x2t_i + ... + x2t_n+i.
Тогда справедлива
Теорема 4 [6]. Стратегия
y^ßk ut-k = -d'T zt
k=0
(20)
минимизирует при каждом T величину
Jt = E^ j2 zt(I - Stn)zt + V(zt^ .
При этом inf JT = nTd2 + V (z0), где 0t = f 6vt(6)dß и Ef2 = d2. u 0
Следствие 5. Пусть при некотором t выполняется неравенство I — qST > e0I. Тогда существует р, 0 < р < 1, при котором справедливо неравенство
E{V(zt+i)\zt,vt} < pV(zt) + nd2.
Следствие 6. Пусть Х(в) - априорная плотность, удовлетворяющая неравенству Х(в) ^ Cv(6). Тогда справедливо неравенство
^^ z2 j < ce^Y, Z2j .
И можно сформулировать следующую теорему.
m
Теорема 5 [6]. Пусть J2 вкut-k = zt, vt(d) - последовательность апостериор-
k=0
ных распределений, соответствующих нормальному априорному распределению vt(ff), причем nSl < I. Пусть Х(в) - плотность распределения, сосредоточенного в ограниченной области, удовлетворяющая неравенству Х(в) < Cv(в). Тогда выполняются неравенства
E{zt} < const, E{uj} < const.
Поясним смысл утверждений теоремы. Процесс (xt; vt), обусловленный переходной функцией P(xt+i\zt, vt,ut), можно трактовать как процесс, определяемый уравнением
m
k
Xt+1 = ef Zt + Y вкUt-k + ft+1,
к=0
где - случайный вектор с распределением Так как носитель распределения
сосредоточен в окрестности точки во, то при Ш выполняется неравенство в — 9о\ < £. Таким образом, теорема утверждает, что стратегия ф стабилизирует траекторию уравнения (20) с «малым» случайным возмущением вектора коэффициентов этого уравнения. Естественно, можно надеяться, что данная стратегия стабилизирует траекторию и для уравнения с невозмущенным вектором параметров в1 = во.
Моделирование объектов управления на ЭВМ. Для проверки предложенных алгоритмов можно использовать моделирование методом Монте-Карло. Для решения задач необходимо получить на ЭВМ последовательность выборочных значений случайной величины с заданным распределением. Случайные величины моделируют с помощью преобразований одного или нескольких независимых значений случайного числа а, равномерно распределенного в интервале (0,1). Известен метод моделирования нормального распределения, основанный на свойствах изотропного направления [9]. Согласно этому методу, можно получать одновременно два независимых значения с помощью следующих формул:
т
= \j—2Inol\ sin(27TQ!2), ц2 = V/Z21^cos(2^2).
Рассмотрим линейное разностное уравнение, описывающее эволюцию отклонения показателя pH от эталонного значения K для данного конкретного поля (для другого поля коэффициенты окажутся другими):
xt+i = axt + but + £t,
в котором ut - внесенная доза мелиоранта (управление) в момент времени (год) t; £t - случайная последовательность независимых, одинаково распределенных случайных величин, характеризующая изменчивость разброса значений кислотности между различными элементарными (однородными) участками поля с конечным математическим ожиданием E£t и дисперсией D£t, причем не зависит от xt, константы a € [1, 3] и b € [-2, 0] предполагаются неизвестными. Задача заключается в выборе оптимальной поддерживающей дозы некоторого заранее определенного мелиоранта, периодически
вносимого в почву, с целью обеспечения стабильно высокого уровня показателя рН. Как критерий оптимизации (минимизации) будем использовать следующий функционал:
с нулевым математическим ожиданием и единичной дисперсией. При этом в виде множества гипотез © можно взять конечное множество параметров. Для этого определим некоторое конечное разбиение отрезков [1, 3] и [-2,0]. Тогда регулятор, согласно теореме 4, имеет вид
Для вычисления апостериорного распределения vt+l применялась следующая рекуррентная формула:
где в качестве начального распределения v0 взято равномерное распределение на [0,1] = ^ = 1,2, ...,п.
Заключение. Рассмотрено применение байесовского подхода в задаче управления кислотностью почвы. Решена задача синтеза оптимальных стратегий для динамических систем, предлагается процедура синтеза оптимальных стратегий, опирающаяся на рекуррентный метод вычисления условных плотностей. Разработан способ моделирования случайного процесса, основанный на известном методе Монте-Карло.
Литература
1. Небольсин А. Н., Небольсина З. П. Известкование почв. СПб.: РАСХН, ГНУ ЛНИИСХ, 2010. 253 с.
2. Шильников И. А., Аканова Н. И., Баринов В. Н. Методика прогнозирования кислотности почв и расчет баланса кальция в земледелии Нечерноземья Российской Федерации. М.: ВНИИ агрохимии имени Д. Н. Прянишникова, 2003. 24 с.
3. Якушев В. П., Буре В. М., Якушев В. В., Буре А. В. Стохастическое моделирование и оптимальные решения при известковании почв // Агрофизика. 2012. Вып. 2. С. 24—29.
4. Колмогоров А. Н. Основные понятия теории вероятности. М.: Наука, 1974. 119 с.
5. Дынкин Е. Б., Юшкевич А. А. Управляемые марковские процессы и их приложения. М.: Наука,
6. Karelin V. V. Adaptive optimal strategies in controlled Markov processes // Advances in Optimization Proceedings of 6th French-German Colloquium of Optimization. FRG. 1991. P. 518—525.
7. Аоки М. Оптимизация стохастических систем / пер. с англ. Е. П. Маслова, Э. Л. Наппельбаума; под ред. Я. З. Цыпкина. М.: Наука, 1971. 424 с. (Aoki Masanao. Optimization of stochastic systems).
8. Kullback S., Leibler R. A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. Vol. 22, N 1. P. 79-86.
9. Михайлов Г. А. Некоторые вопросы теории методов Монте-Карло. Новосибирск: Наука, 1974. 142 с.
t=l
В качестве гипотезы рассмотрим помеху с распределением вида
i _ j УЧ^-t+l — u'i->-t — UjUt)
t+1 1 YTj=1 f(xt+1 - CbjXt - bjUt)v°t '
<f(xt+! - aixt - biUt)
1975. 338 с.
Статья поступила в редакцию 21 марта 2013 г.