В. В. Мазалов, А. А. Фалько
АРБИТРАЖНАЯ ПРОЦЕДУРА В ЗАДАЧЕ СОВМЕСТНОГО НАИЛУЧШЕГО ВЫБОРА ДЛЯ m ЛИЦ *)
1. Введение. В данной работе рассматривается некооперативная игра m лиц наилучшего выбора. Комиссии из m человек (игроков) требуется совместно принять на работу секретаря. Всего имеется n претендентов на свободное место, которые поступают последовательно в случайном порядке так, что все n! перестановок равновероятны. Для каждого из игроков претенденты упорядочены по качеству (например, знание иностранного языка, навыки работы на компьютере и т. п.), т. е. каждому претенденту приписан абсолютный ранг. Ранг 1 имеет наилучший претендент, ранг n - наихудший. Во время собеседования с очередным претендентом каждый игрок наблюдает его ранг относительно всех предыдущих (вычисляет относительный ранг) и на основе этой информации решает принять или отвергнуть текущего претендента. Абсолютные и относительные ранги одного и того же претендента для разных игроков независимы. Общее решение о принятии претендента выносится на основе арбитражной процедуры: если к членов комиссии согласны принять претендента, то он принимается с вероятностью ^ и отвергается с вероятностью ттк, к = 0,1,..., то. Если же претендент отвергается, то игроки переходят к собеседованию со следующим. При этом к отвергнутому претенденту нельзя будет вернуться в дальнейшем. На n-м шаге игроки вынуждены принять последнего претендента. В данной задаче каждый игрок стремится минимизировать ожидаемый абсолютный ранг выбранного претендента.
Описанная выше задача относится к классу задач наилучшего выбора. В литературе она встречается также под названием «задача о секретаре». В ней лицу, принимающему решение, необходимо с наибольшей вероятностью выбрать наилучшего секретаря из множества претендентов. При этом решение о выборе секретаря принимается только на основе относительных рангов поступающих претендентов, и нет никакой информации
о численных значениях их качеств. Решение задачи приводится, например, в книге Е. Б. Дынкина и А. А. Юшкевича [1]. Вариант этой задачи с полной информацией, в котором известны числовые значения качеств, исследован в работе [2]. Другие критерии оптимальности - минимизация ожидаемого абсолютного ранга выбранного претендента для случая с отсутствием информации и максимизация ожидаемого значения качества выбранного претендента для случая с полной информацией - изучены соответственно в [3, 4].
Игровая постановка задачи совместного наилучшего выбора с двумя игроками была рассмотрена в [5]. Особенностью задачи является то, что если игроки принимают различные решения, то конфликтная ситуация разрешается с помощью арбитражной процедуры. Арбитр вынуждает игроков принять такое же решение, как первый игрок
Мазалов Владимир Викторович — профессор, Институт прикладных математических исследований Карельского научного центра РАН. Автор 75 работ. Научное направление: теория игр, теория оптимальной остановки, оптимальное управление. E-mail: [email protected].
Фалько Анна Антоновна — Институт прикладных математических исследований Карельского научного центра РАН. Автор 5 работ. Научное направление: теория игр, теория оптимальной остановки. E-mail: [email protected].
+ ) Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 06-01-00128-а).
© В. В. Мазалов, А. А. Фалько, 2008
(второй игрок) с вероятностью р (соответственно 1 — р). Задачи, в которых каждому из игроков требуется принять по секретарю, исследованы в работах [6, 7]. Игра трех лиц с полной информацией и арбитражной процедурой рассмотрена в [8]. Различные другие подходы к игре нескольких лиц можно найти в [9—11].
В настоящей работе приведены оптимальные выигрыши игроков и пороги принятия претендентов для игры т лиц, а также в случае трех игроков с арбитражной схемой, согласно которой в случае, когда игроки приняли разные решения, претендент принимается (отвергается) с вероятностью р (соответственно 1 — р). Также представлены численные значения полученных выигрышей и порогов принятия решений для различных значений параметров.
2. Игра т лиц. Рассмотрим описанную выше игру т лиц, в которой задействована следующая арбитражная процедура: если к членов комиссии согласны принять претендента, то он принимается с вероятностью ^ и отвергается с вероятностью ттк, к = 0,1,..., т. Представим данную задачу в виде многошаговой игры, в которой игроки, отвергая очередного претендента, переходят на следующий шаг, т. е. оценивают кандидатуру следующего претендента. Обозначим X% относительный ранг г-го претендента для у-го игрока, у = 1, 2,..., т. Тогда последовательность {X1,..., X™} имеет такое распределение вероятностей: Р{Х} = х1, ...,Хгт = хт} = ^ для х1 = 1, I = 1, Также обозначим п\, у = 1,..., т, выигрыш игрока у, если уже было отвергнуто г претендентов. Если г-й претендент принимается на работу, то игра заканчивается, и каждый игрок в качестве выигрыша получает ожидаемый абсолютный ранг выбранного претендента Q(i,xj)
В противном случае игроки переходят к собеседованию с (г + 1)-м претендентом. Например, для игры трех лиц матрица игры имеет следующий вид:
Здесь игрок у (у = 1, 2,...,т) имеет две стратегии: П% - принять г-го претендента,
О% - отвергнуть.
В рассматриваемой игре т лиц равновесие достигается в доминирующих стратегиях, поэтому для у-го игрока оптимальным является принятие г-го претендента, если Q(i,xJ) ^ п\. Действительно, если Q(i,xJ) ^ п\, то ситуация П]_П2...Пт является доминирующей и составляет равновесие в данной игре. Равновесие является единственным,
71 + ^ 7 ’ 1 о
—— х, 3 = 1,2,...,т.
г + 1
Пз
Q(i, х1)^(г,х2), Q(i, х3)
|<5(г, ж1)+|и}
Н>§
Оз
<3(г, ж2)+!«?, |<5(г, ж3)+|и?
\
г(5(г,ж3)+|
/
\
/
поскольку ситуация О1_О2...От не равновесная, так как доминируется, например, ситуацией О;1_П2...От. В приведенном примере для первого игрока ситуация П1П2П3 доминирует ситуацию О1П2П3 при Q(i,x1) ^ и1, причем ситуация О1О2О3 доминируется ситуацией П1О2О3. Аналогичные рассуждения справедливы для второго и третьего игроков.
Учитывая, что относительные ранги претендентов для разных игроков являются независимыми случайными величинами, для оптимального выигрыша ^’-го игрока на ^м шаге получим выражение
1
Е Q(i,xj)
х1 ,х2 ,...,хт=1
т — 1 к 1
•Лп Н------Лл- 1 + ••• Н-^к + ••• Н-
т т т
+
+ и
Е
X1 ,х2 ,...,хт=1
1 2 т — к т — 1
— "Лп- 1 Н-*Лп —2 + ••• Л------------------------ок + ••• Н-"Л + '-'О
т т т т
(1)
где г = 1,2,..., п — 1; м„_1 = — Е ж = —~—> ^к ~ число всех событий, когда решение о
п х=1 2
принятии претендента сделали точно к игроков, к = 0,1, ...,т.
В силу симметрии задачи, положим и\ = и? = ... = и"1 = щ. Пусть ац = ———щ -
п +1
порог принятия ^го претендента.
Теорема 1 дает рекуррентную формулу для вычисления оптимальных порогов х*, i = 1, 2, ...,п — 1.
Теорема 1. В игре т лиц с арбитражной процедурой оптимальные пороги принятия претендента вычисляются по следующей формуле:
- _!_(м + Л и - М,
2то г + 1 V V 2то '
где г = 1,2,...,п — 1; ж„_1 = —; [ж*] - целая часть ж*.
Доказательство. Из формулы (1) следует, что
Х2_ 1
2^-1^ + 1)
т — 1
Е[х* I3' ^ — [х])т—3
5=1
~С4([Ж*] + 1) + —*Ст-1 +
2ж,^С&
+ 2х^ — [х])т + [х]т ([х* ] + 1)
(2)
здесь г = 1,..., п - 1, ж„_1 = Используя тождество
’’У^^Ста3Ьт 3 = та(а + 6)г
3=1
из (2) находим
1
х_ 1
2(i +1)
т1
[ж*] ([ж*] + 1) Н---------------(г - [ж*]) [ж*] + 2ж* (г - [ж*])
или
1
= х, +(т - чм -~!-(ы + Л и -
2т г + 1 V / V 2т)
■ 1 1 п
где г = 1, ...,п - 1; ж„_1 =
Замечание1. Случай т = 1 соответствует рассмотренной в [3] задаче с одним лицом, принимающим решение. Решение задачи для случая двух игроков с арбитражной процедурой (т. е. при т = 2) было получено в работе [5].
Представим значения оптимальных порогов для различных т при п = 100:
т 2 3 4 5 10 20 50 100 200 500
х0 0,390 0,437 0,450 0,460 0,480 0,490 0,496 0,498 0,4990 0,4996
Видно, что с ростом т порог хо стремится к значению 0.5.
Рассмотрим х^_1 как функцию х*_1 (т), зависящую от т.
Лемма 1. Оптимальные пороги х^-1(т), г = 1, 2, ...,п — 1, возрастают по т.
Доказательство. Доказательство ведется по индукции. Так как ж„_1 (т) = ж„_2(т + 1) = ^, то ж„_2(т + 1) — ж„_2(т) > 0, т. е. ж„_2(т) является возрастающей по т функцией.
Предположим, что х^(т) возрастает по т. Докажем, что х*_1(т) также возрастает по т. Так как [х*(т)] = к при к ^ хДт) < к +1 (к - целое число), то функция х*_1(т) имеет вид
, . , . (т — 1)к 1 ( \( к \
Хг-1{т) = жДт) Н-------—-----1 ) 1 х^т> ~2т)'
Найдем производную х*_1(т) по т
г — к к (г — к)
Хч-Лт) = -~ТхЛт) + 7^7-
г +1 гУ ; 2(г + 1)т2 ’
х[- 1(т) > 0, так как г > к и х[ (т) > 0 по предположению индукции. Следовательно, хг-\(т) также возрастает по т.
В следующей лемме представлены границы для порогов х^ (т).
Лемма 2. Оптимальные пороги х^(т) удовлетворяют следующему неравенству:
%—1Г- < ж;(т) < -7Г- ~ 0, 1 -IV * = 5’ 6’ п ~ 2; п ^ 103 2 2(т — 1)
Доказательство. Доказательство ведется по индукции.
п — 1 п — 1 1
Для п ^ 10 неравенство —-— ^ %п-2(га) ^ —--------—---------— проверяется непосред-
3 2 2(т — 1)
ственно.
п
Если п - четное число, то хп-\{гп) = [жп_1 (т)] = —, следовательно,
п — 1 3п(т — 1) + т(п — 4) + 6
Х"-г[т) - — = --------------Ып------------ >
п — 1 1 п(т — 1) — 6т + 2
—-----— - хп—2(т) = -----—------------ > 0.
2(т — 1) 8т(т — 1)
п п — 1
Для нечетного п получим хп-\(т) = —, |хп_1 {гп)\ = —-—, и следовательно,
п 1 (п - 1) (п(4то - 3) + 3)
- — =------------------^------------> о,
п — 1 1 п(п(т — 1) — 6т + 2+ т — 1
- ж„_2(«г) = ----------з------------тт-------- > 0.
2(т — 1) 8тп(т — 1)
Предположим, что неравенство выполняется для некоторого г: 6 ^ г ^ п — 2. Дока-
г , , г 1
жем, что оно выполняется для * — 1, т. е. - ^ ж,-_1 т <-------;
’ 3 и ' 2 2(т - 1)
Введем оператор
где х — 1 < у ^ х.
Для его исследования найдем производную
Т'(х,у) = ^------ —V
у 2т г + 1 \ т 2т)
Так как х — 1 < у ^ х, то Ту(х, у) ^ 0 при х ^ —--------—-------—. Таким образом,
г + 1 1
1 2(т — 1)'
х*-1 (т) = Т(х*(т), [х*(т)]) <Т(х*(т), х*(т)) =
, т — 1 (х,-(т) + 1)(2т — 1)\ г 1
= Ж; т 1 +-----------, ч------------------- К-------?-----Г при ^ > 6 .
\ 2т 2т(г+1) / 2 2(т — 1)
Аналогично
х*-1(т) = Т(х*(т), [х*(т)]) > Т(х*(т), х*(т) — 1) =
(т — 1)(х*(т) — 1) х* (т) / х*(т) — 1
= жДт) Н----------- -----------—— жДт) -
2т г + 1 у 2т
г +1 1
Так как при хЛт) ^ —---------------— производная Т(хЛт), хЛт) — 1) по хЛт)
2 2(т — 1)
ггч ( \ / \ 1 , т - 1 1 2ж;(т) ( 1
1 (хЛт),хЛт) — 1=1 И-----------------:--------------1-------
^ П П У У 2т 2т(г+1) г + 1 V 2т
положительна, то Т(х*(т),х*(т) — 1) возрастает по х*(т). Следовательно, учитывая,
< \ ^
ЧТО жДт) ^ —-—, получим
г +1 3 1 г +1
Хг-1{т) > —-------Ь
т- 1 —----1
*±1_Л / « + 1
3 2т 3
\
3 2т г +1 3
\
Интересно отметить, что при т —> оо верхняя граница стремится к .
Следствие 1. Из леммы 2 следует, что игроки, придерживаясь оптимальной стратегии, смогут получить секретаря, ранг которого значительно ниже, чем если бы они принимали на работу первого попавшегося.
3. Общий случай арбитражной процедуры для трех игроков. Для ш = 3 рассмотрим более общий случай, в котором, если игроки приняли различные решения (два игрока согласны принять претендента, а один его отвергает), конфликтная ситуация разрешается с помощью арбитражной процедуры: претендент принимается на работу с вероятностью р и отвергается с вероятностью р = 1 — р. В обратной ситуации, когда два игрока отвергают претендента, а один принимает, общее решение отвергнуть выносится с вероятностью р и принять с вероятностью р = 1 — р. Обозначим Хъ, У.., Z^ относительные ранги *-го претендента для игроков 1, 2 и 3 соответственно. Тогда последовательность относительных рангов имеет следующее распределение вероятностей: Р{Хг = х, = у, = г} = -тз для х = 1, у = 1,..., г, 2 = 1,..., г. Если г-й претендент принимается на работу, то игра заканчивается. В этом случае игроки 1, 2 и 3 получают в качестве выигрыша ожидаемые абсолютные ранги выбранного претендента Q(i,x), Q(i,y) и Q(i,z) соответственно, где Q(i, х) вычисляется по формуле
п — (Ъ—х) Q(i,x)= ^2 г
/^х — 1^ ъ — х г— 1 п—г
с1
п + 1
i + 1 ’
х, i = 1, 2, ...,п— 1.
Обозначим иъ, Vъ, гюъ ожидаемые выигрыши игроков, если первые i претендентов уже отвергнуты.
Матрица игры имеет такой вид:
П2
П1
О2
Пз
Q(i,x),Q(i,y),Q(i,z)
Оз
pQ(i, x)+pui,pQ(i, y)+pvi,pQ(i,z)+pw.
pQ(i, х) +pui,pQ(i, у) +pvi,pQ(i, z) +pwi pQ(i, х) +pui,pQ(i, у) +pvi,pQ(i, z) +pw,
/ Пз Оз
П2 pQ(i, х) +pUi,pQ(i, у) +pvi,pQ(i, z) +pWi pQ(i, х) +pui,pQ(i, у) +pvi,pQ(i, z) +pw.
О2
pQ(i, x)+pui,pQ(i, y)+pvi,pQ(i,z)+pwi
\
Здесь игрок ] а = 1, 2,...,ш) имеет две стратегии: П, - принять ^го претендента, О, - отвергнуть.
Из матрицы игры видно, что для каждого игрока оптимально принять ^го претендента, если Q(i, х) ^ иъ, Q(i, у) ^ Vъ и Q(i, z) ^ гюъ.
В силу симметрии, иъ = Vъ = гюъ. Тогда ожидаемые выигрыши игроков вычисляются по формуле
1ъ
1=ТТ7 Е Я(г,х)
х,у,г = 1
1ъ
Е
i х,у,г=1
(3)
где г = 1,2,..., п — 1; м„_ 1 = — Е х = ———; - число всех событий, когда решение о
п х=1 2
принятии претендента сделали точно к игроков, к = 0,1, 2, 3.
О
1
и
І Н~ 1
Обозначим порог принятия г-го претендента ж* = --------щ. Упрощая выражение (3),
п + 1
получим итоговую формулу для вычисления оптимальных порогов:
xi— 1 '
~2i2(i + 1)
[xi ]
+ pi[xH](i - [xi]) + 2(1 -p)i(i - [xi])2
([xi] + 1) [xi]2 + 3p[xi](i - [xi]) + 3(1 -p)(i - [xi])2 +
+
+ 2xi(i - [xi]) ( 3(1 -p)[xi]2 + 3p[xi](i - [xi]) + (i - [xi])2
в которой г = 1,п — 1; ж„_1 = —; [ж*] - целая часть ж*.
Приведем значения оптимальных порогов для различных значений р при п = 100:
p 0 0, 1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
х0 0,495 0,486 0,478 469 0,460 0,450 0,440 0,429 0,412 0,396 0,327
Видно, что оптимальные пороги убывают с ростом р, и значение оптимального порога при р = 1 дает наилучший результат.
Замечание 2. При р = 2/3 рассмотренная задача сводится к случаю, описанному в п. 2. Случай р =1 соответствует задаче, в которой при голосовании игроков претендент принимается на место большинством голосов, т. е. когда хотя бы два игрока согласны его принять. Обобщение задачи с голосованием для ш игроков (ш ^ 3) было получено в работе [11].
В таблице приведены равновесные значения выигрышей для случаев двух и трех игроков. Из нее получаем, что случай с голосованием дает наименьшую величину ожидаемого ранга выбранного секретаря. Сакагучи [8] исследовал аналогичную задачу наилучшего выбора, но с полной информацией, в которой игрокам известна информация о качествах претендентов. Его результаты показали, что в задаче с полной информацией случай р =1 также приводит к наилучшему результату.
Равновесные значения выигрышей при п = 100
1
Параметры UQ
rri = 2, p = | 39,425
m = 3, p = 1 33,002
rn = 3, p = 2/3 43,701
Summary
Mazalov V. V., Falko A. A. Arbitration procedure in the m-person best-choice problem.
Non-information non-cooperative best-choice m-person problem is considered. It is required that m players should jointly hire a secretary from n applicants. The hiring decision on the interviewed applicant is made according to the arbitration procedure: if k players accept the applicant then the applicant is accepted with ^ probability and is rejected with rn~,c, k = 0, 1 probability. Each player aims at minimizing
the expected absolute rank of the applicant selected. The case of three players with following arbitration
procedure is also considered. If players make different choices then the applicant is accepted (rejected) with p (1 — p) probability. The optimal payoffs and thresholds of the applicant acceptance are obtained.
Key words: best-choice game, arbitration, rank criterion.
Литература
1. Дынкин Е. Б., Юшкевич А. А. Теоремы и задачи о процессах Маркова. — М.: Наука, 19б7. — 232 с.
2. Gilbert J., Mosteller F. Recognizing the maximum of a sequence // J. of Amer. Stat. Assoc. — 19бб. — Vol. б1. - P. 35-73.
3. Chow Y, Moriguti D, Robbins H, Samuels S. Optimal selection based on relative rank (the «Secretary problem») // Israel J. Math. - 19б4. - Vol. 2. - P. 81-9G.
4. Moser L. On a problem of Cayley // Scripta Math. - 195б. - Vol. 22. - P. 289-292.
5. Sakaguchi M., Mazalov V. A non-zero-sum no-information best-choice game // Mathematical Methods of Operation Research. - 2GG4. - Vol. 6G. - P. 437-451.
6. Baston V., Garnaev A. Competition for staff between two department // Game Theory and Applications. - 2GG5. Vol. X. - P. 13-2б.
7. Garnaev A., Solovyev A. On a two department multi stage game // Intern. Workshop Optimal Stopping and Stochastic Control. August 22-2б, 2GG5. - Petrozavodsk, 2GG5. - P. 24-37.
8. Sakaguchi M. Three-member committee where odd-man’s judgement is paid regard // Scientiae Mathematicae Japonicae. - 2GG7. - Vol. бб, N 1. - P. 31-3б.
9. Ferguson T. Selection by committee // Annals of the Intern. Society of Dynamic Games. Vol. 7: Advances in Dynamic Games Application to Economics, Finance, Optimization and Stochastic Control. -2GG5. - P. 2G3-2G9.
1G. Mazalov V., Banin M. N-person best-choice game with voting // Game Theory and Applications. -2GG3. - Vol. IX. - P. 45-53.
11. Мазалов В. В., Фалько А. А. Голосование в задаче наилучшего выбора с ранговым критерием // Обозрение прикл. и пром. математики. - 2GG6. - Т. 13, вып. 4. - С. 577-588.
Статья рекомендована к печати проф. Л. А. Петросяном.
Статья принята к печати 29 апреля 2GG8 г.