Научная статья на тему 'Смещение оценок дисперсии оценок, получаемых с помощью скользящего контроля'

Смещение оценок дисперсии оценок, получаемых с помощью скользящего контроля Текст научной статьи по специальности «Математика»

CC BY
209
13
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — А Е. Архипов, Е А. Бабенко

В работе показано, что оценка дисперсии оценки метода наименьших квадратов, получаемая с помощью варьирования выборки по методу скользящего контроля, может быть сколь-угодно сильно смещённой, причём относительное смещение всегда бесконечно возрастает с ростом объёма выборки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The possibility of any large discrepancy of the jackknife estimations of the deviation least squares method estimations is shown in the paper, furthermore relative discrepancy grows infinitely always when the size of a selection grows.

Текст научной работы на тему «Смещение оценок дисперсии оценок, получаемых с помощью скользящего контроля»

3 CONCLUSION

REFERENCES

Swaszek and Ku gave an asymptotic solution for unrestricted nonuniform polar quantization without a mathematical proof of the optimum and using, sometimes, quite hard approximations, which limit the application. We gave elementary reasons for consideration of Restricted Polar Quantization. In this paper the simple and complete asymptotical optimal analysis is given for constructing nonuniform restricted polar quantizer. We also gave the conditions for optimality of the nonuniform polar quantizer. We gave an equation for optimal number of points for different levels and also, optimal number of levels. The

equation for D°°pt is given in a closed form. We gave the

asymptotically optimized equations that can be used for each N. The solutions for these equations always satisfy

the constraint:

Y^Propt = N .

1. Gersho A. and Gray R. M. "Vector Quantization and Signal Compression", Boston M. A. Kluwer 1992

2. Hui D. , Neuhoff D.L. , "Asymptotic Analysis of Optimal Fixed-Rate Uniform Scalar Quantization," IEEE Transaction on Information Theory, vol.47, pp. 957-977, March 2001.

3. Himmelblau D. M. , Applied Nonlinear Programming, McGraw-Hill, Inc., USA, 1972.

4. Arslan F.T. "Adaptive Bit Rate Allocation in Compression of SAR Images with JPEG2000", The University of Arizona, USA, 2001.

5. K. Popat and K. Zeger, "Robust quantization of memoryless sources using dispersive FIR filters," IEEE Trans. Commun., vol. 40, pp. 1670-1674, Nov. 1992

6. Swaszek P. F. , T. W. Ku, "Asymptotic Performance of Unrestricted Polar Quantizer", IEEE Transactions on Information Theory, vol. 32, pp. 330-333, 1986.

7. Gray R.M. and Neuhoff D.L., "Quantization", IEEE Transactions on Information Theory, vol. 44, no. 6, pp. 2325-2384, October 1998.

8. S. Na, D.L. Neuhoff, "On the Support of MSE-Optimal, Fixed-Rate Scalar Quantizers" IEEE Transaction on Information Theory, vol.47, pp. 2972-2982, November 2001.

9. Z. H. Peric, M. C. Stefanovic, "Asymptotic Analysis of Optimal Uniform Polar Quantization" International Journal of Electronics and Communications, vol.56, pp. 345347,2002

Надшшла 08.08.2003

Повышение точности фазовой информации, требуемой в

интерферометрии и поляриметрии и их приложениях в

компьютерной обработке сигналов.

1=1

удк 681.5

А.Е. Архипов, Е.А. Бабенко

СМЕЩЕНИЕ ОЦЕНОК ДИСПЕРСИИ ОЦЕНОК, ПОЛУЧАЕМЫХ С ПОМОЩЬЮ СКОЛЬЗЯЩЕГО КОНТРОЛЯ

В работе показано, что оценка дисперсии оценки метода наименьших квадратов, получаемая с помощью варьирования выборки по методу скользящего контроля, может быть сколь-угодно сильно смещённой, причём относительное смещение всегда бесконечно возрастает с ростом объёма выборки.

ВВЕДЕНИЕ

Варьирование выборки применяется при решении задач идентификации (см., например, [1-9]), обучения распознаванию образов, интерпретации результатов косвенных экспериментов ([2, 3]) и других задач, сводящихся к задаче минимизации среднего риска по эмпирическим данным. Одним из стандартных применений варьирования выборки является построение псевдовыборок, статистически однородных с исходной выборкой и применяемых для оценки качества процедуры идентификации: мерой качества, наряду с прочими показателями, является близость значений оценок параметров, полученных на разных псевдовыборках. Действительно, устойчивая процедура идентификации должна на близких (псевдо)выборках давать близкие оценки параметров. Для реализации такого метода оценки качества необходимы надёжные методы генерации псевдовыборок с требуемыми свойствами.

Различными специалистами разработаны и применяются разнообразные по своим принципам и свойствам методы варьирования выборки, позволяющие с той или иной точностью решать определённые прикладные задачи, возникающие в инженерном деле, медицине, биологии, социальной, экономической, экологической и других предметных областях. При этом в литературе крайне редки сведения, касающиеся свойств самих методов и достоверности результатов, получаемых с их помощью. С целью сокращения данного пробела в настоящей работе показано, что оценка дисперсии оценки метода наименьших квадратов (МНК), получаемая с помощью варьирования выборки по методу скользящего контроля, может быть смещённой, причём относительное смещение всегда бесконечно возрастает с ростом объёма выборки.

Особый интерес это явление представляет в связи с изложенным в [3] результатом о несмещённости оценки среднеквадратичного риска (в некотором случае), получаемой по методу скользящего контроля.

Для простоты выкладок рассмотрим однопараметри-ческую модель

г = х а + е .

Шум е считаем центрированным, с независимыми между собой и с х компонентами, Пе = О2. Компоненты случайного вектора х также считаем независимыми.

Пусть W = (г, х) - исходная выборка, а = (Xх) 1х г - оценка параметра а по методу наименьших квадратов.

Рассмотрим оценку дисперсии оценки а , получаемую с помощью метода скользящего контроля В ска, и найдём смещение этой оценки относительно дисперсии оценки В а , вычисляемой на множестве естественных выборок. Всё это нужно проделать в среднем.

Для того, чтобы величины МВ а и МВ ска были определены, распределения случайных величин х и е должны обладать определёнными свойствами, которые будут установлены по ходу рассмотрения.

1 ПОЯСНЕНИЕ К ИСПОЛЬЗУЕМОЙ

СТАТИСТИЧЕСКОЙ СХЕМЕ

Прежде, чем перейти к основному изложению, остановимся на одной нетрадиционной концепции, используемой в настоящей работе: факторы х считаются случайной величиной.

В классической статистике (в разделах, не связанных с распознаванием образов, принятием статистических решений и тому подобных), как правило, информационная матрица X считается величиной детерминированной, поэтому такая статистическая схема, обычно, требует пояснений. Она не нова и является основой, например, приведённых в списке литературы работ Архипова А.Е., а также монографиях [3,6,10]. В [3, гл.1] постановка задачи начинается так: "В некоторой среде, которая характеризуется плотностью распределения вероятностей Р (х), случайно и независимо появляются ситуации х . Такая постановка может связываться, в частности, со следующими причинами.

Во-первых, в некоторых случаях значения факторов действительно не поддаются регулировке. По физической терминологии, это имеет место во всяком наблюдении, а не опыте (эксперименте).

Во-вторых, задача идентификации моделей часто сводится к задаче минимизации среднего риска. Если опыт или наблюдение имеют смысл не только при одном-единственном значении информационной матрицы X, но на множестве таковых 2 , то средний риск также должен минимизироваться на множестве 2 . Простейшее продолжение такой постановки: рассмотрение X 6 2 как случайной величины с некоторым распределением. Если к этому добавить условие независимости элементов X, то такая постановка равносильна рассмотрению строки х как случайной величины с некоторым распределением (частным распределением X).

Соответственно, оценка а является функцией двух случайных величин X и г, что проявляется во всех дальнейших вычислениях. При таком рассмотрении Ва иногда называют полной дисперсией оценки а, в то время, как дисперсию оценки а при детерминированном X, возникающую только за счёт

шума в г, иногда называют условной дисперсией. В настоящей работе везде исследуются "полные" величины.

2 СМЕЩЕНИЕ ОЦЕНОК ДИСПЕРСИИ ОЦЕНОК МНК, ПОЛУЧАЕМЫХ С ПОМОЩЬЮ СКОЛЬЗЯЩЕГО КОНТРОЛЯ

2.1 Сначала вычислим МВа при произвольном количестве естественных выборок Ь .

В а = Е [а (Wl) - а]2, 1 = 1

где а - среднее величин а (Wl) , I = 1, Ь :

а = а (Щ. I = 1

Как известно из общей теории, В а является несмещённой оценкой В а , то есть МВ а = В а .

Ва = Вхг = Вх ( х? + е ) = В

XX XX

/ *\2 / *\2

мх-е

а +

е

е

У хх/ хх

е

УХ ХУ V X хУ В силу независимости е и х ,

М^-е = М^гМе = 0,

х х

X X

поэтому

В а = М

*2 е

= М-

\х х}

£ х1е1 Лг = 1 ^ (х х)2

^ хгх->еге

= М^-1

(х х)

п п

£ Мх'х1е'е2- = £ ММе1е) =

г>з :

* 2 * 2 1 (х х) = 1 (х х)

п п

= £ М-Щ,М(е')2= £ М-^а2 = М-*-а2. (1)

1 (х х)

1 (х х)

хх

На случайную величину х нужно наложить условие: 1

существование М—-- . Без этого В а может не (х)

существовать, как видно из (1).

Ь

Ь

*

*

*

*

п

Пусть Г - распределение случайной величины (х)2 ,

ф - преобразование Лапласа Г . Тогда фп будет преобразованием Лапласа распределения случайной величины п

т *

£ (х1 )2= х х . 1 = 1

1

Из существования М-- вытекает существование

(х )2

М-1— , а из последнего по лемме 1 следует, что х* х

М-1- = | Фп(Х^к.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

хх

Таким образом, при наложенных ограничениях

Па = о2 | фп(X)й\ .

М[ос1( V) - а( V)] = М

а1 (V-'У а1 (V

1-1) а ^ а,( V)

/ = 1

/ = 1

=11 -Э М а2(ю -

-2 К1 ^ М! а 1( V а/(V + 1М

/ = 2

X а/( V)

./ = 2

(2)

(3)

1 -£) 2Ма 2( V) - 2 К1 £ М а1 (V) а;( V) +

/ = 2

и

+Д-; £ Мак( V)а1 (V) = -£) Ма2( V) -

П к, / = 2

и и

-2^ 1 £ Ма1( V)а,(V) + -1 £ Ма;2(V) + / = 2 / = 2

2.2 Теперь вычислим МПека . Аналогично ПеК , и

Пека = -Ц- у [а,(V) - а,(V)]2,

п - 1 ¿-I ' / = 1

где аД V) - значение статистики а, вычисленной на выборке без , -го элемента,

1

а( V = п £ а,( Г)

/ = 1

Заметим, что в общем случае равенство

а( V) = а( V) места не имеет. Это легко устанавливается на простейшем контр примере

V =

1 2 1 1

МПека = Е М[а,(V) - а( V)]2.

/ = 1

+-1 V Мак( V) а,(V). п2

к, / = 2 к # /

В силу одинаковой распределённости псевдовыборок 2

величина Ма (V) не зависит от /, а величина Ма (V) а;( V) - от к и / при к ^ /, поэтому

М [а 1( V) - а( V) ]2 = (1 -£) 2 М а 2( V) --2^1 -1) 2Ма1( Ща2 (V) + 1-( 1 -£) Ма 2( V) +

+0 (1 -2)Ма 1(Vа2(V =

= 1 -Л Ма 2 (V) -(1 -Л Ма 1( V) а2 (V) =

В силу одинаковой распределённости псевдовыборок ве-

~ т 2

личина М[а,(V) - а( V) ] не зависит от / , поэтому

МПека = -п— М[а. (V) - а( V)]2. (4)

п - 1 1

=(^1 [ М а2 (V) - М а 1 (V) а2( V)].

Подставляя последнее выражение в (4), получаем:

МПека = Ма2( V) - Ма 1( V)а2(V). (5)

Преобразуем последнее выражение так, чтобы МПека явно выражалось через V простейшим

образом. Пусть V /, х/, г/, е/, / = 1, Ь , обозначают / -ю псевдовыборку, получаемую изъятием / -го элемента из исходных выборок V, х, г, е соответственно. Тогда, аналогично (1), получаем:

и

2

га

2

га

га

+ <*>

0

+

0

и

и

га

М а 2 (W) = М

^х* г

= М

\х * хх ^

~ * ~ \ 2 х * е 1

а +

х * х 1

В силу неравенства Шварца, независимости

случайных величин (х1)2 и х1 х 1 и одинаковой распределённости псевдовыборок,

=а2 + М

х * е 1

12

= а2 + М-а .

(6)

\х * х 1

** х1 г1х2 г2

Ма1( ^ сх2 (^ = М

\х* X 1 хх 2 ОС 2

х* (х 1 а + е 1 )х2 (х2 а + е2)

=М-

=М-

(х* х 1 а + х* е 1 )(х2 х2а + х* е2)

= а2 +

М -+М -

х* е1 х* е9 х<1 е1 х* е^

+М 1 1 22 2 = а2+М 1 1 2 2=

X2* X2 С1 х 1 X* X1Х2* X2

пп

х'е^х3е3

г = 2 з = 1 п п

=а2 + М-—— = а2 +у V М-

~ * ~ ~ * ~ * *

х 1* х 1 х 2* х 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

. = 2 з = 1 х* хх 1хх 2 х 2 3 * 2

=а2+Е Е м -

хгх3

(хг) 2

х^ х^х^ х^ - о х^ х^х^ X-

Ме'е3= а2^] М-

а2=

. = 23 =1 1 Л1Л2 2

3 * 2

Е( хг)

г2

=а2 + М--Ц-3-

3 -^2

(хг)2 - (х1)2

г=1

- а2 = а2 + М1*2-

-а2 =

(МВ ска)2 < М = М (х1 )4М = М (х1 )4М

(х1)

12

X1 X1 ' 1 Л

2 ( 1 ^2

М ------1* -

\х 1 XX 1

а4 =

2 ------1-------

М

*

а4 =

\х 1 ос 1 \х 1 ос 1 г 1 VI

.чх1 х 1

а4.

(8)

Далее к правой части (8) применяем лемму 1 (см. Приложение). Преобразование Лапласа распределения

случайной величины х 1 х 1 = ^ (х1 )2 равно ф

I = 2

Согласно лемме 1,

п -1

М

12

^хх 1 XX ^

= | Кфп -^К)йК . 0

Подставляя последнее выражение в (8), получаем: + ~ "|2 I Кфп -1 (К)йК о -1

12

(МВ сксх )< М (х1 )4

а4 =

= Ф''( 0)

| Кфп -1 (К)йК

а 4.

Должен существовать четвёртый момент х . Тогда из последнего выражения и (3) получаем:

гмВскО)2

I. МВа

= Ф''( 0)

+ ^

I Кфп- 1(К)йК

.0_

I Фп(К)йК

(9)

2 , „/2 х2 (х1)2

=а2 + М 2 22 .. * .. х 1 х 1 х 2 х 2

а2 =

=а2 + М-4— а2-М .(х 1 ) 2. а2.

Подставляя (6) и (7) в (5), получаем: МВ ска = М -

(X1)2 а2

(7)

а

2.3. Теперь оценим смещение оценки В ска. Для

МВ ска

этого оценим сверху отношение ~В О-- и покажем, что

ск

эта величина может быть равна нулю.

( мв к)2 =

М -

(х1)

12

X* X1 х"* х2_

а4.

Отсюда видно, что оценка Вска будет смещённой

всякий раз, когда правая часть последнего неравенства меньше 1.

2.4. Рассмотрим общий случай и покажем, что

МВ ска с ^ 0 МВа п

всегда, лишь только существуют конечные М(х)4 и 1

М-- . Для этого докажем, что при данных условиях

(х)2

в ^ 0, то есть п п ^ ~

Уе > 0 ЗЫ Уп > N вп <е ,

+ ~

I Кфп- 1(К)йК или Уе > 0 ЗЫ Уп > Ы-0—-< е .

| фп(К)йК

х 1 х 1

х1 х1 х2 х2

х 1 х 1 х 2 х 2

х1 х1 х2 х2

0

п п

2

п

п

0

х 1 х 1 х 2 х 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

х 1 х 1 х 2 х 2

х 1 х 1

х 1 х 1 х 2 х 2

х 1 х 1 х 2 х 2

2

0

Пусть 8 > 0 задано. Тогда необходимо найти такое Доказательство N, что

+ — + — + —

Уп > N +|\фп -1 (X) йX<8 | ~ф п(Х) ¿X, МП- = I ^ ¿° = (к~Т)У 1 Г( ¿° ^ - 1е

00

0 0 0

Повторный интеграл в правой части последнего + — равенства сходится тогда и только тогда, когда сходится

I фп - 1(Х)[8ф(Х) - X] йX> 0. + — + — к -1 -X,

0

Так как ф - монотонно убывающая функция и

интеграл \й■x | Г(й)Хк 1 е , полученный переме-

00

ной порядка интегрирования, и в этом случае их значе-

ф( 0) = 1 , а X - монотонно возрастающая, то можно ния равны - подынтегральная функция положительна, и,

следовательно, если какой-либо из повторных интегра-найти такие числа о > 0 и к > 0 , что 8ф(Х) - X > о при " ' 1 1

лов сходится, то он сходится абсолютно. Таким образом,

X < к . Тогда

1 1 + — + — -XI

+Г>-1 (X)[8ф(X) -x]dx = Мл = (а--Т)Т ^-Ч Г(Л)е =

00

0 1 + — к + - (к"!)! 1 Xk -1 Ф(X) ¿X.

= |фп -1 (X) [8ф^) - X] ¿X + | фп - 1(X)[8ф(X) - X] йX>

0п

п + —

0

Лемма доказана.

Лемма 2. Пусть ф - преобразование Лапласа некото-

+ —

>5[фп -1 (X)dX - Г Xфп -1 (X)¿IX, рого распределения вероятностей, причём JXф(XйX

0п

0

конечно. Тогда для каждых к > 0 и Л > 0

1

и, согласно лемме 2, (положив Л = _ ) можно найти к к

о ЦГ ¡Г ГткП^ Ъ Л Г1тк,

такое N, что для каждого п > N значение последнего выражения неотрицательно, что и требовалось.

ЗАКЛЮЧЕНИЕ

Зк У к > К |фк (X) ¿X > Л JXфk(X) ¿X . (10) 00 Доказательство. Покажем, что левая часть искомого неравенства ограничена одной бесконечно убывающей геометрической прогрессией снизу, а правая часть

другой - сверху так, что знаменатель первой прогрессии

1. Оценка дисперсии оценки метода наименьших "" 1 ■> ' 1 1 1

больше знаменателя второй. Из этого немедленно

квадратов, получаемая с помощью варьирования

выборки по методу скользящего контроля, может иметь последует искомое утверждение.

сколь-угодно большое смещение при любом объёме к

выборки. к 2 к к(Щк

2. С ростом объёма выборки относительное смещение ,)ф йX > jXф (Л!)йX > ф ^2^2 . (11) указанной оценки бесконечно возрастает. 0 0

3. Эти два фактора в сочетании с результатами [6] + — + —

свидетельствуют в пользу того, что в тех случаях, когда Теперь рассмотрим ^ф^йА. По условию, JXфk(X)йX

применимы оба метода: скользящий контроль и 0 0

варьирование строк матрицы, предпочтение следует конечно, поэтому Н( ¿X) = Xф(X) ¿X - конечная

отдавать последнему. , гп . .

абсолютно непрерывная мера на [0, + — ) , и

ПРИЛОЖЕНИЕ

+ — + со

I Xфk(X)¿X = | фк- 1(X)Н(йX)<

В лемме запись а = Ь означает, что либо а и Ь - 0 + — 0

равные действительные числа, либо а = Ь =+ — . < фк 1(к) | Н(¿К) = фк 1(к)Н[к, +— )

Лемма 1.Пусть П - неотрицательная случайная вели- 0

чина с распределением Г, ф - преобразование Лапласа Г, к - целое положительное число. Тогда

поэтому

м 1 = -1— 7xk-1 ф(X)¿X. М XФk(X)йX< ^^к-^^Н[к +—)фк(к). (12)

Пк (к -1 )! ^ 0 ф (X)

+

Правая часть последнего неравенства - бесконечно убывающая геометрическая прогрессия со знаменателем ф(к) , правая часть (11) - бесконечно убывающая гео-

(Н\

метрическая прогрессия со знаменателем ф 2 .

ф - преобразование Лапласа распределения вероятностей, поэтому ф^ тр = ф( к) тогда и только тогда, когда

к

ф = ф(0) = 1 . В этом случае |Кф(К)йК расходится,

0

что противоречит условию, поэтому ф^> ф(к) . Следовательно,

Зк У к > к| > ф-^К) Н[ к' +")ф*( к) ,

отсюда, в силу (11) и (12), получаем (10). Лемма доказана.

ПЕРЕЧЕНЬ ССЫЛОК

3. Архипов А.Е. Бутстреп-анализ качества решения задач идентификации. - Дисс. на соискание учёной степени д. т. н. по специальности 05.13.03 "Системы и процессы управления". - Киев, 1995. - 363 с.

4. Архипов А.Е. Выбор, оценка качества и методы повышения точности аппроксимативных моделей в задачах идентификации. - Киев: УМК ВО, 1992. - 56 с.

5. Архипов А.Е. Имитационные оценки точности решения задач параметрической идентификации // Вестник Киевского политехнического института. Техническая кибернетика. - 1989. - Выпуск 13Вапник В. Н. Восстановление зависимостей по эмпирическим данным. - Москва: Наука, 1979. - 448 с.

6. Бабенко Е.А. Качество методов варьирования выборки: скользящий контроль и варьирование строк матрицы

7. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). - Москва: Наука, 1974. - 416 с.

8. Ивахненко А.Г., Мюллер И.А. Проблемы объективной компьютерной кластеризации выборки данных наблюдений объекта исследования // Автоматика, 1991, №1. - С. 5868.

9. Катковник В.Я. Непараметрическая идентификация и сглаживание данных: метод локальной аппроксимации. -М.: Наука, 1985. - 336 с.

10. Тарасенко Ф.П. Непараметрическая статистика. - Томск: Издательство Томского университета, 1976. - 294 с.

Надшшла 05.08.2003

У робот1 показано, що оцхнка дисперсп ощнки метода найменших квадрат1в, що отримуеться за допомогою вар1ювання виб1рки за методом ковзного контролю, може бути як завгодно сильно змщеною, причому вгдносне змгще-ння завжди нескгнченно зростае з ростом об'ему вибгрки.

1. Айду Э.А. И., Трунов В.Г. Дисперсия оценки скользящего контроля для линейной регрессионной модели // В кн.: Поиск зависимости и оценка погрешности. - М.: Наука, 1985. - С. 50-57.

2. Алгоритмы и программы восстановления зависимостей / Под ред. В. Н. Вапника. - М.: Наука, 1984. - 816 с.

The possibility of any large discrepancy of the jackknife estimations of the deviation least squares method estimations is shown in the paper, furthermore relative discrepancy grows infinitely always when the size of a selection grows.

i Надоели баннеры? Вы всегда можете отключить рекламу.