Научная статья на тему 'Построение статистической модели прогноза урожайности яровой пшеницы методом главных компонент'

Построение статистической модели прогноза урожайности яровой пшеницы методом главных компонент Текст научной статьи по специальности «Математика»

CC BY
279
66
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЬ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / УРОЖАЙНОСТЬ / ПРОГНОЗ / MODEL / A METHOD OF THE MAIN THINGS A COMPONENT / PRODUCTIVITY / THE FORECAST

Аннотация научной статьи по математике, автор научной работы — Хворова Л. А., Гавриловская Н. В.

Рассматривается метод главных компонент и возможности его применения для обработки и анализа многомерных агрометеорологических данных. С помощью этого метода строится модель прогноза урожайности яровой пшеницы. Приводятся и анализируются результаты расчетов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Construction of a Statistical Forecasting Model of Productivity of a Spring Wheat by Means of a Method of the Main Things a Component

In clause the method of the main things a component and opportunities of its application for processing and the analysis multivariate agrometeorological data is considered. By means of the given method the forecasting model of productivity of a spring wheat is under construction. Results of calculations are resulted and analyzed.

Текст научной работы на тему «Построение статистической модели прогноза урожайности яровой пшеницы методом главных компонент»

УДК 311:681.3.06

Л.А. Хворова, Н.В. Гавриловская Построение статистической модели прогноза урожайности яровой пшеницы методом главных компонент

Для построения статистических моделей в большинстве случаев используется аппарат классического регрессионного анализа. Уравнение регрессии переменной у по переменным (хьх2,...,хп) в матричной форме можно представить в виде

у = ь х = о" с_1 х, (1)

где Ь - вектор коэффициентов регрессии; X - вектор независимых величин (предикторов); 0 - вектор, составленный из коэффициентов ковариации между предсказуемым у (предиктантом) и составляющими вектора X; С_1 - матрица, обратная ковариационной матрице предикторов; (*) - знак транспонирования. Предполагается, что все переменные предварительно центрированы [1, 2].

Важным обстоятельством, затрудняющим применение обычного регрессионного анализа, является сильная корреляция между переменными, описывающими метеорологические условия вегетационного периода.

Температура, влажность воздуха, фотосинтетически активная радиация, осадки, влагозапасы почвы, взятые в виде сумм или средних за отрезки вегетационного периода любой продолжительности, связаны между собой, и эта корреляция легко объяснима с физической точки зрения.

Кроме «синхронной» корреляции между различными параметрами за один и тот же отрезок времени, не менее существенно влияние «асинхронной» корреляции между параметрами, относящимися к разным временным интервалам. Например, корреляция между температурой воздуха или влагозапа-сами почвы за смежные декады, корреляция между температурой и дефицитом влажности за смежные декады и т.д. Эта корреляция вызывается инерцией метеорологических процессов, а также инерцией параметров, характеризующих состояние посевов и корнеобитаемого слоя почвы.

Мы считаем, что применение регрессионного анализа для исследования влияния метеорологических условий на формирование урожая и для построения соответствующих многомерных прогностических схем не может дать должного результата. В работе [2] предлагается использовать в этих случаях компонентный анализ или метод главных компонент.

Пусть \ > Л2 > . > Л„ - собственные значения, матрицы С; и1,и2,...,ип - соответствующие ор-тонормированные собственные векторы. Матрицу,

составленную из собственных векторов

и1, и2,., ип, обозначим и , тогда

и*и = ии* = Еп, (2)

где Еп - единичная матрица порядка п.

Перейдем от исходного набора переменных X* = (х1, х2,., хп) к новому набору переменных

А* = (а1, а2,..., ап) посредством преобразования А = их . (3)

Переменные аг называются главными компонентами переменных х. Дисперсии переменных аг равны соответствующим собственным числам матрицы

^=4 . (4)

Новые переменные обладают следующим экстремальным свойством. Дисперсия а1 является максимально возможной дисперсией для любой переменной, представляющей собой линейную комбинацию вида

аг = £ игХг (5)

г=1

при условии нормировки весов

£ и'2 = 1. (6)

г=1

Дисперсия ак является максимальной среди всех комбинаций вида (5), не коррелированных с ак_х, и т.д. Благодаря этому свойству главные компоненты являются в некотором смысле наилучшими линейными функциями для описания изменений случайного вектора X от реализации к реализации или, имея в виду нашу задачу, наилучшими линейными функциями для описания изменений условий произрастания сельскохозяйственных культур от года к году.

Первые q главных компонентов учитывают из

п 2

полной вариации переменных £ долю, равную

г=1 к

^ = £ л/£ л, (6)

г=1 / г =1

с возрастанием q ^ также растет и в случае сильной коррелированности факторов х1,х2,...,хп быстро приближается к единице. Это дает возможность предположить, что разность (1 ), начиная

с некоторого q < п , несущественна, что позволяет вместо исследования п коррелированных перемен-

ных заняться анализом в несколько раз меньшего числа q некоррелированных переменных. Применим этот метод для построения прогностических зависимостей.

От исходного набора предикторов перейдем к новому набору а1, а2,..., ап предикторов - коэффициентов разложения случайного вектора X по собственным векторам его корреляционной матрицы. Отберем среди а1, а2,., ап несколько коэффициентов (р), наиболее информативных для прогнозирования у, и построим соответствующее уравнение регрессии

А

у = /1а1 + 12а2 + ••• + 1рар- (7)

Для получения коэффициентов уравнения (7) нет необходимости непосредственно рассчитывать значения переменных а1, а2,., ар. Коэффициенты

11, 12,..., 1р можно найти непосредственно по формуле:

1 *

I =— О и.

г л ^ г

Л

(8)

Соответствующий 1г парный коэффициент корреляции равен

1 . (9)

Г =

уа,

1

Множественный коэффициент корреляции, благодаря некоррелированности главных компонентов, определяется особенно просто:

я

уа1,а2,

= 4 2 Гу

2

уа,

(10)

(г=1

Возвратимся к исходным переменным х1, х2,..., хп , тогда уравнение (10) следует записать так:

У =

(р 1 * л

2 -г Оии

і=і Я,

X .

(11)

Выражение в скобках представляет собой вектор коэффициентов регрессии, т.е.

Р 1 7 Т7* Т*1

2— О и,и, = Ь

г=1 Я,

(12)

Компонентный анализ вместо одного «классического» уравнения регрессии позволяет на том же материале наблюдений построить, по крайней мере, п прогностических зависимостей. Действительно, учитывая лишь один наиболее информативный коэффициент разложения а1, получаем

(

У =

—О’ии; х = цх. А )

Учтем, кроме а1 , еще и а2 , получим

у =

Г Т ОГиМ+± О*и 2и 2 ^

^1 А-2

х = Г2 х.

При введении последнего коэффициента разложения ап уравнение примет вид

У = ^^и2и*2 + "■ + Тв*Ппи” У = У , ^

совпадающее с обычным уравнением регрессии (1), т.е. Ьр = Ь при р = п .

Уравнение регрессии (1) можно рассматривать как частный случай уравнения (11). Следовательно, суть преимуществ, которые может дать метод главных компонент по сравнению с обычным подходом, заключается в возможности отбрасывать часть коэффициентов разложения вектора-предиктора. Но какие из коэффициентов разложения а1, а2,..., ап отбросить, а какие ввести в прогностическую зависимость? Предложено несколько принципов отбора коэффициентов разложения для построения прогностических зависимостей. Наиболее целесообразной является процедура отбора, основанная на ранжировании парных коэффициентов корреляции, связывающих у с а1, а2,..., ап [2].

Для перехода от стандартизованного к естественному масштабу представления переменных необходимо каждый коэффициент регрессии умно-

жить на отношение

считать по формуле

_ Р °у

10 = У - 2 г

г=1 СТ.

а свободный член рас-

(14)

где 1г = Ьр ■ Хг .

Выполнив эти операции, получаем окончательное уравнение для прогноза урожайности.

Рассмотренный вариант многомерного регрессионного анализа - метод главных компонент, или метод разложения по «естественным» ортогональным составляющим - уже используется для решения агрометеорологических задач [1, 2].

Проведем прогноз урожайности яровой пшеницы по статистической модели на основе метода главных компонент. Все вычисления производились в математическом пакете 8С1ЬЛБ, используя соответствующие функции.

На основании данных о количестве осадков за осенний период, количестве осадков за зимний период, сумме температур >5 ° С за первые две декады вегетационного периода, количестве осадков за две декады, количестве дней с осадками за две декады, числе Вольфа, урожайности рассчитаем корреляционную матрицу С и вектор Q (исходные данные предварительно центрируем):

(

С =

1 -0,267 0,136 0,049 0,016 0,099

-0,267 1 0,003 0,286 0,147 0,112

0,136 0,003 1 -0,449 -0,273 0,318

0,049 0,286 -,0449 1 0,541 - 0,304

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,016 0,147 -0,273 0,541 1 - 0,102

0,098 0,112 0,318 -0,304 -0,102 1

О =

и =

и 2 =

( 0,317 ^

0,324 -0,150 0,555 0,203 V 0,019 У

Элементы матрицы С и вектора Q составлены из коэффициентов корреляции. Найдем собственные значения матрицы С , используя функцию «рппсошр()» в математическом пакете 8С1ЬЛБ, получим

( -0,1116 ^

0,2141 -0,4859 0,5945 0,4826 -0,3454 ( 0,2888 ^

0,4008 0,5017 0,1933 -0,2876 -0,6198

Собственные числа соответственно равны \= 2,0763, Лз = 1,2503, Л3 = 1,0993, Я4 = 0,6710, Я5 = 0,5957, Я6 = 0,3075. Сумма собственных чисел равна шести, т.е. сумме диагональных элементов матрицы С .

По формуле (9) вычисляем коэффициенты корреляции между у и коэффициентами разложения

14 = 0,2721,

/5 = 0,4074 .

и 5 =

( 0,5411 ' (-0,6466'

-0,7348 -0,1546

-0,1865 , и3 = -0,2698

0,0135 -0,2459

-0,0135 -0,4114

ч-0,3635у ч-0,5055 у

( 0,3388 > ( 0,2801 '

0,2952 0,3776

-0,5679 , и 6 = -0,2864

0,1412 -0,7271

-0,6353 0,3336

ч 0,2279 у ^-0,2387у

а1,а2,к,ап:

Гуа1 = 0,3669, Гуа4 = 0,2229 :

Гуа2 =-0,0366, Гуа5 = 0,3145,

Гуа, =-0,4234,

Г

уаб

= -0,1558.

*51345

= 74.

2 Л

г=1

Первый, третий, четвертый и пятый коэффициенты разложения несут около 74% всей информации о независимых переменных.

Для того чтобы получить уравнение регрессии, связывающее у с коэффициентами а1, а3, а4 и а5, используем формулу (8); получим:

11 = 0,2548, 13 =-0,4039,

Уравнение регрессии запишется в виде у = 0,2548 • 11 - 0,4039 • 13 + 0,2721-14 + 0,4074 • 15.

Свободный член этого уравнения равен нулю, поскольку а1 = 0, а3 = 0, а4 = 0и а5 = 0, а у представлен в стандартизованном масштабе, т.е. у = 0, а = 1. Для перехода от переменных а1, а2, ., ар к х1, х2,., хп подставим в это уравнение выражение для коэффициентов разложения аг = иг* X и рассчитаем вектор коэффициентов регрессии Ьг = I -и .

( -0,1116 ^ (-0,0284^

Ь3 =-0,4039'

0,2141 -0,4859 0,5945 0, 4826 -0,3454 (-0,6466'ї -0,1546 -0,2698 -0,2459 -0,4114 -0,5055

0,0545 -0,1237 0,1514 0,1229 -0,0880 ( 0,2611 'ї 0,0624 0,1090 0,0993 0,1662 0,2041

Ь4 = 0,2721-

Выберем наиболее информативные коэффициенты разложения для построения зависимости. Для

q / п

этого рассчитаем с, = 2 Д- 2 Д- , выбирая призна-

г=1 / г=1

ки с самыми высокими коэффициентами корреляции, получим

^ + Л3 + + Л5 4,44

( 0,2888 > ( 0,0786 ^

0,4008 0,1091

0,5017 0,1365

0,1933 0,0526

-0,2876 -0,0782

ч-0,6198 у ч -0,1687 у

( 0,3388 > ( 0,1381 '

0,2952 0,1203

-0,5679 -0,2314

0,1412 0,0576

-0,6353 -0,2589

ч 0,2279 у ч 0,0928 у

Ь5 = 0,4074 •

Сложив Ь1 + Ь3 + Ь4 + Ь5, в итоге получаем уравнение регрессии

у = 0,4494х1 + 0,3463х2 - 0,1096х3 + +0,3609х4 - 0,0481х5 + 0,0403х6.

Для перехода от стандартизованного к естественному масштабу представления переменных необходимо каждый коэффициент регрессии умно-

жить на отношение

а свободный член рас-

считать по формуле (14), где средние квадратиче

Результаты прогноза урожайности

Годы Урожайность (фактическая) Урожайность (расчетная) Ошибка

1971 21,3 22,22 0,04

1972 28,6 22,72 0,21

1973 17,5 16,36 0,06

1974 11,3 16,10 0,42

1975 20,3 21,15 0,04

1976 13,7 13,66 0,00

1977 20,2 17,66 0,13

1978 20,4 18,66 0,09

1979 20,1 20,82 0,04

1980 22,8 16,44 0,28

1981 13,4 15,39 0,15

1982 16,3 20,79 0,28

1983 24 23,84 0,01

1984 23 21,77 0,05

1985 22,7 25,80 0,14

1986 25,3 23,42 0,07

1987 24,2 19,76 0,18

1988 15,9 17,90 0,13

1989 25,3 20,53 0,19

1990 16,3 21,35 0,31

1991 17,8 18,81 0,06

1992 17 16,77 0,01

1993 19 21,19 0,12

1994 20 19,53 0,02

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1995 20 17,37 0,13

1996 15,2 17,08 0,12

1997 12,8 17,25 0,35

у = 0,083х1 + 0,054х2 - 0,011х3 + 0,097х4 -

1 , 2 з 4 (!5)

-0,056х5 + 0,003х6 + 9,730.

Результаты прогноза урожайности по модели (15) представлены в таблице. Средняя относительная ошибка прогноза составила 13%.

Оценка существенности различий между средней фактической урожайностью и прогнозируемой показала, что фактическая и прогнозируемая урожайность не отличается статистически значимо.

Библиографический список

ские отклонения равны соответственно <гу = 4,3; ах = 23,29; ах = 27,37; ах = 43,06; ах = 16,04;

Л1 у Л2 у Л3 у л4 у

ах = 3,66; ах = 52,41, а средние значения -

= 19,42; х = 50,65; х2 = 112,34; х3 = 266,22;

^ = 26,04; х5 = 8,00; х6 = 69,19.

Выполнив эти операции, получаем окончательное уравнение

1. Дронов, С.В. Многомерный статистический анализ : 2. Сиротенко, О.Д. Математическое моделирование

учеб. пособие / С.В. Дронов. - Барнаул, 2006. водно-теплового режима и продуктивности агроэкоси-

стем / О. Д. Сиротенко. - Л., 1981.

i Надоели баннеры? Вы всегда можете отключить рекламу.