Методы анализа
УДК 311:338
МЕТОД JACKNIFE В СТАТИСТИЧЕСКОМ АНАЛИЗЕ СЕЛЬСКОХОЗЯЙСТВЕННОЙ ДЕЯТЕЛЬНОСТИ
И. В. ФЕЦКОВИЧ,
кандидат экономических наук, доцент кафедры бухгалтерского учета, анализа и аудита E-mail: buch@mgau. ru
В. Б. ПОПОВА,
кандидат экономических наук, старший преподаватель кафедры бухгалтерского учета, анализа и аудита E-mail: buch@mgau. ru Мичуринский государственный аграрный университет
В статье рассматриваются условия применения метода Jаcknife в регрессионном анализе. Предлагается использовать этот метод для уменьшения смещенности оценок параметров регрессии, полученных методом наименьших квадратов. Обосновывается практическая значимость применения метода Jacknife в статистическом анализе сельскохозяйственной деятельности.
Ключевые слова: статистический анализ, метод Jacknife, производственная функция, сельскохозяйственная деятельность.
Традиционно в экономических исследованиях моделирование взаимосвязи между явлениями и процессами осуществляется на основе регрессионных моделей. Регрессионной моделью системы взаимосвязанных признаков принято считать такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентом детерминации Я2 и коэффициентами регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой
системе [1]. Приведенное определение включает достаточно строгие условия: не всякое уравнение регрессии можно считать моделью. Кроме того, теория и практика статистики выработали ряд требований для построения регрессионной модели, выполнение которых способствует адекватному отражению в ней моделируемых явлений и процессов.
Во-первых, вводятся следующие требования к признакам, включаемым в исследование: - признаки-факторы должны находиться в причинной связи с результативным признаком; признаки-факторы не должны быть составными частями результативного признака или его функциями;
признаки-факторы не должны дублировать друг друга, т. е. быть коллинеарными (с коэффициентом корреляции более 0,8); не следует включать в модель факторы разных уровней иерархии, т. е. фактор ближайшего порядка и его субфакторы; для результативного признака и факторов должно соблюдаться единство единицы совокупности, к которой они отнесены.
32
ЭКОНОМИЧЕСКИЙ АНАЛИЗ: жеб7>ЪЯ -и ЪРЛЖкЫ
Во-вторых, требуется соблюдение основных условий в отношении исходной статистической информации:
- совокупность исследуемых данных должна быть статистически однородной и математически описываться непрерывными функциями; совокупность должна содержать достаточно большое число наблюдений, чтобы в силу действия закона больших чисел обеспечивалось эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков, и определяемые в процессе регрессионного анализа статистические характеристики были достаточно типичными и надежными. Практика статистических вычислений выработала определенный критерий, позволяющий установить оптимальное соотношение между числом факторных признаков, включаемых в модель, и объемом статистической совокупности. Согласно этому критерию считается, что число единиц изучаемой совокупности должно быть минимум в 6-8 раз больше числа признаков-факторов;
территориальная и временная структура изучаемой совокупности должна быть постоянной; распределение единиц совокупности по изучаемым признакам должно подчиняться нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров уравнения регрессии: только при нормальном распределении метод наименьших квадратов дает оценки параметров, отвечающие принципам максимального правдоподобия [1, 5]. Невыполнение этих условий ставит под сомнение адекватность построенных уравнений регрессий и правомерность их использования в качестве аппроксимирующих статистических моделей. Это связано в основном с получением неоптимальных, в частности смещенных, оценок параметров.
Однако в практике исследований приходится встречаться с необходимостью регрессионного анализа в небольших по объему совокупностях. В частности, такая задача актуальна при изучении малочисленных кластеров сельскохозяйственных предприятий, выделяемых в статистических исследованиях аграрного производства.
Функционирование сельского хозяйства как экономической системы носит стохастический характер. Кроме того, аналитический процесс в этой
сфере сопряжен с изучением результатов функционирования большого количества хозяйствующих субъектов, существенно различающихся размерами ресурсов и производства. Это делает актуальной проблему формирования однородных групп производственных единиц - базисную для статистики.
Практика современных статистических исследований показала, что разбиение многомерных объектов на однородные по основным производственно-экономическим характеристикам группы хорошо реализуется посредством кластерного анализа. Операцией, предшествующей проведению кластерного анализа, является стандартизация переменных. Эта процедура приводит все преобразованные переменные к единому диапазону значений для исключения неоднородности их единиц измерения. Процесс стандартизации в данном исследовании был осуществлен по формуле
где х к - значения признака к для 7-го объекта;
х& - среднее арифметическое значение признака к;
s7k - стандартное отклонение признака k. Одним из важных вопросов при проведении кластерного анализа является выбор информативного комплекса признаков, оказывающих существенное неколлинеарное влияние на результат. Применительно к экономическим системам характерной и относительно устойчивой является связь между затратами ресурсов и выпуском продукции, что предопределяет использование размеров основных производственных ресурсов в качестве группиро-вочных признаков при проведении кластерного анализа. Количественно указанная взаимосвязь выражается в производственной функции, под которой понимается статистическая модель, описывающая зависимость результативного показателя от производственных факторов. Производственно-технологические зависимости производства продукции хорошо описываются функцией Кобба - Дугласа и кинетической функцией [4].
Проверка адекватности построенных моделей основывается на близости значений коэффициента детерминации Я2 к единице и на оценке его значимости, которая осуществляется посредством сравнения расчетного —р и критического — значений —-критерия Фишера - Снедекора. Если -р > —кр, то коэффициент детерминации признается
=
s
ЭКОНОМИЧЕСКИЙ АНАЛИЗ: жеорпя "к. ЪР^тжгсх*
зз
статистически значимым, а модель - адекватной с заданным уровнем надежности, что свидетельствует о соответствии заложенных в модели связей реально существующим.
Кластерный анализ должен предшествовать построению многофакторных статистических моделей, так как внутри разных кластеров имеют место существенно различные взаимосвязи между анализируемыми признаками. В связи с этим модель имеет смысл лишь в области, охваченной фактическими данными, использованными при ее построении.
С применением прикладного статистического пакета STATGRAPHICS plus 5.0 был проведен итеративный кластерный анализ 338 сельскохозяйственных предприятий Тамбовской области по методу k-средних. Так как число кластеров применительно к анализируемым данным было априори неизвестно, то осуществлялся последовательный перебор различного числа групп: k = 3, 4, 5, 6, 7. После получения результатов для проверки правильности кластеризации во всех кластерах рассчитывались средние по каждому измерению. Сильно различающиеся средние для всех измерений, используемых в анализе, были получены при выделении пяти кластеров. При этом 5-й кластер включал всего 8 предприятий. Проведение кластеризации при изменении порядка наблюдений в наборе данных дало аналогичные результаты.
В связи с этим для данной совокупности, несмотря на достаточно большое число единиц наблюдений, был проведен иерархический кластерный анализ с различными правилами связи: методом ближайшего соседа (Nearest neighbor), методом
дальнего соседа (Furthest neighbor), центроидным методом (Centroid), медианным методом (Median), методом группового среднего (Group Average), методом Уорда (Ward's). Иерархические методы, не требующие предварительных предположений относительно числа групп, выделили пять кластеров. При этом в разных алгоритмах было выявлено присутствие похожих групп, что является признаком качественной кластеризации. Предпочтение было отдано результатам автоматической классификации по методу Уорда, использующему для оценки расстояния между кластерами методы дисперсионного анализа и обеспечивающему минимальное увеличение целевой функции. Проверка устойчивости принятого кластерного решения производилась посредством сравнения результатов иерархического и итеративного кластерного анализа. В сравниваемых группах доля совпадений объектов составила 73 %, что явилось основанием признать кластеризацию достоверной, а выявленную структуру исследуемых данных реальной (табл. 1).
В основу кластеризации были положены объемы ресурсов:
- х1 - площадь сельскохозяйственных угодий;
- х2 - среднегодовое количество работников;
- х3 - стоимость основных средств;
- х4 - размер оборотных средств.
Кластеры характеризуются значениями показателей ресурсообеспеченности и валового производства.
Построение адекватных (с уровнем надежности 99 %) производственных функций в первых четырех кластерах не вызывало затруднений:
Таблица 1
Результаты кластерного анализа сельскохозяйственных предприятий Тамбовской области за 2010 г.
Показатель Кластер В среднем
(в среднем на одно хозяйство) 1 2 3 4 5 по области
Число предприятий 155 117 38 20 8 338
Площадь сельскохозяйственных угодий, га 1 947 4 473 5 830 9 440 23 392 4 209
Среднегодовое количество работников, чел. 26 84 125 233 243 75
Среднегодовая стоимость основных 9 234 31 088 93 788 87 701 138 496 34 007
средств, тыс. руб.
Среднегодовая стоимость оборотных 5 342 19 595 29 715 61 200 198 969 20 904
средств, тыс. руб.
Стоимость валовой продукции, тыс. руб. 9 534 27 989 50 121 83 874 210 210 29 634
Приходится на 100 га сельскохозяйственных
угодий:
- работников, чел. 1,32 1,89 2,14 2,47 1,03 1,77
- основных средств, тыс. руб. 474,3 695,0 1 608,8 929,0 592,1 808,0
- оборотных средств, тыс. руб. 489,7 438,1 509,7 648,3 850,6 496,7
34
ЭКОНОМИЧЕСКИЙ АНАЛИЗ: жгвТЪсЯ те ЪРЛЖкЫ
- 1-й кластер:
Y —17 078 • х 0'i4iх0'25!х~0'Шx0'598e0'm46Xl+0>00004х4 (R2 = 0, 78; Fp = 178,3; FKp =3,91);
- 2-й кластер:
Y — 0 038 X 0'303^0'854^0,847^-0,00008xj-0,0053x2-0,00001*,,
(R2 = 0,81; Fp = 162; Fkp =3,96);
- 3-й кластер:
Y = 2,617-1010
, „ -0,939 „2,217 „2,105 „0,95 •Л^ 2 3 4
^0,0002*.-0,0216X2 -0,000017 Х,(я2 = о,86; — = 69,6; — =4,42);
- 4-й кластер:
Y = 2 393,52 • х.-0,^,364^,0017 «2
(Я2 = 0, 76; —р = 16,9; —р =5,29).
Однако 5-й кластер, число единиц которого равняется восьми, с точки зрения классического регрессионного анализа является нерепрезентативной статистической совокупностью.
Но исключение из анализа группы предприятий, отличающихся наиболее крупными размерами ресурсов и производства, считается неправомерным, следствием чего могут быть неполные и недостоверные выводы о характере и закономерностях функционирования вида экономической деятельности. В то же время при построении уравнения регрессии с недостаточным числом наблюдений нет уверенности, что полученные оценки окажутся устойчивыми. Альтернатива методу наименьших квадратов - построение модели с помощью непараметрических методов, которые позволяют получать оценки, слабо зависящие от исходных предпосылок и устойчивые при случайных изменениях информации.
Непараметрический подход для учета выборочного смещения впервые предложил М. Кенуй. Идея заключалась в том, чтобы последовательно исключать из рассмотрения по одному наблюдению и проводить вычисления по оставшимся данным. Усовершенствовавший этот подход Д. Тьюки [2] назвал его Jackknife (складной нож).
Оценка любого параметра 9 методом Jackknife рассчитывается следующим образом. Допустим, имеется реализация случайной величины X = (х., х2,..., хд-1, хд, хд+1,..., хн), для которой определяется оценка 0'. Последовательно удаляется каждая точка хд; пересчитывается значение параметра для оставшихся N - 1 наблюдений
9-д = 9 (х1, х2 ,..., , х^+1 ,..., ХN ),
и вычисляется среднее из этих значений
1 N
9' =1 у0' .
ср N - д
Оценка параметра по методу Jackknife
0 = N0'- (N-1) 0Ср. (2)
Коэффициенты регрессии оцениваются следующим образом [3]: находятся значения 0-q при последовательном отбрасывании каждого наблюдения, затем пересчитанные параметры заменяются на псевдооценки
Pq = N0'- (N -1) 0-q, (3)
и рассчитывается их средняя величина. Таким образом, оценка по методу Jackknife
1 N /
0 = N P^ =Z[ N 0'- (N -1) 0-q ]/N. (4)
q=l
С учетом формулы (1), имеем 0с = (1,641 • 10
15.
1,056; 0,538, 0,597, 2,199.
Используя формулы (1) - (4) для производственной функции Кобба - Дугласа У = а0 х^1 х^2 х^3 х^4, с учетом данных, приведенных в табл. 2, получим модель связи, адекватную с надежностью 95 %: У = 5,161 • 10-11 х.1,928 х20Д62 х30,909 х-0,425 (Я2= 0,84; —р=6,98;
- = 6,59)
кр
Показатель степени при факторах х,, включенных в исследование, является коэффициентом эластичности Е, который показывает, на сколько процентов в среднем изменится результативный показатель У при однопроцентном изменении ,-го фактора. Из построенной зависимости следует:
- расширение площади сельскохозяйственных угодий на 1 % приводит к увеличению объема производства сельскохозяйственной продукции в среднем на 1,9 %;
- увеличение среднегодового количества работников на 1 % вызывает рост стоимости валовой сельскохозяйственной продукции в среднем на 0,2 %;
Таблица 2
Построение производственной функции методом Jackknife для 5-го кластера сельскохозяйственных предприятий
(1)
q=i
q Производственная функция R2
0 Y = 5,98940-15x1U65 x20,491 x30,636 x41,871 0,72
i Y = 7,7 57-10-54 x1-0,982 x21,912 x32,147 x48,875 0,98
2 Y = 1,605-10-24 x1-1,079 x20,448 x30,854 x45,350 0,71
3 Y = 2,32440-18 x^179 x20,758 x31,565 x42,595 0,66
4 Y = 9,14540-16 x11,328 x20,382 x30,592 x41,985 0,72
5 Y = 5,9-10-21 x12,947 x2-0,253 x3-1,971 x4-3,303 0,74
6 Y = 1,69240-14 x11,648 x20,381 x30,688 x41,379 0,74
7 Y = 0,148 x12,437 x20,202 x30,273 x4-1,206 0,90
8 Y = 4,7 1 6-10-15 x11,161 x20,470 x30,625 x41,914 0,72
ЭКОНОМИЧЕСКИЙ АНАЛИЗ: Ш5б7>ЪЯ те ЪР*?жг(Ъ4
- увеличение среднегодовой стоимости основных средств на 1 % вызывает рост стоимости валовой сельскохозяйственной продукции в среднем на 0,9 %;
- увеличение размера оборотных средств на 1 % приводит к снижению объема сельскохозяйственной продукции в среднем на 0,4 %. Эластичность производства для сельскохозяйственных предприятий 5-го кластера составляет Е = 1,928 + 0,162 + 0,909 - 0,425 = 2,574. Это свидетельствует о том, что по данному кластеру наблюдается положительный эффект от расширения масштабов производства.
Результаты исследования на основе построенных производственных функций представлены в табл. 3.
Проведенный анализ свидетельствует, что в разных кластерах сложились различные зависимости объема валового производства сельскохозяйственной продукции от затрат ресурсов. Включенные в производственные функции в качестве факторных признаков ресурсы в разных кластерах оказывают различное по степени влияние на объем выпускаемой продукции. Наиболее высокая отдача от использования ресурсов характерна для предприятий 5-го кластера, где увеличение затрат ресурсов на 1 % вызывает рост валового производства сельскохозяйственной продукции в среднем на 2,6 %. Это свидетельствует о наличии положительных закономерностей в их деятельности, обусловливающих их преимущественное положение.
Степень влияния разных ресурсов на объем производства сельскохозяйственной продукции также различна. Наиболее существенное влияние оказывает обеспеченность оборотными средствами. Высокая отдача от использования оборотных средств связана с характером их участия в производственном процессе и особенностями формирования данного вида ресурсов. Коэффициент эластичности по оборотным средствам во всех кластерах (кроме 5-го) имеет положительное значение. Это означает, что увеличение размера оборотных средств оказывает положительное влияние на увеличение объема продукции. Для предприятий 5-го кластера характерна обратная зависимость: рост размера оборотных средств на 1 % вызывает
Таблица 3
Изменчивость коэффициентов эластичности производственных функций
Кластер е2 ез Сумма
1 0,141 0,631 -0,187 0,812 1,397
2 -0,055 0,409 - 0,651 1,005
3 0,227 -0,483 0,511 0,950 1,205
4 -0,100 0,396 - 0,364 0,660
5 1,928 0,162 0,909 -0,425 2,574
снижение валового производства. Такая нестандартная ситуация вызывает необходимость более детального изучения обеспеченности оборотными средствами по отдельным предприятиям данного кластера. Сравнение размера оборотных средств в расчете на 100 га сельскохозяйственных угодий на предприятиях этого кластера со средним уровнем по другим кластерам указывает на то, что обеспеченность данным видом ресурсов хозяйств 5-го кластера достаточная. Для предприятий этого кластера вопрос стоит не в наращивании затрат на оборотные средства, а в их рациональном использовании.
Таким образом, применение метода Jacknife позволяет в отличие от традиционных подходов включать в область принятия управленческих решений результаты деятельности малочисленных групп сельскохозяйственных предприятий и вырабатывать на региональном уровне практические рекомендации по развитию сельскохозяйственной деятельности.
Список литературы
1. Елисеева И. И., ЮзбашевМ.М. Общая теория статистики. М.: Финансы и статистика, 2005.
2. Мостеллер Ф., Тьюки Д. Анализ данных и регрессия / пер. с англ. М.: Финансы и статистика, 1982.
3. Райская Н.Н., Френкель А. А. Опыт применения метода «джекнайф» в регрессионном анализе // Экономика и математические методы. 1991. № 2.
4. Смагин Б. И. Экономический анализ и статистическое моделирование аграрного производства: монография. Мичуринск: МичГАУ, 2007.
5. Шмойлова Р. А. Теория статистики / Р. А. Шмойлова, В. Г. Минашкин, Н. А. Садовнико-ва, Е. Б. Шувалова; под ред. Р. А. Шмойловой. М.: Финансы и статистика, 2003.
36
ЭКОНОМИЧЕСКИЙ АНАЛИЗ: жгбТЪсЯ те ЪРЛЖгеЫ