Научная статья на тему 'Смещение селективной выборки как ошибка спецификации'

Смещение селективной выборки как ошибка спецификации Текст научной статьи по специальности «Математика»

CC BY
1156
76
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная эконометрика
Scopus
ВАК
Область наук
Ключевые слова
ОШИБКА СПЕЦИФИКАЦИИ / СЕЛЕКТИВНОСТЬ ВЫБОРКИ / СМЕЩЕННАЯ ВЫБОРКА / SAMPLE SELECTION BIAS / SPECIFICATION ERROR

Аннотация научной статьи по математике, автор научной работы — Heckman James J.

В данной работе проблема смещения оценок регрессии, возникающего из-за использования неслучайных выборок, изучается как ошибка спецификации или как смещение, обусловленное «пропущенными переменными». Предлагается простая двухшаговая МНК оценка, которая является состоятельной и позволяет использовать стандартные регрессионные методы. Также выводится асимптотическое распределение оценок коэффициентов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Sample selection bias as a specification error

This paper discusses the bias that results from using nonrandomly selected samples to estimate behavioral relationships as an ordinary specification error or «omitted variables» bias. A simple consistent two stage estimator is considered that enables analysts to utilize simple regression methods to estimate behavioral functions by least squares methods. The asymptotic distribution of the estimator is derived.

Текст научной работы на тему «Смещение селективной выборки как ошибка спецификации»

От редакции: Новая рубрика

В первом номере нашего журнала (№ 1, 2006, с. 94) мы с сожалением отмечали тот факт, что такие полученные за последние 3-4 десятилетия прорывные достижения в прикладном эконометрическом инструментарии, как обобщенный метод моментов (Generalized Method of Moments), модель коррекции регрессионными остатками (Error Correction Model), специальные методы анализа панельных данных (Panel Data Analysis), методы устранения тех смещений в статистических выводах, которые обусловлены отклонениями используемой выборки от случайной или так называемой селективностью выборки (Sample Selection Problem), наконец, продвинутые эконометрические методы анализа и управления финансовыми рисками (волатильность, копула-функции, пороговые коинте-грационные модели и др.)1, до сих пор относительно слабо представлены в русскоязычной специальной литературе.

Данная ситуация мотивировала редколлегию «Прикладной эконометрики» создать (с первого номера журнала) специальный раздел «Консультации», в котором могли бы оперативно публиковаться материалы по упомянутым разделам эконометрического инструментария. И такие материалы регулярно публиковались2.

В этом контексте особо интересны для читателя, так или иначе причастного к инструментарию эконометрического анализа, те работы, в которых впервые представлены идеи и результаты, явившиеся основополагающими в зарождении и разработке современных актуальных разделов прикладной эконометрики, обозначившие определенные вехи в ее развитии. Поэтому наша редколлегия решила создать в журнале специальную рубрику «Классические работы по эконометрике», в которой, при наличии согласия авторов и издательств, будут публиковаться первоисточники соответствующих материалов в переводе на русский язык. Тем самым читателю предоставляется возможность проследить генезис и объективные предпосылки основополагающих идей, оказавших существенное влияние на развитие эконометрики.

В этом номере журнала мы публикуем замечательную работу Лауреата Нобелевской премии 2000 года Джеймса Джозефа Хекмана «Смещение селективной выборки как ошибка спецификации» (James J. Heckman. Sample selection bias as a specification error. Econometrica, 1979, 47 (1), 153-161). Нобелевская премия по экономике3 Дж. Дж. Хекману была присуждена с формулировкой «За разработку теории и методов для анализа селективных выборок». Мы благодарны профессору Джеймсу Дж. Хекману и Эконометрическому обществу (Econometric Society, http://www.econometricsociety.org) за любезное согласие на публикацию данной работы в нашем журнале.

Главный редактор С. А. Айвазян

1 Последней тематике посвящена подготовленная к изданию книга С. А. Айвазяна, Д. Фантаццини. Методы эконометрики. Продвинутый курс с приложениями в финансах. Изд-во «Магистр».

2 См. номера ПЭ за 2006 г. (1, 2, 4); 2007 г. (2-4); 2008 г (1-4); 2009 г. (1-3); 2011 г (2-4).

3 Официальное название премии: «Премия Шведского государственного банка по экономическим наукам памяти Альфреда Нобеля», решение о ее присуждении принимает Королевская Шведская академия наук.

Джозеф Хекман

Основное отличие эконометрики от статистических дисциплин, применяемых в других науках, определяется тем, что во многих случаях приходится обрабатывать данные неэкспериментальной природы. При этом большинство задач в эконометрике зачастую состоят в оценивании причинно-следственных связей, в самом определении которых обычно подразумевается некий мысленный эксперимент. Например, вопрос о том, как образование влияет на заработную плату, подразумевает мысленный эксперимент, в котором у случайно выбранного человека меняют образование и измеряют эффект этого изменения на его заработную плату. Проведение такого эксперимента на практике невозможно, в том числе и по этическим причинам, а экономистам приходится довольствоваться выборками из наблюдаемых данных. Джеймс Хекман первый указал на фундаментальную проблему работы с такими данными: наблюдаемые данные часто не являются случайной выборкой.

Выборки наблюдаемых данных являются выборками с искаженным отбором или так называемыми «селективными выборками», в том смысле, что индивиды, оказавшиеся в выборке, зачастую обладают неким общим свойством. Так, например, в случае оценки влияния образования на заработную плату мы часто наблюдаем только индивидов, которые работают. Если не учитывать факт неслучайности выборки, то статистические оценки будут смещенными.

В знаменитой статье Джеймса Хекмана, представленной ниже, разработаны методы статистического оценивания в условиях селективных выборок. Эта статья изменила основы эконометрики и стала классикой эконометрической теории. В 2000 году Нобелевский комитет удостоил Джеймса Хекмана Нобелевской премии по экономике «за разработку теории и методов анализа селективных выборок».

Джеймс Хекман является известным эконометристом, плодотворно работающим как в теории, так и в прикладных задачах. Его исследования посвящены вопросам эффективности государственных программ в области образования, трудоустройства, раннего детского развития. Отвечая на важные экономические вопросы, Хекман разработал множество эко-нометрических методов работы с селективными выборками, учета гетерогенности и решения других проблем, возникающих при отсутствии экспериментальных данных.

Джеймс Хекман работает профессором экономики в университете Чикаго. Он получил степень PhD в Принстоне в 1971 году.

А. Е. Микушева

Джеймс

Sample selection bias as a specification error

James J. Heckman

Смещение селективной выборки как ошибка спецификации12

Джеймс Дж. Хекман3

В данной работе проблема смещения оценок регрессии, возникающего из-за использования неслучайных выборок, изучается как ошибка спецификации или как смещение, обусловленное «пропущенными переменными». Предлагается простая двухшаговая МНК оценка, которая является состоятельной и позволяет использовать стандартные регрессионные методы. Также выводится асимптотическое распределение оценок коэффициентов.

Ключевые слова: ошибка спецификации; селективность выборки; смещенная выборка. JEL classification: C01; C13; C24.

(Примечание. JEL classification и ключевые слова добавлены переводчиком).

В данной работе проблема смещения оценок регрессии, возникающего из-за использования селективных выборок, изучается как ошибка спецификации или как смещение, обусловленное «пропущенными переменными». В отличие от обычных смещений оценок, вызванных пропущенными переменными или ошибками спецификации экономет-рической модели, в случае использования селективных выборок иногда удается оценить

1 Оригинальная статья: Heckman J. J. Sample Selection Bias as a Specification Error. Econometrica, 1979, 47 (1), 153-161. © Econometric Society.

The copyright to this article is held by the Econometric Society, http://www.econometricsociety.org/. It may be downloaded, printed and reproduced only for personal or classroom use. Absolutely no downloading or copying may be done for, or on behalf of, any for-profit commercial firm or for other commercial purpose without the explicit permission of the Econometric Society. For this purpose, contact the Editorial Office of the Econometric Society at [email protected].

Редакция благодарит Econometric Society за разрешение на публикацию перевода статьи.

Перевод статьи выполнен студентами НИУ ВШЭ И. Станкевичем и Д. Малаховым, под редакцией профессора П. К. Катышева.

2 Выражение «Смещение селективной выборки» есть один из вариантов перевода оригинального английского термина «sample selection bias». Этот термин применяется в ситуации, когда для оценивания коэффициентов в уравнении регрессии используется неслучайная выборка. В этом случае соответствующие оценки могут оказаться смещенными. — Прим. переводчика.

3 Это исследование выполнено при поддержке гранта HEW Rand Corporation и гранта Департамента труда Национального бюро экономических исследований США. Первоначальная версия этой статьи имела название «Теневые цены, рынок зарплаты и предложение труда: некоторые вычислительные упрощения и обновленные оценки», июнь 1975 г. Неожиданно для меня большое число коллег сделали ценные комментарии к этой статье и ее многочисленным вариантам. Выражаю особую благодарность Takeshi Amemiya, Zvi Griliches, Reuben Gronau, Mark Killingsworth, Ed Leamer, Tom MaCurdy, Bill Rodgers и Paul Schultz. Я несу полную ответственность за любые оставшиеся ошибки.

влияние переменных, которые при исключении из регрессионной модели могут привести к неправильной ее спецификации. Можно использовать оцененные (прогнозные) значения пропущенных переменных в качестве регрессоров в основном уравнении и применять стандартные методы оценивания. Таким образом, в настоящей работе проблема смещения селективной выборки рассматривается как ошибка спецификации модели. Для случая цензу-рированных выборок предлагается простой состоятельный метод оценивания, устраняющий эту ошибку. Данное исследование проясняет и расширяет анализ, проведенный в (Heckman, 1976): в явном виде получено асимптотическое распределение простой оценки для общего случая, а не частного случая нулевой гипотезы об отсутствии смещения селективной выборки, рассмотренного в (Heckman, 1976). Для улучшения понимания приводится (с исправлениями и упрощениями) вводный материал из статьи (Heckman, 1976).

На практике смещение селективной выборки может возникать по двум причинам. Во-первых, это происходит при самоотборе индивидуумов или наблюдений в выборку, т. е. единицы наблюдения могут попадать в выборку не случайно. Во-вторых, решения исследователей в части построения выборки могут приводить к схожим последствиям.

Можно привести много примеров селективных выборок. Рыночные заработные платы наблюдаются только для тех работающих женщин, чья рыночная зарплата превышает «зарплату» от работы дома. Аналогично, можно наблюдать доходы только тех участников профсоюза, для которых состоять в нем оказалось выгоднее. Также уровни зарплат мигрантов обычно не позволяют получить надежные оценки зарплат, которые получили бы немигранты в случае миграции. Доход индивидов, прошедших обучение, не дает возможность получить оценки заработков необученных индивидов в случае повышения ими квалификации. Во всех вышеперечисленных случаях оценки уравнения зарплаты, полученные по селективной выборке, не дают возможность получить представление об истинных закономерностях в формировании заработных плат. Сравнение зарплат мигрантов и немигрантов (аналогично, сравнение дохода обученных работников и необученных), приводит к смещению в оценках реального влияния миграции, обучения, участия в профсоюзах и т. д.

Выборка может стать неслучайной по причине вмешательства исследователя в структуру данных. В панельных моделях обычно работают лишь со стабильными наблюдениями. Например, постоянство состава домохозяйства часто является необходимым условием добавления его в выборку. В демографических исследованиях и в экспериментах по установлению эффективности обучения обычно рассматриваются лишь те единицы наблюдения, данные по которым есть на протяжении всего периода наблюдения. Эти особенности проведения анализа приводят к результатам, схожим с проблемой самоотбора: при оценивании структурных уравнений «смешиваются» основные факторы, представляющие главный интерес, и факторы, определяющие вероятность попадания в выборку.

1. Характеризация смещения селективной выборки

Для упрощения изложения рассмотрим модель, состоящую из двух регрессионных уравнений. Переход к большему числу уравнений не представляет трудностей.

Пусть есть случайная выборка, состоящая из I наблюдений. Уравнения для /-го объекта выглядят следующим образом:

Уи = Хи 0 + ии, (1а) *

= я^А +и2г, (i = 1,...,I), (1Ь) Ц

где Хц — вектор экзогенных регрессоров размерности 1X К^, 0 — вектор коэффициентов о

\а г = г" |

размерности К] XI и Е{и]г) = 0, Е(и]г,и/,„) = ' . ^ .„'

Последнее предположение — это следствие того, что наша выборка случайна. Плотность совместного распределения величин ии,и2г есть Ь(ии,и2г). Предполагается также, что матрица регрессоров имеет полный ранг, поэтому все параметры модели можно оценить с помощью метода наименьших квадратов (МНК).

Предположим, что мы пытаемся оценить регрессионное уравнение (1а), но обнаруживается, что есть пропущенные значения переменной У1. Поэтому закономерно возникает вопрос: «Почему есть пропуски в значениях У1 г?»

Функция регрессии (1а) по всей генеральной совокупности может быть записана так:

Е(¥и1Хи) = Хи 01, (/' = 1,...,1).

Регрессионное уравнение для имеющейся подвыборки выглядит следующим образом: Е(Уи | Х1, правило отбора выборки) = Х1г01 + Е(ии | правило отбора выборки), (г = 1, ..., I).

Для удобства предположим, что для первых 11 < I наблюдений доступны данные по У1.

Если условное математическое ожидание ии равно нулю, то регрессия по данной подвы-борке совпадает с регрессией по всей генеральной совокупности. В этом случае для получения оценки коэффициентов 01 можно применить метод наименьших квадратов. Таким образом, оценивание регрессии по неполной выборке ведет лишь к потере эффективности.

В общем случае принципы формирования выборки ведут к более серьезным последствиям. Предположим, например, что данные по переменной Уи есть только в случае, если У2г > 0, а для У2г < 0 нет наблюдений. Выбор значения 0 в качестве порога отсечения несущественен — это вопрос нормализации.

В общем случае имеем:

Е(ии | Х1, правило отбора выборки) = Е(ии | Х1, Уъ > 0) = Е(ии | Х1, иъ > -Х1г02). (2)

В случае независимости ии и и2, когда пропуски в У1г случайны, условное математическое ожидание величины и1г равно нулю. В более общей ситуации условное математическое ожидание и1 не равно нулю и выборочная регрессия выглядит следующим образом:

Е (Уи | Хи, У2 г > 0) = Хи 01 + Е и | Хи, и 2 г > Х 2 г А). (3)

Выборочная регрессия зависит от значенийХ1{ иХ2. Оценка регрессии по модели (1а) не учитывает последнее слагаемое уравнения (3), таким образом, смещение, порождаемое неслучайностью выборки, есть следствие обычной проблемы пропущенных переменных.

Сделаем несколько замечаний. Во-первых, если вектор Х2, который определяет выбор конкретной подвыборки, состоит лишь из «1» (т. е. есть свободного члена, прим. перевод) (поэтому вероятность включения в выборку для всех наблюдений одинакова), то условное математическое ожидание и1 г — константа, и смещение значений 01 заключается лишь в сме-

щении значения константы. Также легко показать, что МНК-оценка дисперсии о11 смещена вниз. Во-вторых, хорошим индикатором селективного смещения служит следующий факт: незначимые в популяционной модели регрессоры, включенные в Х21, но не включенные в X1P становятся значимыми в модели, оцененной по имеющейся выборке. В-третьих, данная модель — обобщение некоторых уже существующих моделей. Например, если И(и1,, иъ) — сингулярное одномерное нормальное распределение (ии =и2,) и X2, = X1¡, Ь2 = Ь1, рассматриваемая модель превращается в Тобит-модель. Более подробно взаимосвязь с уже созданными моделями рассмотрена в (Несктап, 1976). В-четвертых, модели с большим числом уравнений, будучи простым математическим обобщением приведенной выше модели, содержательно могут представлять значительный интерес. Рассмотрим такой пример. Предположим, что мигранты выбирают один из К регионов, куда они могут мигрировать. Если наиболее предпочтителен регион с наивысшим потенциальным доходом, модель, описывающая поведение мигрантов, является расширением двухуровневой модели.

2. оценка для случая нормальных ошибок и ее свойства4

Пусть h(Uu,U2i) — двумерная нормальная функция плотности. Используя известные результаты (см. (Johnston, Kotz, 1972, p. 112-113)), имеем:

о

E(Un | Uъ >-X2 ,ß2) = —1

( О 22 У 2 "

E(U2 i | U2, >-X2 ,ß2 ) = 1 i,

(О 22 )

где

A = Zt) _ Zt)

1-Ф(2,) ф—,.)

Здесь и Ф — функция плотности и функция распределения стандартной нормальной величины соответственно, и

X 2, Ь 2

Z=

( О 22 )

Величина l , — обратное отношение Миллса. Это монотонно убывающая функция вероятности попадания наблюдения в выборку, Ф(—Z,) (=1 —Ф(Z,)). В частности, lim l = 0,

Ф (—Z,

dl,

lim l , = oo , и-i— < 0.

ф(—z,)-0 ' ЭФ(—Z,)

Теперь можно привести полную статистическую модель для случая нормальных ошибок. Условная функция регрессии для имеющихся наблюдений может быть записана как:

4 Версия метода оценивания для сгруппированных данных, рассматриваемая здесь, была предложена в (Gronau, 1974) и (Lewis, 1974). Однако они не исследуют статистические свойства метода и не рассматривают микроверсию оценки, представленную здесь.

E (Yll\Xll, Y2i > 0) = Xu ß +

(S 22 )

1/2 'ki'

E(Y2i\X2i, Y2i > 0) = X2iß2 +-

22_ 1

177 A,,

где

Далее,

(s 22 )

11, = E (YU\XU, Y2i > 0) + VU,

Y2i = E (Y2i\X 2i, Y2, > 0) + V, ,

E V1i \ Xii, A, U2i >-X2iß2 ) = 0, E(V2l \X2i,A,U2i >-X2iß2) = 0, E(VV„,\Xii, X 2i, A, , U 2i >-X2iß2) = 0, для i * i'.

EV12 \Xii,i,,U2i >-X2iß2) = Sii((1-P2) + P2(1 + ZtA, -A?)),

E V V2, \ Xi,, X 2 i A,, U 2 i >-X2, ß 2) = Si2 (i + Z, A, - A2), E(V2 \ X2i, A,, U2i >-X2,ß2) = s22 (i + ZtA, - A2),

где

CT,

(4a) (4b)

(4c) (4d)

(4e)

(4f)

(4g) (4h)

I 3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

P

0 <1 + Z, A. -A2 <i.

(5)

Зная и, следовательно, А,, можно добавить А. как регрессор в уравнение (4а) и оценить его методом наименьших квадратов. МНК оценки параметров Ь и ст11 / (ст 22)у2 являются несмещенными, но не эффективными. Неэффективность — следствие гетероскедастичности, вытекающей из уравнения (4£), когда Х2 i (а следовательно, и Zi) содержит нетривиальные регрессоры (т. е. регрессоры, отличные от константы, прим. перевод) Вследствие неравенства (5) стандартная МНК оценка дисперсии ст11 смещена вниз. Из уравнения (4g) и неравенства (5) следует, что обычная оценка ковариации между уравнениями смещена вниз. Для получения правильных стандартных отклонений оценок коэффициентов первого уравнения может быть использована обычная ОМНК процедура (подробнее см. Несктап (1976)).

На практике величина А i неизвестна. Но в случае цензурированной выборки, когда нет информации о величинах У1{ при Г2 i < 0, но известны Х2. для наблюдений с Уъ < 0, можно оценить А. при помощи следующей процедуры.

(1) Оценить параметры вероятности того, что У21 > 0 (т. е. Ь2 / 22)1/2) при помощи про-бит-модели по всей выборке5.

(2) Из оценки параметра Ь2 / 22)12 (= Ь2) получить оценку величины Zi и, следовательно, величины А... Все эти оценки являются состоятельными.

5 В случаях, где Г2. наблюдается, можно оценить Ь2, <?22, и, следовательно, Ь2 / (^22)1/2 при помощи МНК.

и

(3) Оцененная переменная 1, может быть использована как регрессор в уравнении (4а), оцениваемом на подвыборке. Оценки параметров Ь и о12 / (о22)1/2 (коэффициентов приХи и 1 ,, соответственно) являются состоятельными6.

(4) Состоятельную оценку параметра о11 можно получить следующим образом. На шаге 3 можно получить состоятельную оценку параметра С = р(о11) = о12 / (о22) . Обозначим через остаток для , -го наблюдения на шаге 3, а оценку параметра С — через С. Тогда оценку величины о11 можно получить так:

11

2 % С ± о„ —С 2 (1 2 -12),

где 1 { и 2 { — оценки параметров 2 и 1,, полученные на шаге 2. Эта оценка состоятельна и положительна, т. к. элементы второй суммы отрицательны (см. неравенство (5)).

Обычные формулы для стандартных ошибок коэффициентов, оцененных МНК, не работают, кроме одного важного случая — нулевой гипотезы об отсутствии селективного смещения (С = о12 / (о22 )12 = 0). В этой ситуации можно использовать обычные стандартные ошибки и проводить тестирование гипотезы С = 0, используя /-распределения. Если же С Ф 0, стандартная процедура занижает оценки стандартных ошибок и завышает значимость переменных.

Вывод корректного асимптотического распределения для этой оценки в общем случае требует определенных усилий7. Заметим, что уравнение (4а) с оцененной величиной 1,, использованной вместо истинной 1,, может быть записано так:

Уи = хи Ь + С1 + С (1,-1,) + ^,. (4а')

Остаток состоит из последних двух членов уравнения.

Величина 1 1 рассчитывается при помощи параметра Ь2 / (о22)1/2 (= Ь2), который, в свою очередь, оценивается с помощью пробит-модели на полной выборке из I наблюдений методом максимального правдоподобия8. Поэтому в силу того, что 1 { — дважды непрерывно дифференцируемая функция от Ь2, величина

М (1, -1 ,) имеет асимптотически нормальное распределение

4!(1, -1,)~ N(0,2,),

где 2 { — асимптотическая ковариационная матрица, полученная из ковариационной матрицы Ь2 следующим образом:

6 Предполагается, что вектор Х2 содержит нетривиальные регрессоры, или что Ь не содержит константу, или и то и другое одновременно.

7 Эта часть работы была вдохновлена комментариями Т. Amemiya. Разумеется, он не несет ответственности за любые ошибки в рассуждениях.

8 Дальнейший анализ может быть очевидным образом модифицирован, если наблюдается и Ь*2 оценива-

ется методом наименьших квадратов.

S =

'aXN2

al

vaz, /

X 2/ SX2i,

ны 4!(а; -а).

Мы ищем асимптотическое распределение вектора

лД"

"Ä -b =Ii SXi/Xi,

С -С _ SX,. >1,

SX

i i i

2

1

ж

SXii'(C (X,-X,) +VU) sX, (C (X, - X,)+Vi)

p lim I1

Ii

SXii Xii SXii Xi

SXii X,

SX2

= p lim Ii

Ii

SXii Xii SXii Xi

SXi, X,

sx2

= B,

где ^ = p lim

Ii

I

Л

С - C SXi/Xitfi SXi/X,^,

(0, B грв '),

SX, Xi, v,

Ii

SX2 v,

+ С2| I

2 2 Xi, ' Xi," °ü ■ i=i i' =i I, I,

Ii Ii Y ' ТГ

2

22-

22:

i

Lii pii '

i=i i'=i -4

i=i i'=i -4

2 2f

i=i i'=i -'i

где —L — производная X,. по 2, и 2 — асимптотическая ковариационная матрица величи- о

В дальнейшем важно помнить, что пробит-модель оценена на полной выборке из ! наблюдений, тогда как основная модель оценивается на подвыборке из 11 (< !) наблюдений, в которых наблюдается Y1i . Далее необходимо отметить, что, в отличие от двухшагового метода наименьших квадратов, часть остатка, которая возникает из-за использования оцененной величины X i вместо истинной X,, не ортогональна вектору Х1.

При выполнении общих требований к регрессорам, рассматриваемых в (Amemiya, 1973) и ^ешшйЛ, 1969), получаем

"1-1

где В — конечная положительно определённая матрица9. При выполнении этих требований

'А -А

где

plim — = k, 0 < k <1,

Ij^M I

I

C =si2 /(s22)J/2, V,= (i+С2 (Zt X,-X2 )/Sii),

p.., =

fax, ^

az,. dZ"

\ i /

X ,X 2 i SX2,i ^

i

9 Для этого необходимо, чтобы Х; содержал нетривиальные регрессоры, или чтобы в уравнении не было константы, или выполнения обоих условий одновременно.

2

0,- =

|ЧЛ faA

dZ: dZ"

X2i^SX2i',

dli

где —L —

dZ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Q„,= (a, A,) производная A, по Z,

К ^

dZi dZ,

X 2i ^Ъ

£=A2 - Z. A.

г г г '

Можно заметить, что если С = 0 , матрица ВЦ>В' сводится к стандартной ковариационной матрице для оценки метода наименьших квадратов. Отметим также, что из-за того, что вторая матрица в положительно определена, при С Ф 0 корректная асимптотическая ковариационная матрица (ВЦ>В') дает более высокие оценки стандартных ошибок коэффициентов регрессии, чем некорректная «стандартная» ковариационная матрица стпВ. Таким образом, стандартная процедура оценивания, корректно работающая при известных 1, приводит к недооценке истинных стандартных отклонений и переоценке значимости коэффициентов, когда используется оцененное значение 1 , и С Ф 0.

При выполнении упомянутых выше условий Amemiya-Jennrich, является ограниченной положительно определенной матрицей. Нетрудно оценить параметры матриц и В. Оцененные 1, С и ст11 могут быть использованы вместо истинных величин для получения состоятельной оценки В^В'. Оценка ковариационной матрицы требует обращения матрицы размера (К1 +1) X (К1 +1) и проста с вычислительной точки зрения. Копия программы для оценки коэффициентов Ь2 пробит-модели и коэффициентов /Ь1 и С регрессии, вычисляющая корректные асимптотические оценки стандартных ошибок в общем случае, доступна по запросу у автора10.

Для оценки таких моделей возможно разработать ОМНК процедуру (Несктап, 1977), но она будет требовать более сложных вычислений, и при этом ОМНК-оценки не являются асимптотически эффективными, поэтому использовать ее не рекомендуется.

Обсуждаемый в настоящей работе метод оценивания уже был применен на практике. Появляется все больше свидетельств (GriHches et а1., 1977; Несктап, 1976) того, что получаемые с его помощью оценки могут быть использованы в качестве хороших начальных значений для получения оценок методом максимального правдоподобия, т. к. они оказываются близки к ММП-оценкам. Учитывая простоту и гибкость процедуры, можно рекомендовать ее к использованию в эмпирических работах.

3. Заключение

В данной работе смещение, возникающее из-за использования неслучайных выборок при оценке моделей, рассматривается как ошибка спецификации модели в духе работ (Gri1iches, 1957) и (ТЪеП, 1957). Предлагается простая с вычислительной точки зрения техника, позволяющая использовать обычные регрессионные методы для оценивания моделей и не при-

10 Это предложение действительно в течение двух лет после публикации статьи. После этого программа будет предоставляться за плату (статья опубликована в 1979 г. — Прим. редакции).

водящая к смещению в случае использования цензурированной выборки. Рассматриваются

I

асимптотические свойства оценок. S

Другая простая оценка, применимая для усеченных выборок, рассматривается в (Amemiya, ^ 1973). Сравнение результатов (Amemiya, 1973) с оценкой, предлагаемой в данной работе, ^ было бы очень полезно, но не рассматривается в рамках данной работы. Обобщение анализа, >| проведенного в моей работе 1976 года, на многомерный случай дано в работе (Hanoch, 1976). Предлагаемая здесь простая процедура может быть использована для исследования моделей с усеченными выборками, селективными выборками и с ограниченными зависимыми переменными, равно как и для систем одновременных уравнений с эндогенными дамми-переменными (Heckman, 1976, 1978).

University of Chicago Manuscript received March, 1977; final revision received July, 1978.

Список литературы

Amemiya T. (1973), Regression analysis when the dependent variable is truncated normal. Economet-rica, 41 (6), 997-1016.

Griliches Z. (1977). Specification bias in estimates of production functions. Journal of Farm Economics, 39, 8-20.

Griliches Z., Hall B., Hausman J. (1977). Missing data and self selection in large panels. Harvard University.

Gronau R. (1974). Wage comparisons — A selectivity bias. Journal of Political Economy, 82 (6), 11191143.

Hanoch G. (1976). A multivariate model of labor supply: Methodology for estimation. Rand Corporation Paper R-1980.

Heckman J. (1976). The common structure of statistical models of truncation, sample selection and limited dependent variables and a simple estimator for such models. The Annals of Economic and Social Measurement, 5 (4), 475-492.

Heckman J. (1977). Sample selection bias as a specification error with an application to the estimation of labor supply functions. NBER Working Paper #172 (revised).

Heckman J. (1978). Dummy endogenous variables in a simultaneous equation system. Econometrica, 46 (4), 931-959.

Jennrich R. (1969). Asymptotic properties of nonlinear least squares estimators. Annals of Mathematical Statistics, 40 (2), 633-643.

Johnson N., Kotz S. (1972), Distribution in statistics: Continuous multivariate distributions. New York: John Wiley & Sons.

Lewis H. (1974). Comments on selectivity biases in wage comparisons. Journal of Political Economy, 82 (6), 1145-1155.

Theil H. (1957). Specification errors and the estimation of economic relationships. Revue de l'Institut International de Statistique, 25 (1-3), 41-51.

i Надоели баннеры? Вы всегда можете отключить рекламу.