Научная статья на тему 'К вопросу о ранжировании объектов исследования по изучаемому латентному показателю'

К вопросу о ранжировании объектов исследования по изучаемому латентному показателю Текст научной статьи по специальности «Математика»

CC BY
186
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛИРОВАНИЕ ЗАВИСИМОСТИ / МОДЕЛИ МНОЖЕСТВЕННОГО УПОРЯДОЧЕННОГО ВЫ БОРА / ЛАТЕНТНЫЙ ПОКАЗАТЕЛЬ / РАНЖИРОВАНИЕ ОБЪЕКТОВ / MODELING OF THE MODELS ORDERED MULTIPLE CHOICE LATENT INDEX / RANKING OBJECTS

Аннотация научной статьи по математике, автор научной работы — Реннер А. Г., Стебунова О. И.

В статье рассматривается подход к построению модели многоуровневого латентного пока зателя, позволяющего проводить ранжирование объектов исследования с помощью функции регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE QUESTION OF RESEARCH ON OBJECTS RAKING STUDIED LATENCY INDEX

The article discusses the approach to the construction of a model of multilevel latent indicator allows for the ranking of research facilities using a regression function.

Текст научной работы на тему «К вопросу о ранжировании объектов исследования по изучаемому латентному показателю»

УДК 519.87:331.556 (470.56)

Реннер А.Г., Стебунова О.И.

Оренбургский государственный университет E-mail: [email protected]

К ВОПРОСУ О РАНЖИРОВАНИИ ОБЪЕКТОВ ИССЛЕДОВАНИЯ ПО ИЗУЧАЕМОМУ ЛАТЕНТНОМУ ПОКАЗАТЕЛЮ

В статье рассматривается подход к построению модели многоуровневого латентного показателя, позволяющего проводить ранжирование объектов исследования с помощью функции регрессии.

Ключевые слова: моделирование зависимости, модели множественного упорядоченного выбора, латентный показатель, ранжирование объектов.

При исследовании социально-экономических процессов и явлений часто сталкиваются с ситуацией, в которой возникает необходимость в моделировании зависимости качественного признака (у), имеющего не менее двух уровней, от количественных (объясняющих) переменных х = (,х2.....хк) . Для построения такой

зависимости на основе наблюдений над п объектами формируют информационную базу в виде апостериорной матрицы «объект-свойство» X = \хг }=1,. ,п, а качественный результативный признак оцифровывают, присваивая значения, например а1 <а2 <... <ат, характеризующие каждый из т его уровней. На значения а, а2.....ат можно смотреть либо как на числовые метки, либо как на значения количественного признака, оцениваемого, к примеру, экс-пертно. Таким образом, ставится задача о построении зависимости вида (1):

(1)

'g 1(x)" a1, X 6 D1

g 2(x) a2, X 6 d2

y = G{x )= g 3(x) = a3, X 6 D3

g m(x) am, X 6 D

m

где U Di = D - генеральная совокупность объек-

тов;

g¡ (х) - некоторые неизвестные функции;

I = 1,2,...,т .

Очевидно, что не имеет смысла обсуждать функциональную зависимость между результативным признаком и объясняющими переменными, поэтому следовало бы говорить о регрессионной зависимости:

м (п/х)=у = а ■ р ( =а / х е д)+

+ а2 ■ Р (п=а2 / X е Б2)+... + (2)

где п - случайная величина с возможными значениями а1, а2.....ат .

Поскольку значения" у" не наблюдаются, то в практике исследования подобных зависимостей, получивших название моделей упорядоченного множественного выбора, сложился подход, в соответствие с которым объект наблюдения относится к той группе

Dl,

I = 1, m

для которой Р(= а1 /Хей) принимает наибольшее значение. Мы же предлагаем при решении задачи ранжирования объектов исследования по изучаемому латентному свойству использовать регрессионную зависимость вида (2).

Поскольку зависимости g 1 (х) I = 1, т неизвестны, то их будем аппроксимировать линейной по параметрам зависимостью (3) от наблюдаемых характеристик:

у* = Хг в + , г= 1,2.....п , (3)

где у* - значение ненаблюдаемой латентной переменной для -го объекта,

Х{ = (%,...,хк) - вектор-строка значений количественных переменных для -го объекта,

2г - апостериорные отклонения ненаблюдаемых значений некоторой латентной переменной у*, значения которой «представляют» функции g I(х) I = 1,т , от значений линейной функции Хг в для каждого г-го объекта; п - количество объектов наблюдения. При этом области Д,Б2,...,Бт с помощью представленной аппроксимации (3) отобразятся в неопределенные интервалы, которые подлежат оцениванию:

70 <Хгв + ¿г ¿71

71 < Хг в+ ¿г ¿72

+ ат ■ Р Ь =am / X 6 Dm )

Ym-1 < Xi в + Z — Ym

m

I=1

В итоге функцию регрессии (2) аппроксимируется следующей моделью:

=«1 ■ P(Уо <П* ^УЛ/X,)+

■ Pin <ni ¿72]/X)+... P (m-1 <П* <Ym ]/X )

(4)

где

n = х, ß+и, =

a1, если y0 < X, ß + ui1 < y1 a2, если y1 < Xi ß + ui2 < y2

(5)

am, если Y m < Xi ß+ uim <Ym-1

щ - априорные отклонения, соответствующие апостериорным , и являющиеся независимыми одинаково распределенными случайными величинами с законом распределения ^ (и / х).

Тогда модель регрессии (4) можно записать в виде:

Уг =a1

F (1 - Xi ß)/Xi)-F((Yo - Xi ß)/X^ F (y2 - Xi ß)/Xi )-

- F( - Xi ß)/X^

F (m - Xi ß)/X, )-

- F((Ym-1 - Xi ß)/Xi

(6)

Описание подходов к оцениванию коэффициентов модели (6) по сгруппированным данным подробно содержится в научной и научно-методической литературе [1, 2, 3]. В основе подходов лежит требование к объему и структуре исходных данных, состоящее в том, что выборка должна содержать достаточное количество групп объектов, каждая из которых должна быть большой по объему для получения приемлемой оценки вероятности. Поэтому на практике оценка коэффициентов моделей с качественными (порядковыми) результативными признаками производится методом максимального правдоподобия.

Для оценки неизвестных параметров ß , yl, l = ~\ш модели (6) строится логарифмическая функция правдоподобия в предположении независимости наблюдений [1]:

ln L(ß,r)=

" ш (7)

где Sij =

= Ilsy log[F( -Xß)-F(-1 -Xß,

i=11=1

i1, Yi-1 <n* <Yi

Конкретизируя вид функции распределения ^ (), получают различные варианты общей модели, например, если ^ ()=Ф(), то про-бит-модель; если ^ ()=Л(), то логит-модель.

Оценка качества моделей осуществляется также как и моделей множественного и бинарного выбора на основе предложенного Макфад-деном индекса отношения правдоподобия LRI:

КмеРШеп = ЬК1 = 1 -

In Lo '

i0, n* i(h-ùYi У

где 1п Ь - значение логарифма функции правдоподобия,

1п Ь - значение логарифма функции правдоподобия при в = в = ■■■ = вк = о, т.е. для тривиальной модели.

Альтернативный способ построения мер качества состоит в вычислении прогноза и сравнения его с фактическими значениями. Проверка статистической значимости отдельных коэффициентов модели осуществляется на основе статистики Вальда [1, 2].

Интерпретация коэффициентов модели (6) отличается от обычной интерпретации коэффициентов линейной модели. Так, в линейной модели коэффициенты регрессии в] представляют собой производные по объясняющим переменным, то есть предельные эффекты, то в логит- и пробит-моделях коэффициенты не соответствуют предельному эффекту к-ой количественной переменной, так как модель нелинейна. Поэтому установлено, что при положительных в] смещение вероятности происходит вправо, при отрицательных - влево. Таким образом, увеличение значения у-й объясняющей переменной, когда коэффициент при ней положителен, приводит к увеличению вероятностей событий, получивших высокие ранги, и уменьшению вероятностей событий, получивших ранги низкие или наоборот, когда коэффициент отрицательный.

Рассмотрим моделирование латентного показателя, характеризующего миграционную привлекательность муниципальных образований Оренбургской области по набору показателей за 2013г.:

migtr - число зарегистрированных иностранных работников на 1000 человек населения;

гагр - средненоминальная заработная плата работников (руб.);

оЬог _ ^^ - оборот розничной торговли на душу населения, (руб.);

+ а

+ а

+ а

а

m

Реннер А.Г., Стебунова О.И.

К вопросу о ранжировании объектов исследования..

ртей - число организаций по основным видам экономической деятельности, (ед.);

гтый _ паз - численность населения в трудоспособном возрасте (тыс. чел.); Ьегт - уровень безработицы (%); 1т - инвестиции в основной капитал на душу населения (руб.).

Предварительно объекты наблюдения (муниципальные образования Оренбургской области) были разбиты на однородные группы с помощью различных кластер-процедур (иерархических и метода к-средних), представленные в таблице 1.

Для объектов первого класса характерен низкий уровень всех рассматриваемых показателей, что свидетельствует о низком экономическом развитии муниципальных образований и не является привлекательным для мигрантов. Муниципальные образования, попав-

шие во второй класс, преимущественно сельские районы области, для которых характерны сокращение производства сельскохозяйственной продукции, убыточность сельскохозяйственных предприятий. Это свидетельствует о невысоком экономическом потенциале данных объектов, способствующему сокращению инвестиций в агарный сектор экономики и ухудшением материально - технической базы сельского хозяйства. Для объектов третьего класса характерны более высокие средние значения всех социально-экономических показателей, и низкий уровень безработицы. Данные объекты, являются местами сосредоточения экономических и финансовых ресурсов, способствуя привлечению инвестиций, преимущественно в промышленный и строительный комплекс. Высокий уровень инвестиций и других социально-экономических показателей делают муниципальные образования третьего

Таблица 1. Состав однородных групп (классов) по основным показателям, характеризующим миграционную ситуацию в Оренбургской области в 2013г.

Номер кластера Количество объектов в кластере Состав класса

1 21 Районы: Адамовский, Акбулакский, Александровский, Асекеевский, Беляевский, Грачевский, Домбаровский, Илекский, Матвеевский, Октябрьский, Первомайский, Переволоцкий, Пономаревский, Сакмарский, Саракташский, Светлинский, Северный, Ташлинский, Тоцкий, Тюльганский, Шарлыкский

2 14 Города: г.Орск, г.Медногорск. г.Новотроицк, г.Соль-Илецк. Районы: Абдулинский (включая г.Абдулино), Гайский (включая г.Гай), Кувандыкский (включая г.Кувандык), Сорочинский (включая г.Сорочинск), Ясненский (включая г.Ясный), Новоорский, Новосергиевский, Кваркенский, Красногвардейский, Курманаевский

3 4 Города: г. Оренбург. Районы: Бугурусланский (включая г.Бугуруслан), Бузулукский (включая г.Бузулук), Оренбургский

Переменные И, если объеты 1 группы у{ = 12, если объеты 2группы |3, если объеты 3 группы

Оценка Ст. ош. z-статистика Р

Коэффициенты

const 20,5389 6,4313 3,1936 0,0009

0,5889 0,1734 3,3962 0,0007

гатр 0,0224 0,0104 2,1538 0,032

bezr -0,9063 0,4040 -2,2433 0,025

шУ 0,3412 0,091 3,7495 0,0001

Пороговые значения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7о 1,71 0,41 4,14 0,000

Я 4,10 1,26 1,26 0,0011

Таблица 2. Результаты оценивания модели упорядоченного множественного выбора

класса привлекательными для трудовых мигрантов.

Для моделирования латентного показателя, описывающего особенности миграции трудовых ресурсов, введем в рассмотрение переменную, значения которой формируются экс-

пертно на основе полученной классификации муниципальных образований:

Уг =

1, если объеты 1 группы

2, если объеты 2 группы

3, если объеты 3 группы

Таблица 3. Отнесение объекта к классу с более высоким или низким значением показателей, характеризующих миграционную ситуацию

Предсказание Предсказание Предсказание Процент

Наименование к первому ко второму к третьему корректных

классу классу классу предсказаний

Отнесение объекта к первому классу 19 2 0 90,5%

Отнесение объекта ко второму классу 0 14 0 100%

Отнесение к третьему классу 0 0 4 100%

Общий процент правильной классификации 95%

Таблица 4. Ранжирование муниципальных образований Оренбургской области по показателям, характеризующим миграционную ситуацию

Города и районы Вероятность отнесения объекта к /-му классу У Общий рейтинг

к 1 классу ко 2 классу к 3 классу

1 2 3 4 5 6

3 класс

г. Оренбург 0,000 0,001 0,999 9,371 1

Бузулукский р-н (включая г. Бузулук) 0,000 0,002 0,998 4,963 2

Оренбургский р-н 0,000 0,005 0,995 4,895 3

Бугурусланский р-н (включая г. Бугуруслан) 0,000 0,015 0,985 4,147 4

2 класс

г.Соль- Илецк 0,01 0,982 0,010 4,095 5

г.Орск 0,01 0,979 0,011 4,060 6

г.Новотроицк 0,03 0,976 0,014 3,998 7

г. Медногорск 0,02 0,974 0,016 3,811 8

Кувандыкский (включая г.Кувандык) 0,03 0,955 0,035 3,117 9

Гайский (включая г. Гай) 0,1 0,941 0,029 10

Сорочинский (включая г. Сорочинск) 0,09 0,809 0,171 2,650 11

Новосергиевский 0,01 0,823 0,147 2,528 12

Новоорский 0,278 0,789 0,111 2,127 13

Абдулинский (включая г. Абдулино) 0,356 0,779 0,131 2,096 14

Курманаевский 0,01 0,773 0,217 2,072 15

Красногвардейский 0,01 0,704 0,018 1,780 16

Кваркенский 0,03 0,623 0,021 1,723 17

1 класс

Сакмарский 0,982 0,01 0,008 1,697 18

Тюльганский 0,965 0,028 0,007 1,571 19

Шарлыкский 0,959 0,034 0,007 1,521 20

Беляевский 0,943 0,05 0,007 1,298 21

Переволоцкий 0,826 0,169 0,005 0,836 22

Саракташский 0,823 0,172 0,005 0,533 23

Светлинский 0,626 0,372 0,002 0,398 34

Северный 0,622 0,377 0,001 0,296 35

Матвеевский 0,615 0,384 0,001 0,201 36

Тоцкий 0,615 0,385 0,000 0,194 37

Грачевский 0,614 0,386 0,000 0,024 38

Алексеевский 0,611 0,389 0,000 0,019 39

Реннер А.Г., Стебунова О.И.

К вопросу о ранжировании объектов исследования...

В таблице 2 приведены оценки параметров пробит-модели, полученные методом максимального правдоподобия в пакете EViews.

Как видно из таблицы 2, коэффициенты регрессии являются статистически значимыми. О качестве построенной модели можно судить по таблице классификации, которая показывает результаты применения построенной модели к элементам выборки (таблица 3).

Таким образом, полученная модель распознает все объекты второго и третьего классов, а также первого класса за исключением двух объектов. Всего правильно было классифицировано 37 из 39 объектов (95%).

На основе оцененной модели множественного упорядоченного выбора осуществили ранжирование муниципальных образований Оренбургской области (таблица 4).

Проведенное ранжирование на основе значения латентного показателя, полученного по функции регрессии (столбец 5 таблицы 4) подтвердил существование на территории Оренбургской области трех однородных групп, и позволил ранжировать муниципальные образования по мере увеличения осредненного значения латентного показателя. Анализ результатов ранжирования показал, что более высо-

кий рейтинг определяет большую концентрацию трудовых мигрантов в регионах, к которым относятся г. Оренбург, г. Бузулук (Бу-зулкский район), г. Бугуруслан (Бугуруслан-ский район), так как эти объекты являются крупными промышленными и экономическими центрами. Ряд районов области (Новосергиевский, Сорочинский, Тюльганский) имеют средний рейтинг, где сосредоточены предприятия по переработки продукции сельского хозяйства. Сравнительно низкие ранги имеют (Тоцкий, Грачевский, Алексеевский), которые являются менее привлекательными для мигрантов. Следует отметить, что использование данного подхода требует экспертно оцененных значений а1,а2,..,ат .

Таким образом, предложенный подход к рейтингу объектов исследования, позволил провести более детальное ранжирование муниципальных образований Оренбургской области от наибольшего к наименьшему значению латентного показателя, в то время как традиционный подход (столбцы 2-4 таблицы 4) классифицировал объекты исследования по принадлежности к однородной группе объектов, схожих по значениям рассматриваемых показателей.

18.11.2014

Список литературы:

1 Математическое моделирование: исследование социальных, эномических и экологических процессов (региональный аспект): учебное пособие/ О.И. Бантикова, В.И. Васянина, Ю.А. Жемчужникова, А.Г. Реннер, Е.Н. Седова, О.И. Стебу-нова, Л.М. Туктамышева, О.С. Чудинова /под ред. А.Г. Реннера; Оренбургский гос. ун-т. - Оренбург: ОГУ, 2012. - 366с.

2 Greene W.H. Econometric Analysis.- 5th ed.-Prentice Hall, 2002. -1026 p.

3 Jeffrey M. Wooldridge. Econometric Analysis of Cross Section and Panel Data [Электронный ресурс] - MIT Press, 2002-

752p.- Режим доступа: http://books.google.by/books/about/Econometric_Analysis_of_Cross_Section_an.html?hl

Сведения об авторах:

Реннер А.Г., заведующий кафедрой математических методов и моделей в экономике Оренбургского государственного университета, кандидат технических наук, доцент,

е-mail: [email protected] Стебунова О.И., доцент кафедры математических методов и моделей в экономике Оренбургского государственного университета, кандидат экономических наук, доцент,

е-mail: [email protected] 460018, г. Оренбург, пр-т Победы, 13 ауд. 6106, тел. (3532) 372444

i Надоели баннеры? Вы всегда можете отключить рекламу.