УДК 51.77:311.21
© А. С. Цыбикое, Нямхуу Батжаргал, Э. Д. Дагбаее, Т. Г. Дармаее
АНАЛИЗ ОБЪЕМА И СТРУКТУРЫ ВЫБОРКИ
СОЦИОЛОГИЧЕСКОГО ОПРОСА МОЛОДЕЖИ МОНГОЛИИ1
В работе представлены результаты расчёта минимального объема выборки необходимого для описания содержания общественного сознания молодежи Монголии (480 респондентов), а также отдельно для аймаков и г. Улан-Батор. Рассчитан объем выборки равный не менее 670 респондентов из молодежи Монголии в случае необходимости исследовать влияние социальных факторов (возраст, пол, образование, род деятельности). Оценка производится с помощью статистической процедуры «анализ мощности» с применением пакета Statistica.
Ключевые слова: общественное сознание молодежи Монголии, статистическая оценка объема выборки, анализ мощности.
© A. S. Tsybikov, Nyamhu Batjargal, Е. D. Dagbayev, Т. G. Darmayev
VOLUME AND STRUCTURE ANALYSIS OF THE SAMPLE FOR SOCIAL INTERVIEW OF YOUTH IN MONGOLIA
The article presents the results of calculation of the minimum sample size required to describe the content of the social consciousness of young people of Mongolia (480 respondents), as well as separately for the aimags and Ulaan-baatar. The sample size is at least 670 respondents from the youth of Mongolia to investigate the influence of social factors (age, sex, education, occupation) if it is necessary. Evaluation is carried out using a statistical procedure "power analysis" and the package Statistica.
Keywords: social consciousness of young people of Mongolia, statistical evaluation of sample size, power analysis.
Введение
Исследование, направленное на изучение содержания и факторов, влияющие на характер и тенденции в развитии общественного сознания современной молодежи Монголии, является принципиальным в плане коррекции и планирования международного политического курса России. Оно предполагает проведение масштабного социологического опроса молодежи Монголии с целью выявления существующих в ней тенденций и особенностей. Так, по данным переписи за 2014 год население Монголии составляет около 2 881 000 человек, из них молодежи в возрасте от 16 до
1 Исследование выполнено при финансовой поддержке РГНФ. «Общественное сознание современной молодежи Монголии», проект № 15-23-03001
39 лет 1 247 387 человек (43,3%; источник: http://knoema.ru/ а^ав/Монголия). И здесь на этапе планирования соцопроса, естественно, возникают вопросы о структуре и оптимальном объеме выборки, которая будет отражающей основные свойства (общественное сознание) генеральной совокупности (молодежь Монголии) и при этом позволит изучить влияние на них социальных факторов (пол, возраст, образование, род деятельности, место жительство). Основным объективным методом решения данных вопросов является применение вероятностного математического аппарата для анализа объема выборки, основанной на теории распределения случайных величин.
1. Цель исследования
Определить требуемый минимальный объем и структуру выборки для исследования общественного сознания современной молодежи Монголии с учетом возможности анализа влияния на него социальных факторов.
2. Объем выборки для описания общих свойств молодежи Монголии
Считается, что выборка будет репрезентативной, если она будет отражать (описывать) характеристики генеральной совокупности с минимальной ошибкой. Для вычисления допустимой ошибки расхождения между характеристиками выборочной и генеральной совокупности А используют выборочную дисперсию <т2, число выборочных наблюдений п и /статистику Стьюдента [1]:
2 ( \
СГ п
X 1
п V
где N - размер генеральной совокупности. В начале нашего социологического опроса мы не можем определить или оценить дисперсию какого-либо признака, так как мы ни каких предварительных опросов не проводили. И любые экспертные оценки здесь оказываются неуместными. Поэтому в данном случае оправдано переход к исследованию понятия доли признака в общей совокупности наблюдений, которую уже можем оценить экспертным путем. Дисперсия доли будет равна: <з1 = \ - р^. И
после некоторых преобразований получим формулу для расчета объема выборки:
1
р(р~\У + N
Используя данную формулу, рассчитаем требуемый объем выборки по каждому аймаку. Для этого примем следующие допущения относительно параметров выражения.
1. Доля респондентов (молодежи) в выбранном сегменте (аймаки), у которых имеется интересующий признак, равна 0,5, т.к. она считается максимально неопределённой. В качестве интересующего нас признака может быть, например, «считает, что у России (или США, Китай или другие страны) большой социально-экономический потенциал».
2. Уровень значимости принимается равной 0,05 и статистика ? = 2, данные значения считаются общепринятыми и характеризуют требуемую достоверность результатов социологического исследования.
3. Допустимая предельная ошибка оцениваемой доли принята равной 5%.
Результаты расчетов требуемых объемов выборки с принятыми допущениями для исследования каждого района представлено в таблице 1.
Таблица 1
Расчет объема выборки для аймаков и г.Улан-Батора
№ Аймаки Численность по возрастной категории Объем выборки Объем выборки с поправкой на выбросы (+20%)
16-19 20-24 25-29 30-34 35-39 Общая
1 Улаанбаатар 74184 116952 150537 124864 108447 574984 384 461
2 Дорнод 4966 7467 7591 6273 5647 31944 380 456
3 Сухбатор 4089 5554 5367 4899 4591 24500 378 454
4 Хэнтий 4987 6497 6068 5691 5460 28703 379 455
5 Тув 6146 8421 8161 7039 6551 36318 380 456
6 Говьсумбэр 1121 1445 1620 1314 1154 6654 363 436
7 Сэлэнгэ 7131 10239 9897 8478 7856 43601 381 457
8 Дорногоби 4072 5826 6512 5617 5065 27092 379 455
9 Дархан -Уул 6573 9626 9616 7886 7565 41266 381 457
10 Умнугоби 4119 5656 6730 5291 4278 26074 379 454
11 Дундгоби 3396 4041 3773 3491 3302 18003 376 451
12 Орхон 6072 9063 9662 7598 6786 39181 380 457
13 Увурхангай 8903 10852 10116 8733 8347 46951 381 457
14 Булган 4407 5587 4977 4499 4592 24062 378 454
15 Баянхонгор 6638 8379 7747 6564 6071 35399 380 456
16 Архангай 7500 9469 8207 6856 6824 38856 380 456
17 Хевсгел 9150 12472 11528 9493 9433 52076 381 458
18 Завхан 5410 6418 5301 5380 5447 27956 379 455
19 Гоби-Алтай 4640 5631 4837 4401 4345 23854 378 454
20 Баян-Улгий 6906 8872 8531 7207 6199 37715 380 456
21 Ховд 7156 8167 6875 5772 5679 33649 380 456
22 Уве 5400 6193 6203 5519 5234 28549 379 455
Всего 192966 272827 299856 252865 228873 1247387 384 461
Также можно заметить в формуле, а также в таблице, что при размере генеральной совокупности более 5 ООО ее величина не так существенно влияет на размер выборки, поэтому формула в итоге может принять следующий вид:
р(1-рУ п = ——Н—
А2
Таким образом, при размере генеральной совокупности более 5000 достаточно включить в выборку 400 ее представителей. Если учесть вероятность браковки некоторых результатов (как правило поправка составляет 20%), то достаточно сформировать объем выборки равный 480.
3. Объем выборки для изучения влияния социальных факторов
При полученном выше объеме выборки провести анализ влияния социальных факторов с необходимой объективностью может оказаться невозможным, в силу многозначности некоторых факторов. Дело в том, что каждый уровень (значение) фактора требует определенное количество наблюдений (группа респондентов) для того чтобы адекватно его представить и иметь возможность сравнить с другими. Решается задача определения искомого минимального объема выборки, позволяющей исследовать влияния факторов, с помощью теории анализа мощности статистических критериев [1, 2].
Итак, в исследовании рассматривается влияние следующих 4 социальных факторов.
1. Возраст (лет): 16-19; 20-24; 25-29; 30-34; 35-39.
2. Образование: неполное среднее; среднее; средне-специальное, незаконченное высшее (студент вуза); высшее.
3. Род занятий респондентов: работник сельского хозяйства (скотовод, земледелец и т.п.); наемный рабочий (рабочий на производстве, строитель, инженер и т.п.); служащий (служащий в государственно-управленческом аппарате, образовании, здравоохранении, военный и т.п.); обучающийся (школьник, студент); творческая и интеллектуальная
деятельность (культура, искусство, наука и т.п.); предприниматель (торговля, сфера услуг и т.п.); безработный.
4. Пол респондентов: мужской; женский.
Среди данных категориальных факторов наибольшее количество значений (7 вариантов) имеет фактор отражающий род занятий респондентов. И именно этот фактор будет предъявлять наибольшие требования к объему выборки для определенного аймака (группы аймаков или город). Данные получаемые по всем уровням факторов будут иметь частотный вид. И для сравнения определенной пары групп (совокупностей), например, рабочих с предпринимателями, по интересующим признакам будет применяться z-критерий на основе пропорций. Объем выборки в таком случае будет вычисляться по следующей формуле:
iPi-Pi)
где п - объем выборки для каждой группы; р,- первая частота (доля);
р2- вторая частота; (р] ~р2)~ оцениваемое различие; А - параметр, зависящий от уровня значимости (статистика Стьюдента, обычно равно 1,96 при 5% уровне значимости); В - параметр, зависящий от мощности критерия (обычно равно 0,84 при мощности 80%).
В результате проведенных расчетов с помощью программы Statistica (модуль «Анализ мощности») получены следующие данные (табл.2). Зависимость объема выборок от мощности двустороннего z-критерия для двух пропорций отражает график на рисунке 1.
Таблица 2
Результаты расчета объема выборки для двух пропорций
№ Параметры анализа Значение
1 Пропорция первой совокупности Р1 0,7
2 Пропорция второй совокупности Р2 0,5
3 Ошибка 1 рода (Alpha) 0,05
4 Требуемая мощность (Р) 0,80
5 Объем выборки N1 93
6 Объем выборки N2 93
160 150 140 130 120 110 100 90
Сравнение двух пропорций: Оценка объема выборки Две пропорции, Z-критерий (НО: РИ = Pi2) М от Power (РИ = 0.7, PI2 = 0;5, Alpha = 0,05)
Рис.
80
0,70 0.75 0,80 0.85 0.90 0,95 1.00
Итоговое Р
1. Зависимость объем выборки (N) от мощности критерия (Р)
Таким образом, для анализа влияния данного фактора потребуется 93 наблюдений по каждому уровню фактора (для их сравнения), т.е. потребуется п = 97 * 7 = 651 испытуемых для того чтобы выявить разность пропорции между совокупностями 20% (0,7-0,5=0,2) при мощности критерия равным 80% и уровне достоверности 5%. Принятые значения мощности критерия и уровня достоверности считаем достаточным для данного социологического исследования. Если учесть поправку на выбросы 20%, то в итоге мы получим минимальный требуемый объем выборки равный 782. Аналогичные вычисления можно провести и для остальных факторов. При вводе тех же значений параметров для остальных социальных факторов мы получим то же самое значение - 93 респондента для каждого уровня (93*120%=112 с учетом поправки на выбросы).
Структуру выборки при выше описанных условиях можно наглядно представить в виде дерева (рис.2). Набор респондентов в соцопросе должно быть таким, что все условия каждой вершины дерева выполнялись.
Генеральная совокупность - молодежь Монголии N = 1077258 чел.
Выборка п > 782
Род деятельности^
творческая деятельность п> 112
работник
iрабочий 112
обучающийся
безработный
служащий п> 112
'предприниматель
мужской
Образование
среднее
среднее
Рис.2. Структура выборки для социологического опроса молодежи
Монголии
Заключение
Из проведенного анализа можно сделать следующий вывод. Для адекватной оценки общественного сознания молодежи Монголии (одного из аймаков, г.Улан-Батора) потребуется объем выборки равный 480 респондентов. Если, кроме этого, предполагается изучение влияния социальных факторов, то объем необходимо увеличить до 782 респондентов. И при этом по каждой категории всех четырех социальных факторов должно быть не менее 112 человек с учетом поправок на выбросы.
Литература
1. John М. Castelloe. Sample Size Computations and Power Analysis with the SAS System / SUGI Proceedings, 2000 - SAS Institute Inc. - Режим доступа : http://pubhealth.spb.ru/SASDIST/SScomp.htm
2. Lemeshko B.Yu., Gorbunova A.A., "Application and Power of the Non-parametric Kuiper,Watson, and Zhang Tests of Goodncss-of-Fit". Meas. Tech., 56:5 (2013), 465-475.
Цыбикое Анатолий Сергеевич, кандидат педагогических наук, старший научный сотрудник Научно-образовательного и инновационного центра системных исследований и автоматизации Бурятского государственного университета, e-mail: [email protected]
Нямхуу Батжаргал, профессор Института иностранного языка Монгольского университета науки и технологий, e-mail: [email protected]
Дагбаев Эрдэм Данзанович, доктор социологических наук, профессор Кафедры политологии и социологии Бурятского государственного университета, e-mail: [email protected]
Дармаев Тумэн Гомбоцыренович, кандидат физико-математических наук, доцент, заведующий лабораторией вычислительных и геоинформационных систем Бурятского государственного университета, e-mail: [email protected]
Tsybikov Anatoly Sergeevich, senior researcher, scientific and educational innovation center of system research and automation, Institute of Mathematics and Computer Science, Buryat State University, e-mail: [email protected]
Nyamhu Batjargal, Professor of Mongolian University of Science and Technology, e-mail: [email protected]
Dagbaev Erdem Danzanovich, Doctor of social sciences, professor of Political Science and Sociology of the Buryat State University, email: edagbaev@mail. ru
Darmaev Tumen Gombotsyrenovich, candidate of physical and mathematical sciences, associate professor, head of laboratory of calculation and geoin-formational technologies, scientific and educational innovation center of system research and automation, Institute of Mathematics and Computer Science, Buryat State University, e-mail: [email protected]