1 Идея корпуса ошибок была сформулирована в ходе дискуссий неформального объединения исследователей «Методический цех». Прежде всего мы благодарны Т.Э.Османову и Н.И.Галиевой за критическое отношение к задуманным экспериментальным планам и конструктивное обсуждение полученных результатов.
Концептуализация
ошибки
2 См., напр. Groves et al. 2009; Lyberg 2012.
лржтпжш социолога___________
Д.М.Рогозин, Д.И.Сапонов
КОРПУС ОШИБОК АВТОМАТИЗИРОВАННОГО ТЕЛЕФОННОГО ОПРОСА1
Ключевые слова: длительность интервью, корпус ошибок, общая теория ошибок, параданные, телефонный опрос
Развитие технической составляющей массовых опросов сформировало особую реальность регистрируемых в ходе интервью признаков, не подпадающих под прямой интерес аналитиков. Если всего лишь несколько десятков лет назад количественные социальные обследования связывались лишь с ответами на анкетные вопросы, то теперь исследователь может оперировать десятками дополнительных переменных (параданных), описывающих особенности вопрос-ответной коммуникации, контекст и паралингвистические характеристики ответа. Параданные позволяют по-иному посмотреть на методологию массовых опросов, выделить значимые признаки качества опросного инструмента.
В президентском послании 2013 г. членам Американской ассоциации исследователей общественного мнения (AAPOR) Пол Лавракас обобщил более чем 20-летний опыт изучения ошибок массовых опро-сов2. Такого рода ошибки делятся на две большие группы. Во-первых, ошибки измерения, отражающие неточность операционализации, речевые сбои, эффект интервьюера, не совсем верно трактующего ответ, и эффект исследователя, искажающего результаты измерений. Во-вторых, ошибки репрезентации (смещение основы выборки от целевой группы), связанные с технической недостижимостью адекватного варианта или непопаданием в выборку потенциальных респондентов из-за высокого уровня отказов, а также со смещениями, вызванными «ремонтом» и редактированием выборки (см. рис. 1).
При объективированном представлении о социальной реальности ошибки определяются через отклонение получаемых результатов от некоей истинной характеристики измеряемого объекта. Соответствие измеряемой и истинной величин принято называть валидностью. Однако при таком угле зрения истинная характеристика всегда остается неизвестной, тем самым разрушая эвристическую ценность данного подхода. В рамках конструктивистского направления развития методологии, о котором шла речь выше, ошибкой «назначается» отклонение, регистрируемое на каждом аналитическом переходе: от конструкта
ТОЛПГЛТ № 4 (75) 2014
145
лржижш counoAom
Рисунок 1 Общая теория ошибок3
3 Lavrakas 2013: 835.
к измерению, ответу, набору данных — в ошибках измерения; от целевой группы к основе выборке, спроектированной и реализованной выборке — в ошибках репрезентации. Ошибки двух видов совмещаются на последнем этапе, когда исследователь формулирует выводы и заключения и дает рекомендации по результатам исследования. Именно на последнем этапе присутствует риск ошибок в обыденном понимании, то есть ложных заключений, не соответствующих характеристикам измеряемых объектов. На всех предыдущих этапах мы имеем дело с ошибками конструктивистского типа — приписыванием реальности неких черт, не учитывающих специфику измерительных процедур. Другими словами, ошибки каждого этапа обусловлены не объективным несоответствием исследовательских процедур изучаемому объекту, а ложностью предлагаемых интерпретаций, из которых исключены значимые особенности измерения. «Каждая выборка репрезентативна, — любил повторять Геннадий Батыгин. — Увы, мы редко знаем, что она репрезентирует».
Под ошибкой мы понимаем отклонение любого показателя в опросе, если оно не учитывается в финальных заключениях, признается ничтожным, незначимым для производства научного вывода. Если же, скажем, в ходе поведения опроса интервьюер вмешивался в ответы респондента, предлагал варианты, корректировал формулировку вопроса, но все эти моменты были учтены при анализе данных, ошибкой они считаться не будут. Не принимая во внимание коммуникативные практики и приравнивая ситуации нейтрального и активного речевого взаимодействия, мы конституируем ошибки, создавая зоны неразличимости и подобия. Поскольку текущий анализ данных опирается на аксиоматику равенства опросных ситуаций для всех единиц наблюдения, мы рассматриваем как ошибку изменение показателя при варьировании
146
ЮЖ” № 4 (75) 2014
________________ПРШ1ЖШ СОИЮАОПН_________________________
условий опроса, выпадающем из поля аналитических процедур. Так, продолжительные интервью, сопровождающиеся пояснениями ответов, не должны приводить к содержательным различиям по сравнению с короткими интервью, построенными на односложных репликах, — если, конечно, мы не включаем признак длительности интервью в структуру описания социального мира.
Технически ошибка представляет собой разность двух долей в строках частотной таблицы, построенных по содержательным признакам. Первая доля, контрольная, рассчитывается по всему массиву и фиксирует привычный для обществоведов признак, тиражируемый в научной и политической среде. «Вы согласны или не согласны с мнением, что Крым — это Россия?» — задают вопрос респондентам на внушительной выборке в 48590 человек Фонд «Общественное мнение» и ВЦИОМ. «Да, согласен», — зарегистрировано в 86% анкет, «Нет, не согласен» — в 9%. Именно эти значения образуют две группы, для которых, в соответствии с нашей логикой обнаружения ошибок, нужно подобрать экспериментальные доли, рассчитанные не по всему массиву, а по его части, отражающей выборочные или измерительные особенности проведения опроса. Например, анализируя эффект интервьюера, можно закодировать стаж работы последнего и выделить верхний квартиль. Чтобы оценить, какая ошибка (в процентных пунктах) связана с интервьюерами с максимальным стажем, от контрольной доли, посчитанной по всему массиву, следует отнять экспериментальную, посчитанную по интервьюерам, исключая тех, кто по стажу попал в верхний квартиль. В такой операции вычитания важно выполнять два условия: техническое и концептуальное. Во-первых, обе доли (контрольная и экспериментальная) должны быть рассчитаны по одному варианту ответа. Мы замеряем ошибки, связанные не с вопросами, а с ответами. Именно поэтому итоговой характеристикой качества исследования для нас выступает эффект ответа, или отклонения в конкретных ответах, получаемые по методическим признакам (стаж работы интервьюера, продолжительность интервью, прерывание интервью и т.д.). Во-вторых, необходимо иметь в виду, что такое конструирование ошибки не указывает на причинно-следственные связи. Тот факт, что доли положительных ответов на вопрос о Крыме по всей выборке и по той ее части, которая относится к интервьюерам с минимальным стажем, будут различаться, не говорит о том, что опытные интервьюеры совершают меньше или больше ошибок. Поскольку описанная процедура не в состоянии установить некое истинное значение ответа (и не претендует на его установление), при возникновении значимых различий между контрольными и экспериментальными долями мы лишь можем утверждать, что полученное распределение сомнительно и подвержено эффекту ответа.
Подобная методическая проблематизация опросной процедуры не типична для российского сообщества. Полученным распределениям приписывается статус пусть относительных, но истин. Как политики,
ТОАП1Г №4 (75) 2014
147
Структура массива частотных таблиц
Таблица 1
_______________ПРШШКММ СОИЮАОПН____________________
так и исследователи лишь пытаются обосновать или подвергнуть сомнению сами распределения. Общая теория ошибок исходит из иной парадигматики. Мы ничего не можем сказать о качестве измерения, опираясь исключительно на полученные распределения. Без сопоставления с дополнительными, техническими характеристиками опроса (параданными) их значения представляют собой не более чем риторические фигуры публичной речи, подкрепленные лишь личной харизмой или социальным статусом. Для обоснования и валидизации опросов необходимо проанализировать значения смещений в разных методических разрезах — что и позволяет делать предлагаемая концептуализация ошибок.
Исходные данные для корпуса ошибок — это набор частотных таблиц, рассчитанных по всем переменным анализируемого опроса. Получаемый в результате преобразования таблиц массив имеет простую структуру и состоит из девяти переменных (см. табл. 1). Будем называть его массивом частотных таблиц, или преобразованным массивом.
Структура преобразованного массива до реструктуризации
№ Переменная Комментарий
vl Название проекта
v2 Метка разности Метка разности указывает на таблицы, которые в дальнейшем будут сопоставлены, поскольку на втором шаге, после реструктуризации, единицей анализа (строкой) будет разность двух долей.
v3 Вопрос Формулировка вопроса (из частотной таблицы)
v4 Закрытие Формулировка закрытия (из частотной таблицы)
v5 Тип строки Валидные/пр опущенные (из частотной таблицы)
v6 Частота Из частотной таблицы
v7 Процент Из частотной таблицы
v8 Валидный процент Из частотной таблицы (если не потребуется, будет удален)
v9 Накопленный процент Из частотной таблицы (если не потребуется, будет удален)
Первая переменная определяет уникальный идентификатор проекта, что позволяет при необходимости сравнивать ошибки разных исследований. Вторая переменная — наиболее сложная и теоретически нагруженная. Именно она дает возможность формировать пространство
148
Т10АПГКГ № 4 (75) 2014
________________ПРШШКММ С0Ш10А0ГПЯ_______________________
признаков ошибок. Оставшиеся семь переменных полностью отражают структуру частотной таблицы, выводимой в пакете SPSS (см. рис. 2). Последние две из них (v8 и v9) избыточны, но поскольку формирование массива проводится автоматически, мы не стали их удалять на первом шаге.
Рисунок 2 Список переменных в редакторе данных пакета SPSS
(Jjji *fl.sav [Набордзнных4] - Редактор данных IBM SPSS Statistics
Файл Правка Вид Данные Преобразовать Анализ Прямой маркетинг Графика Сервис Окно Справка
0 ШЗ К-' ГМ Н Mi ga ш ^ш ■ А] \л}4 si
| [Показано 9 переменных из 9
var1 var2 var3 var4 var5 var6 var7 var8 II
1 Телефонник 4000 Полные минус без коротких (менее 870 с) Пол Валидные 1 Мужской 1713 42,3 42,4 42,4
2 Телефонник 4000 Полные минус без коротких (менее 870 с) Пол Валидные 2 Женский 2331 57,6 57,6 100,0
3 Телефонник4000 Полные минус без коротких (менее 870 с) Пол Валидные Итого 4044 100.0 100,0
4 Телефонник4000 Полные минус без коротких (менее 870 с) Поп Пропущенные Системные про... 1 .0
5 Телефонник4000 Полные минус без коротких (менее 870 с) Поп Итого 4045 100,0
6 Телефонник 4000 Полные минус без коротких (менее 870 с) Группы... Валидные 1 18-29 лет 992 24,5 24,5 24,5
7 Телефонник 4000 Полные минус без коротких (менее 870 с) Группы... Валидные 2 30-39 лет 805 19,9 19,9 44,4
8 Телефонник4000 Полные минус без коротких (менее 870 с) Группы... Валидные 3 40-49 лет 690 17,1 17,1 61,5
9 Телефонник4000 Полные минус без коротких (менее 870 с) Группы... Валидные 4 50-59 лет 747 18,5 18,5 80,0
10 Телефонник4000 Полные минус без коротких (менее 870 с) Группы... Валидные 5 60 лет и стар.. 810 20,0 20,0 100,0
11 Телефонник4000 Полные минус без коротких (менее 870 с) Группы... Валидные Итого 4044 100,0 100,0
12 Телефонник 4000 Полные минус без коротких (менее 870 с) Группы... Пропущенные Системные про... 1 ,0
11 Rr-* олг^пплу Гч«м« В7П М Г"""» Итого лплс .ДДП.П l£
г; тДЛ- • I [ Данные|[п е"ременные|
| |Процессор IBM SPSS Statistics готов |
Единица наблюдения преобразованного массива — строка частотной таблицы. Соответственно, количество строк в таком массиве равно количеству частотных таблиц, или количеству переменных исходного массива. Если мы преобразуем несколько массивов разных исследовательских проектов, то количество строк в преобразованном массиве равно сумме всех переменных (вопросов) всех анализируемых проектов. Идентификация уникальных вопросов производится по двум переменным преобразованного массива: названию проекта (v1) и метке разности (v2). Если в разных проектах применялись одинаковые или близкие (с незначительным изменением формулировок) вопросы и нам важно их выделить, необходимо провести дополнительную кодировку и добавить переменную «универсальный вопрос» (v10), которая будет включать уникальные коды для вопросов из разных проектов. Прежде всего речь идет о социально-демографических признаках и ключевых для политических, социальных или экономических исследований переменных (например, таких, как субъективное благосостояние, электоральная активность, потребительские настроения и т.д.).
ТОЛП1Г № 4 (75) 2014
149
Метки разности
Рисунок 3
_________________ПРШШКММ СОИЮАОПН________________________
Наиболее значимая переменная преобразованного массива — метка разности, которая обозначает знаменатель экспериментальных долей и фактически отражает наши представления об ошибках. С одной стороны, следует стремиться к тому, чтобы метки разности максимально соответствовали теоретическим представлениям об ошибках исследования. С другой — мы располагаем весьма ограниченным набором возможностей для такого рода операций. Параданные (то есть информация, сопутствующая измерению содержательных величин) не столь разнообразны и, как правило, ограничиваются техническими характеристиками проведенного исследования. Мы можем лишь моделировать и гипотетически связывать те или иные зависимости с представлениями о смещениях.
Как отмечалось выше, ошибки исследования можно разбить на ошибки репрезентации и измерения. Если одновременно с этим разделить контекстуальные (относящиеся ко всей анкете или внешним атрибутам коммуникации) и содержательные эффекты, можно построить пространство признаков ошибок. Мы выделяем восемь ситуаций, способных повлиять на возникновение смещений в ответах: (1) затруднения с ответом или отказ от ответа на конкретный вопрос, (2) прерванные интервью, (3—4) короткий / длительный ответ на конкретный вопрос, (5—6) короткое / продолжительное интервью, (7—8) проведение опроса в выходной день и нерабочее время (см. рис. 3).
Метка разности указывает на тип конструируемой ошибки, который определяется исходя из предположений о значимых смещениях, связанных с тем или иным видом параданных (например, с продолжительностью интервью или с особенностями прерванных разговоров).
Пространство признаков совокупной ошибки исследования
НЕОТВЕТЫ
Ошибки репрезентации
ОТВЕТЫ
Ошибки измерения
Затруднения с ответом Короткий ответ Длительный ответ
Прерванные интервью Короткие интервью Длительные интервью Опрос в выходные дни Опрос в нерабочее время
150
Т10АПГКГ № 4 (75) 2014
Реструктуризация
преобразованного
массива
Таблица 2
_________________ПРШШКММ СОИЮАОПН__________________________
Реструктуризация производится, чтобы перейти от массива частотных таблиц к массиву разностей. Для этого однотипные таблицы, загруженные одна под другой, надо привести к виду: одна слева от другой. Это позволит сопоставлять два столбца в плоской таблице — например, долю мужчин в полном массиве и долю мужчин в массиве, из которого удалены 20% самых продолжительных по времени интервью.
Чтобы получить ровно два столбца, нужно задать группирующие переменные: идентификатор вопроса и конкретное закрытие (вариант ответа). Если в базу загружено несколько групп таблиц из одного массива, их следует различать, иначе после реструктуризации по двум переменным мы получим больше двух столбцов. Эту задачу выполняет метка разности, которая однозначно указывает на то, между какими основаниями вычисляется разность распределений. На каждую метку разности необходимо загрузить два набора таблиц из одного файла. После реструктуризации единицей анализа становится разность между двумя частотными таблицами (сконструированная ошибка). Каждая разность привязана к закрытию конкретного вопроса и изменению условий, которыми она обусловлена.
Единицей наблюдения в корпусе ошибок опроса является разность долей в двух частотных таблицах. Если в одной из сравниваемых таблиц есть системные пропуски, а в другой нет, то доли различаются из-за того, что в одном случае в базу для расчетов входят системные пропуски, в другом не входят. Очевидно, что для корректного сопоставления разных исследований подлежащие сравнению доли должны быть рассчитаны без учета системных пропусков.
Если сравнивать не процент, а валидный процент, то в случае отсутствия системных пропусков сравнение валидных процентов равносильно сравнению процентов. Мы решили не рассматривать переменные, в которых присутствуют системные пропуски (см. табл. 2). Перед сравнением процентных долей массивы частотных таблиц подвергаются следующим преобразованиям: (1) из всех таблиц удаляются закрытия «итого» и «системные пропуски»; (2) если в одной из таблиц, необходи-
Таблица с системными пропусками
Вопрос о доходах от сдачи чего-либо в аренду
Час- тота Про- цент Валидный процент Накоп- ленный процент
0 НЕ ВЫБРАН 4187 28,3 98,8 98,8
Валидные 1 ВЫБРАН 49 0,3 1,2 100,0
Итого 4236 28,7 100,0
Пропу- щенные Системные пропущенные 10545 71,3
Итого 14781 100,0
ТОЛП1Г № 4 (75) 2014
151
Геометрическая интерпретация массива разностей
ЛРШПЧКММ СОИЮАОШ
мых для расчета меток разности, присутствуют системные пропуски, удаляются обе таблицы; (3) при наличии в таблице долей, равных 100%, она удаляется. После такого рода преобразований можно автоматически создать единый массив разностей.
Наша исходная задача — анализ ошибок и смещений, наблюдаемым по всем без исключения переменным. Мы выделяем относительно немного «причин», которые, согласно нашей модели, приводят к ошибкам во всех переменных. Величина ошибок варьирует (так, одни вопросы могут вызывать куда больше затруднений с ответом, нежели другие). Наша аналитическая ситуация кардинальным образом отличается от тех, с которыми обычно сталкивается аналитик. Построение моделей, как правило, основано на поиске набора независимых переменных, оказывающих наибольшее влияние на одну зависимую. Другими словами, зависимая переменная всегда объясняется некоторым набором независимых, что и составляет классический пример регрессионных или корреляционных моделей. Массив разностей строится для получения обратной ситуации: небольшого количества независимых переменных, которые мы называем «причинами» ошибок, и множества самих ошибок, число которых ограничено лишь совокупностью анкетных вопросов всех включенных в анализ исследовательских проектов.
Остановимся на этом сюжете чуть подробнее. Почему мы не можем воспользоваться стандартными алгоритмами моделирования взаимосвязей, будь то регрессии, дающие решение в аналитическом виде, или деревья классификации с набором правил, по которым происходит присвоение предсказанного значения целевой (зависимой) переменной? Казалось бы, мы не отходим от привычной постановки задачи. Нас интересует взаимосвязь между всеми переменными опроса и одним источником возможных ошибок. С помощью, например, деревьев классификации можно найти такие сегменты, в которых концентрация группы, выступающей источником ошибки, максимальна. Допустим, по нашей гипотезе, источником ошибки являются короткие интервью. Тогда с помощью деревьев классификации мы сможем обнаружить и описать группы, в которых концентрируются такие интервью. Это важный результат — но не тот, к которому мы стремимся. Для формирования корпуса ошибок нам надо предсказать изменения значений переменных в случае удаления потенциальных источников ошибок. Другими словами, нам нужно сравнить результаты двух массивов данных: исходного и после удаления наблюдений, содержащих выделенный источник ошибок, например слишком короткие интервью. Аналитическая работа строится в логике «что если». Что будет с результатами опроса, если мы удалим источник ошибки?
Если прибегнуть к геометрической аналогии, то результаты опроса можно представить в виде точки в многомерном пространстве, размерность которого равняется суммарному числу всех закрытий по всем
152
Т10АПГКГ № 4 (75) 2014
_________________ПРШШКММ С0Ш10А0ГПЯ_______________________
вопросам. Когда мы удаляем источник ошибки, эта точка смещается, а само смещение описывается многомерным вектором. При рассмотрении сразу нескольких источников ошибок мы переходим к множеству векторов, начинающихся в контрольной точке, соответствующей результатам исходного массива, и заканчивающихся в точке, которая соответствует результатам «усеченного» массива данных после удаления источника ошибки. В рамках приведенной геометрической аналогии мы можем определить основные параметры массива вторичных данных после реструктуризации. Единица наблюдения (строка) — это координата вектора, а метка разности — его имя. Геометрическая интерпретация позволяет оценивать эффект одновременного действия двух и более источников ошибок как векторную сумму.
Объект
исследования
4 Методику расчета подробнее см. Рогозин [Rogozin] 2012: 67—68.
Рассмотрим результаты четырех телефонных опросов, проведенных Центром методологии федеративных исследований Института социального анализа и прогнозирования РАНХиГС в 2012—2013 гг. (см. табл. 3). Выборки во всех опросах проектировались и реализовывались по схожей схеме на основе опубликованных на официальном сайте Россвязи ABC- и DEF-диапазонов телефонных номеров, задействованных в регионах Российской Федерации. ABC-диапазоны включают в себя географически привязанные номера (стационарные телефоны, в том числе квартирные), номера из DEF-диапазонов не обладают жесткой географической привязкой (мобильные номера). Иначе говоря, опросы проводились по двухосновной выборке мобильных и стационарных номеров телефонов. Количество отбираемых в диапазоне номеров было прямо пропорционально общему количеству номеров в диапазоне (объему диапазона). Выбор номеров из диапазонов осуществлялся случайным образом при помощи систематического отбора с шагом, равным отношению объема диапазона к количеству отбираемых в диапазоне номеров. При таком способе отбора каждый телефонный номер из обоих диапазонов имел равную вероятность попасть в выборку. Отбор респондентов производился отдельно для DEF- и ABC-диапазонов. Регулируемым параметром в выборке являлась квота на DEF-и ABC-номера. Этот параметр рассчитывался на основе данных общероссийского опроса Фонда «Общественное мнение», проведенного в мае 2011 г.4
Главное различие между спроектированными выборками состоит в целевых группах, которые они репрезентируют. Мониторинг заработных плат, бедности и социального неравенства («доходы») охватывал всех граждан РФ старше 18 лет. В опросе населения Владимирской области («монделиз») принимали участия лица от 18 до 70 лет. В общероссийском исследовании пенсионных ожиданий («пенсионная реформа») опрашивались граждане от 18 до 45 лет. Наконец, при изучении социальных рисков пожилого возраста («старение») интервью проводились с респондентами не моложе 45 лет. Установленные параметры
ТОЛП1Г № 4 (75) 2014
153
ТЮАПТГН" №4(75) 20 и
Таблица 3
Исследования, составившие эмпирическую базу для выделения корпуса ошибок
Проект Регион Звонковый центр Даты проведения опроса Полные интер- вью Коэффициент ответов RR3 Коэффициент отказов REF3 Коэффициент кооперации СООР1
Мониторинг заработных плат, бедности и социального неравенства РФ Квалитас, Айкьюлайн, Контекст, Социум 18-28.08. 2013 4045 6% 14% 28%
Диагностика качества жизни населения Владимирской области Влади- мирская обл. Квалитас, Максима 30.09-15.10. 2013 3506 49%
Прогнозный анализ механизма повышения эффективности накопительной составляющей пенсионного обеспечения в РФ РФ Квалитас, BCGroup 01-07.11. 2012 1500 13% 39% 25%
Социальные риски пенсионного и предпенсионного возрастов РФ Квалитас, Контекст 17-24.04. 2013 1602 48% 26%
ЛРШПЧКММ С01Ш0А0Ш
_________________ПРШШКММ С0Ш10А0ГПЯ_______________________
накладывали ограничения на формирование выборки и снижали коэффициенты результативности из-за необходимости отсева людей, не входящих в целевую группу, но попавших в выборку вследствие случайного генерирования телефонных номеров.
В результате объединения данных преобразованных массивов по четырем проектам получен корпус ошибок объемом 3183 строк (см. табл. 4). Каждая строка представляет разность долей закрытий двух частотных таблиц, включающих переменные, вошедшие в исследование и удовлетворяющие условиям формирования корпуса ошибок. Объем последнего зависит от количества вопросов и закрытий в каждом опросе. Так, дихотомический вопрос («да», «нет» плюс «затрудняюсь ответить») будет давать три строки в матрице данных, вопрос с пятибалльной (без учета «затрудняюсь ответить») шкалой ответов — шесть.
Таблица 4 Объем корпуса ошибок, количество строк в массиве
Исследование Включены прерванные интервью Исключены выходные дни Исключены выходные дни и нерабочее время Исключены длинные интервью Исключены короткие интервью Итого
ДОХОДЫ 22 210 210 193 187 822
МОНДЕЛИЗ 16 253 253 253 253 1028
ПЕНСИОННАЯ РЕФОРМА 13 135 134 135 135 552
СТАРЕНИЕ 13 192 192 192 192 781
Итого 64 790 789 773 767 3183
Расчеты проведены по четырем основаниям: прерванные интервью, опрос в выходные дни, опрос в нерабочее время, длинные и короткие интервью. Длинные и короткие интервью определялись после разбиения массива на семь равных по длительности интервью групп, доли группы длинных и группы коротких интервью составляют примерно 14%. Минимальный объем корпуса ошибок по основанию «прерванные интервью» связан с тем, что основная часть прерываний приходится на начало опроса. Это единственные данные, для получения которых пришлось обращаться к дополнительному источнику (массиву всех соединений с абонентами), поскольку прерванные интервью исключены из массивов данных. Основание «нерабочее время» не выделено отдельно, а добавлено к «выходным дням» из-за небольшого числа наблюдений.
ГОЛПГЛТ №4 (75) 2014
155
Предварительные
результаты
Таблица 5
_______________ПРШШКММ СОИЮАОПН_____________________
Все метки разности, отражающие ошибки исследования, имеют очень низкие значения — менее одного процентного пункта. Исключение составляет лишь разность в значениях, рассчитанных без интервью, проведенных в выходные дни и нерабочее время, по проекту «пенсионная реформа». Но и в этом случае значение ошибки лишь немного превышает процентный пункт (см. табл. 5).
Средние значения смещений для разных проектов (в процентных пунктах)
Проекты Исключены выходные дни Исключены выходные дни и нерабочее время Исключены длинные интервью Исключены короткие интервью
ДОХОДЫ 0,27 0,40 0,44 0,32
МОНДЕЛИЗ 0,36 0,39 0,33 0,43
ПЕНСИОННАЯ РЕФОРМА 0,94 1,21 0,63 0,70
СТАРЕНИЕ 0,64 0,79 0,56 0,44
Столь низкие значения ошибок могут быть обусловлены двумя причинами. Первая — это высокое качество проведенных исследований, действительное отсутствие весомых систематических смещений. Вторая — некорректный выбор оснований для расчета ошибок. Возможно, проведение опроса в выходные и будние дни, в рабочее и нерабочее время, а также продолжительность интервью — плохие маркеры для оценки качества опроса. Иначе говоря, содержательные характеристики исследования (ответы на вопросы) не зависят от временных контекстуальных характеристик. На имеющихся у нас данных нельзя опровергнуть ни первую, ни вторую гипотезу. Поэтому, не отказываясь ни от одной из этих гипотез, следует накапливать дополнительный экспериментальный материал. Во-первых, целесообразно расширить количество исследований и попытаться оценить устойчивость полученных результатов на разных по содержанию и контексту материалах телефонных опросов. Во-вторых, важно получить подобные данные по личным стандартизированным интервью. Для этого требуются опросы с автоматизированным сбором данных, что само по себе представляет нетривиальную задачу, учитывая особенности отечественной опросной индустрии. Но только таким образом мы можем сопоставить данные телефонных и личных интервью и проверить, насколько выделенные основания чувствительны к способу организации полевых работ. В-третьих, нужно продолжать поиск оснований для выделения ошибок. Возможно, мы пропустили какие-то значимые сопутствующие перемен-
156
Т10АПГКГ № 4 (75) 2014
ЛРШПЧКММ С01Ш0А0Ш
5 Подробнее о методе см. Шафир [Shafir] 2007, 2009.
ные, которые несут в себе необходимую и достаточную информацию о качестве исследования.
Для визуализации смещений, построенных по разным основаниям для четырех проектов, воспользуемся анализом соответствий5, который позволяет обеспечить графическое представление сложных наборов данных, размещая их по двум условным осям координат. Ни у одной из осей нет особой смысловой нагрузки, однако процентные значения указывают на вклад каждой из них в объяснение размещенных на них признаков. В рассматриваемом нами случае основная нагрузка в установлении различий приходится на горизонтальную ось — 75%. Вертикальная ось объясняет менее четверти выделенных признаков (см. рис. 4).
Рисунок 4 Графическое представление анализа соответствий*
* Симметричная нормализация. Стандартизация — удаление средних строки и столбца.
В пространстве соответствий размещены два набора данных: исследовательские проекты (квадратные метки) и основания для выделения ошибок (ромбовидные метки). При таком виде стандартизации (удаление средних строки и столбца) анализируются только отклонения отдельных ячеек от среднего, что соответствует исследованию взаимосвязи между строками и столбцами. Чем дальше точка от начала координат, тем больше разброс значений отельных ячеек этой категории, то есть тем ярче выражены различия в ней. Так, разброс средних значений в проектах «доходы» и «пенсионная реформа» выше, чем в проектах «монделиз» и «старение». Другими словами, из четырех проектов вероятность наличия систематических смещений выше всего у «пенсионной реформы». В свою очередь, наибольшее влияние на изменение содержательных распределений оказывают основания, связанные не с продолжительностью интервью, а с проведением опроса в рабочее и нерабочее
ТОЛП1Г № 4 (75) 2014
157
Обсуждение
________________ПРШШКММ С0Ш10А0ГПЯ______________________
время. Поскольку ббльшая часть выборки (около 70%) приходится на мобильные телефоны, различия в распределениях ответов отражают не недоступность тех или иных групп населения, а особенности ответов в разное по отношению к работе время.
Сопутствующие данные, связанные с особенностями речевой ситуации, только тогда помогают выявлять ошибки, когда параданные в меньшей степени зависят от психологических или социальных особенностей респондентов и в большей — от коммуникативного контекста. Так, продолжительные интервью могут указывать на особую группу респондентов, которым требуется большее время для формулирования своих ответов и/или мнение которых по тем или иным вопросам существенно расходится с мнением большинства. В этом случае мы регистрируем не ошибки, а еще один коммуникативный признак, определяющий вербальное поведение особой группы. Искусственные попытки освободиться от такой группы снижают надежность измерений и ставят под угрозу репрезентативность выборки.
С помощью деревьев классификации попробуем отыскать группы, в которых регистрируемые дополнительные признаки проявляются чаще, чем в целом по массиву. Насколько респонденты в таких группах отличаются от средних по выборке по своим социальнодемографическим характеристикам? Имеются ли у них некие специфические признаки, которые связаны с параданными? Сохраняются ли обнаруженные зависимости в разных проектах, то есть насколько устойчивы выявляемые закономерности по отношению к специфике проводимого опроса? Начнем с параметра «продолжительность интервью» (см. рис. 5).
Короткие интервью во всех без исключения опросах связаны с младшими из возрастных групп, принимавших участие в опросе. Точнее, доля коротких интервью у респондентов с меньшим возрастом возрастает. В проекте «старение», где опрашивались люди старше 45 лет, это не так заметно: у респондентов до 66 лет увеличение всего 2%, а темп прироста (отношение разности двух долей к первоначальной доле, умноженное на 100) — 14%. В проекте «пенсионная реформа», где в опросе участвовали лица до 45 лет, у респондентов до 40 лет, проживающих в региональных центрах, и жителей других городов и поселков городского типа до 26 лет увеличение составляет 7% и 70% соответственно. Закономерно, что продолжительные интервью связаны с возрастом обратным образом: их количество возрастает в старших группах. Однако параллельно с переменной «возраст» нередко встречается и переменная «пол». Мужчины старших возрастных групп чаще, чем женщины, склонны долго разговаривать с интервьюером. В проекте «старение» это особенно бросается в глаза в группе мужчин от 58 до 66 лет включительно, в исследовании «доходы» — в группах мужчин от 49 до 65 лет и мужчин старше 65 без высшего образования. Отсутствие
158
Т10АПГКГ № 4 (75) 2014
ЛРЖТШКММ С01Ш0А0Ш
Рисунок 5 Социально-демографический состав групп респондентов с максимальными долями коротких и длинных интервью
короткие интервью
длинные интервью
Увеличение доли с 14% до 24%; до 31 года -100% от подгруппы (1190 респондентов)
Увеличение доли с 14% до 24%; 44-49 лет и пропуск в вопросе о зарплате в месяц - 16%; 25-29 лет, заработок до 14,5 тыс. руб. - 7%; до 24 лет - 40%; 25-34 года и пропуск в вопросе о зарплате в месяц - 37% от подгруппы (849 респондентов)
Увеличение доли с 14% до 26%; мужчины, 49-65 лет - 42%, старше 65 лет - 41 %; начальное и ли общее, начальное профобразование, мужчины, 32-48 лет - 10%, начальное или общее, начальное профобразование, 24-31 год - 8% от подгруппы (986 pecnoHfleHTOBj ________
5 < Увеличение доли с 10% до 17%; до 40 лет,
§ 1 проживающие в региональном центре - 73% и | g до 26 лет, проживающие в другом городе = или пгт - 27% от подгруппы (834 респондента)
Увеличение доли с 14% до 16%; до 66 лет -100% от подгруппы (1281 респондент)
Увеличение доли с 14% до 20%; старше 53 лет - 100% от подгруппы (1166 респондентов)
Увеличение доли с 10% до 13%; мужчины - 100% от подгруппы (1066 респондентов)
Увеличение доли с 14% до 28%; старше 66 лет - 70%, мужчины 58-66 лет - 30% от подгруппы (456 респондентов)
высшего образования влияет на удлинение интервью (хотя и незначительно) и у мужчин младших возрастных групп.
Параметр времени проведения опроса менее чувствителен к социально-демографическим признакам. В двух проектах значимой связи не наблюдается, в одном («старение») увеличение долей незначительно: темпы прироста опрошенных в выходные дни женщин — 7%, а опрошенных в выходные дни и нерабочее время респондентов после исключения проживающих в населенных пунктах с численностью жителей от 250 до 500 тыс. — 9% (см. рис. 6).
Рисунок 6 Социально-демографический состав групп респондентов
с максимальными долями опроса в выходные дни и нерабочее время
Выходные дни
Выходные дни и нерабочее время
се Нет значимых связей g с демографическими переменными
m Увеличение доли с 20% до 28%;
5 совокупный доход семьи за последний I месяц более 40 тыс. рублей -5 100% от подгруппы (436 респондентов)
I 4
II Нет значимых связей
5 g с демографическими переменными
^ Увеличение доли с 30% до 32%; £ женщины - 100% от подгруппы g (946 респондентов)
Нет значимых связей с демографическими переменными
Увеличение доли с 36% до 47%; старше 62 лет - 33%; 62 года, кроме среднего образования - 27%; женщины 29-57 лет с высшим образованием -40% от подгруппы (1037 респондентов)
Нет значимых связей с демографическими переменными
Увеличение доли с 46% до 50%; исключая населенные пункты от 250 до 500 тыс. жителей - 100% от подгруппы (870 респондентов) .......
‘ЮИНГ № 4 (75) 2014
159
Выводы
_________________ПРШШКММ С0Ш10А0ГПЯ________________________
Существенные различия зафиксированы лишь в проекте «монде-лиз», проходившим во Владимирской области. В выходные дни удалось опросить больше представителей семей с совокупным доходом свыше 40 тыс. рублей (темп прироста 40% по отношению ко всему массиву). Социально-демографический состав опрошенных в выходные дни и нерабочее время более пестр. Это лица старше 62 лет, люди от 58 до 62 лет кроме имеющих среднее образование, женщины с высшим образованием от 29 до 57 лет.
Таким образом, если по параметру «продолжительность интервью» между респондентами обнаруживаются устойчивые различия по возрасту и полу, то применительно ко времени проведения опроса значимые связи неустойчивы и проявлены лишь в одном проекте. Вместе с тем существует вероятность того, что коммуникативные параданные (длительность и время проведения опроса) связаны с разными типами опрошенных, что и приводит к различиям в ответах. Поэтому однозначное утверждение об ошибках измерения чревато ошибками вывода, не менее опасными с точки зрения надежности полученных результатов.
Разговор о систематических ошибках, как правило, относится к разряду гипотетических рассуждений. Проводимые экспериментальные планы за редким исключением нацелены на выявление какого -либо типа ошибки при эксплицитном утверждении о нивелировании оставшихся (при прочих равных условиях). Подход, направленный на атомизацию разного рода систематических смещений, несистематическое их рассмотрение, подрывает основы научного анализа надежности опросного инструмента. Отсюда широкое распространение псевдоэкспериментальных штудий, когда сопоставляются лишь конечные результаты проведенных опросов (распределения ответов на конкретные вопросы), а также — в случае значимых расхождений с данными Росстата или других исследований — различного рода спекуляций на тему о том, где и кем нарушена процедура, кто является инициатором фабрикаций или их бенефициаром. Построение корпуса ошибок, объединяющего разнообразные проекты в одну базу данных, позволяет переключить публичные дебаты с бессмысленных препирательств на размышления о причинах и последствиях применения тех или иных технологий.
Сконструированная нами модель построения корпуса ошибок не дала убедительных результатов. Выявленные смещения малы и не влияют на качество данных, хотя методическая интуиция, предыдущие экспериментальные планы и внешние расхождения полученных показателей указывают на наличие явных методических проблем, присутствующих в проанализированных проектах. Вместе с тем проделанную работу нельзя считать полностью провалившейся, что требовало бы и отказа от базовой идеи. В настоящий момент, после нескольких месяцев
160
Т10АПГКГ № 4 (75) 2014
__________________ПРШШКММ С0Ш10А0ГПЯ_________________________
обсуждений, программирования и расчетов, можно говорить о наличии трех значимых достижений.
Во-первых, предложен формальный подход к обнаружению систематических ошибок. Последние определяются как разность значений отдельных переменных в выборке, репрезентирующей всю совокупность респондентов, и подвыборке, из которой удалены единицы наблюдения, регистрируемые при иных контекстуальных условиях или обладающие другим набором сопутствующих данных. Принципиальным для такого подхода является выбор соответствующих условий и наборов сопутствующих данных. Мы остановились на времени проведения интервью и его продолжительности. Однако на анализируемых массивах эти факторы не вызвали значимых различий между массивами, а значит, не позволили зафиксировать систематические смещения.
Во-вторых, при опоре на программные ресурсы разработан автоматизированный способ трансформации массивов данных отдельных обследований в общий массив, представляющий корпус ошибок. В качестве единицы наблюдения такого массива выбрана ошибка, которая определяется как разность частотных таблиц одной и той же переменной, построенной по разным основаниям (по всему массиву и по массиву с исключенной группой). Процедура перехода от массива данных исследования к корпусу ошибок выполняется в три этапа. На первом этапе строятся таблицы сопряженности по всем переменным массива по двум основаниям. На втором рассчитываются разности в распределениях валидных процентов, образующие переменную «метка значений». На третьем полученные переменные вместе с характеристиками исследования интегрируются в общий массив корпуса ошибок. Тем самым решается задача формирования единой базы ошибок, в которую может загружаться неограниченное число исследовательских проектов, что создает условия для мониторинга качества опросного инструмента.
В-третьих, систематические ошибки привязаны к каждому варианту ответа на анкетный вопрос, благодаря чему можно точнее операци-онализировать смещения. Ответ респондента, в отличие от вопроса или анкеты, представляет собой предельную, базовую форму социального опыта, не разложимую на более мелкие составляющие. Методическая работа с ответами снижает ошибки концептуализации экспериментальных планов и позволяет исследователю работать непосредственно с признаками социальных взаимодействий, не подменяя их абстрактными конструкциями более высокого уровня.
Промежуточность представленных результатов лишь подчеркивает важность и необходимость дальнейших усилий по формированию корпуса ошибок. Несмотря на существенный потенциал, заложенный в подобной методологической перспективе, она требует существенной доработки, к чему мы и призываем методическое сообщество.
ГОЛПГЛТ №4 (75) 2014
161
Библиография
____________________ПРШШКММ С0Ш10Л0ГПЯ_______________________________
Рогозин Д.М. 2012. Либерализация старения, или Труд, знания и здоровье в старшем возрасте // Социологический журнал. № 4 [Rogozin D.M. 2012. Liberalizacija starenija, ili Trud, znanija i zdorov’e v starshem vozraste // Sociologicheskijj zhurnal. № 4].
Шафир М.А. 2007. Теоретические предпосылки и история развития анализа соответствий // Урнов М.Ю., Поляков Л.В., Иванченко Г.В. (ред.) «Политическое» и «социальное» в информационную эпоху: Сборник статей аспирантов факультетов прикладной политологии и социологии ГУ-ВШЭ. — М. [Shafir M.A. 2007. Teoreticheskie predposylki i istorija razvitija analiza sootvetstvijj // Urnov M.Ju., Polyakov L.V., Ivanchenko G.V. (red.) «Politicheskoe» i «social’noe» v informa -cionnuju ehpokhu: Sbornik statejj aspirantov fakul’tetov prikladnojj politologii i sociologii GU-VShEh. — M.].
Шафир М.А. 2009. Анализ соответствий: представление метода // Социология 4М: Методология, методы, математическое моделирование. № 28 [Shafir M.A. 2009. Analiz sootvetstvijj: predstavlenie meto-da // Sociologija 4M: Metodologija, metody, matematicheskoe modelirova-nie. № 28].
Groves R.M. et al. 2009. Survey Methodology. — N.Y.
Lavrakas P.J. 2013. Presidential Address: Applying a Total Error Perspective for Improving Research Quality in the Social, Behavioral, and Marketing Sciences // Public Opinion Quarterly. Vol. 77. № 3.
Lyberg L. 2012. Survey Quality // Survey Methodology. Vol. 38. № 2.
162
ЮАП™
№ 4 (75) 2014