Н.С. Бабич, В.И. Хоменко
ТИПОЛОГИЯ УРОВНЕЙ ИЗМЕРЕНИЯ В СОЦИОЛОГИИ: ТРАДИЦИОННЫЕ И АЛЬТЕРНАТИВНЫЕ ПОДХОДЫ
В статье рассматривается типология уровней измерения, предложенная С.С. Стивенсом, и аргументы, направленные против нее. Деление шкал на номинальные, порядковые, интервальные и отношений стало доминирующей схемой классификации в социологическом измерении. Но практические и концептуальные проблемы данной схемы приводят к тому, что многие исследователи игнорируют лежащие в основе типологии предположения и предписания относительно допустимых операций. Исходя из критических аргументов и практических проблем, можно сделать вывод о том, что типология Стивенса является лишь методической эвристикой, а не строгим ограничением для анализа социологических данных. Авторы предлагают перспективу для развития альтернативных эвристик, основанных на эквивалентности одинаковых шкал между разными респондентами.
Ключевые слова: социологическое измерение, уровень измерения, тип шкалы, допустимые преобразования, методическая эвристика.
В наиболее общем смысле уровень измерения является характеристикой шкалы, определяющей возможности и ограничения ее анализа и интерпретации. Учитывая многообразие аналитических процедур, можно с уверенностью говорить о том, что потенциально существует весьма большое число признаков, по которым можно было бы упорядочить социологические шкалы с точки зрения их возможностей и ограничений. Соответственно, велико и число возможных типологий уровней измерения. Но на сегодняшний день в методической литературе по социологическому и психологическому измерению явно доминирует (если не сказать, что занимает монопольное положение) лишь один подход1. Речь идет о широко известной типологии С.С. Стивенса, который разделил все шкалы
© Бабич Н.С., Хоменко В.И., 2012
на номинальные, порядковые, интервальные и шкалы отношений. Ее доминирование неоднозначно воспринимается специалистами по измерению и анализу данных в социальных науках и вызывает целый ряд вопросов практического характера. Каков научный и методологический статус этой типологии? Всегда ли следует к ней прибегать? Можно ли использовать соответствие этой типологии в качестве строгого критерия оценки качества исследовательских выводов? Наконец, в чем может состоять альтернатива подходу Стивен-са? В нашей статье будет предпринята попытка дать ответы, или, по крайней мере, найти подступы к ответам на эти вопросы. Для этого потребуется кратко рассмотреть существующую типологию уровней измерения, дать обобщающий обзор критических замечаний к ней, выделить и проанализировать существующие альтернативы.
Типология шкал С.С. Стивенса
Разделение уровней измерения на номинальный, порядковый, интервальный и уровень отношений впервые было произведено в статье 1946 г. в работе «О теории шкал измерения»2. За прошедшие годы оно стало настолько известно, что нет особой необходимости в подробном изложении концепции Стивенса. Тем не менее ее общие контуры должны быть намечены, поскольку концепция играет существенную роль в дальнейшем обсуждении.
Измерение в этой концепции понимается как процесс отображения эмпирических отношений в отношения числовые3. Если производится корректное измерение по некоторой шкале, это означает, что существует изоморфизм между свойствами исследуемых явлений реальности и свойствами этой шкалы. Такой, что, осуществляя операции над полученными в результате измерения числами, мы можем установить отношения, существующие между явлениями реальности, но не доступные нам непосредственно. Например, нас интересует, существует ли, и если да, то какого вида, связь между религиозностью и уровнем образования. Для того чтобы правильно обнаружить эту связь, необходимо, во-первых, отобразить религиозность и уровень образования на двух числовых шкалах, а во-вторых, установить, каковы отношения между полученными числами.
Как же можно гарантировать корректность отображения эмпирической системы в числовую и последующего установления связи между числами? Именно эту задачу и решает типология уровней измерения. Каждый из них характеризуется определенными числовыми свойствами шкал, определяющими, какие математические преобразования допустимы, а какие - нет. Причем допустимость математических преобразований основывается на том, соответст-
вуют они или нет эмпирическим операциям, которые могут производиться над результатами измерения. В табл. 1 приводятся (в упрощенном и несколько измененном виде) основные типы шкал, представленные Стивенсом4, который полагал, что изображает иерархию научной точности измерений и их насыщенности информацией: «В основном мы используем слабые формы измерений только за неимением лучшего. Когда становятся доступными более сильные формы, мы быстро переходим на них»5.
Номинальная шкала (шкала наименований) допускает лишь одну операцию - установление равенства или неравенства. Таким образом, измерение по номинальной шкале тождественно простой классификации объектов, например присваиванию номеров игрокам футбольной команды. Когда в социологических исследованиях числа присваиваются, например, профессии или месту проживания, речь идет только о кодировании различий между учителем и плотником или между жителем Москвы и Омской области. Любые числа могут быть заменены на любые другие, но так, что одинаковые числа меняются на одинаковые, и качество кодировки при этом не пострадает. Новая шкала будет эквивалентна старой. Поэтому операции сложения и вычитания, умножения и деления для значений номинальной шкалы обычно не имеют смысла.
Таблица 1
Шкалы измерений
Шкала Основные эмпирические операции Допустимые статистики Типичные примеры
Номинальная Установление равенства Число случаев, мода, качественная корреляция (например, коэффициент хи-квадрат) Национальность
Порядковая Установление отношений «больше-меньше» Медиана, перцентиль, порядковая корреляция (коэффициенты Спирмена и Кендалла) Уровень образования (начальное, среднее, среднее специальное, высшее)
Интервалов Установление равенства или неравенства интервалов Среднее арифметическое, среднее квадратическое отклонение, количественная корреляция (коэффициент корреляции Пирсона) Календарные даты
Отношений Установление равенства или неравенства отношений Допустимы все статистики Доход (в рублях)
Шкала порядка основана на операциях установления неравенства и преобладания (больше-меньше). Для нее пригодны любые статистические методы, основанные на монотонных (сохраняющих порядок) преобразованиях. Мы всегда можем сказать, что высшее образование превосходит начальное, но то, что первое из них закодировано, скажем, тройкой, а второе - единицей, никак не означает, что высшее образование в каком-либо смысле больше начального на два или в три раза.
Интервальный уровень измерения допускает все операции, применимые к более низким уровням, но в нем также появляется допустимая операция установления равенства отрезков шкалы, что означает возможность определения единицы измерения. Нулевая точка на интервальной шкале не имеет самостоятельного значения, поэтому мы не можем сказать, что, например, 2000-й год нашей эры в каком-то смысле больше 1000-го в два раза. Однако ясно, что интервал между 200-м и 300-м годами равен интервалу между 1000-м и 2000-м.
Наконец, шкала отношений допускает все арифметические операции, поскольку в ней уже вводится привилегированная точка отсчета - ноль, означающий отсутствие качества. К этому уровню измерения прежде всего принадлежат шкалы, получаемые в результате счета. «Важнейшей из шкал отношений является собственно "числовая" шкала - шкала чисел в эмпирическом смысле этого слова. Этой шкалой мы пользуемся, когда сосчитываем такие предметы, как яйца, монеты или яблоки»6.
Критический анализ доминирующего подхода
На первый взгляд типология, предложенная Стивенсом, представляется логичной, четкой и дающей ключ к корректному использованию результатов измерений в статистическом анализе. Однако в этой концепции присутствует ряд проблем, которые позволяют поставить ее статус под сомнение, а то и вовсе объявить вредным заблуждением7.
Первая трудность, которая бросается в глаза при чтении как работ Стивенса, так и многих его последователей, - это априорность типологии уровней измерения. Она излагается, скорее, как некоторый набор аксиом, чем как результат скрупулезного вывода. Но при этом вводимые Стивенсом положения выглядят не столько самоочевидными, сколько правдоподобными. А любая правдоподобная гипотеза все же требует доказательств или обоснования, желательно хотя бы как-то связанного с опытом и фактами. Ведь даже за температурной шкалой, по причине своей «очевидности»
ставшей одним из самых распространенных примеров в теории измерений, как напоминает Р. Посон, стоит эмпирически проверенная физическая теория движения молекул8. Но никаких социологических, психологических или иных содержательных оснований для стивенсовской типологии шкал так и не было приведено. Позднейшие попытки всегда оставались в логико-математических, то есть аксиоматических рамках.
Сама по себе недостаточная обоснованность типологии, конечно, еще не делает ее ложной или бесполезной. Тем не менее отсутствие должного внимания к связям с эмпирией дает о себе знать, как только вдумчивый исследователь пытается применить концепцию Стивенса в реальной жизни.
Возьмем в качестве примера социолога, который использует совершенно обычную рейтинговую шкалу одобрения деятельности различных государственных институтов (где 0 - «полностью не одобряю», 10 - «полностью одобряю»). Получив данные опроса, он желает установить, существует ли зависимость между уровнем одобрения действий президента и парламента, и в качестве руководства по выбору корректной меры связи обращается к таблице типов шкал Стивенса. К какому уровню социолог должен отнести свою рейтинговую шкалу? Обоснованного ответа на этот вопрос в стивенсовской концепции нет, хотя большинство привыкших к ней исследователей, почти не задумываясь, назовет интервальный (это оптимистичная оценка) или ординальный (это оценка пессимистичная) уровень измерения. Между тем формально рейтинговая шкала, имеющая осмысленный ноль и вполне определенную единицу измерения (равную одной десятой от полного одобрения), имеет все основания претендовать на самый высокий уровень в типологии. Что-то говорит нам, что это необоснованные претензии, но доказать их неосновательность мы не можем. В самом деле, откуда может быть известно, что для этой шкалы не соблюдается равенство интервалов и отношений? А если это неизвестно, то никаких твердых оснований для ограничения статистических процедур у нас не оказывается.
Отсутствие четких критериев отнесения шкалы к тому или иному типу - одна из самых существенных трудностей в применении стивенсовской типологии. В приведенном примере она выражается в том, что трудно такие критерии отыскать. Но если они и находятся, то довольно часто их применение может вести к противоречивым результатам.
Предположим, что социолог хочет измерить тот же самый уровень одобрения, однако вместо одной рейтинговой шкалы для каждого государственного института дает респондентам набор ди-
хотомических вопросов, предполагающих согласие или несогласие с суждениями9. После сбора данных он может подсчитать для каждого респондента количество позитивных суждений, с которыми тот согласился. Поскольку мы можем считать яйца, монеты или яблоки, постольку же это возможно и для такого рода объектов, как «позитивные суждения». Как было сказано выше, это четкий критерий, определяющий шкалу отношений и данный самим Сти-венсом. Однако наиболее высокий уровень измерения предполагает правомерность всех операций более низкого уровня. Это само собой означает, что одинаковые числа по шкале отношений должны быть равны, так же как и одинаковые числа по номинальной шкале. Теперь представим двух респондентов, один из которых согласился с одобрительными суждениями «а», «б», «в», а второй - с не менее одобрительными суждениями «г», «д», «е». Они эквивалентны на шкале отношений (в силу того что она получена самым верным путем - подсчетом), но абсолютно различны по номинальной шкале. То есть с этими двумя респондентами одновременно разрешается производить и максимум, и минимум операций. Происхождение этого противоречия ясно - оно кроется в двойной классификации. При подсчете суждений они относятся к одному классу, а при рассмотрении их поодиночке - к разным. К сожалению, ясность причин противоречия не позволяет его устранить, так как концепция Стивенса не содержит никаких указаний относительно того, какая из двух классификаций должна использоваться или же как их гармонизировать.
Еще одним весьма распространенным методом социологического шкалирования является ранжирование. Социолог, поставивший своей задачей оценку одобрения деятельности институтов государства, мог бы предложить их список респонденту и дать задание просто проранжировать парламент, армию, президента и все остальные общественные институты, начиная с наиболее одобряемых и заканчивая наименее одобряемыми. Какой уровень измерения получился бы в результате этой тривиальной процедуры? Она явным образом использует только операцию установления порядка. Перед респондентом не стоит задача ни устанавливать точку отсчета, ни определять единицы измерения. Следовательно, полученная ранжировка относится к типу порядковых (ординальных) шкал. Но, как заметил М. Кендэл10, когда мы говорим, что при упорядочении по некоторому признаку ранг объекта равен 5, это эквивалентно утверждению о том, что четыре объекта оказались впереди. Иными словами, социолог выясняет, что данному объекту предпочли четыре других. Это, несомненно, является операцией счета, а значит, ранжировка образует шкалу
отношений, хотя и соответствует убедительным критериям порядковой шкалы.
Как было продемонстрировано, доминирующая в социальных науках типология уровней измерения вызывает существенные трудности при попытках ее применения к простейшим и весьма распространенным социологическим шкалам. Между тем в науке встречаются и гораздо более сложные случаи. П. Веллеман и Л. Уилкинсон11 приводят пример не вписывающейся в схему Стивенса двумерной шкалы (табл. 2), в которой по горизонтали указывается наличие или отсутствие одного из четырех признаков, а по вертикали - количество признаков, которые есть в наличии. В таком виде можно было бы представить согласие или несогласие с четырьмя суждениями об одобрении государственных институтов. Здесь речь идет уже не о противоречиях в отнесении к тому или иному уровню измерения, но о невозможности такого отнесения. Поскольку комбинации типов шкал (особенно комбинация шкалы отношений и номинальной) в концепции Стивенса не предусмотрена. Наличие таких комбинаций ломает всю стройную иерархию допустимых операций.
Таблица 2
Двумерная шкала
Направление 1 Направление 2 Сумма
1111 4 Больше
1110 0111 3
1100 0110 0011 2
1000 0100 0010 0001 1
0000 0 Меньше
С учетом сказанного неудивительно, что социальные науки изобилуют случаями плодотворных нарушений сформулированных Стивенсом правил допустимости статистических процедур. Эти примеры встречаются как среди номинальных, так и среди порядковых шкал. Так, Ф. Лорд показал, что с использованием обычных арифметических операций можно проверять гипотезы о распределении значений номинальных шкал, таких как номера игроков в американском футболе12. Вообще в случае с дихотомическим номинальным признаком, принимающим значение a и Ь соотношение «среднее арифметическое значение рассматриваемого
признака ближе к а, чем к Ь» сохраняется при замене a и Ь любыми другими числами, то есть при переходе от одной номинальной шкалы к другой13. Если дихотомический признак принимает значения 0 и 1, среднее арифметическое будет иметь еще более четкий смысл -доли второго из этих значений в выборке. Аналогично неоднократно было показано, что порядковые шкалы могут использоваться в статистических процедурах, предполагающих вычисления среднего арифметического14. Причем иногда при переводе интервальных шкал в порядковые точность результатов может повышаться за счет сглаживания выбросов15.
Достаточно широким распространением «недопустимых» статистических процедур доказывается актуальность и сложность проблем, выявляемых в концепции уровней измерения С.С. Стивенса. Вопреки его нормативным предписаниям даже в физических исследованиях, служащих идеалом точности измерений, не наблюдается тенденций перехода от измерений низкого уровня к измерениям высокого уровня, в частности физики не демонстрируют склонности к отказу от интервальной шкалы Цельсия в пользу шкалы Кельвина, имеющей осмысленную нулевую точку16. Вместо следования априорным предписаниям исследователи часто предпочитают определять пригодные для обработки данных процедуры, опираясь на содержательные соображения.
Каков же тогда статус обсуждаемой типологии уровней измерения и вытекающей из нее идеи «допустимых процедур»? Очевидно, она не может претендовать на то, чтобы быть жестким критерием корректности статистического анализа. Скорее, эта типология является эвристикой - вспомогательным инструментом мышления, простым правилом, которое оказывается верным в достаточно большом числе случаев, чтобы на него можно было полагаться при оперативном принятии решений. Но на истинность и решающее значение концепция уровней измерения Стивенса претендовать не может. Поэтому данная методическая эвристика теряет свою основную ценность тогда, когда аналитические процедуры тщательно продумываются и обосновываются.
Пути развития альтернативных типологий
В истории науки было предпринято несколько попыток найти строгие нормативные предписания, которые бы регулировали развитие знания, пуская его в «правильном направлении» и избавляя от непродуктивных элементов. В качестве примеров можно перечислить как минимум классический позитивизм и неопозитивизм, программы которых по «очищению» науки потерпели явную неуда-
чу. Идея «допустимых операций» относится к тому же классу попыток «защитить» исследователя, оградить его от ложных выводов и лишней траты усилий. И, аналогично программам позитивизма, она терпит неудачу, поскольку оказывается не в состоянии отразить богатство реальных исследовательских ситуаций. Тем не менее нельзя отрицать и пользы правил, направляющих статистический анализ и ограничивающих его наивное применение. При том условии, что эти правила будут рассматриваться как методические эвристики, а не как строгие основания научных выводов. При такой постановке вопроса становится очевидным, что необходимо и возможно разработать множество такого рода эвристик, так как их комбинирование позволит охватить все аналитические ситуации. Там, где одна из эвристик окажется непригодной, можно будет применять другую.
Потенциально наиболее жизнеспособными в конкретной сфере исследований являются схемы оперативного принятия решений, основанные на содержательных соображениях. Так, в социологии уже много лет распространена методическая эвристика, известная как «квотная выборка». Не являющаяся математически обоснованным приемом выборочного метода, она десятилетиями продолжает активно использоваться, поскольку соответствует содержательным задачам многих исследований. Очевидно, и поиск эвристически ценных классификаций шкал следует вести, прежде всего основываясь на специфических потребностях социальных исследований. Рассмотрим одно из возможных направлений разработки такой классификации.
Вернемся к вдумчивому социологу, который желает измерить уровень одобрения институтов государства. Вспомним, что интуиция мешала нам признать рейтинг одобрения от 0 до 10 шкалой отношений, хотя формальные признаки именно этого уровня измерения были в наличии. Предостережение поступало на интуитивном уровне потому, что в типологии шкал Стивенса оказался недостаточно проработан один, чрезвычайно важный с социологической точки зрения момент - эквивалентность измерений разных респондентов. Если один человек, страшно недовольный всем миром, оценивает свою удовлетворенность парламентом на тройку, это может быть гораздо большей похвалой, чем шестерка, полученная от жизнерадостного оптимиста. Но при этом тройка пессимиста и его же единица находятся между собой как минимум в отношениях порядка. По всей видимости, операции над измерениями по одной шкале для разных респондентов в данном случае оказываются гораздо более ограниченными, чем операции над измерениями по разным шкалам для одного и того же респондента. Рейтинговые оценки, даваемые участниками опроса одному объекту, строго говоря, не достигают даже порядково-
го уровня измерения, если сопоставляются между собой. Это серьезная проблема, и можно с уверенностью утверждать, что классификация шкал, основанная на их межсубъектной сопоставимости, будет представлять для социологов некоторую эвристическую ценность в качестве дополнения к типологии уровней измерения Стивенса.
Классификация шкал, частично соответствующая сформулированному запросу, еще в 1944 г. была предложена Р. Кэттеллом в статье «Психологическое измерение: нормативное, ипсативное, интерактивное»17. Интерактивные шкалы, являющиеся основой всех измерений, в своих значениях не зависят от других шкал и других индивидов. В качестве примера интерактивных шкал можно привести неоднократно упоминавшиеся рейтинговые шкалы. К нормативным измерениям относятся прежде всего шкалы, по которым вычисляются внутригрупповые нормы, такие как стандартизированные тестовые баллы или в социологической традиции -шкалы Гуттмана. В них значения признака для индивида зависят от значений того же признака для других индивидов. Понятие «ипсативная шкала» (от лат. «ipse» - «сам по себе») предполагает, что ее значение зависит от значений других шкал того же индивида. К этому виду относится ранжирование без использования одинаковых рангов, поскольку присвоение высокого места одним объектам влечет присвоение низких мест другим.
К сожалению, классификация Кэттелла не совсем подходит для обозначенных целей, так как процедура, считающаяся в ней базовой - интерактивное измерение, для социологии является существенной проблемой, как это было показано на примере с рейтингами одобрения. Но она может послужить основой для несколько более широкой классификации. В качестве классификационных признаков в ней могли бы служить дихотомические значения наличия или отсутствия оснований для обобщения значений разных респондентов на одной шкале. Если какого-либо из этих оснований не окажется, это будет означать переход шкалы на более слабый уровень измерения, на котором рекомендуется более осторожный анализ. При каких основаниях ограничения на обобщение данных по разным респондентам будут отсутствовать? Вообще говоря, всегда, когда есть гарантии того, что шкала, которая к ним применяется, не зависит от респондента. Поэтому первое, что необходимо сделать, - определить четкие критерии эквивалентности одной шкалы для разных респондентов. Фундаментального социологического решения эта задача пока не имеет, но наличие различного рода практических приемов, таких как шкалограммный анализ или модель измерения установки Терстоуна, а также существенного корпуса работ по установлению эквивалентности разных шкал позволяет надеяться на успешное решение.
Заключение
В статье было показано, что доминирующая в настоящее время типология уровней измерения С.С. Стивенса содержит довольно много внутренних проблем и противоречий, что не позволяет считать ее надежным критерием, указывающим путь к корректному анализу социологических данных. Скорее ее надо рассматривать как одну из множества возможных полезных эвристик. Соответственно, возникает задача разработки других эвристик, аналогичных типологии уровней измерения и отражающих другие его аспекты. Конечно, она не может быть решена в короткие сроки. Но предложенное направление разработки классификации шкал, дополнительной к уровням измерения по Стивенсу, открывает некоторые перспективы. Какими они окажутся, еще предстоит выяснить, так как новое направление нуждается в существенной детализации, критическом анализе и практической проверке.
Примечания
1 Velleman P.F., Wilkinson L. Nominal, ordinal, interval, and ratio typologies are misleading // The American Statistician. 1993. Vol. 47. № 1. P. 65-72.
2 Stevens S.S. On the theory of scales of measurement // Science. 1946. Vol. 103. № 2684. P. 677-680.
3 Подробнее о социологическом смысле этих понятий см., например: Толсто-ва Ю.Н. Измерение в социологии. М., 1998. С. 9-15.
4 Стивенс С.С. Математика, измерение и психофизика // Экспериментальная психология / Под ред. С.С. Стивенса. М., 1960. Т. 1. С. 52.
5 Stevens S.S. Measurement and man // Science. 1958. Vol. 127. № 3295. P. 384.
6 Стивенс С.С. Указ. соч. С. 58.
7 См., например: Gaito J. Measurement scales and statistics: Resurgence of an old misconception // Psychological Bulletin. 1980. Vol. 87. № 3. P. 564-567.
8 Pawson R. Empiricist measurement strategies: A critique of the multiple indicator approach to measurement // Quality & Quantity. 1980. Vol. 14. № 5. P. 656.
9 Л. Прытулак обсуждает эту проблему на примере измерения коэффициента интеллекта. См.: Prytulak L. Critique of S.S. Stevens' theory of measurement scale classification // Perceptual and Motor Skills. 1975. Vol. 41. № 1. P. 6-7.
0 Кендэл М. Ранговые корреляции. М., 1975. С. 7.
1 Velleman P.F., Wilkinson L. Op. cit. P. 69.
2 Lord F.M. On the statistical treatment of football numbers // American Psychologist. 1953. Vol. 8. № 12. P. 750-751.
13 Клигер С.А., Косолапов М.С., Толстова Ю.Н. Шкалирование при сборе и анализе социологической информации. М., 1978. С. 25.
14 Baker B.O., Hardyck C.D., Petrinovich L.F. Weak measurements vs. strong statistics: An empirical critique of S.S. Stevens' proscriptions on statistics // Educational and Psychological Measurement. 1966. Vol. 26. № 2. P. 291-309; Borgatta E.F., Bohrn-stedt G.W. Level of measurement: Once over again // Sociological Methods & Research. 1980. Vol. 9. № 2. P. 147-160.
15 Weiss D. The discriminating power of ordinal data // Journal of Social Behavior & Personality. 1986. Vol. 1. № 3. P. 381-389.
16 Prytulak L. Op. cit. P. 4-5.
17 Cattell R.B. Psychological measurement: normative, ipsative, interactive // Psychological Review. 1944. Vol. 51. № 5. P. 292-303.