Особенности логико-комбинаторных методов как средств многомерного анализа данных

Кученкова Анна Владимировна

А.В. Кученкова

ОСОБЕННОСТИ ЛОГИКО-КОМБИНАТОРНЫХ МЕТОДОВ КАК СРЕДСТВ МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ

В статье рассматриваются познавательные возможности логико-комбинаторных методов в социологических исследованиях. В качестве таковых выделяются сравнительный качественный анализ и ДСМ-метод. С целью определения их специфики предлагаются основания для сравнения методов многомерного анализа данных.

Ключевые слова: многомерный анализ данных, логико-комбинаторные методы, сравнительный качественный анализ, ДСМ-метод.

В области анализа социологических данных развиваются и применяются различные методы, в том числе и основанные на использовании средств и языка формальной логики; это логико-комбинаторные методы - сравнительный качественный анализ (СКА) и ДСМ-метод (названный в честь Дж.Ст. Милля). Первый, предложенный Ч. Рейджином в конце 1980 гг., включает несколько техник формализованного сравнительного анализа для небольшого количества объектов. Второй, являясь методом автоматического порождения гипотез и средством интеллектуального анализа данных, применяется для изучения мнений, поведенческих установок (предложен В.К. Финном в конце 1970-х).

Эти методы1 применяются для анализа многомерных данных, когда «каждое наблюдение представляется не одним-единственным числом, а некоторым конечным набором чисел, в котором в заданном порядке записаны все измеренные характеристики объекта»2, поэтому логико-комбинаторные методы связаны с областью многомерного анализа. Для того чтобы продемонстрировать их специфику, сравним методы многомерного анализа данных по различным

основаниям и покажем, как с ними соотносятся логико-комбинаторные методы.

Понятие многомерного анализа данных используется для обозначения методов, направленных на изучение многомерных данных, то есть на анализ распределений нескольких переменных одновременно. Методы многомерного анализа данных предназначены для решения таких задач, как: исследование зависимостей между объектами и признаками; классификация объектов или признаков; снижение размерности пространства признаков. К этой области относят регрессионный, дисперсионный, дискриминантный, факторный, кластерный анализы, многомерное шкалирование и др. Все они различаются по цели использования, условиям применения и по многим другим параметрам.

При разнообразии математических методов и способов анализа данных существует потребность в систематизации методического знания. Один из возможных способов обобщения информации об этих методах - их сравнение и классификация по различным основаниям. Безусловно, любая классификация носит в определенной мере условный характер, однако она позволяет систематизировать наши представления о рассматриваемом явлении (в данном случае о методах), выделить их ключевые, наиболее значимые особенности и возможности.

Основания для сравнения методов

многомерного анализа данных

Универсальное основание для сравнения методов вряд ли можно предложить, но возможно введение нескольких для иллюстрации их познавательных возможностей.

Основание 1: схожесть методов в зависимости от того, на реализацию какой метаметодики анализа данных они направлены.

Обобщая основные задачи эмпирических социологических исследований, выделяют три метаметодики анализа данных, имеющие собственную языковую и логическую структуру3 - типологический, факторный и причинный анализы.

Первая из них (типологический анализ), по мнению Г.Г. Тата-ровой4, используется либо для проверки гипотезы о существовании социальных типов, либо для поиска так называемых типологических синдромов, либо для сравнительного анализа типов изучаемого феномена. В любом случае типологический анализ подразумевает «выделение социально значимых, внутренне однородных, качественно отличных друг от друга групп эмпирических объектов, харак-

теризующихся типообразующими признаками, природа которых различна, и интерпретируемых как носителей различных типов существования феномена»5. В основе такого анализа - методы кластерного и дискриминантного анализов. Эти методы позволяют разделить совокупность объектов на классы, в каждый из которых входят близкие объекты. При этом кластерный анализ направлен на поиск наилучшей, оптимальной, естественной классификации объектов. В отличие от него дискриминантный анализ позволяет рассматривать заданные априори классы объектов, находить функцию, описывающую различия между такими классами, а затем формулировать правило, по которому новые объекты, подлежащие классификации, будут отнесены к одному из уже существующих классов. Кластерный анализ позволяет находить и определять группы похожих объектов, а дискриминантный анализ позволяет описывать существующие классы объектов, изучать различия между ними.

Целью второй метаметодики (факторного/факториального анализа) является поиск связанных между собой переменных, которые могут быть соотнесены с некоторым фактором. В основе реализации этого вида анализа - математические методы факторного анализа, позволяющие на основе взаимосвязи рассматриваемых переменных выявить латентные, неявные характеристики (факторы), изменчивостью которых объясняется изменчивость исходных переменных. С помощью таких методов производят снижение размерности (число переменных сокращается до числа факторов), определяют структуру взаимосвязи между переменными, получают оценки факторов, не поддающихся непосредственному измерению. Следует отметить, что для решения этих задач может быть использован и кластерный анализ (например, в программе SPSS представлена возможность классифицировать переменные с помощью кластерного анализа), однако на практике кластерный анализ используется все же для классификации объектов.

Суть третьей метаметодики (причинного анализа) заключается в анализе причинно-следственных отношений, на эмпирическом уровне это анализ взаимосвязи между переменными тогда, когда одни из них обозначаются как зависимые, а другие - независимые между собой и влияющие на первые. Методами, предназначенными для реализации этой цели, служат методы регрессионного и дисперсионного анализов. Регрессионный анализ позволяет установить форму такой зависимости, определить силу влияния каждой независимой переменной на зависимую, построить модель, отражающую эту взаимосвязь между переменными (в виде уравнения), с помощью которой по значениям независимых переменных можно

получать оценки значений зависимой переменной (предсказывать ее значения). Суть дисперсионного анализа заключается в оценке степени влияния независимых переменных (обычно категориальных) на зависимую («количественную» переменную, имеющую метрический уровень измерения). Эта идея реализуется путем анализа вариации зависимой переменной под влиянием независимых переменных.

Следует отдельно рассмотреть методы многомерного шкалирования, которые предназначены для решения задач по изучению пространства восприятия респондента. Они позволяют выявить (латентные) характеристики, которыми руководствуется респондент, оценивая те или иные объекты, затем расположить изучаемые объекты в пространстве, образуемом этими (выявленными) характеристиками, определить для каждого объекта координаты и, наконец, определить расстояния между объектами в этом пространстве. Это позволяет использовать методы многомерного шкалирования в нескольких целях: во-первых, для выявления скрытых латентных характеристик (факторов), определяющих восприятие респондентами объектов; во-вторых, для обнаружения групп (типов) объектов, которые воспринимаются одинаково, сходным образом. Тем самым две метаметодики (факторный и типологический анализы) могут быть реализованы с помощью методов многомерного шкалирования.

Основание 2: схожесть методов в зависимости от того, предназначены или не предназначены они для предсказания, построения прогнозов.

Основные цели научного исследования в любой области: описание, объяснение, прогноз. В социологии к этой триаде добавляют еще одну цель - понимание. В основном это касается исследований, ставящих задачу интерпретации смыслов, которые люди вкладывают в свое и чужое поведение. Эти цели тесно взаимосвязаны между собой. Нельзя предсказывать или объяснять что-либо, не описывая этого (то есть если метод позволяет строить прогнозы, значит, он позволяет и описывать изучаемое явление). С одной стороны, описания «являются своеобразными "свернутыми" объяснениями»6, с другой «научное объяснение также может отсылать нас к описанию некоторой "картинки"»7. Нельзя сказать, что определенный метод многомерного анализа данных позволяет достичь только одной цели. Все зависит от того, как метод используется и как интерпретируются результаты его применения: так, описание изучаемого явления, полученное с помощью метода многомерного анализа данных, может использоваться как объяснение.

Рассматриваемые цели научного исследования носят общий характер и могут быть достигнуты с помощью одних и тех же ме-

тодов. Например, регрессионный анализ позволяет построить модель изучаемого явления (уравнение регрессии), которая опишет исходные данные; с другой стороны, эта модель позволит объяснить влияние независимых переменных на зависимую и, наконец, по значениям независимых переменных предсказывать значения зависимой.

На предсказание, кроме регрессионного анализа, направлен дискриминантный анализ, с помощью которого по значениям независимых переменных можно определять принадлежность новых объектов к тем или иным заданным классам (то есть определять или предсказывать значение зависимой переменной для объектов).

Другие методы многомерного анализа данных используются в основном для описания и объяснения социальных явлений. Так, факторный анализ позволяет найти скрытые установки респондентов, стоящие за их ответами на отдельные вопросы, тем самым он позволяет объяснить ответы людей через некоторые скрытые характеристики (факторы), возможно, не осознающиеся самими респондентами. Дисперсионный анализ тоже позволяет объяснять влияние независимых переменных на зависимую, разброс значений зависимой переменной за счет влияния независимых переменных по отдельности и вместе. Кластерный анализ скорее позволяет описывать, нежели объяснять: выделять группы схожих объектов, получать описания типичных представителей кластеров.

По цели исследования методы многомерного анализа нельзя разбить на три непересекающихся подмножества. Однако можно отметить, что если на описание направлены все методы многомерного анализа, то возможность построения предсказания/прогноза заложена в методах регрессионного и дискриминантного анализа.

Основание 3: схожесть методов в зависимости от возможности учета «статуса» используемых переменных (равноправность или зависимость / независимость переменных).

Многомерный анализ данных позволяет изучать взаимосвязи между переменными. При этом переменные могут обладать разным «статусом», выступать в качестве зависимых, независимых, равноправных признаков.

В одном случае, если исследователь изучает влияние одних переменных на другие, первые выступают как зависимые (результирующие, признаки-следствия, целевые признаки, изменения которых связывают с изменениями независимых переменных), а вторые как независимые (объясняющие, влияющие на зависимые). Главной задачей является проверка наличия этой связи между ними, установки силы и направления (прямая/обратная) связи.

В другом случае все переменные являются равноправными, не разделяются на зависимые и независимые. Тогда основная задача исследования - выявление структуры взаимосвязи между переменными (группировка переменных в факторы) или между объектами.

По «статусу» переменных методы многомерного анализа данных можно разбить на два класса. К первому относятся методы, подразумевающие наличие зависимых и независимых переменных. Это методы регрессионного, дисперсионного, дискриминантного анализов:

- в регрессионном анализе выбирается одна зависимая переменная и одна или несколько независимых. Взаимосвязь между ними выражается с помощью уравнения. Регрессионный анализ позволяет устанавливать форму взаимосвязи между переменными (она может быть линейной и нелинейной);

- в дисперсионном анализе - одна зависимая переменная (метрическая) и несколько независимых (категориальных, разбивающих респондентов на группы). В выделенных группах (образованных по значениям независимой переменной) сравниваются средние значения зависимой переменной. Если эти различия оказываются значимыми, то заключают, что вызваны они независимой переменной;

- в дискриминантном анализе определяют одну зависимую переменную (категориальную, разбивающую респондентов на группы) и несколько независимых переменных, определяющих различия выделенных групп.

Во второй класс входят методы, при использовании которых переменные выступают как равноправные. Это методы факторного анализа и многомерного шкалирования. Они направлены на изучение взаимосвязи всех переменных между собой, выявлении и измерении скрытых, латентных переменных. К этому же классу можно отнести и кластерный анализ. Он предназначен для группировки объектов по нескольким переменным одновременно. При этом группирующие переменные являются равноправными, среди них нет зависимых и независимых признаков.

Основание 4: схожесть методов в зависимости от наличия возможности получения статистических оценок.

Одно из несомненных достоинств методов статистики заключается в том, что они позволяют на основе анализа выборки делать выводы о свойствах генеральной совокупности изучаемых объектов. Это становится возможным благодаря процедуре статистического оценивания, проверки статистических гипотез, например с помощью критериев хи-квадрат, 1-Стьюдента, F-Фишера. В статистике известны и хорошо изучены законы распределения этих критери-

ев, а значит, известно, как изменяются их значения, что позволяет оценивать, насколько вероятны их те или иные значения. На практике по результатам выборочного обследования вычисляются эмпирические значения критериев, затем оценивается вероятность получения такого эмпирического значения (путем сравнения эмпирического и теоретического значений критериев).

Возможность получения статистических оценок с помощью соответствующих критериев является еще одним основанием для сравнения и классификации методов многомерного анализа данных.

В первую группу методов, обеспечивающих возможность статистического оценивания, входят дисперсионный, регрессионный, дискриминантный анализы. В дисперсионном анализе используется F-критерий для проверки нулевой гипотезы о равенстве средних значений зависимой переменной в группах объектов. В этом случае F-статистика представляет собой соотношение межгрупповой и внутригрупповой дисперсий рассматриваемых групп объектов. Если межгрупповая дисперсия оказывается значительно больше внутригрупповой, это обстоятельство позволяет сделать вывод о значимости различий средних значений зависимой переменной в группах и, соответственно, о влиянии независимой (группооб-разующей) переменной на зависимую. В регрессионном анализе используются два критерия: ^критерий для проверки значимости коэффициентов уравнения, тем самым для проверки наличия связи между зависимой переменной и независимыми; F-критерий для проверки значимости коэффициента детерминации. В дискрими-нантном анализе используется F-критерий и хи-квадрат для проверки гипотезы о равенстве всех средних всех дискриминантных функций во всех группах.

Вторую группу методов образуют факторный анализ (метод главных компонент)8, кластерный анализ, многомерное шкалирование. При их применении статистические критерии не используются, и полученные с их помощью выводы справедливы только для исследуемой выборочной совокупности, их нельзя распространить на генеральную совокупность.

Основание 5: схожесть методов в зависимости от уровня измерения переменных.

При использовании математических методов анализа данных информация об изучаемом объекте должна быть «переведена» на язык математики. Процедурой такого перехода является измерение, под которым понимают «отражение некоторой эмпирической системы в математической системе»9. Задавая переменные-признаки для описания объектов, исследователь должен определить

возможные значения этих переменных, сформулировать правила, по которым объектам будет приписываться определенные значения переменной, получить шкалу значений переменной.

Существуют различные виды шкал: номинальная, порядковая, интервальная, шкала отношений, разностей, абсолютная шкала. Отличаются они тем, что каждая из них допускает определенные математические преобразования. В социологии (да и в социальных науках в целом) различают и используют обычно только три основных вида шкал: номинальную, порядковую, метрическую (шкалы более высоко типа). Для чисел, полученных по номинальной шкале, осмысленными являются только отношения равенства / неравенства; по порядковой шкале - равенства/неравенства и больше/меньше; для шкал более высокого типа возможно использование математических операций сложения, вычитания, умножений, деления. От типа шкалы переменной зависит возможность использования определенных математических методов. Большинство из них рассчитаны на высокий уровень измерения.

Однозначно соотнести методы многомерного анализа данных с определенным уровнем измерения переменных достаточно трудно. Во многом это связано с тем, что рассматриваемые методы анализа включают в себя несколько способов их реализации, каждый из которых может быть предназначен для разных шкал, тогда отнести метод к оному уровню измерения нельзя. Рассмотрим это утверждение на примере регрессионного анализа. Его классический вариант (линейная регрессия) предназначен только для метрических шкал (и дихотомических). Однако есть такие виды регрессионного анализа, как порядковая, бинарная логистические регрессии и др., которые позволяют работать с номинальными, порядковыми шкалами10. Отнести регрессионный анализ в целом к какому-либо одному уровню измерения невозможно.

Одна из основных проблем в анализе данных заключается в несоответствии уровня измерения переменных условиям применимости математических методов. С одной стороны, большинство математических методов анализа рассчитаны на переменные высокого уровня измерения, допускающие использование любых математических операций. С другой - большинство переменных, использующихся в социальных науках, представлены на низком уровне измерения (номинальном, порядковом) в силу специфики социальных явлений, отличающихся от явлений физических. Из сложившейся ситуации существует несколько выходов, в частности преобразование переменных, оцифровка признаков (повышение уровня измерения)11, перекодировка номинальных и порядковых переменных в дихотомические (для которых возможно исполь-

зовать математические преобразования). Второй выход связан с развитием методов математического анализа, подходящих для номинальных и порядковых шкал. Например, непараметрической статистики.

Несмотря на то что уровень измерения переменных напрямую определяет возможность использования того или иного метода и тем самым является одним из ключевых аспектов, который необходимо учитывать при проведении многомерного анализа данных, классифицировать методы по этому основанию затруднительно.

Сущность ДСМ-метода и СКА

Сравнительный качественный анализ12 (СКА) предназначен для обнаружения детерминант какого-то явления на основе сравнения объектов, которым данное явление присуще. Он позволяет обнаруживать сочетания значений независимых переменных, детерминирующие определенное значение зависимой переменной. Под общим названием объединяются несколько алгоритмов: самый простой (oisp set QCA) основан на использовании булевой алгебры и дихотомических переменных, второй (multivalue QCA) является расширением первого за счет возможности описывать объекты через многозначные переменные; третий (fuzzy set QCA) связан с использованием теории нечетких множеств. Базовым алгоритмом является первый из упомянутых, поэтому рассмотрим на его примере процедуру реализации сравнительного качественного анализа.

Для применения метода СКА изучаемые объекты описываются через значения переменных дихотомического типа. Объекты, обладающие одинаковым значением зависимого признака, сравниваются между собой. С точки зрения процедуры СКА реализуется следующим образом. Отбираются объекты с одинаковым значением зависимой переменной (например, 1, то есть объекты, для которых изучаемое явление проявляется), выбираются независимые переменные, которые могут влиять на значение целевой. Допустим, есть 4 объекта (для которых зависимая переменная равна 1), обладающих следующими значениями независимых переменных: 111, 111, 110, 010. На первом этапе объекты с одинаковым описанием (совпадающими значениями всех независимых переменных) объединяются в группы. В нашем примере получится три группы: 111 (первый и второй объекты объединяются), 011, 010. На следующем шаге ищут сходства между этими группами. Для этого они сравниваются между собой: если для двух групп объектов совпадают все значения независимых переменных, кроме одного, то общий для них фрагмент описания является их сходством. Следует подчеркнуть, что

в результате устанавливаются не все возможные сходства между группами объектов, а только некоторые из них, удовлетворяющие указанному условию (совпадение значений всех независимых переменных, кроме одной).

В рассматриваемом примере первая и вторая группы (111 и 011) совпадают по значениям второй и третьей переменной и отличаются по значению первой; тем самым их сходство -11. Сравнив вторую (011) и третью (010) группы, получим сходство 01-. Первая (111) и третья (010) группы отличаются по двум значениям независимых переменных (более чем по одному), в этом случае сходство между ними не порождается13. В результате сравнения всех групп объектов между собой обнаружены сходства: -11 и 01-. Они «покрывают» описания всех объектов, т. е. каждый из четырех объектов содержит в своем описании либо первую (-11), либо вторую (01-) комбинацию. Полученные сочетания значений независимых признаков, детерминирующие определенное значение зависимой переменной, являются результатом применения метода СКА. Таким образом, с его помощью на основе исходной информации (описания четырех объектов через значения трех независимых переменных) получено более краткое описание этих объектов.

Установленные между объектами сходства интерпретируются как сочетания условий, необходимые для проявления рассматриваемого значения зависимой переменной, то есть выступающие детерминантами изучаемого явления. Для нашего примера, такими детерминантами являются либо наличие у объектов второго и третьего признака (-11), либо наличие второго признака и отсутствие первого (01-). Кроме того, можно сказать, что наличие второго признака является необходимым, но не недостаточным условием возникновения изучаемого явления, так как этот признак присутствует у всех объектов.

Основными сферами применения СКА стали сравнительные политологические и социологические исследования, объектами анализа выступали страны, города, организации, группы людей (например, национальные меньшинства) и др.14 С годами метод сравнительного качественного анализа становится все более популярным. В 2009 г С. Вейси сказал о «революции Рейджина»15, отнеся предложенный им метод к одним из крупнейших достижений в методике анализа социологических данных.

ДСМ-метод, как и СКА, предназначен для анализа жесткострук-турированных данных и направлен на выявление причинно-следственных закономерностей. Он был предложен в конце 1970-х годов В.К. Финном. С тех пор этот метод нашел применение в разных научных областях: в медицине, фармакологии, криминалис-

тике, создании интеллектуальных роботов, истории16. В социологии ДСМ-метод используется для выявления детерминант мнений, поведенческих установок17. Отдельной, самостоятельной задачей, реализуемой с помощью этого метода, является анализ рациональности мнений18.

Применение ДСМ-метода подразумевает выполнение определенных допущений. Одно из них - «постулат поведения»19, который заключается в утверждении, что мнение респондента, его поведение определяются в большей или меньшей степени его биографическими данными, социальными характеристиками, индивидуальными психологическими чертами. Если каждая из трех составляющих представлена множеством характеристик, то их подмножество будет являться причиной наличия или отсутствия у респондента определенного мнения. На этой предпосылке основана одна из задач анализа мнений - поиск детерминант (типичных черт характера, фактов биографии, психологических характеристик), определяющих отношение респондента к той или иной проблеме. Безусловно, не отрицается возможное влияние ситуации. Если, например, имеется детерминанта для определенного мнения, а респондент выражает другую точку зрения, значит, есть ситуация, которая повлияла на его позицию, ситуация, которую необходимо формализовать.

Для обнаружения детерминант мнений респондентов с помощью ДСМ-метода требуется, чтобы объекты были описаны через набор значений переменных: одна часть из них должна обеспечивать информативную характеристику субъекта (респондента), другая -максимально полное описание его мнения. Соблюдение этого условия позволяет формализовать сходство респондентов и сходство их мнений и обнаружить в описании респондентов характеристики, выступающие детерминантами тех или иных точек зрения, мнений20.

Возможны различные стратегии использования ДСМ-метода в зависимости от задач исследования и специфики имеющихся данных. Первая состоит в выделении респондентов со схожим мнением, а затем определении присущих им характеристик (социальных и др.). С точки зрения процедуры она реализуется следующим образом: сравнивается информация о мнениях респондентов, находятся схожие мнения, затем проверяется, есть ли у обладателей схожего мнения общие характеристики, черты, если таковые обнаруживаются, то формулируется гипотеза о том, что именно они являются детерминантами мнения респондента. Вторая стратегия использования ДСМ-метода предполагает обратный ход рассуждений: выделяются группы респондентов с совпадающими характеристиками, а затем выявляются мнения, которые разделяются этими респондентами. И в первом, и во втором случаях ДСМ-метод используется

для поиска сочетаний значений независимых переменных, детерминирующих различные сочетания значений нескольких зависимых переменных. Для описания объектов используется три типа переменных: одна группообразующая переменная (на основании значений которой объекты разбиваются на подгруппы, в которых изучаемое явление проявляется или нет), группа зависимых переменных и группа независимых переменных. Взаимосвязи между переменными ищутся для каждой из групп объектов, выделенных на основе значений группообразующей переменной.

Отметим, что ДСМ-метод может решать ту же задачу, что и СКА - поиск сочетаний значений независимых переменных, детерминирующих определенное значение одной зависимой переменной. Как показала М.А. Михеенкова21, одно из ключевых различий этих методов при решении одинаковой задачи заключается в том, что с помощью ДСМ-метода можно получить большее количество гипотез о взаимосвязи между переменными.

Суть ДСМ-метода заключается в реализации (применении к базе данных) логического рассуждения, состоящего из трех компонентов: индукции, аналогии и абдукции. На начальном этапе на основе сравнения объектов, обладающих одинаковым значением целевого признака, ищутся их сходства (общие для этих объектов сочетания значений независимых переменных). Формулируются гипотезы о том, что эти сходства являются детерминантами соответствующего значения целевого признака. Тем самым реализуется индукция: на основе анализа единичных случаев, строится обобщение. На следующем этапе применяется вывод по аналогии. Для объектов с неизвестным значением целевого признака это значение может быть доопределено (предсказано) с использованием гипотез, полученных на предыдущем этапе. Рассуждения (с использованием индукции и аналогии) применяются несколько раз, до тех пор пока система не стабилизируется - новые гипотезы не перестанут появляться. В заключение проверяется выполнение аксиомы каузальной полноты (абдукция): если полученные гипотезы объясняют значения целевого признака для всех объектов, то эти гипотезы принимаются на достаточном основании. В противном случае рекомендуется дополнить базу данных новыми объектами и повторить процедуру сначала.

Таким образом, ДСМ-метод и СКА имеют много общего, хотя разрабатывались параллельно во времени и независимо друг от друга. Во-первых, это нестатистические, невероятностные методы, использующие в качестве языка формализации математическую логику (СКА - булеву алгебру и ее модификацию, ДСМ-метод -специальный вариант многозначной логики). С одной стороны, они не претендуют не экстраполяцию выводов на генеральную совокуп-

ность, но с другой - они и не требуют выполнения таких условий, как нормальность распределения значений переменных.

Во-вторых, их общим эпистемологическим основанием выступают идеи Дж.Ст. Милля, а именно предложенные им метод сходства, метод различия и др. (положенные им в основу рассуждений о причинности)22. Суть данных методов заключается в поиске сходств между объектами, обладающими изучаемым свойством, и поиске различий между объектами, которые проявляют и не проявляют рассматриваемое свойство. Следует подчеркнуть, что для СКА эти идеи являются лишь одной из теоретических предпосылок, в то время как с помощью ДСМ-метода все пять методов Дж.Ст. Милля могут быть формализованы.

В-третьих, оба метода одинаково трактуют причинность: а именно как комбинацию необходимых и достаточных условий для возникновения изучаемого явления. Причем с помощью логико-комбинаторных методов устанавливается не одна общая причинная модель, объясняющая взаимосвязь между переменными для всей рассматриваемой совокупности, а несколько различных объяснений изучаемого явления. Выявляются несколько сочетаний значений независимых переменных, детерминирующих определенное значение зависимой переменной, тем самым устанавливается «множественная причинность», подразумевающая, что одно и то же явление может быть детерминировано несколькими различными сочетаниями независимых переменных.

В-четвертых, оба метода относятся их разработчиками к средствам «формализованного качественного анализа данных». С одной стороны, эти методы предназначены для анализа жесткоструктури-рованных данных (описанных через набор переменных). С другой -эти методы реализуют индуктивную стратегию анализа данных: сравниваются отдельные объекты для нахождения сходств и различий, эмпирических закономерностей. Таким образом, это процесс, в ходе которого гипотезы не проверяются а наоборот, генерируются.

Наконец, эти методы предназначены для поиска взаимодействий - анализа сочетаний значений переменных. Тем самым они позволяют выявлять взаимосвязь между переменными на «локальном» уровне.

Сопоставление логико-комбинаторных методов

с методами многомерного анализа данных

СКА и ДСМ-метод используются для анализа многомерных данных, то есть подразумевается, что каждый объект охарактеризован и представлен через набор значений нескольких переменных.

Опишем логико-комбинаторные методы по критериям, выделенным в начале статьи для сравнения методов многомерного анализа данных.

СКА и ДСМ-метод предназначены для реализации причинного анализа: для обнаружения детерминант того или иного явления, поведенческой установки, определенного мнения. В этом данные методы близки к регрессионному и дисперсионному анализам. Однако если регрессионный анализ позволяет построить усредненную модель (в форме уравнения), которая описывает взаимосвязь переменных для всей совокупности объектов (отражая тенденции «о всех, но не о каждом»23), то логико-комбинаторные методы обнаруживают закономерности, касающиеся каждого объекта. В результате логико-комбинаторные методы обеспечивают обнаружение всех возможных закономерностей, скрытых в данных (и порой не очевидных для исследователя).

В качестве цели применения логико-комбинаторных методов в первую очередь выступает объяснение наличия или отсутствия какого-либо явления. Кроме того, с помощью этих методов возможно предсказывать - прогнозировать значения зависимой переменной (по значениям независимых переменных). При этом, как упоминалось выше, М.А. Михеенкова24 показала, что ДСМ-метод является более продуктивным в плане предсказания по сравнению со СКА.

Таблица 1

Классификация методов многомерного анализа данных по двум основаниям: метаметодика анализа и возможность построения прогноза

Метаметодика анализа данных

Типологический анализ Факторный / факториальный анализ Причинный анализ

Описание и объяснение без прогноза Кластерный анализ Факторный анализ Дисперсионный анализ

Многомерное шкалирование

Построение прогноза Дискриминант-ный анализ Регрессионный анализ Логико-комбинаторные методы

При использовании логико-комбинаторных методов переменные по «статусу» не являются равноправными, они делятся на зависимые и независимые, как и при проведении регрессинного, дискриминантного анализов. Однако последние позволяют анализировать взаимосвязь между переменными на «глобальном» уровне, рассматривая переменные как целостности, в то время как ДСМ-метод и СКА предназначены для обнаружения взаимосвязи между отдельными значениями переменных, то есть на «локальном» уровне.

Таблица 2

Классификация методов многомерного анализа данных по трем основаниям: статус переменных, возможность статистических оценок, возможность построения прогноза

Статус переменных Возможность статистических оценок Возможность предсказания / прогноза

есть нет

Зависимые / независимые переменные Регрессионный, дискриминант- ный Логико-комбинаторные Предсказание

дисперсионный - Описание, объяснение без предсказания

Равноправные переменные Кластерный, факторный, многомерное шкалирование

Логико-комбинаторные методы - нестатистические, в них не вычисляются статистические оценки, позволяющие переносить выводы, полученные по выборке, на генеральную совокупность. Напротив, это индуктивные методы, позволяющие обобщать информацию для рассматриваемой совокупности объектов. Сбор информации производится непрерывно, причем используется не репрезентативная, а теоретическая выборка, то есть отбор фактов осуществляется в соответствии с формируемой теорией, которая будет претерпевать изменения, корректировку в ходе обнаружения новой информации.

Применение логико-комбинаторных методов не требует высокого уровня измерения переменных, что значительно расширяет сферу их использования в социологии, где преобладают номинальные и порядковые шкалы.

Заключение

Выбор и использование адекватных способов анализа информации - одна из основных задач исследователя. Информативность, успешность социологического исследования во многом зависит именно от адекватности и релевантности методов сбора и обработки информации целям и задачам исследования. В связи с этим необходимо четко понимать специфику, возможности и ограничения каждого метода, чтобы использовать его наиболее эффективно.

Логико-комбинаторные методы предназначены для анализа жесткоструктурированных данных, позволяют анализировать взаимосвязь между переменными на «локальном» уровне. Одними из их основных преимуществ являются нестатистический характер задач, для решения которых они предназначены, возможность использования переменных, измеренных на номинальном и порядковом уровнях, а также отсутствие требований по выполнению таких условий, как нормальность распределения значений переменных, предположение о линейности взаимосвязи, в отличие от статистических методов. Благодаря этому логико-комбинаторные методы подходят для анализа именно социологических данных и должны найти широкое применение в эмпирических исследованиях.

Примечания

Существуют и другие методы, связанные с использованием языка математической логики. См., напр.: Витяев Е.Е., Логвиненко А.Д. Обнаружение законов на эмпирических системах и тестирование систем аксиом теории измерений // Социология: методология, методы и математическое моделирование. 1998. № 10. С. 97-121; Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981. Но они в статье не рассматриваются.

Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: Учеб. пособие. М.: ФОРУМ, 2008. С. 315.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Татарова Г.Г. Методологическая травма социолога. К вопросу интеграции знания // Социологические исследования. 2006. № 9. С. 14.

Татарова Г.Г. Основы типологического анализа в социологических исследованиях. М.: Высшее образование и наука, 2007. 236 с. Там же. С. 72.

4

Девятко И.Ф. Модели объяснения и логика социологического исследования. М.: ИСО РЦГО - TEMPUS/TACIS, 1996. С. 23. Там же.

Встречаются упоминания о методах снижения размерности, допускающих интерпретацию в понятиях и терминах вероятностной модели, подразумевающих использование теории математической статистики. См., напр.: Косолапов М.С. Классифискация методов пространственного представления структуры исходных данных // Социологические исследования. 1976. № 2. С. 98-109.

Толстова Ю.Н. Измерение в социологии. М.: ИНФРА-М, 1998. С. 10. Например, классификация разновидностей регрессионных моделей в зависимости от уровня измерения переменных представлена в: Крыштановский А.О. Анализ социологических данных с помощью пакета SPSS: Учеб. пособие для вузов. М.: ГУ ВШЭ, 2006. С. 164-165.

Оцифровка качественных признаков при анализе связей // Интерпретация и анализ данных в социологических исследованиях / Отв. ред. В.Г. Андреенков, Ю.Н. Толстова. М.: Наука, 1987. С. 67-95.

Ragin C.C. The comparative method: Moving beyond Qualitative and Quantitative Strategies. Berkeley; Los Angeles; L.: Univer. of California рress, 1987. 185 р.; Idem. Configurational Comparative Methods: Qualitative Comparative Analysis (QCA) and Related Techniques. Thousand Oaks: SAGE Publications Inc., 2008. Более подробно об этом см.: Михеенкова М.А. О формализованных эвристиках качественного анализа социологических данных // Вестник РГГУ. 2010. № 12. С. 193-214.

Полный перечень исследований с использованием СКА см.: Compasss (COMParative methods for the Avancement of Systematic cross-case analyses and Small-n Studies) [Электронный ресурс] // URL: http://www.compasss.org/pages/wel-come.html

Vaisey S. QCA 3.0: The «Ragin Revolution» Continues // Contemporary Sociology: A Journal of Reviews. 2009. Vol. 38. P. 308.

Примеры применения ДСМ-метода см. в: Автоматическое порождение гипотез в интеллектуальных системах / Сост. Е.С. Панкратова, В.К. Финн; Под общ. ред. В.К. Финна. М.: ЛИБРОКОМ, 2009. 528 с.

См., напр.: Данилова Е.Н., Михеенкова М.А., Климова С.Г. Возможности применения логико-комбинаторных методов для анализа социальной информации // Социология: методология, методы, математические модели. 1999. № 11. С. 142157; Финн В.К. Интеллектуальные системы и общество: Сб. статей. М.: РГГУ, 2000. 309 с.

Об этом подробнее см.: Бурковская Ж.И., Михеенкова М.А., Финн В.К. О логических принципах анализа электорального поведения // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2004. № 8. С. 18-22; Кученкова А.В. Методика анализа электоральных предпочтений с помощью ДСМ-метода // Вестник РГГУ. 2011. № 3. С. 256-271.

7

8

11

12

13

14

15

16

17

18

19 Михеенкова М.А., Финн В.К. О логических средствах концептуализации анализа мнений // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2002. № 6. С. 5.

20 Там же. С. 4-5.

21 Михеенкова М.А. Указ. соч.

22 Милль Дж.Ст. Система логики силлогистической и индуктивной: изложение принципов доказательства в связи с методами научного исследования. М.: ЛЕНАНД, 2011.

23 Ноэль-Нойман Э., Петерсон Т. Все, но не каждый. Введение в методы демоско-пии. М.: МГУКИ, 2007. 616 с.

24 Михеенкова М.А. Указ. соч.

Особенности логико-комбинаторных методов как средств многомерного анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кученкова Анна Владимировна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кученкова Анна Владимировна

Characteristics of logical-combinatorial methods as instruments of multivariate analysis

Текст научной работы на тему «Особенности логико-комбинаторных методов как средств многомерного анализа данных»