Научная статья на тему 'Обучающая ДСМ-система для анализа социологических данных'

Обучающая ДСМ-система для анализа социологических данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC-ND
394
79
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА / INTELLIGENT SYSTEM / РЕШАТЕЛЬ ЗАДАЧ / PROBLEM SOLVER / ФОРМАЛИЗОВАННЫЙ КАЧЕСТВЕННЫЙ АНАЛИЗ / FORMALIZED QUALITATIVE ANALYSIS / АВТОМАТИЧЕСКОЕ ПОРОЖДЕНИЕ ГИПОТЕЗ / AUTOMATIC GENERATION OF HYPOTHESES / ОБУЧАЮЩИЙ ИНТЕРФЕЙС / TRAINING INTERFACE / ПОШАГОВАЯ РЕАЛИЗАЦИЯ / STEP-BY-STEP REALIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Михеенкова Мария Анатольевна, Феофанова Татьяна Львовна

В работе описана система, обучающая применению ДСМ-метода автоматического порождения гипотез для анализа социологических данных. Метод вариант формализованного качественного анализа эмпирических данных реализует синтез познавательных процедур: индукции, аналогии и абдукции. Обосновывается возможность использования методов такого рода для анализа социологических данных, описывается архитектура системы, подготовка данных, реализация пошагового представления процедур ДСМ-рассуждения. Особенности системы позволяют считать ее удобным инструментом для обучения студентов-социологов ДСМ-методу.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The training ISM-system for sociological data analysis

The training system for the JSM-method of automatic generation of hypotheses in sociological data analysis is described in the paper. The method the variant of formalized qualitative analysis of empirical data realizes the synthesis of cognitive procedures: induction, analogy and abduction. The possibility of such methods use for sociological data analysis is justified, the architecture of system is described, so as data preparing and step-by-step realization of JSM-reasoning procedures. The system is supposed to be convenient training instrument for JSM-method studying by students-sociologists.

Текст научной работы на тему «Обучающая ДСМ-система для анализа социологических данных»

1М.А. Михеенкова, Т.Л. Феофанова

ОБУЧАЮЩАЯ ДСМ-СИСТЕМА ДЛЯ АНАЛИЗА СОЦИОЛОГИЧЕСКИХ ДАННЫХ

В работе описана система, обучающая применению ДСМ-метода автоматического порождения гипотез для анализа социологических данных. Метод - вариант формализованного качественного анализа эмпирических данных - реализует синтез познавательных процедур: индукции, аналогии и абдукции. Обосновывается возможность использования методов такого рода для анализа социологических данных, описывается архитектура системы, подготовка данных, реализация пошагового представления процедур ДСМ-рассуждения. Особенности системы позволяют считать ее удобным инструментом для обучения студентов-социологов ДСМ-методу.

Ключевые слова: интеллектуальная система, Решатель задач, формализованный качественный анализ, автоматическое порождение гипотез, обучающий интерфейс, пошаговая реализация.

Наиболее широко распространенными инструментами анализа и обработки результатов социологических исследований являются средства, реализованные в пакете SPSS - Statistical Package for the Social Sciences (для обучения работе с которым существуют специальные издания1). Очевидные достоинства этого пакета - интуитивно понятный и удобный интерфейс, широкий выбор средств анализа, визуализация результатов и получаемой отчетности и т. д. - подкрепляются традициями математической подготовки социологов. Доминирующим в этой подготовке является изучение статистических методов анализа данных. Таким образом, к концу обучения в университете специалисты-социологи не только овладевают теоретическими основами статистических подходов к анализу эмпирических данных, но и осваивают на практике инструмент, реализующий широкий спектр таких подходов. При этом к числу основных достоинств пакета SPSS студенты (со временем

становящиеся профессиональными пользователями) относят и развитую систему обучения работе с ним.

Однако обоснованность именно и только статистического анализа в социологии неоднократно подвергалась сомнению, в том числе и классиками социологической науки. Так, в известной работе «Кван-тофрения» П. Сорокин2 называет некритическое использование статистических (количественных) подходов «ложным околичеств-лением нескалярных качественных данных». На детерминистский характер большинства социологических явлений указывает К. Поп-пер3: «причинные законы в социальных науках <...> являются качественными, а не количественными и математическими. Если социологические законы и определяют степень чего-либо, то используют при этом весьма неопределенные понятия и в лучшем случае дают очень грубую оценку». Сложно организованные системы порой требуют предварительного описания, к примеру, множеством отношений. И даже после переноса предложенной системы отношений на числовую ось (что и составляет основу теории измерений) эти отношения не всегда поддаются простому вычислительному анализу. Невозможность решать задачи, явным образом содержащие причинные зависимости и принципиально обладающие ограниченной эмпирической базой, традиционными статистическими методами подвигла современных исследователей-социологов на создание формальных средств иного рода4. Так, в работах последнего времени можно найти подробную библиографию5, характеризующую современное состояние подходов, опирающихся на применение булевой алгебры для анализа социологических данных. В своем развитии эти методы широко используют средства нечетких логик, рассматриваются также некоторые варианты многозначных логик.

Актуализация потребности в использовании иных, нестатистических подходов к анализу и обработке социологических данных заставляет обратиться к методам современного направления исследований - анализа данных, чаще всего объединяемых общим названием Data Mining6. Так, для решения задач классификации широко используются деревья решений и нейронные сети, последние также применяются и для решения задач кластеризации. Обучение нейронных сетей осуществляется с помощью генетических алгоритмов и т. д. При этом уже стало традицией, что разработчики универсальных статистических пакетов, в дополнение к стандартным методам статистического анализа, включают в пакет и определенный набор методов Data Mining: SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner).

Статистический анализ часто используется для проверки заранее сформулированных гипотез, тогда как ключевой проблемой

анализа неформализованных эмпирических данных является извлечение содержащихся в них скрытых закономерностей, т. е. знаний. К сожалению, большинство указанных методов Data Mining не предоставляют таких возможностей. В современной социологической исследовательской практике альтернативой традиционному количественному (статистическому) анализу при решении задачи извлечения знаний зачастую видится так называемый качественный анализ. При этом такой анализ, как правило, принимает форму творческой эвристики общения исследователя с индивидом, субъективно интерпретирующим социальные явления и процессы, и последующего неформального анализа полученного материала7. Однако современные исследователи также обращают внимание на назревшую необходимость развития точных методов качественного анализа данных8.

Одним из возможных подходов к формализации качественного анализа социологических данных и последующей ее реализации средствами интеллектуальных систем (далее - ИС) является ДСМ-метод автоматического порождения гипотез9. Это направление соотносится с идеей М. Вебера о необходимости развития в социологии каузального объяснения процесса действия, его направленности и последствий10. Здесь качественные методы изначально рассматриваются как извлечение интерпретируемых зависимостей между различными факторами. Эти зависимости должны неявно содержаться в эмпирических данных и извлекаться из них с помощью формальных процедур. Метод реализует синтез познавательных процедур - эмпирической индукции (формальных расширений и уточнений индуктивных методов Д.С. Милля, в честь которого и назван метод), каузальной аналогии и абдукции (принятия гипотез на основе объяснения начальных данных) Ч.С. Пирса.

Основой для использования ДСМ-метода для формализованного качественного анализа социологических данных11 является тезис об адекватности средств анализа природе задачи, находящей свое выражение в онтологических допущениях относительно типов предметных областей. Статистические средства применимы в областях, представленных множествами случайных событий. Однако сказанное выше позволяет отнести значительную часть социальных явлений к причинно обусловленным. Соответственно, анализ такого рода событий должен осуществляться детерминистскими методами. Разумеется, о детерминированности социальных явлений (таких как, к примеру, индивидуальное поведение) можно говорить, имея в виду некоторые уточнения. Причинная обусловленность здесь - это, скорее, предрасположенность (в смысле К. Поппера) к совершению поведенческих актов (действий, устано-

вок, мнений). Более того, предрасположенность эта реализуется при отсутствии противодействующих влияний (как внутренних - личностных, так и внешних - ситуационных).

ДСМ-метод автоматического порождения гипотез позволяет обнаруживать причинно-следственные зависимости, неявно содержащиеся в фактах, относящихся ко второму миру. Метод состоит из формального языка, обладающего дескриптивной и аргументатив-ной функциями; правдоподобных ДСМ-рассуждений, являющихся синтезом трех познавательных процедур - индукции, аналогии и абдукции (с последующим возможным применением дедукции); квазиаксиоматических теорий12 (далее - КАТ), систематизирующих открытое множество знаний о предметной области. Метод реализуется в интеллектуальных системах типа ДСМ, имеющих в качестве подсистемы Решателя13 Рассуждатель, реализующий ДСМ-рассуж-дения, а в качестве базы знаний (далее - БЗ) - соответствующую КАТ, включающую множество гипотез Н, порожденных ДСМ-рас-суждением.

Исходный предикат ДСМ-метода Х^^ интерпретируется как «субъект Х обладает эффектом поведения Y», где Y - переменная для представления действий, установок и мнений. Предикаты и означают, что «подмножество характеристик V

есть причина эффекта поведения Ш» и «эффект поведения Ш есть следствие подмножества характеристик V».

ДСМ-рассуждение формализуется средствами бесконечно-значной логики предикатов (1-го порядка для конечных моделей и слабой логики предикатов 2-го порядка для бесконечных моделей14). Оно состоит из последовательного и итерируемого применения индуктивных выводов (из предиката Х^^ порождаются предикаты V^2W или т. е. в автоматическом режиме фор-

мируются фрагменты базы знаний интеллектуальной системы типа ДСМ) и выводов по аналогии (они используют гипотезы V^2W и о причинах изучаемых эффектов, порожденные индукци-

ей, для расширения и уточнения представленного в начальном состоянии базы фактов (далее - БФ) отношения ^1*). Цикл «индукция-аналогия» повторяется до стабилизации множества гипотез Н = Н1 и Н2, где Н1 - гипотезы о причинах изучаемых эффектов, полученные с использованием правил правдоподобного вывода 1-го рода - индукции, а Н2 - гипотезы, являющиеся предсказаниями и полученные с использованием правил правдоподобного вывода 2-го рода - аналогий. ДСМ-рассуждение завершается применением абдукции (формализованной посредством критерия достаточного основания принятия гипотез) - процедуры объяснения начального состояния БФ.

Таким образом, метод представляет собой реализацию общей эвристики «сходство-аналогия-абдукция». «Сходство» в этой схеме является нестатистическим и конкретизируется посредством логико-алгебраического и формально-индуктивного подхода.

Корректность использования ДСМ-метода при решении задач предметной области регулируется рядом онтологических допущений. Так, предполагается, что в качестве моделей КАТ имеет множество позитивных и негативных фактов (наличие или отсутствие исследуемого эффекта), которым отвечают позитивные (+) и негативные (-) причины соответственно. Этот принцип используется как основание для абдуктивного принятия индуктивных гипотез о причинах. Далее, в основе идеи ДСМ-причинности лежит принцип структурализма - представления гипотетических причин (наиболее устойчивых и существенных позитивных и негативных влияний) в виде сходств фактов, имеющих определенную структуру. Таким образом, исследуется определенный тип каузальности: «структура-эффект» (а не «явление-явление»).

Симметрия позитивных и негативных причин является онтологической особенностью социальной реальности - в предположении, что в изучаемом фрагменте социальной действительности объективно содержатся позитивные и негативные зависимости («влияния») причинно-следственного типа. Однако вытекающая из принципа структурализма потребность в предварительной (алгебраической) формализации сходства объектов и их свойств при существующей традиции обработки эмпирических социологических данных трудно удовлетворима.

Указанная трудность в предлагаемом варианте формализованного качественного анализа социологических данных преодолевается выделением обозримого множества характеристик социальных субъектов (как индивидов, так и социальных общностей). Основой представления знаний о субъекте является так называемый «постулат поведения». Пусть имеются три множества характеристик, входящих в описание субъекта поведения: признаки, представляющие социальный характер субъекта ^С); индивидуальные черты личности (1Р); биографические данные (BD). Поведение В субъекта С определяется подмножеством характеристик DetQС таким, что Det = Det1UDet2UDetз, где (Det1Q(SC))&(Det2Q(IP))& (Det3Q(BD)), причем хотя бы одно Deti ^ 0, г = 1, 2, 3. Таким образом, индивидуальные характеристики социального субъекта являются информативным основанием для порождения детерминант социального поведения и, соответственно, материалом для построения возможных моделей социальной структуры с использованием установленных детерминант поведения.

Структурированное представление социологических данных позволяет рассматривать различные типы задач: задачу социологии «субъект ^ поведение», задачу социальной психологии «субъект ^ установки» и, наконец, задачу изучения отношения «субъект ^ мнение». Указанные отношения формализуются посредством исходного предиката X Y (см. выше).

Массив начальных данных содержит высказывания типа «высказывание "объект С обладает множеством свойств А" имеет истинностную оценку (V, и)» (/,, п)(С А) в ДСМ-языке15). Здесь у£{1, -1, 0, т| - типы истинностных значений «фактическая истина», «фактическая ложь», «фактическое противоречие» и «неопределенность», соответственно, и - номер шага вычислений, выражающий степень правдоподобия истинностного значения. В результате применения ДСМ-рассуждений порождаются высказывания вида/(п, п)(С А), п>0, означающие, что «высказывание "подобъ-ект С' есть причина множества свойств А" имеет истинностную оценку (V, п)» Здесь /,, п)ф = t, если v[ф] = (V, п); /,, п)ф = ^ если v[ф] * (п, п), v[ф] есть функция оценки, (V, п) представляет «внутренние» истинностные значения фактов и гипотез, t, f - «внешние» истинностные значения двузначной логики. Таким образом, предикат V Ш представляет отношение причинности: «V есть причина Ш». Высказывания/(п, 0)(С А) суть факты,/,, п)(С ^ А) = 1, 2, п>0) - гипотезы.

Пусть даны конечные множества и(1) = ..., dr}, и(2) = {а1, ..., а5|. Определим на них булевы алгебры В^ = {В(и(0), —, П, и}, .г=1, 2, Б(и(;)) - булеан (множество всех подмножеств множества и(г)). Переменные и константы сортов 1 и 2 - объектов ХЕВ(и(1)) и множеств свойств YЕB(U(2)) соответственно - определяются стандартным образом16. Семантика ДСМ-метода для анализа и прогнозирования социального поведения представляется алгеброй субъектов поведения В1 и алгеброй поведенческих актов (поведенческих готовностей) В2 (подчеркнем, что булевская структура данных - лишь одна из возможных).

Стратегия анализа имеющихся фактов вида/ п)(С А), где СеВ(и(1)) и А<ЕВ(и(2)) зависит от представления данных о субъекте и его свойствах. При изучении собственно поведения (или установок субъекта) информативность представленных данных о субъекте, как правило, превосходит информативность данных о его поведении. В этом случае используется прямой ДСМ-метод17, устанавливающий причинно-следственную зависимость типа «сходство субъектов поведения влечет сходство действий этих субъектов», которая в результате представляется гипотезами вида

/(V, п)(С' ^2 А).

При решении задачи анализа мнений, напротив, информативность характеризации мнения превосходит информативность знаний о субъекте, высказывающем мнение. Отсюда возникает потребность в формализации рассуждения, устанавливающего зависимость типа «сходство мнений субъектов есть следствие сходства самих субъектов». Это требует расширения ДСМ-языка: вводится предикат W3^ V, интерпретируемый как «мнение W есть следствие характеристик субъекта V»18. Формулируются предикаты обратного ДСМ-метода для порождения гипотез о причинности - высказываний видаn}(C' Q' ), n>0. Это выражение означает, что «высказывание "мнение Q' есть следствие характеристик субъекта C ' " имеет истинностную оценку (v, и}».

Семантика ДСМ-метода для анализа и прогнозирования мнений опирается на представление темы опроса Т характеризующими ее утверждениями каркаса P = {p1, ..., pn}. Пусть в этом случае U(2) = {С | JvPj)&(ve{1, -1, 0, t}), i =1, ..., n}, где " ^ " - предикат графического равенства формул, Jvpi = t, если v[pi] = v. Тогда fj -Jv1(j)P1& . &/vn(j)Pn (vi(j) E{±1, 0, t}, i = 1, ..., n; j = 1, ..., 4n) - максимальная конъюнкция атомов Jvi(j)pn - представляет мнение индивида. .Множество членов этой конъюнкции обозначим [fj] = {/v1(j)P1, .,/vn(j)Pn}. В таком представлении задача изучения мнений сводится к изучению высказываний J(m m}(Cj-^1[fj]) - «субъект Cj имеет мнение fj» - и J^ m}([cj] C j) - «мнение Cj есть следствие характеристик субъекта C j», - Cj, Cj, [fj], [Cj] - константы, Cj, C' jeB(U(1)), [fj], [Cj] &B(U(2)), (m, m} - оценка, полученная применением ДСМ-метода АПГ, где m^{±1, 0, t}, а m - число применений ДСМ-правил правдоподобного вывода.

Из сказанного ясно, что с развитием современных методов формализованного качественного анализа социологических данных становится необходимым введение дополнительных математических курсов в программу обучения социологов, а именно: преподавание математической логики. Следует сказать, что РГГУ может по праву считаться пионером в этом направлении: на факультете социологии заведующий Отделением интеллектуальных систем в гуманитарной сфере проф. В.К. Финн читает курс математической логики (I курс) и курс многомерного анализа («Логические средства анализа социологических данных») (III курс). Этот опыт позволил выявить естественные трудности, возникающие в понимании и освоении студентами подходов к формализованному качественному анализу данных. Таким образом, практическое восприятие работающей интеллектуальной системы, специально настроенной на последовательное усвоение этапов правдоподобного рассуждения, оказывается незаменимым в учебном процессе.

Описанное выше ДСМ-рассуждение - последовательное и итерируемое применение индуктивных процедур и выводов по аналогии, завершающееся применением абдукции, реализуется в интеллектуальной системе (далее - ИС) специальной архитектуры19, все составные части которой образуют единое гармоничное (в идеале) целое. Архитектура ИС включает в себя Решатель задач, Информационную среду и Интеллектуальный интерфейс. Здесь Решатель задач = Рассуждатель + Вычислитель + Синтезатор, Информационная среда = База фактов (БФ) + База знаний (БЗ). БФ представляет рассматриваемую предметную область, БЗ - извлекаемые из фактов (посредством используемых процедур) знания. Интеллектуальный интерфейс включает в себя диалог (наилучший вариант - диалог на естественном языке), демонстрацию как результатов работы ИС, так и процесса их получения, графическое представление результатов, обучение пользователя работе с ИС, поддержку интерактивного режима работы ИС. Рассуждатель представляет собой ядро Решателя ИС - подсистему, реализующую логические средства решения, которые формализуют соответствующую эвристику. Из сказанного ясно, что полноценная система должна включать в себя все эффективно действующие составляющие.

Целью настоящей работы стала разработка обучающей ДСМ-системы, получившей название JSM Socio, для демонстрации работы ДСМ-метода в приложении к социологическим данным. В структуре Решателя JSM Socio предусмотрена наглядная реализация различных стратегий ДСМ-рассуждений, а этап подготовки данных включает столь же наглядное представление различных типов сходства. Подобная система призвана ознакомить эксперта-социолога (равно как и студента) с работой самого метода, обучить его использованию ДСМ-рассуждений для извлечения причинно-следственных зависимостей из исходных данных, продемонстрировать преимущества логико-комбинаторного подхода при решении некоторых задач анализа данных и, как результат, увеличить степень популярности ДСМ-метода как эффективного инструмента для исследования социальной действительности.

Для реализации системы был выбран язык Visual Prolog, интегрированная среда разработки Visual Prolog версии 7.1. Это мощный инструмент, предназначенный не только для удобного визуального программирования, но и для использования самых актуальных технологий, таких как создание и поддержка работы с COM-объектами, создание XML-документов, доступ к Windows API и многое другое.

Начнем с того, что в соответствии с описанной архитектурой системы необходимо предварительное формирование исходных

данных (БФ) для работы в системе. Эта процедура является отдельным этапом, который может осуществляться с помощью стандартных программ обработки табличных данных, таких как MS Excel или SPSS. Составной частью подготовки данных для работы системы является реализация задания различных типов сходств, соответствующих особенностям социологических данных. Рассмотрим особенности формализации операции сходства социологических данных.

В большинстве социологических исследований анализируется анкетная информация. В результате обработки этой информации формируется таблица данных, столбцы которой соответствуют признакам (некоторым выделенным исследователем характеристикам респондента), а строки - данным по каждому респонденту. Признак можно рассматривать как некоторое общее для всех объектов качество, конкретные проявления которого (значения признака; их называют также альтернативами, градациями) могут меняться от объекта к объекту. Это, в свою очередь, означает, что совершенно не обязательно полное соответствие между анкетными вопросами и вариантами ответа на них и признаками, что может потребовать формализации процесса преобразования анкетной информации в данные для исследования. Значения признака обычно кодируются числами; такое соответствие называется шкалой измерения признака20.

В системе реализованы различные типы сходства, соответствующие различным шкалам. Номинальная шкала является самым «низким» уровнем измерения: в этом случае используется только равенство или неравенство значений. Эта шкала отображает те отношения, посредством которых объекты группируются в отдельные непересекающиеся классы. Примером таких признаков являются «пол», «профессия». Также в этой шкале измеряются идентификационные характеристики респондентов, такие как номера телефонов, паспортов, индивидуальные номера налогоплательщиков и т. п. Соответствующий номинальный тип сходства является сходством «по совпадению»; результатом применения операции на несовпадающих значениях является либо специальное минимальное значение, заданное в системе по умолчанию, либо одно из указанных значений признака.

Часто значения признака выражают степень проявления какого-либо свойства и могут быть упорядочены. Например, работа «интересна», «безразлична» или «не интересна»; балльные оценки успеваемости делятся на «неудовлетворительно», «удовлетворительно», «хорошо», «отлично». При таком ранжировании расстояние между объектами является несущественным. Такая шкала

называется ранговой или ординальной, ей соответствуют два типа сходства - сходство по возрастанию или по убыванию. В первом случае результатом применения операции является минимум из двух значений признака, во втором, наоборот, максимум.

К особому типу относят признаки, имеющие два значения, например, «да» и «нет». Такие признаки называют дихотомическими. Их значения часто кодируют цифрами 1 («да») и 0 («нет»). В JSM Socio не предполагается специального типа сходства для таких случаев, так как для них всегда можно указать сходство по возрастанию.

Социологи также выделяют так называемые количественные шкалы для измерения значений признака на всей оси действительных чисел. Сходство для таких данных можно определять различными способами; в системе же предполагается, что непрерывные значения сгруппированы в интервалы, и поэтому на них можно задавать сходство порядкового типа.

В системе реализована возможность задавать нестандартное для социологических данных сходство, соответствующее четырехзначной логике аргументации21. Эта логика была предложена для описания рационального выбора вариантов ответа респондентом и предоставляет нетривиальные возможности для реализации логической схемы опроса. Опишем кратко ее семантику. Пусть А - множество доводов (аргументов и контраргументов), Р - множество всех пропозициональных переменных (например, для каркаса Р = {p1, ..., pn} темы Т), множество возможных оценок высказываний {1, -1, 0, t} (см. выше). Для каждой р £ Р определим две функции. g+: Р^2А, g+^СА, i =1, ..., n. g-: Р^2Л, g-^)^, i =1, ..., n. Тогда высказывание pi принимается (получает оценку +1), если есть аргументы «за» и нет контраргументов (g+(pi) * 0, g-(pi) = 0). Соответственно, высказывание отвергается (оценка -1), если g+(Pi) = 0, g-(Pi) * 0. Далее, v[pi] = 0 ^ g+(pi) * 0, g-(pi) * 0 и v[Pi] = t ^ g+(Pi) = g-(Pi) = 0.

Отношение порядка на данном множестве значений задается нижней полурешеткой вида:

Результатом применения операции сходства для двух значений из множества {+1, -1, 0, t} является их минимум в соответствии с заданным порядком. Следует заметить, что приведенный выше порядок не является единственно возможным: существуют и другие полурешетки на указанном множестве, иногда используемые для построения сходств при анализе социологических данных. Более того, в некоторых случаях бывает оправдано применение логик с иными наборами значений. Задание в системе JSM Socio сходства аргументационного типа является опциональной возможностью, которая, в первую очередь, предназначена для демонстрации нетра-

диционных логико-комбинаторных подходов к анализу данных в социологии.

В процессе подготовки данных не всегда анкетные варианты ответа в точности становятся набором значений признака. Также необязательно, чтобы одному признаку соответствовал ровно один вопрос. Обработка данных для анализа - весьма трудоемкий процесс, требующий от исследователя широкого знания предметной области и опыта. Одним из стандартных приемов обработки результатов опроса является так называемое «сворачивание» признаков, т. е. сопоставление различных комбинаций ответов на специально заданные комплексы вопросов и значений новых признаков по некоторым правилам, определенным исследователем (на основе социологической модели). Так, например, значение комплексного признака «отношение к частной собственности на землю» формируется на основании оценок респондентом утверждений «Земля всецело должна быть в государственной собственности», «Продажа земли в частные руки должна быть строго ограниченной», «Необходима свободная без ограничений продажа сельскохозяйственных угодий», помещенных в опросную анкету под разными номерами. Варианты ответа на эти вопросы кодируются значениями четырехзначной логики, описанной выше, а итоговый признак формируется на основании аргументационного типа сходства, хотя это не обязательное правило. В реализованном варианте системы правила сворачивания задаются в ручном режиме, однако в перспективе предполагается встраивание специального модуля для автоматической генерации таких правил.

В системе реализованы все описанные ранее типы сходств (номинальный, по возрастанию, по убыванию, аргументационный). Также к ним добавлен тип custom, который означает, что матрица сходства была задана пользователем вручную.

В большинстве социологических исследований анализируется анкетная информация. В современных статистических пакетах такую информацию принято представлять в виде таблицы. Обычно обрабатывается один файл данных, визуальное представление напоминает таблицу Excel (один лист). В JSM Socio исходные данные также представлены в виде таблицы, однако содержимое ячеек в этой таблице не может быть изменено; предполагается, что выгруженные данные были отредактированы заранее.

Для каждого признака заводится отдельная переменная с указанным типом данных и соответствующей шкалой измерения. Аналогичным образом в системе JSM Socio задается тип сходства для каждой загруженной переменной.

Когда все данные занесены в файл SPSS, к ним можно применять различные статистические процедуры и просматривать результаты в отдельном окне «Output». SPSS - это один из наиболее удобных инструментов, в котором реализовано множество различных методов количественного анализа данных, однако пользователь всегда имеет дело только с конечным результатом. Такой подход неудачен для задачи обучения, и поэтому в JSM Socio существенную часть занимает демонстрация алгоритмов ДСМ-метода с представлением результатов на каждом шаге. Однако в системе также генерируется лог-файл, имеющий сходную с окном «Output» в SPSS структуру.

Для создания проекта в системе необходимы исходные данные. Они должны храниться в текстовых файлах (с расширением .txt или .dat), содержащих таблицы с разделителями-табуляторами. Такие файлы можно получить с помощью пакета SPSS или MS Excel; для этого достаточно сохранить данные в указанном формате. Первый файл должен содержать описания объектов, то есть биографические, социальные и психологические характеристики респондентов. Во втором файле находятся мнения респондентов, соответствующие свойствам объектов. Каждой строке из первого файла ставится в соответствие строка из второго, поэтому для корректной работы системы количество респондентов в обоих файлах должно быть одинаково. Значения атрибутов (признаков) в первом файле могут быть устроены по-разному; предполагается, что они закодированы числами. Если в ячейке таблицы встречаются символы, которые не могут быть конвертированы в числа, то вся строка символов объявляется меткой значения, которой присваивается некоторое не использованное ранее для данного признака число в качестве внутреннего кода. Все значения свойств во втором файле должны принадлежать множеству {+1, -1, 0, t} (кодируются символами «+», «-», «0» и «?» соответственно). Любое неизвестное значение в этом файле автоматически преобразуется в «t».

Перед запуском ДСМ-метода для каждого атрибута в описании респондентов задаются тип сходства, способы отображения значений и выделенные значения. Эти настройки аналогичны заданию переменных в SPSS.

В настройках свойств в JSM Socio используется семантика анализа мнений. Одно из свойств объектов выбирается как целевое, то есть определяющее отношение респондента к теме. Остальные свойства объявляются каркасом темы и используются при построении пересечений. Тем не менее, в системе существует возможность применения различных стратегий ДСМ-рассуждений, и такое представление легко интерпретируется для оценки отношения в целом при любой используемой стратегии.

В основу обучающего механизма системы JSM Socio был положен принцип трассировки. Использование этого принципа позволило наглядно представить работу процедур ДСМ-метода и все промежуточные результаты вычислений.

Пошаговое выполнение кода программы, написанной на каком-либо языке программирования, позволяет лучше понять, как она устроена, и найти возможные ошибки в коде. Таким образом, трассировка используется в отладчиках различных сред разработки. В системе JSM Socio нет необходимости искать какие-либо ошибки выполнения ДСМ-метода, однако организация обучающего интерфейса по аналогии с этими отладчиками позволила прослеживать работу алгоритмов на хорошо детализированном уровне.

Для того чтобы эффективно реализовать данный механизм, необходимо, во-первых, всегда сохранять промежуточные результаты. На каждом шаге ДСМ-рассуждений система сохраняет все данные в отдельный файл. При переходе на новый шаг или возврате можно загружать данные из соответствующего файла, организуя тем самым требуемое состояние ДСМ-системы. Во-вторых, также следует как можно лучше локализовать различные участки кода в решателе. Именно поэтому каждая процедура была вынесена в отдельный класс, а для примеров, пересечений и даже самих стратегий ДСМ-метода были созданы классы с конструкторами.

Каждая процедура выполняется отдельно, непосредственно перед визуализацией. Если процедура уже была выполнена, запускается визуализация на основе полученных результатов. При демонстрации выполнения каждой из процедур имеются следующие настройки:

- переход на следующий шаг внутреннего цикла процедуры;

- трассировка в режиме реального времени (на низкой, средней или высокой скорости);

- пропуск нескольких шагов;

- пропуск всей процедуры;

- обнуление результатов выполнения процедуры.

В системе JSM Socio имеется множество различных окон для отображения данных и результатов. При этом пользователю доступны различные настройки ДСМ-метода: выбор стратегии (простой, несимметричной, обобщенной), направления анализа (прямой или обратный метод), использование итераций, ограничение по числу примеров, используемых при порождении гипотез (базис индукции к>2).

Окно Project explorer представляет дерево проекта - состояние всех запущенных стратегий. Вершины этого дерева соответствуют процедурам ДСМ-метода. Используя данное окно, пользователь может перейти к любой известной процедуре, совершив откат или, наоборот, пропустив несколько этапов.

Окно Database отображает исходную базу данных, а также предоставляет возможность настройки атрибутов и свойств.

Окно JSM monitor используется для работы с базой фактов и базой знаний. Здесь могут быть отключены отдельные примеры или гипотезы так, чтобы они не использовались в дальнейших рассуждениях.

Окно Watch аналогично окну просмотра в стандартном отладчике. В этом окне подробно представлена структура и свойства текущих объектов: примеров, пересечений или гипотез.

Окно Object explorer позволяет детально рассмотреть какой-либо объект: его структуру, свойства, знак, шаг, на котором он был получен, примеры-«родители» (для гипотез о причинах) или список гипотез (для примеров).

При разработке системы было выделено два типа алгоритмов выполнения ДСМ-процедур. Первая группа алгоритмов используется для проведения внутренних вычислений. Каждый из алгоритмов реализован в отдельном классе. Второй тип алгоритмов - это порядок демонстрации ДСМ-процедуры на каждом шаге рассуждений. Они несколько упрощают реальную схему вычислений для более наглядного представления результатов, но сохраняют все основные этапы рассуждения.

В системе имеется возможность опустить отображение текущих шагов вычислений; в этом случае после выполнения всего цикла соответствующие вершины будут добавлены в дерево проекта. После всех вычислений автоматически откроется диалоговое окно для отображения сводных результатов, где будет представлено количество итераций, количество гипотез о причинах и число доопределенных примеров (элементов БЗ) из общего числа не-

определенных в исходной БФ, количество объясненных фактов из общего числа определенных фактов из БФ.

В БФ представлены все примеры в начальном состоянии. В БЗ представлены все доопределенные примеры вместе с номером шага, на котором он был доопределен, и доопределяющими его гипотезами. Для гипотез о причинах также указывается номер шага вычислений, на котором гипотеза была получена, и ее «родители» - примеры, на основании сходства которых гипотеза порождена.

Работа системы JSM Socio была продемонстрирована на небольшой выборке данных, полученных при исследовании электоральных предпочтений студентов РГГУ накануне выборов в Государственную Думу в декабре 2007 г. Социологические анкеты были подготовлены и соответствующие данные были предоставлены студентами старших курсов и преподавателями социологического факультета РГГУ.

Описание респондентов было осуществлено в соответствии с описанным выше постулатом поведения. Согласно этому постулату, поведение детерминируется тремя множествами дифференциальных признаков - социальным характером, психологическими характеристиками личности, биографическими данными. Так, в анкете, разработанной для эксперимента, среди биографических данных рассматривались такие, как семейное и материальное положение, образование членов семьи и т. п. Социальные характеристики включают в себя вопросы относительно общественно-политической активности студентов, знакомства их с партийными положениями и, соответственно, отношения к ним, выбора базовых ценностей. Психологические тесты направлены на анализ таких сторон личности, как характеристики авторитарности личности (по Т. Адорно).

Формализованный качественный анализ электорального поведения в рассматриваемой в эксперименте модели состоит из:

а) порождения детерминант электорального поведения, представленного парой <мнение, выбор действия>. Здесь «мнение» есть выбор программных установок (без указания в исходных данных их принадлежности конкретной партии), а «действие» - свободный выбор одной из партий (список партий не предлагался, студенты самостоятельно называли свои предпочтения) или отказ от участия в выборах; при этом (-)-примерами для каждого действия (демонстрации партийных предпочтений) оказываются голосующие за все другие партии;

б) предсказания электорального выбора части опрошенных студентов посредством порожденных детерминант.

Для демонстрации анализа с помощью системы JSM Socio с одновременным обучением работе с системой из общей выборки (231 респондент) было отобрано 18 примеров: 7 положительных, 7 отрицательных и 4 неопределенных. Была применена простая обратная стратегия с запретом на контрпримеры; гипотезы о причинах должны были обладать не менее чем тремя родителями. Цикл выполняется за 2 шага, порождая 114 пересечений, 72 из которых становятся гипотезами, и доопределяются два примера из четырех. Критерий достаточного основания для принятия гипотез выполняется для всех определенных примеров исходной базы фактов.

Созданная система JSM Socio не просто является инструментом формализованного качественного анализа социологических данных. Она предоставляет реальные возможности для освоения этого инструмента (в том числе, и в процессе обучения студентов). Этому способствуют такие особенности системы как интуитивный интерфейс, удобство экспорта-импорта данных, легкость обучения работе, понятные и интерпретируемые шаги, визуализация этих шагов (идея отладчика), руководство пользователя, удобство и простота использования, демонстрационный пример.

Выбранная в качестве основного принципа организации обучения в системе идея программы-отладчика подразумевает пошаговое выполнение алгоритмов с возможностью остановки и просмотра текущих результатов на любом шаге. Для этого в приложении реализованы четыре основных окна, предназначенных для трассировки процедур поиска пересечений, индукции, аналогии и абдукции. Общая структура элементов управления на этих окнах позволяет различным образом настраивать пошаговый переход. Для наглядности отображения данных в приложении также имеются окна, соответствующие дереву проекта, расширенному представлению текущих объектов и детальному отображению структуры одного указанного объекта. Существенную помощь в обучении оказывает разработанный пользовательский интерфейс, сохраняющий некоторые привычные для социолога традиции обработки данных. При подготовке данных перед запуском ДСМ-метода используются принципы табличного представления данных и настройки атрибутов и свойств, перенятые из стандартных инструментов для работы с данными. Кроме того, для свободной передачи данных система использует процедуру логирования в XML-файл, который затем трансформируется в лог-файл в формате HTML, присоединенный к проекту. В этом файле подробно зафиксированы все результаты обработки исходных данных проекта.

Применение ИС для анализа и прогнозирования изучаемых эффектов социального поведения, представленных в неявном виде в

БФ, создает возможность формализованного качественного анализа с помощью когнитивных рассуждений, расширяя инструментарий обработки социологических данных. Реализация предлагаемых подходов средствами современных интеллектуальных систем позволяет говорить о создании инструмента интеллектуального анализа (knowledge discovery) для баз социологических фактов, а создание обучающей системы такого рода облегчает использование предложенных теоретических принципов и технологии на практике.

Авторы выражают благодарность доценту кафедры математики, логики и интеллектуальных систем, канд. физ.-мат. наук Е.А. Ефимовой за консультации по использованию языка Visual Prolog.

Работа выполнена при поддержке РГНФ (проект № 08-03-00145а).

Примечания

7

1 Крыштановский А.О. Анализ социологических данных. М.: Издательский дом ГУ ВШЭ, 2006. 282 с.

2 Сорокин П. Квантофрения // Социология. Хрестоматия для вузов. М.: Академический проект, 2002. С. 63-74.

3 Поппер К. Нищета историцизма. М.: Прогресс, 1993. С. 14.

4 Ragin C.C. The Comparative Method: Moving beyond Qualitative and Quantitative Strategies. Berkley; Los Angeles; L.: University of California Press, 1987. 185 p.

5 Rihoux B. Qualitative Comparative Analysis and Related Systematic Comparative Methods // International Sociology. 2006. Vol. 21 (5). September. P. 679-706.

6 Чубукова И.А. Data Mining. М.: Изд. дом «Бином», 2008. 384 c. ГотлибА.С. Введение в социологическое исследование (качественный и количественный подходы). М.: Флинта, 2005. 384 c.

8 Ядов В.А. Стратегия социологического исследования. М.: Добросвет, 2003. 567 c.

9 Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ. 1999. Сер. 2. № 1-2. С. 8-52.

Парсонс Т. О теории и метатеории // Теоретическая социология. Антология. Т. 2. М.: Наука, 2002. С. 44-45.

11 Финн В.К., Михеенкова М.А. Формализованный качественный анализ социологических данных и проблемы когнитивной социологии // Математическое моделирование социальных процессов. 2007. Вып. 9. С. 120-125.

12 Финн В.К. Указ. соч.

13 Финн В.К. Об интеллектуальном анализе данных // Новости искусственного интеллекта. 2004. № 3. С. 2-18.

14 Виноградов Д.В. Формализация правдоподобных рассуждений в логике предикатов // НТИ. 2000. Сер. 2. № 11. С. 17-20.

10

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15 Финн В.К. Синтез познавательных процедур и проблема индукции.

16 Там же.

17 Там же.

18 Гусакова С.М., Михеенкова М.А, Финн В.К. О логических средствах автоматизированного анализа мнений // НТИ. 2001. Сер. 2. № 5. С. 4-24.

19 Финн В.К. Об интеллектуальном анализе данных.

20 Толстова ЮН. Измерение в социологии. М.: Университет. Книжный дом, 2007. С. 10-20.

21 Финн В.К. Стандартные и нестандартные логики аргументации. М.: Наука, 2007. С. 158-189.

i Надоели баннеры? Вы всегда можете отключить рекламу.