УДК 004.855:316
В. К. СУГАК,
заведующий сектором «Белорусско-Китайский исследовательский центр "Один пояс - Один путь"»
Центра системного анализа и стратегических исследований НАНБеларуси, г. Минск,
e-mail: [email protected]
МАШИННОЕ ОБУЧЕНИЕ
В ЭКОНОМИКО-СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ: ОБЗОР МЕТОДОВ И ОБЛАСТИ ПРИМЕНЕНИЯ
В статье приведен обзор инструментов искусственного интеллекта, которые могут быть имплементированы в экономико-социологических исследованиях. Раскрываются перспективы применения методов и инструментов машинного обучения в исследованиях, актуальных для современного этапа развития общества в Беларуси.
Ключевые слова: цифровая социология, аналитическая социология, машинное обучение, обучение с учителем, обучение без учителя, предсказание, кластерный и тематический анализ, экономико-социологические исследования.
V. K. SUHAK,
Head of Sector
«Belarusian-Chinese Research Center "One Belt - One Road"» of the Center for System Analysis and Strategic Research of NAS ofBelarus, Minsk, e-mail: [email protected]
MACHINE LEARNING IN ECONOMIC AND SOCIOLOGICAL RESEARCH: REVIEW OF METHODS AND APPLICATIONS
The article provides an overview of artificial intelligence tools that can be implemented in economic and sociological research. The author reveals the prospects for using the methods and tools of machine learning in future research relevant to the current stage of development of society in Belarus.
Keywords: digital sociology, machine learning, supervised and unsupervised learning, predictions and inference, cluster and thematic analysis, economic and sociological research.
Цифровизация общества существенным образом меняет эмпирические исследования в области социальных наук. Из года в год становится намного легче хранить и анализировать большие объемы данных. Цифровые инновации последних лет позволяют собирать данные различных типов: геолокацию, аудиовизуальные и текстовые данные, информацию из соцсетей, коммерческие и правительственные открытые сведения. Кроме того, увеличение вычислительных мощностей и развитие программного обеспечения способствовали разработке алгоритмических решений сложных статистических задач и подготовили почву для зарождающейся области цифровых гуманитарных наук на
стыке исследований статистики и информатики, с одной стороны, и социологии, экономики, психологии, филологии, философии и политологии - с другой. Таким образом, стремительный рост вычислительных возможностей и сбор больших социальных данных вдохновили исследователей на создание междисциплинарного набора социальных и компьютерных технологий. Есть основания полагать, что жизнеспособность эмпирической социологии будет зависеть от способности адаптироваться к условиям, связанным с продолжающейся цифровизацией, в том числе и в рамках исследований общественных отношений в Республике Беларусь.
Наряду с тем, что цифровые технологии предоставляют ученым уникальные возможности для генерации данных, аналитической обработки и извлечения новых знаний, они также ставят новые методологические задачи, которые, в свою очередь, определяют форматы исследования, теоретические основы и используемые методы. Также имеет значение «человеческий фактор» -взгляд исследователя на то, как генерируемые данные анализируются и интерпретируются: либо с помощью традиционных статистических моделей, либо с помощью моделей из сферы искусственного интеллекта (ИИ).
Два основных столпа развивающихся цифровых социальных наук - это большие данные и машинное обучение (МО), при этом особый интерес представляют общие методологические аспекты, разработка соответствующих процедур сбора и анализа данных, вопросы качества и инновационные эмпирические приложения в социологическом контексте.
Среди актуальных задействованных областей и тем исследования можно выделить следующие: оценка качества больших данных и методологических проблем при их использовании; обеспечение качества данных и методов работы с отсутствующими данными; роль методики исследования в эпоху больших данных; разработки и исследования в сфере непрерывного сбора технологических данных, получаемых из мобильных телефонов и других гаджетов; анализ многомерных данных социальных сетей; оценка достоверности и адекватности выводов, сделанных при использовании инструментов МО; стратегии и методы увязки больших данных и данных классических опросов; МО и причинно-следственные связи; исследования по классификации, кластеризации, тематическому моделированию; моделирование и прогнозирование социальных явлений; создание инфраструктур социальных данных, в том числе в рамках построения электронного общества и правительства; интеграция тематики «большие данные» и «машинное обучение» в методическую подготовку социологов и др.
Развитие цифровой (аналитической) социологии вызвано лежащими в ее основе прикладным и теоретическим интересами к механистическому объяснению коллективной динамики, под которой понимается возникновение и трансформация системных свойств социальной общности. Аналитическая социология предполагает, что объяснение коллективной динамики может быть достигнуто путем изучения социальных механизмов, вызывающих эту динамику.
Это означает: 1) анализ деятельности акторов; 2) раскрытие различных контекстов - социальных, институциональных и экологических, влияющих на их действия; 3) демонстрация того, как взаимозависимое поведение накапливается в социальных моделях макроуровня и переходит в коллективные изменения [1]. Опираясь на эту логику, аналитические социологи стремятся достичь более глубокого понимания коллективных явлений, таких как неравенство, изменения рынка, политические преобразования и др. При этом все согласны с тем, что ключевыми аспектами выступают стремление к ясности и точности в разработке основанных на указанных механизмах интерпретаций, внимание к социальным процессам, достижение реализма в построении социологической теории.
Главной проблемой для многих социологов является определение того, как социальные системы проявляют определенные паттерны и как эти закономерности меняются со временем или варьируются в зависимости от контекста. Стоит отметить, что до сих пор социология анализирует социальные системы, сосредоточившись больше на «факторах», а не на взаимозависимом поведении «акторов» [2, р. 143-166]. Это означает применение статистических моделей, которые выявляют и описывают ассоциации (или даже причинно-следственные связи между упорядоченными во времени и пространстве социальными переменными, категориями или событиями), но недостаточно уделяют внимания конкретным видам деятельности, отношениям и моделям взаимодействий социальных акторов, вовлеченных в ключевые социальные процессы [3, р. 238-266].
Развитие аналитической социологии заключается прежде всего в достижении реализма исследований, где социальная динамика объясняется в реальном мире, а не в абстрактных, вымышленных социальных системах. На сегодняшний момент для социолога уже недостаточно быть удовлетворенным демонстрацией единственного конкретного механизма, вовлеченного в генерацию совокупного социального явления. Цель состоит в том, чтобы определить реально действующие механизмы эмпирически наблюдаемых социальных систем и продемонстрировать, как эти вместе взятые механизмы вызывают адекватно интерпретируемый социальный феномен. Такой подход контрастирует с традиционными количественными подходами, особенно в экономических исследованиях, где игнорируются разнородные социальные процессы, индивидуальное поведение, а модели редуцируются до приемлемых с точки зрения вычислений.
Машинное обучение можно рассматривать как ответвление непараметрической статистики. Оно позволяет обнаруживать знания в данных в автоматическом режиме. Несмотря на давнюю историю, МО представляет собой прорыв в информатике, где обычно интеллектуальные системы использовали жестко заданные алгоритмы (логический перебор инструкций), которые кодировали желаемый результат для возможных входных данных. Теперь интеллектуальные системы «учатся» на имеющихся данных и оценивают комплексные
функции, обнаруживая представления некоторых входных данных (X) или связывая входные данные с выходными данными (Y), чтобы делать прогнозы на основе других или новых данных.
Классифицировать инструменты машинного обучения можно по-разному, например, по тому, как инструменты МО обучаются, т. е. по принципам извлечения знаний из данных. Разные предположения о принципах получения ИИ через машинное обучение рождают разные алгоритмы, которые в зависимости от процесса обучения можно разбить по типу «опыта-интеллекта».
В машинном обучении с учителем (контролируемое обучение, прогностическое, supervised machine learning) алгоритм отслеживает выход (Y) для каждого входа (X). Этот вывод Y дает алгоритму цель для прогнозирования и действует на него как «учитель». В машинном обучении без учителя (неконтролируемое, репрезентативное, unsupervised machine learning (UML)) алгоритм наблюдает только за вводом (X). Он должен понимать данные без учителя, дающего правильные ответы, которых, как таковых, может и не быть, т. е., фактически, ответ - это наилучшее (в терминах модели) предсказание или прогноз самой модели на основе предыдущего опыта ее обучения. Сразу отметим, что ни один метод машинного обучения не является универсальным [4].
Машинное обучение с учителем включает в себя поиск функцийf(X), которые предсказывают выход (Y) при заданном входе (X), т. е. фактически ищет решение (прогноз) равенства Y = f(X) с наилучшей аппроксимацией1. Различные классы функций составляют линейные модели, деревья решений или нейронные сети.
Теоретически можно рассматривать две парадигмы развития статистического анализа: 1) классическая статистика, моделирование данных или генеративное моделирование, 2) машинное обучение, алгоритмическое моделирование или прогнозное моделирование.
Классическая статистика уповает на генеративное моделирование, где основная задача - сделать вывод о том, как результат (Y) связан с входными данными (X). При этом исследователь рассматривает стохастическую модель и оценивает ее параметры на основе данных. Генеративное моделирование приводит к простым, а главное, интерпретируемым моделям, однако игнорирует возможную неопределенность модели и часто бывает неэффективным вне имеющейся выборки данных.
Машинное обучение основано на прогнозное моделирование, где основной целью является предсказание результата (Y) для будущих входных данных (X). При этом исследователь принимает генеративную модель для данных как неизвестную и рассматривает прогностическую точность альтернативных моделей на новых данных. Прогнозное моделирование отдает предпочтение сложным моделям, которые хорошо работают вне выборки, но при этом дают
1 Задача прогнозирования называется классификацией, когда выходные данные являются дискретными, и регрессией, когда они непрерывны.
результаты «черного ящика» - сложные для понимания механизмы, связывающие входные данные с выходными.
В итоге эксперту приходиться выбирать из двух возможных вариантов. Первый - ограниченность применения модели, но при этом хорошая интерпретируемость ее результатов. Второй - прирост точности модели, приближение к реальности, увеличенная потенциальная эффективность, возросшая адекватность и применимость модели, но вместе с тем сниженная или несостоятельная интерпретируемость результатов.
Методы МО с учителем помогают достичь наилучшего баланса между уменьшением ошибок внутри выборки и вне ее, чтобы избежать двух ловушек анализа данных - недообучения и переобучения. Недообучение происходит, когда модель плохо соответствует имеющимся данным, а переобучение - когда она слишком хорошо соответствует обучающим данным и не может предсказать результат для новых входных данных, т. е. не будет хорошо обобщать прогноз для новых наблюдений. Для социолога это означает, что недообучение модели приводит к тому, что она пропускает часть сигнала в данных, и исследователь остается слеп к некоторым имеющимся паттернам. Переобучение же означает, что модель захватила не только сигнал, но и много шума, т. е. дополнительные факторы, которые варьируются от образца к образцу. В этом случае на новых данных мы будем воспроизводить паттерны, которых на самом деле нет [5].
Не вдаваясь в технические подробности, отметим некоторые популярные методы МО с учителем: регрессия со штрафом (например, по методу «лассо»); деревья классификации и регрессии («случайный лес» усредняет несколько деревьев, что приводит к более точным прогнозам, но менее интерпретируемым отношениям между X и Г); метод «ближайших соседей» (основан на определяемых пользователем расстояниях для усреднения ^-ближайших соседей новых входных данных (X) для прогнозирования выходных данных (Г) и предлагает прогнозы «черного ящика» с малым пониманием взаимосвязи между X и Г); нейронные сети (глубокое обучение на многослойных сетях, моделирующих выходные данные (Г) как композицию простых нелинейных функций линейных комбинаций входных данных нейронов (X)).
Для указанных выше методов МО с учителем исследователи в экономической социологии и экономике выделяют 3 класса задач: прогнозы для разработки политик и теорий, выявление и определение зависимостей причинно-следственного характера и дополнение недостающих данных (информации).
Прогнозы для целей развития новых и существующих политик и теорий формируются социологами при использовании инструмента МО с учителем в том случае, когда исследователь заинтересован в использовании новых данных (X) для прогнозирования (Г), даже не совсем понимая взаимосвязь между имеющимися данными (X) и (Г).
Примером могут служить многочисленные проекты разработок алгоритмов прогнозирования в социальных политиках для муниципальных властей.
При этом открытые данные позволяют работать совместно сразу нескольким командам. Как правило, результаты исследований и прогнозы не являются конечными - они лишь первые шаги к созданию новых идей и теорий, отправные точки для распутывания клубка имплицитных знаний в изучаемых социальных процессах.
Уже известны множественные кейсы применения МО с учителем в вопросах экономики, политологии, криминологии, медицине. Ученые подтверждают актуальность использования моделей для прогнозирования криминального риска, конфликтов и военизированных международных споров.
Так, социологи в США сделали анализ юридической системы на основе машинного прогноза, чтобы понять процесс, лежащий в основе судебных решений. В модели исследователи квазислучайно распределили судей по делам для объяснения источников несоответствия между модельными прогнозами и фактическими решениями. Результаты МО раскрыли важную информацию о принятии решений человеком и вдохновили на создание новой теории [6].
Наиболее технологически развитые страны, такие как ряд государств Европейского союза, Великобритания, Израиль, США, Китай, Южная Корея и Япония одними из первых подняли вопрос о нарушении прав человека при использовании искусственного интеллекта в процессах принятия решений. Говоря о рисках при принятии решений с помощью компьютера или искусственного интеллекта в области системы социальной защиты эксперты подчеркивают, что технологии могут включать в себя «код», использующийся при принятии решений, который, в зависимости от его характеристик или методов обучения, может ошибочно лишать людей льгот и возможностей и налагать обязательства, тем самым посягая на их социальные права.
Уже сейчас есть большие опасения, что прогнозы МО могут увековечить социальное неравенство. Некорректные данные, например, могут привести к не -корректным прогнозам, которые, в свою очередь, повлияют на реальные социальные процессы и сформируют ту кривую реальность, данные о которой опять идут на вход модели для формирования будущих прогнозов. Тем самым создается порочный круг. Поэтому ученые уже выдвигают императив неотъемлемого компромисса между точностью прогнозирования и алгоритмической справедливостью.
Для исследователей остается открытым вопрос: «Как определить справедливость?» Чтобы понять сложность проблемы, рассмотрим алгоритм прогнозирования, который выводит предсказание выдачи кредита (Г) на основе кредитного рейтинга (X). Предположим, что алгоритм на основании ранних данных создает кредитный рейтинг и дает более предпочтительные прогнозы для мужчин, чем для женщин. Или же алгоритм предпочитает выдавать кредиты белорусам, нежели афроамериканцам, при прочих равных условиях. В этом случае, чтобы предотвратить дискриминацию, необходимо сделать алгоритм более «справедливым», и один из способов - исключить параметры гендер-ной и расовой принадлежности заявителей. Однако такое ограничение может
привести к несоответствию других характеристик, а поскольку натренированные на реальных данных модели имитируют реальную картину, то навязанные равные возможности приводят к изменению моделей, потерям точности и уходу от реальности. Встает выбор: либо справедливость, либо равенство, что и приводит иногда к решению введения позитивной дискриминации [7]. Решение алгоритмической справедливости - это не техническая проблема машинного обучения, а дилемма, требующая от общества и исследователей разного профиля принятия трудных компромиссов. Так, в случае несоблюдения этических принципов придется отказываться от эффективных, но не соответствующих гуманистическим принципам алгоритмов машинного обучения, нейронных сетей и других математических методов искусственного интеллекта. Поэтому на протяжении последних пяти лет все мировые игроки сферы ИИ вводят понятие «этическое ИИ» и закрепляют законодательно его принципы.
Причинно-следственный анализ. Социологов часто интересует выявление причинно-следственного влияния эксперимента (вход X) на результат (выход Г). Инструменты машинного обучения могут помочь в процедурах причинно-следственного анализа (ПСА). Для примера рассмотрим фундаментальную проблему ПСА: мы наблюдаем некую единицу анализа (персоналии, группы, сообщества) и не можем измерить изменения эффекта причины на этом (индивидуальном) уровне. Вместо этого мы фокусируемся на совокупном «среднем» эффекте для всей совокупности. В экспериментальном плане мы случайным образом распределяем людей по экспериментальным и контрольным группам и оцениваем средний причинный эффект, сравнивая средний результат между группами. То есть эффект на микроуровне не наблюдается и не измеряется доступными способами, однако на макроуровне эффект не только наблюдаем, но и может быть измерен. В маркетинге таким образом реализуется А/В тестирование.
Большая часть эмпирической работы в социологии опирается на данные наблюдений, когда среду и ее изменения нельзя или трудно контролировать. Один из способов оценить причинный эффект состоит в том, чтобы предположить, что выход (Г) не зависит от определенного изменения, а обусловлен другими наблюдаемыми данными. В этом случае мы можем оценить причинно-следственный эффект путем «сопоставления» экспериментальной и контрольной групп по вероятности попадания в экспериментальную группу («оценке склонности»). Эта оценка склонности - задача прогнозирования, где «эффекты» входных данных не представляют интереса. Для этой задачи помимо традиционной логистической регрессии используются различные методы машинного обучения, такие как бустинг (подходы, преобразующих слабые обучающие алгоритмы в сильные), нейронные сети и деревья решений. Всегда стоит иметь в виду, что некоторые ненаблюдаемые входные данные коррелируют как с изменениями-причинами, так и с выходом-следствием.
Увеличение и дополнение данных. Ученые используют машинное обучение с учителем и для дополнения и связывания данных. Кроме этого, аугментация («раздувание») данных используется для создания дополнительных данных из имеющихся для целей разных инструментов ИИ: повышения прогностической эффективности классификаторов, особенно в области распознавания изображений при помощи глубоких нейронных сетей.
Исследователи, используя связывание и дополнение данных, могут решать разнородные задачи, например, для связывания закодированных данных людей между разными волнами переписи населения или для измерения профессиональной мобильности между поколениями. Ответы подмножества респондентов эксперимента могут быть использованы в качестве обучающих данных для прогноза ответов оставшейся выборки.
Моделирование контролируемых, идентифицированных (размеченных) человеком тем в качестве обучающих данных используется для классификации расширенного набора документов, картинок, аудио и других данных [8, р. 229-247]. Так, это можно применить для генерации тем описаний и аннотаций текста и изображений, суммаризации полученных данных. Кроме этого, МО с учителем используется для «нахождения» и заполнения отсутствующих (пропущенных) данных.
Машинное обучение без учителя ищет представление входных данных (X). Это представление для целей конкретного исследования является в каком-то смысле более полезным, чем (X). В данном случае целевого результата (Y) нет, т. е. нет «учителя», показывающего алгоритму, к чему он должен стремиться (нет «меры успеха»), поэтому исследователи используют эвристические инструменты для оценки результата, внимательно проверяют модели и подтверждают результаты с использованием статистических, содержательных или внешних критериев. В целом машинное обучение без учителя используется для измерения и обнаружения новых знаний, а его методы позволяют найти скрытую структуру в популяции, которая считалась бы однородной при традиционном статистическом подходе, поэтому МО без учителя часто приводит к новым гипотезам, которые можно вычленить сугубо из данных.
Одни инструменты МО без учителя уменьшают размерность данных (например, метод главных компонент, факторный анализ, тематическое моделирование), другие - разбивают данные на группы (например, кластерный анализ, анализ скрытых классов, анализ последовательности, обнаружение групп). Рассмотрим каждый из них подробнее.
Метод (анализ) главных компонент (Principal components analysis) обнаруживает небольшое количество линейных комбинаций входных данных (X), которые не коррелируют друг с другом и фиксируют большую часть изменчивости данных. Эти линейные комбинации («главные компоненты») могут использоваться в качестве исходных данных для последующего анализа. Факторный анализ (Factor analysis) обнаруживает скрытые факторы (ненаблюдаемые), объясняющие корреляцию входных данных (X), и возвращает «факторные
нагрузки» для каждого входа, которые можно использовать для интерпретации факторов. Кластерный анализ (Cluster analysis) группирует наблюдения в заданное количество «групп-кластеров», чтобы наблюдения в кластере были более похожи друг на друга, чем на наблюдения в других кластерах, и возвращает принадлежность кластеру для каждого наблюдения. Анализ скрытых классов (Latent class analysis (LCA), методы анализа латентных признаков) обнаруживает скрытые классы наблюдений, которые могут дать объяснения корреляции в наблюдаемых категориальных входных данных (X), и возвращает вероятность принадлежности к классу для наблюдений. Анализ последовательности (Sequence analysis) позволяет сравнивать последовательности (упорядоченные элементы или события) с «оптимальным соответствием», чтобы обнаружить группы наблюдений с похожими закономерностями (обычно с помощью кластерного анализа). Тематическое моделирование (Topic modeling) находит скрытые «темы» в текстовых данных на основе совпадения и близости слов, выражений, предложений (или целых текстов) в корпусе документов. Обнаружение сообществ (Community detection) идентифицирует «сообщества» в сетях (графах) на основе структурного расположения узлов.
Социологи уже давно используют методы главных компонент и факторный анализ, чтобы свести многие входные данные к меньшему набору. Теперь же «экономосоциологи»1 используют МО без учителя для обработки новых видов данных (изображений и/или текста), например, классифицируют спутниковые изображения для получения разной оценки различных индикаторов (вырубка лесов, загрязнение, ночное освещение и т. п.), которые связаны с экономическим развитием. Исследователи классифицируют таблицы и тексты, чтобы из сложных данных выявить знания и сделать оценки, определить нар-ративы для дискурса в СМИ; для формирования рекомендаций, исходя из анализа государственных актов, положений, документов; для оценки трендов, исходя из динамики публикационной активности академических кругов. Социологам интересны исследования группировки данных соцсетей для обнаружения сообществ, и поэтому соцсети делят на подгруппы, используют в отношении них меры эквивалентности и центральности, допускают смешение членства в сообществах, учитывают временную динамику развития сообществ, а также допускают в соцсетях наличие «латентной» социальной структуры.
Так, машинное обучение без учителя может помочь социологам определить группы неоднородности населения. Примеры современных социологических исследований, где были применены указанные выше методы, следующие: «нечеткий» кластерный анализ (позволяет соотнести каждый предмет исследования сразу к нескольким группам) для обнаружения трех конфигураций символических границ между иммигрантами и местными жителями
1 «Экономосоциологи» - авторское название социологов, занимающихся преимущественно междисциплинарным взаимодействием социальной и экономической сфер, т. е. сферой экономической социологии.
Европы [9, р. 37-59]; «анализ реляционных классов» (RCA)1, который находит ассоциации между ответами отдельных лиц в опросах (не между самими ответами) для обнаружения трех культурных различий в отношении музыкальных вкусов [10, р. 1397-1436], а также выявляет конфигурации политических убеждений [11, р. 45-95]; анализ скрытых классов для нахождения четырех видов типичного национализма в США [12, р. 949-980]; анализ последовательности для выявления разных моделей занятости матерей [13].
Поскольку машинное обучение без учителя не имеет критериев истинности, то адекватность моделей подвергается методам статистической проверки, которые включают в себя некоторые эвристические методы2. Ученые используют содержательную проверку, чтобы удостовериться, согласуются ли созданные модели с существующими типологиями и/или со здравым смыслом. Так, исследователи прибегают к проверке извне, чтобы оценить, подтверждают ли ожидания выявленные закономерности. К примеру, выявленные закономерности могут совпадать с имеющимися политиками региона, коррелировать с социальными и/или политическими установками, которые не использовались до определения типологии, или же выявлять другой, более точный результат, выясняя при этом, почему на макроуровне те или иные результаты, полученные другими методами (например, в ходе опросов), по-разному соотносятся с социальными, экономическими и другими показателями.
Многие инструменты МО являются новыми для социологии, однако позволяют решать уже давно сформулированные проблемы. Можно обобщить ключевые выгоды / недостатки от использования машинного обучения в следующем: отход от контролируемой интерпретируемости при росте точности. Фактически мы должны признать, что построенные модели МО лучше отражают реальность, но при этом мы до конца не понимаем механизм, как они работают. Возможно, причина кроется в имманентно дуальной природе функционирования общества, обладающей множеством причинно-следственных взаимосвязей, а указанный эффект моделей МО в данном случае роднит его с эффектом наблюдателя в квантовой механике.
Социологи по-прежнему склонны отдавать предпочтение классическим моделям, которые, по консервативному мнению, должны приводить к результатам, соответствующим здравому смыслу, а также к моделям, которые четко соотносят входные данные с выходными и требуют отчета и оценки неопреде -ленности модели.
1 Анализ реляционных классов (RCA) - это метод устранения неоднородности в данных опросов. RCA делит респондентов на группы людей с одинаковыми образцами отношений между ответами. Идея метода заключается в том, что люди в каждой группе используют особую культурную логику, составляя своего рода «субкультуру», несмотря на то, что члены каждой группы не обязательно придерживаются одинаковых мнений, но тем не менее понимают смысл вопросов сходным образом.
2 Эвристическими методами называются логические приемы и методические правила научного исследования, которые способны приводить к цели в условиях неполноты исходной информации и отсутствия четкой программы управления процессом решения задачи.
Машинное обучение помогает оторваться от сугубо линейного способа моделирования реальности, избежать «недообучения» (пропуска части сигнала) и «переобучения» (захвата «шума» наряду с сигналом, что ведет к потере возможности обобщения информации). При этом так же, как и в законе сохранения энергии или «золотом правиле» механики, при получении выгоды с одной стороны, исследователи часто получают результаты лишь в виде «серого ящика МО» с другой1.
Социологи и экономисты используют машинное обучение для предсказания создания и изменения экономических политик [14]; для начальных прогнозов социальных процессов и разработки теорий; для моделирования процессов стратификации социальных групп; для обсуждения этики моделирования и «справедливости» по отношению к различным социальным группам; для задач прогнозирования в рамках причинно-следственного анализа; для выбора оптимальной модели к использованию; в области публичной политики МО применяют «для оценки открытости власти, мониторинга востребованности открытых данных на различных сайтах, оценки эффективности политических программ, проектов и кампаний, мониторинга социальной и политической напряженности на различных территориях» [15, с. 288-289]. Машинное обучение также используется в процессе принятия политических решений [15, с. 295-305], управлении политическими процессами и политическими кампаниями, прежде всего предвыборными [16].
Машинное обучение помогает понять некорректность в подходах к социологическим исследованиям. Дедуктивный подход, используемый в том числе и в социологии, когда ученый выводит гипотезы из теории и проверяет их на данных, ограничивает как задаваемые вопросы, так и возможные методы их анализа. Чтобы проверить гипотезы, часто оценивается средний эффект каждой переменной из нескольких социальных теорий, утверждения которых справедливы только при определенных условиях и для определенных групп людей. При этом зачастую игнорируется, что разные динамические механизмы, работая одновременно, осуществляют переход разными путями из различных начальных состояний в одно и то же финальное состояние (эквифинальность), тем самым процесс анализа заведомо исключает гетерогенность. Машинное обучение, в свою очередь, предлагает новые инструменты для определения неоднородности населения [17]. Социологи используют МО без учителя для обнаружения в популяции подгрупп и связи каждой подгруппы с различными внешними факторами (фактически подбор «идеальных типов» по М. Веберу), переходя от дедуктивных рассуждений к индуктивным (подобно подходу «обоснованной теории»).
Инструменты машинного обучения обогащают и дополняют, а не заменяют традиционные методы в социологии. Результаты машинного обучения
1 «Серый ящик МО» - авторский термин, который, в отличие от «черного ящика», означает некоторую ограниченную способность интерпретировать результат или сделать выводы относительно исходных данных.
обеспечивают, скорее, не конечную цель, а отправную точку для дальнейшего анализа, обобщения и генерации концепций.
Социологи чаще представляют результаты исследований для подтверждения гипотезы, которая как бы была известна с самого начала. Такой подход ограничивает свободу исследователя, реализуя однонаправленную схему конвейера: «Формулировка гипотезы и вопросов ^ сбор и обработка данных ^ получение и интерпретация результата (оценка влияния (X) на результат (Y)) ^ подтверждение / опровержение гипотезы».
В отличие от этого, МО предоставляет разнообразный набор методов, с помощью которых возможно задать различные вопросы уже на начальном этапе, основываясь на анализе данных, реализуя многостороннюю схему асинхронного взаимодействия идей, инструментов и данных во время процесса исследований: «Данные ^ машинное обучение ^ идеи, вопросы и гипотезы».
Существуют препятствия для внедрения машинного обучения в социологию, среди которых можно выделить следующие: 1) социологи долгое время демонстрировали сильное сопротивление к МО, и в целом к искусственному интеллекту, как к методу для применения в общественных науках; 2) социологи считают, что социальная реальность настолько сложна, что несмотря на то, что она поддается описанию, ее динамику крайне сложно спрогнозировать, в то время как главная сила приложений МО - прогнозировать события; 3) МО требует солидной базы статистической подготовки, что является препятствием для многих социологов; 4) междисциплинарный характер сферы МО также налагает ограничение на повсеместное и бурное ее развитие; 5) существует предубеждение, что МО ограничивается только индуктивными исследованиями, в то время как социология основывается сугубо на гипотезах и дедукции.
Бурный рост объема данных, тренд на их открытость и доступность, интенсивное их использование в МО, а главное, получение новых результатов порождает интерес социологов к количественным методам. Помимо роста приверженцев количественного анализа данных наблюдается и уменьшение критики и недоверия к приложениям статистики в социальных науках как к сугубо позитивистскому подходу.
Изменить любую парадигму сложно, так же, как и традиции, однако в ближайшее время разумно предполагать рост использования машинного обучения в социологических исследованиях. Думается, что после увеличения числа исследователей, использующих МО, сами же социологи станут пионерами новых методов и методологий на основе технологий искусственного интеллекта, применяемых в социологических исследованиях.
Список использованных источников
1. Hedstrom, P. The Oxford handbook of analytical sociology / P. Hedstrom, P. Bearman. -Oxford : Oxford University Press, 2009. - 772 р.
2. Macy, M. W. From factors to actors: Computational sociology and agent-based modeling / M. W. Macy, R. Willer // Annu. Rev. Sociology. - 2002. - Vol. 28. - P. 143-166.
3. S0rensen, A. B. Theoretical mechanisms and the empirical study of social processes / A. B. S0rensen // Social Mechanisms: An Analytical Approach to Social Theory / eds.: P. Hedstrom, R. Swedberg. - Cambridge University Press, 1998. - P. 238-266.
4. No free lunch theorem [Electronic resource]. - Mode of access: https://en.wikipedia.org/wiki/ No_free_lunch_theorem. - Date of access: 05.01.2023.
5. Domingos, P. The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World / P. Domingos. - Basic Books, 2015. - 354 р.
6. Kleinberg, J. The Theory is Predictive, but is it Complete? An Application to Human Perception of Randomness [Electronic resource] / J. Kleinberg, A. Liang, S. Mullainathan. - Mode of access: https://arxiv.org/abs/1706.06974. - Date of access: 05.01.2023.
7. Голубев, С. Г. Система общественного доверия как инструмент управления цифровым обществом: китайский опыт / С. Г. Голубев, В. К. Сугак // Журн. Белорус. гос. ун-та. Социология. - 2019. - № 4. - С. 62-74.
8. Hopkins, D. J. Method of Automated Nonparametric Content Analysis for Social Science / D. J. Hopkins, G. A. King // Am. J. Polit. Sci. - 2010. - Vol. 54, № 1. - P. 229-247.
9. Bail, C. A. The Configuration of Symbolic Boundaries against Immigrants in Europe / C. A. Bail // Am. Soc. Rev. - 2008. - Vol. 73, № 1. - P. 37-59.
10. Goldberg, A. Mapping Shared Understandings Using Relational Class Analysis: The Case of the Cultural Omnivore Reexamined / A. Goldberg // Am. J. Sociology. - 2011. - Vol. 116, № 5. -P. 1397-1436.
11. Baldassarri, D. Neither Ideologues nor Agnostics: Alternative Voters' Belief System in an Age of Partisan Politics / D. Baldassarri, A. Goldberg // Am. J. Sociology. - 2014. - Vol. 120, № 1. -P. 45-95.
12. Bonikowski, B. Varieties of American Popular Nationalism / B. Bonikowski, P. DiMaggio // Am. Soc. Rev. - 2016. - Vol. 81, № 5. - P. 949-980.
13. Killewald, A. Mothers' Long-Term Employment Patterns [Electronic resource] / A. Killewald, X. Zhuo. - Mode of access: https://scholar.harvard.edu/akillewald/publications/us-mothers'-long-term-employment-patterns. - Date of access: 05.01.2023.
14. Сугак, В. К. Роль и оценка эффектов внедрения искусственного интеллекта в социальной сфере: кейс-метод / В. К. Сугак // Весн. Брэсц. ун-та. Сер. 1, Фiласофiя. Палггалопя. Сацы-ялопя. - 2022. - № 2. - С. 123-129.
15. Публичная политика: Институты. Цифровизация. Развитие / под ред. Л. В. Сморгу-нова. - М. : Аспект Пресс, 2018. - 349 с.
16. Елисеев, С. М. Цифровые технологии как фактор расширения информационного пространства современной политики / С. М. Елисеев // Информация. Коммуникация. Общество. -2017. - Т. 1. - С. 84-90.
17. Molina, M. Machine Learning for Sociology / M. Molina, F. Garip // Annu. Rev. Sociology. -2019. - Vol. 45. - P. 27-45.
Поступила 19.02.2021 г.