Научная статья на тему 'Проблемы использования методов вычислительного анализа текстов в коммуникалогии'

Проблемы использования методов вычислительного анализа текстов в коммуникалогии Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
10
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
коммуникалогия / анализ текста / машинная обработка данных / методы обработки данных / коммуникативные исследования / communicology / computational text analysis methods / machine learning / data processing methods / communication studies

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Кушнир Андрей Михайлович

В статье рассматривается проблемы использования методов вычислительного анализа текстов в коммуникалогии. На основе анализа наиболее показательных примеров из предшествующих работ, автор определяет основные ограничения в использовании программных продуктов при обработке данных, описывает их характеристики и основные классификации. Установлено несоответствие между тем, что разработчики методов вычислительного анализа текстов делают акцент на технологических и статистических свойствах, а исследователи коммуникативной реальности в первую очередь заботятся о валидности измерений. Представлена авторская характеристика данного противоречия.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Кушнир Андрей Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Problems of using methods of computational analysis of texts in communication studies

The article deals with the problems of using methods of computational analysis of texts in communicology. Based on the analysis of the most representative examples from previous works, the author defines the main limitations in the use of software products in data processing, describes their characteristics and main classifications. A discrepancy is established between the fact that developers of computational text analysis methods emphasize technological and statistical properties, while researchers of communicative reality are primarily concerned with the validity of measurements. The author’s characterization of this contradiction is presented.

Текст научной работы на тему «Проблемы использования методов вычислительного анализа текстов в коммуникалогии»

^S Кушнир Андрей Михайлович

доктор экономических наук, профессор, профессор департамента массовых коммуникаций и медиабизнеса, Финансовый университет при Правительстве Российской Федерации

Ленинградский пр-т., 49, Москва, 125167 E-mail: [email protected]

Проблемы использования методов вычислительного анализа текстов в коммуникалогии

В статье рассматривается проблемы использования методов вычислительного анализа текстов в коммуникалогии. На основе анализа наиболее показательных примеров из предшествующих работ, автор определяет основные ограничения в использовании программных продуктов при обработке данных, описывает их характеристики и основные классификации. Установлено несоответствие между тем, что разработчики методов вычислительного анализа текстов делают акцент на технологических и статистических свойствах, а исследователи коммуникативной реальности в первую очередь заботятся о валидности измерений. Представлена авторская характеристика данного противоречия.

Ключевые слова: коммуникалогия, анализ текста, машинная обработка данных, методы обработки данных, коммуникативные исследования.

Для цитирования: Кушнир А.М. Проблемы использования методов вычислительного анализа текстов в коммуникалогии // Вопросы медиабизнеса. 2022. Т. 1. № 3. С. 36-40. DOI: 10.24412/3034-1930-2022-0200

Andrey M. Kushnir

Doctor of Economics, Professor,

Professor of the Department of Mass Communications and Media Business, Financial University under the Government of the Russian Federation

Leningradsky Ave., 49, Moscow, 125167 E-mail: [email protected]

Problems of using methods of computational analysis of texts in communication studies

The article deals with the problems of using methods of computational analysis of texts in communicology. Based on the analysis of the most representative examples from previous works, the author defines the main limitations in the use of software products in data processing, describes their characteristics and main classifications. A discrepancy is established between the fact that developers of computational text analysis methods emphasize technological and statistical properties, while researchers of communicative reality are primarily concerned with the validity of measurements. The author's characterization of this contradiction is presented.

Keywords: communicology, computational text analysis methods, machine learning, data processing methods, communication studies.

JEL Classification: L82

For citation: Kushnir A.M. Problems of using methods of computational analysis of texts in communication studies. Issues of Media Business, 2022, vol. 1, no. 3, pp. 36-40. DOI: 10.24412/3034-1930-2022-0200

За последнее десятилетие вычислительные методы анализа цифровых текстов получили беспрецедентное распространение в коммуникативных исследованиях [Brady, 2019]. По мере лавинообразного увеличения объема данных пропорционально развивались возможности их аналитической обработки. В исследования в области коммуникации стали использоваться не только программные продукты и идеи из области вычислительных наук, но и собственные наработки социологов, маркетологов, лингвистов и журналистов, связанные с инструментами компьютерного анализа текстов, картин и видео. Мы стали свидетелями появления новых подразделений, журналов, вычислительных центров и т.п. по созданию программ учета, обработки и систематизации социальных данных. Очевидно, что методы вычислительного анализа текста (МВАТ) надолго вошли в нашу жизнь и коммуникативную практику [Baden, Pipal, Schoonvelde, van der Velden, 2022].

Вычислительные методы используются в большинстве исследований, публикуемых в ведущих журналах, а многие специальные выпуски полностью посвящаются применению МВАТ. Между тем имеющиеся инструменты зачастую применяются бессистемно и фрагментарно. Такое положение традиционно объясняется быстрыми темпами развития вычислительных наук, а также ограниченной компетентностью коммуникологов в данной сфере. Отчасти соглашаясь с указанными выводами, автор полагает что, кроме того, у специалистов в области коммуникации часто есть веские причины отказаться от доступных вычислительных решений и предпочесть «ручные» подходы, несмотря на требуемые усилия (часто весьма значительные и не сопоставимые по затратам с программной обработкой).

Так, в некоторых исследованиях выделяют три основных проблемы, которые препятствуют использование МВАТ не только в коммуникалогии, но и в социальных науках в целом науках [Baden, Pipal, Schoonvelde, van der Velden, 2022]. Во-первых несоответствие между тем, что разработчики МВАТ делают акцент на технологических и статистических свойствах, и тем, что исследователи социальной реальности в первую очередь заботятся об операционных требованиях и ва-лидности измерений. Если возможности МВАТ не соответствуют специфическим потребностям валидных измерений, исследователи могут предпочесть методы, обеспечивающие им большую степень ручного контроля и прозрачности. Во-вторых, несоответствие между тенденцией МВАТ фокусироваться на одном виде информации и потребностью социальных ученых в одновременном измерении нескольких, часто внутренне сложных текстовых содержаний (например, оценок объекта, фреймов и т.п. Как следствие, ученым часто приходится комбинировать или объединять различные инструменты, что нивелирует, а то и сводит на нет все преимущества вычислительной обработки. В-третьих, было выявлено несоответствие между растущим языковым разнообразием, ориентацией на сравнительные исследования в социальных науках и сохраняющимся доминированием английского языка в МВАТ. Так, для растущего сообщества «незападных» ученых МВАТ редко предлагают адекватные возможности для их применения в перспективных исследованиях.

Методы вычислительного анализа текста — это зонтичный термин для обозначения множества различных методов, от инструментов для извлечения конкретного содержания с помощью простых ключевых слов или правил форматирования (например, хэштегов) до статистически сложных программных решений (например, BERT или других крупномасштабных языковых моделей. Среди них есть как обобщенные инструменты, подходящие для обработки практически любого типа текстовых данных, так и узкоспециализированные пакеты, требующие большого объема знаний. Методы требуют различной степени контроля со стороны человека — от нескольких параметрических настроек до обширных обучающих наборов, баз данных или справочных корпораций. В зависимости от типа МВАТ контроль может осуществляться в виде созданных человеком моделей и правил классификации, предварительно обученных инструментов, проверки ex-post или постоянного контроля со стороны человека.

Даже в рамках одного семейства методов существует большое разнообразие доступных решений. Например, словари используются для классификации тем или текстовой направленности, распознавания сложных конструкций и даже для распознания семантической организации сложных дискуссий. Было предложено множество методов кластеризации — от популярных в последнее время тематических моделей до стратегий, способных организовать целые коллекции документов в дискретные события, текущие новостные сюжеты или цепочки повторно используемых материалов. Учитывая огромное научное творчество и стремительное развитие как в академических кругах, так и за их пределами, любая попытка организовать МВАТ остается неизбежно ограниченной.

Учитывая разнообразие МВАТ, их использование в коммуникативных исследованиях, очевидно, зависит от целого перечня факторов. Готовые программные решения могут быть проще 37

в применении, чем инструменты, требующие обширной настройки и более развитых вычислительных навыков. Давно зарекомендовавшие себя подходы, подкрепленные опытом, могут вызывать больше доверия у исследователей, чем самые новые, еще незнакомые инструменты. Кроме того, хорошо документированные инструменты, открыто сообщающие о встроенных предположениях, могут быть более привлекательными, чем сложные алгоритмы по типу «черного ящика». Несомненно, необходимость в вычислительной грамотности является одним из основных препятствий для коммуникологов, пытающихся использовать имеющиеся МВАТ. Однако далее будет показано, что существует объективная причина, которая может заставить (особенно вычислительно грамотных коммуникологов) отказаться от использования МВАТ в своих исследованиях.

Остановимся на несоответствии между используемыми технологиями и социальной реальностью, которая подлежит изучению.

В данном случае мы ведем речь о несовпадении между методологическими дискурсами социальных наук и теми методологическими дискурсами, которые сопровождают разработку МВАТ. В исследованиях в области коммуникалогии большая часть текстовых измерений сосредоточена на латентных и абстрактных конструктах. Поскольку они могут упоминаться в дискурсе огромным количеством способов, редко существует прямой способ их операционализации. Поэтому валидность измерений и операционализация сложных конструктов вызывают особую озабоченность при эмпирическом анализе текстов. Стремясь улучшить не слишком точное интуитивное понимание измеряемых конструктов кодерами, контент-аналитические исследования опираются на концептуальные определения и зачастую подробные операциональные правила, проводя тщательное обучение для обеспечения общего понимания кодируемых конструктов. Несмотря на сохраняющиеся трудности с получением высоких уровней надежности, значительные ресурсы направлены на обеспечение валидности текстовых измерений. Для сравнения, МВАТ не могут опираться на интуитивное понимание смысла текста и поэтому полностью «полагаются» на человеческий контроль для обеспечения достоверности измерений. Тем не менее, только разработка подходов, основанных на правилах, иногда сопровождается аналогичными усилиями по операционализации концепций и разработке существенных критериев валидности (например, при создании словарей, банков слов и наборов правил). Для контролируемых приложений усилия по валидации в основном ограничиваются ручным созданием наборов обучающих данных, и о них редко сообщается. Впоследствии операционализация заменяется мощными алгоритмами, обученными выявлять любые паттерны и индикаторы, которые коррелируют с предоставленными аннотациями, фактически подменяя валидность прогностической эффективностью [Theocharis, Jungherr, 2021]. В своем стремлении соответствовать человеческим качествам или заданным истинам алгоритмические классификаторы проявляют мало интереса к отделению достоверных вариаций в материале от случайных, бессмысленных закономерностей и сбивающих с толку паттернов. Опираясь на значимые, коррелирующие паттерны, выявленные в данных, эти инструменты все равно часто угадывают правильно, но при этом потенциально вносят в анализ систематические погрешности. В качестве наглядного примера Херст и др. продемонстрировали, как машинный классификатор, обученный распознавать политическую идеологию, в итоге классифицировал срок пребывания в должности, которая коррелировала с идеологией в их данных, но была легче распознаваема для машины [Hirst, Riabinin, Graham, Boizot-Roche, Morris, 2014]. Еще хуже обстоят дела с неконтролируемыми МВАТ, индуктивный подход которых не позволяет оценивать их на основе прогностической эффективности. Вместо этого валидность результатов, полученных с помощью ненаблюдаемых процедур, часто оценивается не более скрупулезно, чем проверка их интерпретируемости (вряд ли это высокий стандарт, учитывая способность человека воспринимать смысл в случайных закономерностях или в соответствии с ожиданиями. Если для оценки модели предлагаются метрики соответствия, то они в основном служат для оценки качеств, которые мало влияют на валидность измерений. Из-за узкого понимания валидности в этих МВАТ операционная валидность вытесняется беглой, параметрической и обычно post-hoc проверкой того, насколько правдоподобно полученное измерение, в то время как систематические смещения могут остаться незамеченными.

Между тем как социологи сосредоточены на операциональной валидности, а разработчики МВАТ делают акцент на прогностической эффективности, такое разделение методологических перспектив отражается, по крайней мере, в трех ключевых несоответствиях, которые снижают их полезность CTAM для исследований в области коммуникации. Во-первых, коммуникологи редко находят отражение в разработке МВАТ своих устоявшихся знаний — о языке и дискурсе, жанрах и стилях, конструкциях и мерах. Соответствие вычислительных инструментов социальным научным и лингвистическим знаниям редко включается в качестве критерия оценки или цели на

протяжении всего процесса разработки. Например, подавляющее большинство МВАТ обрабатывает текстовое содержимое без учета его положения в документе. Таким образом, игнорируются десятилетия исследований, документирующих систематическое упорядочивание большинства текстовых жанров — будь то журналистский стиль «перевернутой пирамиды», когда ключевая информация выносится на передний план, нарративная организация политической речи или реляционная организация интерактивного (онлайн и офлайн) дискурса. Вместо того чтобы следовать операционной логике, основанной на знаниях, МВАТ, особенно их контролируемые и неконтролируемые версии, «склонны» передавать большие объемы (релевантных и нерелевантных) данных машине, «надеясь», что алгоритм выявит «правильные», достоверные паттерны и будет опираться на них. В то же время мы почти ничего не знаем о том, как различные текстовые жанры влияют на производительность имеющихся МВАТ.

Знания коммуникологов об операциональных требованиях к измеряемым конструктам также не способствуют разработке МВАТ. Например, несмотря на то, что тематические модели ссылаются на актуальность, ни первоначальное введение, ни последующие разработки не ссылаются на социологические знания об актуальности текстов. Вместо этого их результаты просто приравниваются к нечетко связанной с ними конструкции актуальности. Когда новые алгоритмы тематического моделирования были представлены для обработки данных социальных сетей, их разработка была обусловлена не социальными научными представлениями о тематической организации интерактивного дискурса социальных сетей, а проблемами нехватки данных, вызванными необходимостью обработки очень коротких документов. Эта несоизмеримость между критериями валидности и разработкой МВАТ проявляется даже во многих вычислительных инструментах, разработанных в рамках самих социальных наук. Например, на фоне бурного роста МВАТ для измерения фреймов лишь немногие инструменты проясняют, как предлагаемые алгоритмы обоснованно операционализируют эту конструкцию. Даже самые широкие методологические проблемы, обсуждаемые в литературе по количественному анализу текстов в коммуника-логии (например, унификация и роль контекста; лингвистическая вариативность и полисемия; или статистические ошибки классификации), не находят должного отражения в разработке вычислительных инструментов. Тем не менее, все эти споры имеют непосредственное отношение к вычислительной классификации текстов. Аналогичные аргументы приводились и в отношении имеющихся знаний в лингвистических исследованиях, которые также обладают огромным потенциалом для создания более обоснованной вычислительной классификации текстов [Bender, 2011].

Во-вторых, как следствие, валидация МВАТ обычно не проводится на этапах разработки и реализуется на этапе применения. Только на этом этапе знания исследователей об изучаемых текстах и смыслах используются для пополнения словарей, формируют предварительную обработку текстовых материалов или служат ориентиром для выбора одной модели из нескольких, которые были оценены. Таким образом, накапливается опыт. Например, замечено, что словари смыслов редко «работают» за пределами жанров текстов, на основе которых они были созданы; что лемматизация, как правило, помогает сосредоточить тематические модели на текстовых качествах, которые больше похожи на действительные темы. Однако все эти соображения применяются в каждом конкретном случае и не используются при разработке вычислительных методов. И наоборот, те показатели, которые в некоторой степени учитываются при разработке — в частности, точность и отзыв, — как правило, не учитывают роль несущественных закономерностей, случайностей и других проблем, которые хорошо известны при анализе текстов, и дают мало информации о систематических погрешностях классификации, которые угрожают достоверности измерений.

Другие метрики, например, согласованность с другими инструментами, оценка надежности или показатели эффективности классификатора или различимость тем, — мало что говорят о достоверности принятых машиной решений. Отделяя прогностическую эффективность от операционной валидности, эти показатели не учитывают систематические ошибки и не стимулируют разработчиков МВАТ к использованию коммуникационных знаний при анализе текстов.

В-третьих, зачастую коммуникологи пытаться использовать вычислительные методы даже в том случае, когда они не находят соответствующих указаний в методологической литературе. Отражая описанный способ разработки, в документации регулярно опускается ссылки на то, какие известные лингвистические, дискурсивно-практические или концептуальные свойства трансформируются и моделируются в алгоритмы. Мало что известно о том, какие этапы предварительной обработки подходят для анализа различных видов дискурса или настройки вычислительных методов на выявление конкретных текстовых свойств, а также о том, какие инструменты лучше подходят для решения конкретных измерительных задач и почему.

В то же время, произвольные решения на этапе предварительной обработки данных могут кардинально изменить результаты, как это продемонстрировали М. Денни и А. Спирлинг [Denny, Spirling, 2018]. Однако вместо дискуссий, связывающих методологический выбор с операционными проблемами, существующие методологические дебаты предлагают в основном статистические. Как следствие, в исследованиях, применяющих МВАТ, обычно пробуют целый ряд процедур и спецификаций моделей, выбранных без особого операционного обоснования. Результаты сообщаются для той модели, которая дала более высокую прогностическую точность или правдоподобную интерпретируемость, злоупотребляя «степенью свободы исследователя», в надежде, что такие результаты появляются вследствие соответствия модели, а не случайной вариации. Даже если конкретные методы показали хорошую эффективность в прошлом, такая практика не дает уверенности в том, что этот же выбор подходит для конкретного проекта.

В совокупности эти три противоречия создают ситуацию, когда исследователям в области коммуникологии лучше отказаться от использования МВАТ для проведения своих текстовых исследований. Особенно там, где знания критически важны для получения достоверных измерений, ручные или основанные на правилах вычислительные инструменты позволяют контролировать моделирование ключевых критериев классификации (например, определения грамматического родства). В качестве альтернативы исследователи могут поверить в то, что контролируемые или неконтролируемые МВАТ самостоятельно придут к достоверным классификациям, в то время как подходящие стратегии для последующей проверки останутся неразработанными.

Таким образом, краткий обзор современного состояния количественного анализа текстов в коммуникалогии подтверждает актуальность изложенных проблем. Они представляют собой серьезное препятствие не только для применения МВАТ в коммуникативных исследованиях, но и для развития вычислительной социальной науки как таковой.

References

Baden C., Pipal C., Schoonvelde M., van der Velden A.C.G. Three gaps in computational text analysis methods for social sciences: A research agenda. Communication Methods and Measures, 2022, vol. 16, no. 1, pp. 1-18.

Bender E.M. On achieving and evaluating language-Independence in NLP. Linguistic Issues in Language Technology, 2011, vol. 6, no. 3, pp. 1-26.

Brady H.E. The challenge of big data and data science. Annual Review of Political Science, 2019, vol. 22, no. 1, pp. 297-323.

Denny M.J., Spirling A. Text preprocessing for unsupervised learning: Why it matters, when it misleads, and what to do about it. Political Analysis, 2018, vol. 26, no. 2, pp. 168-189.

Hirst G., Riabinin Y., Graham J., Boizot-Roche M., Morris C. Text to ideology or text to party status? From text to political positions: Text analysis across disciplines, 2014, vol. 55, pp. 93-15.

Theocharis Y., Jungherr A. Computational social science and the study of political communication. Political Communication, 2021, vol. 38, no. 1-2, pp. 1-22.

i Надоели баннеры? Вы всегда можете отключить рекламу.