Kuznetsova Tatjana Rudolfowna, candidate of technical sciences, docent, [email protected], Russia, Tula, Tula State University,
Sharov Vadim Arnoldovich, graduate student, [email protected], Russia, Shuya, Shuya branch of Ivanovo State University
УДК 004.85
DOI: 10.24412/2071-6168-2022-2-208-214
МЕТОДИКА СБОРА И ОБРАБОТКИ СОЦИОЛОГИЧЕСКОЙ ИНФОРМАЦИИ
ИЗ СЕТИ ИНТЕРНЕТ
А.А. Воробьев, А.М. Рыбак, Р.А. Середкин, А.Ю. Андросов, Б.И. Соловьев
Предложена методика сбора и обработки социологической информации из сети Интернет с применением тематического моделирования, сентимент-анализа публикаций и статистических методов анализа социологических данных, обеспечивающая повышение оперативности и точности мониторинга общественного мнения по различным темам.
Ключевые слова: тематическое моделирование, сентимент-анализ, статистический анализ, социологическая информация, сеть Интернет.
В настоящее время актуальным источником социологической информации становится глобальная сеть Интернет (социальные сети, электронные СМИ и др) [1]. Сбор и анализ открытых источников позволяет оценивать общественное мнение, не проводя анкетирование или интервьюирование, может способствовать существенному снижению ресурсозатрат сбора информации, улучшению качества аналитики и оперативному мониторингу тенденций в общественном мнении в реальном времени. Кроме того, в последние годы на качество результатов социологических опросов, проводимых на сенсетивные (общественно-политические) темы, оказывает рост ответов респондентов, закодированных в анкетах как «затрудняюсь ответить» (неопределившиеся респонденты), и поэтому целесообразно исследовать возможность пассивного сбора социологической информации из сети Интернет.
Анализ работ [1, 2, 3] показывает, что в настоящее время можно выделить два основных подхода к решению задачи извлечения социологической информации из текстовых публикаций в сети Интернет: машинное обучение и лингвистические методы.
В машинном обучении выделяют тематическое моделирование (Topic Mining), используемое для кластеризации текстов [2] и методы обучения с учителем, применяемые для классификации в текстовом анализе [3]. К основным методам тематического моделирования относят латентно-семантический анализ (LSA) [11], неотрицательную матричную факторизацию (NMF) [12], вероятностный латентно-семантический анализ (pLSA), скрытое размещение Дирихле (LDA) и иерархические процессы Дирихле (HDP) [4].
Лингвистический подход основан на использовании словарей и лингвистических пар-серов [8]. Методы лингвистического подхода достаточно просты в применении, т.к. шаблоны можно составлять автоматически, а оценочные слова известны или их списки (словари) имеются в свободном доступе.
Однако, одной из главных проблем при использовании вышеупомянутых подходов отмечается проблема дефицита или отсутствия инструментов для анализа на других языках, кроме английского [3].
В работе авторами была выдвинута гипотеза о возможности использования метода иерархических процессов Дирихле (HDP) для выделения тем (факторов) в текстовых сообщениях, опираясь на научные исследования [13].
Для оценки тональности выявленных тем существует множество методов автоматического сентимент-анализа [5]:
- подход, основанный на правилах;
подход, основанный на использовании словарей эмоциональной и оценочной лексики;
методы, основанные на машинном обучении с учителем;
методы, основанные на машинном обучении без учителя.
В работе выбран метод, основанный на машинном обучении с учителем, так как он обладает более высокой точностью определения тональности сообщений по сравнению с другими подходами [6].
После оценки тональности выявленных тем в текстовых данных можно воспользоваться множеством статистических методов анализа и прогнозирования (логистическая регрессия, корреляционный анализ, дисперсионный анализ и др.) в зависимости от решаемых исследовательских задач, выполняемых в ходе мониторинга общественного мнения по различным темам.
Таким образом, в работе предлагается рассмотреть предложенную методику сбора и обработки социологической информации из сети Интернет на базе методов тематического моделирования, сентимент-анализа и статистических методов анализа и прогнозирования (рис.1), реализованной в дальнейшем в виде программных модулей [14, 15] с использованием возможностей и библиотек Python.
Первым этапом методики является сбор текстов из социальных сетей (с сайтов СМИ) в электронном виде и формирования корпуса документов (коллекция текстов по определенной тематике) [9].
На втором этапе предлагается выполнять предобработку с помощью библиотек языка Python pymorphy2 и nltk.tokenize. В начале необходимо привести текст к нижнему регистру для исключения одинаковых слов, отличающиеся лишь регистром символов. Затем выполняется токенизация, то есть разбиение исходных сообщений на слова путем удаления небуквенных символов, двойных пробелов, удаления символов, не относящихся к кириллице (удаление некириллических символов требуется в связи с тем, что иностранные слова встречаются достаточно редко и лишь искажают анализ и не несут содержательного смысла в большинстве случаев). Следующей выполняется лемматизация, которая необходима для приведения слов к начальной форме. И на последних шагах предобработки необходимо выполнить удаление стоп-слов, то есть слов, встречающихся в текстах достаточно часто, но не несущих при этом содержательного смысла (предлоги, союзы, междометия, местоимения, числительные и т.п.) и удаление дубликатов.
Ш Сбор текстовой информации из сети Интернет
ГЦ"
Предобработка данных
Перевод в нижний регистр
Токеяпзация
Леыматюацпя
Удаление стоп-слов
удаление дубликатов
1
JJ Построение тематической модели
Jj Сеншменг-анализ (анализ тональности)
_lJ Формирование итоговой таблицы для статистического аналпа
AJ Статистический апалнч
Рис. 1. Методика сбора и обработки социологической информации из сети Интернет
Третий этап заключается в выделение основных тем из набора высказываний, так как для анализа текстовых данных в методике выбрано тематическое моделирование (машинное обучение без учителя, используемое для определения тем коллекций документов) [9]. Под те-
мой будем понимать совокупность связанных друг с другом слов. Самым распространённым способом оценивания качества вероятностных тематических моделей является расчёт перплек-сии [10] на наборе данных Dtest из М документов:
Epilog \модель) eM N
perplection (Dtest)_ e Zjd_1 d , (1)
Если изменить способ расчёта перплексии и оценивать вероятности для каждого слова wdn из тестового набора документов, то полученное значение будет соответствовать полезному размеру словаря модели и выражение (1) преобразуется в вид (2):
- £ ¿log р(^а\моделъ) perplection DDtest)_ e d_1n_1 . ( 2)
Например, значение perplection=100 означает, что набор вероятностей полученной модели эквивалентен случайному выбору каждого слова из словаря размером в 100 слов. Таким образом, меньшее значение перплексии означает, что модель лучше описывает (обобщает) тестовые данные. Кроме того, минимизируя значение этого критерия, можно экспериментально подобрать оптимальное число различных тем в коллекции документов.
На четвертом этапе выполняется сентимент-анализ, он необходим для определения тональной окраски сообщений, по выбранной тематике. В методике предлагается использовать библиотеку языка Python Dostoevsky, которая также основана на машинном обучении. Для обучения анализатора был использован крупнейший русскоязычный сентимент-корпус RuSenti-ment, содержащий более 30 тысяч аннотированных вручную сообщений.
Результатом тематического моделирования является матрица документ-тема, в ячейках которой стоят вероятности отнесения документа к определенной теме, но при этом один документ может относиться и к нескольким темам. Затем необходимо преобразовать матрицу таким образом, чтобы в случае, если документ относится к определенной теме с вероятностью больше 0,5, то в ячейку записывается единица, а в противном случае - ноль. Таким образом формируется таблица, в которой строка - текст (наблюдение), столбец - тема (переменная), при этом переменные являются дихотомическими, то есть принимают значения 0 или 1, что и позволяет применять к ним количественные методы анализа, как для интервальных переменных и шкал отношений.
В результате сентимент-анализа формируется матрица, в которой строки являются документами, а три столбца выражают тональность (положительная, отрицательная, нейтральная).
В итоге матрицы, полученные в результате тематического моделирования и сенти-мент-анализа объединяются в одну. Полученная таблица содержит в себе дихотомические переменные. Для применения статистических методов необходимо определить зависимые и независимые переменные. Зависимыми являются переменные, характеризующие принадлежность текста к той или иной теме; независимыми принимаются переменные, описывающие эмоциональную окрашенность текстов.
На последнем этапе методики к зависимым и независимым переменным применяются статистические методы для выявления статистически значимых зависимостей между выделенными переменными.
Для проверки работоспособности методики были отобраны 200 публикаций СМИ, характеризующих материальное положение населения в одном из регионов. На рис.2 представлен фрагмент результирующей матрицы тематического моделирования. Метод иерархических процессов Дирихле (HDP) выделил 10 тем из исследуемого набора данных.
Анализируя наиболее вероятные слова в каждой теме, можно идентифицировать темы. Например, для темы 5 наиболее вероятные слова: молоко, сахар, рубль, цена, бурятия, житель, стоимость, вырасти. Соответственно, можно идентифицировать тему как «повышение стоимости потребительской корзины в Республике Бурятия».
В результате сентимент-анализа 48 публикаций имеют положительную тональность, 55 - отрицательную, 97 - нейтральную (рис.3).
На пятом этапе необходимо объединить результаты тематического моделирования и сентимент-анализа в одну таблицу (рис. 4).
TopicO Topic! Topic2 lop he J Topic4 Topics Topics Topic7 TopicB Topic9
DocO 0.020000 0020000 0.020000 0 020000 0.840000 5 020000 0.020000 0.020000 0.020000 0.020000
DOC1 0 010000 0.900000 0 010000 0D10DÜ0 0 010000 3 010000 0310000 0.010000 0 010000 0.010000
Doc2 0.890000 0 010000 0 010000 0 010000 0 010000 3 010000 0 010000 3 310000 0 010000 0.010000
Doc3 0.010000 0 010000 0.010000 0 010000 0.010000 3 010000 0.010000 0.890000 0 010000 0.010000
0OC4 0.010000 0 010000 0.010000 0 010000 0.010000 3 010000 0.890000 3 310000 0 010000 0.010000
D0C5 0.010000 0 010000 0.010000 0 010000 0.010000 3 010000 0.310000 3 310000 0.930000 0.010000
DOC6 0 010000 0 010000 0 010000 D.880D00 0 010000 3 010000 0 010000 0.010000 0 010000 0.010000
Doc7 0.020000 0 020000 0.020000 0 020000 0.020000 3 020000 0.020000 0.020000 0.830000 0.020000
DOC8 0.040000 0 040000 0.040000 0 040000 0.040000 3 040000 0.040000 0.660000 0.040000 0.040000
D0C9 0.030000 0030000 0.030000 0030000 0.030000 3030000 0.030000 0.030000 0.740000 0.030000
DOC10 0 030000 0 030000 0 030000 OD30DOO 0.730000 3 030000 0 030000 0.030000 0.030000 0.030000
Dcc11 0.040000 0 040000 0.040000 0 040000 0.660000 3 040000 0.040000 0.040000 0.040000 0.040000
Doc12 0.900000 0 010000 0.010000 0 010000 0.010000 3 010000 0.010000 0.010000 0 010000 0.010000
DOC13 0.010000 0 010000 0.010000 0 010000 0.010000 3 010000 0.900000 3 310000 0 010000 0.010000
DOC14 0 010000 0 010000 0 010000 ODIODOO 0 010000 3 010000 0 010000 0.91OD0O 3 010000 0.010000
Doc15 0 010000 0 010000 0 010000 0 010000 0 010000 3 010000 0 010000 0.010000 0 010000 0.890000
Doc16 0.010000 0 010000 0.010000 0.880000 0.010000 3 010000 0.010000 0.010000 0 010000 0.010000
DOC17 0.010000 0 010000 0.010000 0 010000 0.010000 3 010000 0.010000 3 310000 0.930000 0.010000
DOC18 0.010000 0 010000 0.010000 0 010000 0.010000 0.890000 0.010000 3 310000 3 010000 0.010000
Рис. 2. Результаты тематического моделирования
Сентимент-анализ
Отрицательная
Положительная
Нейтральная
Рис. 3. Результаты сентимент-анализа
[нвшр j [llera- ЗВ| [Тыин] III [1ШН] [ Hrirp 1 [ниипи] |nflnm»)
В в
s шш е
0 в
—
Рис. 4. Объединенная матрица
С помощью библиотеки анализа социологических данных с открытым исходным кодом randan [16] был проведен корреляционный анализ с расчётом коэффициентов парной корреляции Пирсона (рис.5).
Coefficient
р-value
Coefficient p-value
Coefficient p-value
Coefficient
Coefficient p-value
-0.158 -0.149 -0.102 -0.149 1.000 -0.102 -0.149
0.51 S 0.544 0.67S 0.544 0.678 0.544
10.000 19.000 19.000 19.000 10.OQO 19.000 19.000
0.3S7 -0.081 -0.056 -0.081 -0.102 1.000 -0.081
0.101 0.742 0.821 0.742 0.678 0.742
19.000 19.000 19.000 19.000 19.000 19.000 19.000
-0.031 -0.11 S -0.081 -0.118 -0.149 -O.OS1 1.000
0.899 0.S31 0.742 0.931 0.544 0.742
19.000 19.000 19.000 19.000 19.000 19.000 19.000
-0.053 -0.149 -0.102 -0.149 -0.187 -0.102 -0.149
0.830 0.544 0.S78 0.544 0.442 0.678 0.544
19.000 19.000 19.000 19.000 19.000 19.000 19.000
0.047 -0.177 -0.122 -0.177 -0.224 -0.122 -0.177
0.848 0.468 0.620 G.468 0.357 0.620 0.463
10.000 19.000 1S.OOO 19. ООО 10.000 10.000 10000
-0.187 -0.224 -0.102 -0.567 0.442 0.357 0.978 0.011 19.000 19.000 19.000 IS.OOO
-0.102 -0.122 -0.066 0.678 0.620 0.821
0.180 0.461
19.000 19.000 19.000 10.000
-0.149 -0.177 -0.081 0.202
0.544 0.468 0.742 0.279
19.000 19.000 19.000 19.000
1.000 -0.224 -0.102 0.357 0.978
0.331 0.197
19.000 19.COO 19.000 19.000
-0.224 1.000 -0.122 -0.676
0.357 0.620 0.001
19.000 19.000 19. ООО 19.000
Рис. 5. Результаты статистического анализа 211
0.792 О.ООО 19.000 -0.081 0.742 19.000 -0.118 0.S31 19.000 -0.149 0.544 19.000 -0.177 0.468 19.000
-0.188 0.442 19.000 -0.102 0.678 19 000 -0.149 0.544 19.000 -0.187 0.442 19.000 0.839 О.ООО 19.000
Анализируя полученные результаты (рис.5), можно сделать вывод, что наибольшая и при этом статистически значимая положительная корреляционная зависимость наблюдается между темой 4 (повышение цены на коммунальные услуги) и публикациями отрицательной тональности, а также между темой 8 (увеличение прожиточного минимума) и публикациями положительной тональности. То есть тема 4 в целом носит негативный характер и сообщения, которые будут отнесены к этой теме в дальнейшем, скорее всего будут иметь негативную окраску; тема 8 наоборот носит позитивный характер.
Таким образом, предложенная в работе методика сбора и обработки социологической информации из сети Интернет и экспериментально проверенная в программных модулях [14, 15] позволит обеспечить повышение оперативности и точности мониторинга общественного мнения по различным темам.
Список литературы
1. Жучкова С. В., Ротмистров А. Н. Социология: методология, методы, математическое моделирование. 2020. № 50-51. С. 141-183.
2. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке //Труды ИСП РАН. М., 2012. 16 с.
3. Дудина В. И., Юдина Д. И. Извлекая мнения из сети Интернет: могут ли методы анализа текстов заменить опросы общественного мнения? // Мониторинг общественного мнения: Экономические и социальные перемены. 2017. No 5. С. 63—78.
4. Основы Data Science и Big Data. Python и наука о данных. СПб,: Питер, 2017.
336 с.
5. Лукашевич Н.В. Автоматический анализ тональности текстов по отношению к заданному объекту и его характеристикам // Электронные библиотеки, 2015. Т. 18. № 3-4. С. 88119.
6. А.Л. Богданов, И.С. Дуля Сентимент-анализ коротких русскоязычных текстов в социальных медиа// Вестник Томского государственного университета, 2019. 22 с.
7. Воронцов К. В., Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». 2014. С. 50 - 65.
8. Мельчук И.А. Опыт теории лингвистических моделей «Смысл <=> Текст». М., 2003.
235 с.
9. Бенгфорт Бенджамин, Билбро Ребекка, Охеда Тони Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. СПб.: Питер, 2019. 368 с.
10. L. Bahl, J. Baker, E. Jelinek, and R. Mercer. Perplexity — a measure of the difficulty of speech recognition tasks. In Program, 94th Meeting of the Acoustical Society ofAmerica, volume 62, page S63, 2007
11. Hoffman T. Probabilistic Latent Semantic Analysis // Uncertainty in Artificial Intelligence, UAI'99. Stockholm, 1999.
12. Wallach H. Topic Modeling: Beyond Bag-Of-Words // Proceedings of the 23rd International Conference on Machine Learning. 2006. Pp. 977-984.
13. Sergey Nikolenko, Sergei Koltcov, Olessia Koltsova. Topic modelling for qualitative studies // Journal of Information Science. 2017. Vol. 43. No. 1. P. 88-102.
14. Программный модуль сбора и анализа социологической информации о материальном положении населения на основе публикаций электронных СМИ // Воробьев Андрей Анатольевич, Середкин Руслан Александрович, Черный Данил Константинович, Беляев Даниил Александрович Свидетельство о регистрации программы для ЭВМ 2022610061, 10.01.2022. Заявка № 2021681557 от 22.12.2021.
15. Программный модуль аналитической обработки социологической информации, отобранной по тематическим фильтрам в социальной сети // Воробьев Андрей Анатольевич, Рыбак Алексей Максимович, Преображенский Роман Александрович, Юдицкий Владислав Максимович Свидетельство о регистрации программы для ЭВМ 2022610063, 10.01.2022. Заявка № 2021681284 от 22.12.2021.
16. A python package for the analysis of social data [Электронный ресурс] URL: https://github.com/RandanCSS/randan (дата обращения: 15.01.2022).
Воробьев Андрей Анатольевич, канд. техн. наук, доцент, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Рыбак Алексей Максимович, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Середкин Руслан Александрович, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Андросов Алексей Юрьевич, канд. техн. наук, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Соловьев Борис Игоревич, канд. техн. наук, доцент, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации
METHODS OF COLLECTING AND PROCESSING SOCIOLOGICAL INFORMATION FROM THE
INTERNET
A.A. Vorobyov, A.M. Rybak, R.A. Seredkin, A.Yu. Androsov, B.I. Solovyov
The article presents a methodology for collecting and processingsociological information from the Internet using topic modeling, sentiment analysis of publications and statistical methods of analyzing sociological data, which provides an increase in the efficiency and accuracy of monitoring public opinion on various topics.
Key words: topic mining, sentiment analysis, statistical analysis, sociological information, the Internet.
Vorobyov Andrey Anatolievich, candidate of technical sciences, docent, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Rybak Alexei Maksimovich, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Seredkin Ruslan Aleksandrovich, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Androsov Aleksei Yurevich, candidate of technical sciences, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Solovyov Boris Igorevich, candidate of technical sciences, docent, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation