Гуманитарная информатика. 2017. № 13. С. 84-89
УДК 378.1
DOI: 10.17223/23046082/13/11
ОПРЕДЕЛЕНИЕ ОБРАЗОВАТЕЛЬНЫХ ИНТЕРЕСОВ ШКОЛЬНИКОВ НА ОСНОВЕ АНАЛИЗА ПОЛЬЗОВАТЕЛЬСКИХ ДАННЫХ «ВКОНТАКТЕ»1
А.В. Фещенко
Национальный исследовательский Томский государственный университет, Томск, Россия e-mail: [email protected]
Социальные медиа являются важным элементом в коммуникационной политике современного университета, позволяют без посредников доставлять информацию до целевой аудитории, обеспечивают широкий территориальный охват при небольших финансовых затратах. Но существующие методы нацеливания рекламы в социальных сетях не позволяют университетам определять индивидуальные образовательные потребности и интересы потенциальных абитуриентов и предлагать им персональные рекомендации по выбору образовательных программ. По этой причине университеты во время рекрутинговых кампаний создают в социальных медиа универсальные сообщества с рекламой сразу всех образовательных программ. При таком подходе сложно разделить целевую аудиторию по интересам и сфокусировать ее внимание на программах обучения, соответствующих этим интересам. Современные методы анализа пользовательских данных в социальных сетях позволяют университетам проводить рекрутинговую кампанию более эффективно. В нашей работе представляется опыт Томского государственного университета по применению методов анализа данных для выявления в социальных сетях абитуриентов с интересами к тому или иному профилю подготовки. В работе использованы методы контент анализа, статистики, анкетирования, data mining.
Ключевые слова: анализ данных, социальные сети, образовательные интересы, абитуриенты.
1 Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 17-16-70004.
DEFINITION OF EDUCATIONAL INTERESTS OF SCHOOLCHILDREN ON THE BASIS OF THE ANALYSIS OF USER DATA OF "V KONTAKTE"1
Artem V. Feshenko
National research Tomsk State University, Tomsk, Russia e-mail: [email protected]
Social media are an important element in the communication policy of the modern university, allow without intermediaries to deliver information to the target audience, provide wide territorial coverage at low financial costs. But the existing methods of targeting advertising in social networks do not allow universities to determine the individual educational needs and interests of potential applicants and offer them personal recommendations on the choice of educational programs. For this reason, universities, during recruiting campaigns, create universal communities in social media, advertising all educational programs at once. With this approach, it is difficult to divide the target audience by interests and focus its attention on training programs corresponding to these interests. Modern methods of analyzing user data in social networks allow universities to conduct a recruiting campaign more efficiently. In our work the experience of Tomsk State University in the application of methods of data analysis to identify in social networks applicants with interests in a particular profile of training is presented. The work uses methods of content analysis, statistics, questionnaires, data mining.
Key words: data analysis, social networks, educational interests, entrants.
При использовании университетом социальных сетей для рекрутинга возникает задача, связанная с отбором абитуриентов с сильным интересом к определенной предметной области и мотивацией к обучению. Стандартные инструменты социальных сетей по сегментированию целевой аудитории используют в основном социальные, демографические и географические данные. Для выявления потребностей и интересов абитуриентов в сфере образования этих данных недостаточно, но они могут быть дополнены информацией о пользователе, содержащейся в его профиле: подписки к тематическим группам и страницам, публикации на стене, сеть связей и т.д. Подходы, позволяющие анализировать пользовательские данные и интерпретировать их для организации эффективного информационного воздействия, уже используются в политике и марке-
1 The study was carried out with the financial support of the Russian Foundation for Basic Research in the framework of the scientific project № 17-16-70004.
тинге. Основу этих подходов составляют методы лингвистического анализа и психодиагностики [1-4]. Но пока найденные решения не применяются университетами для выявления образовательных интересов и рекру-тинга абитуриентов. Поэтому одной из задач нашего исследования является проверка гипотезы о возможности поиска потенциальных абитуриентов в социальных сетях для конкретных факультетов и направлений подготовки через выявление их интересов к соответствующим предметным областям.
Таким образом, целью исследования являются поиск методов выявления среди пользователей социальной сети старшеклассников с проявлениями интереса к той ли иной науке, сегментация аудитории по направлениям подготовки, ранжирование по степени проявления интереса, рекрутинг абитуриентов с наиболее выраженными интересами на соответствующие факультеты.
По нашему мнению, интерес старшеклассника к той или иной области знаний связан с вероятностью поступления на определенный факультет университета. В социальной сети интересы пользователя проявляются через тексты, опубликованные на странице его профиля, и участие в сообществах, анализ которых, по нашему мнению, позволяет определить интерес к той или иной области знаний и классифицировать всех потенциальных абитуриентов на три группы интересов: гуманитарные, естественные, физико-математические науки, а затем дифференцировать в каждой группе пользователей по степени проявления (силе) интереса.
Для анализа текста мы прибегаем к методологии контент-анализа [5]. Путем автоматизированного подсчета релевантных текстовых единиц (в нашем случае - отдельных тематически соотнесенных слов) мы планировали выявить заинтересованность отдельного пользователя - потенциального абитуриента - в конкретной области знания.
Дополнительно к методологии контент-анализа использовался метод статистики - дисперсионного анализа по Краскелу-Уоллису (Kruskal-Wallis one-way analysis of variance).
Основным инструментом для получения данных из социальной сети является Application programming interface (API). С помощью API возможно получить все публичные данные пользователя, в том числе поля его профиля (имя и фамилия, город, страна, пол, образование, интересы, любимые книги и т.д.), контент личной страницы (стены), а также список тематических групп.
Проверка гипотезы о возможности определения интересов пользователя социальной сети через анализ текстов его стены осуществлялась на студентах ТГУ. Приемная кампания в университет начнется только в
июне 2017 г. и закончится в сентябре, поэтому проверить методы анализа на реальных абитуриентах пока не представляется возможным. На текущем этапе исследования в социальной сети «ВКонтакте» были выбраны профили студентов ТГУ первого курса и собраны тексты со стены, опубликованные до момента поступления в университет (до 01 августа 2016 г.). Из полученной выборки были исключены тексты объемом менее 10 Кб. В результате осталось всего 232 текста, что составило 17% от первоначальной выборки.
С помощью контент-анализа тематических сообществ составлены словари, определяющие принадлежность текста к одной из трех тем: гуманитарные, естественные и физико-математические тексты. Каждый из трех словарей состоит из 400 слов-маркеров. Мы сравнили тексты из профилей студентов с полученными словарями для проверки гипотезы о существовании связи между тематикой текстов на стене пользователя и выбором факультета при поступлении в университет (табл. 1). Для 85% студентов гуманитарных факультетов доля лингвистических маркеров из гуманитарного словаря была больше, чем из естественнонаучного и физико-математического, для 9% - меньше и для 6% доля гуманитарных текстов соразмерна либо физико-математическим, либо естественнонаучным.
Таблица 1
Соответствие тематики текстов со стены ВК студентов направлению подготовки
Направление подготовки Соответствие тематики текстов направлению подготовки
Соответствует Не соответствует Спорное
Естественнонаучное 64% 27% 9%
Физико-математическое 32% 58% 10%
Гуманитарное 85% 9% 6%
Таким образом, метод анализа текстов со стены пользователей «ВКонтакте» для определения интереса к тому или иному предметному профилю обладает рядом ограничений. Во-первых, объем текста на стене для объективного анализа должен превышать 10 Кб, что существенно сокращает число анализируемых объектов (со 100 до 17%). То есть этот метод неприменим к большинству профилей старшеклассников «ВКон-такте». Во-вторых, метод анализа текстов с помощью специализированных словарей достаточно точен (85%) только для определения пользователей с гуманитарными интересами, для выявления пользователей с естественнонаучными и физико-математическими интересами точность метода недостаточно высока.
Метод анализа контента стены при выявлении образовательных интересов абитуриентов планируется дополнить анализом тематических со-
обществ, в которых они состоят. Вступление в сообщество и подписка на страницу в социальных сетях могут характеризовать интересы пользователя. Если выбрать из спектра выявленных интересов темы, имеющие отношение к образованию и познанию, то точность классификации абитуриентов по предметным областям может быть повышена.
В рамках исследования проведен анализ тематического содержания сообществ для 18 тыс. абитуриентов только одного города, Томска. Из профилей абитуриентов выгружены и обобщены сообщества, в которых они участвуют. Из общего количества сообществ выбрано 959, только те, которые встречаются в профилях не менее 10 пользователей. Определение тематики сообщества проводилось вручную. В результате составлен классификатор сообществ и определена доля каждой рубрики в общем количестве сообществ.
Проверка классификатора на 992 студентах ТГУ показала, что 66% из них подписаны на группы и страницы, тематика которых может быть связана с той или иной предметной областью. Сравнение направления подготовки студентов с тематикой сообществ, на которые они подписаны, представлена в табл. 2.
Таблица 2
Соответствие тематики сообществ «ВКонтакте» у студентов направлению подготовки.
Направления подготовки Количество проанализированных студенческих профилей Соответствие тематики сообществ направлению подготовки
Соответствует на 100% Соответствует более чем на 30% Соответствует менее 30%
Гуманитарные науки 324 88% 6% 6%
Физико- математические науки 199 17% 1% 82%
Естественные науки 139 4% 0% 96%
Точность выявления гуманитариев с помощью классификатора сообществ составила 94%. Невысокая точность определения интересов к физико-математическому и естественнонаучному контенту можно объяснить ограниченной выборкой сообществ для составления классификатора: из 959 проанализированных сообществ 231 соответствует гуманитарной тематике, 22 - физико-математической и только 1 - естественнонаучной.
На текущем этапе исследования методы анализа текстов в профиле пользователей, а также групп и страниц, на которые они подписаны, поз-
воляют идентифицировать с высокой точностью только гуманитариев. Применение этих методов к профилям потенциальных абитуриентов 2017 г. позволит определить относительную частоту упоминания лингвистических маркеров в текстах на стене и абсолютные значения по количеству тематических подписок на контент, связанный с интересом к гуманитарным наукам. Мы предполагаем, что эти данные позволят ранжировать всех пользователей по силе выраженности интереса и сузить целевую аудиторию во время работы по привлечению абитуриентов в социальных сетях. Оценить эффект данного подхода мы сможем после окончания приемной кампании в августе 2017 г. Ожидаемые результаты: расширение географии абитуриентов, увеличение конкурса на гуманитарные направления подготовки, рост доли первокурсников, узнавших об университете через социальные сети, уменьшение количества отчислений из университета в первый год обучения, повышение успеваемости в первый год обучения.
ЛИТЕРАТУРА
1. Schwartz H.A. et al. Personality, gender, and age in the language of social media: The open-vocabulary approach // PloS one. 2013. Vol. 8, № 9. e73791.
2. Kosinski M. et al. Manifestations of user personality in website choice and behavior on online social networks // Machine learning. 2014. Vol. 95, № 3. P. 357-380.
3. Markovikj D. et al. Mining facebook data for predictive personality modeling // Proceedings of the 7th international AAAI conference on Weblogs and Social Media (ICWSM 2013), Boston, MA, USA. 2013.
4. Mangal N., Niyogi R., Milani A. Analysis of Users' Interest Based on Tweets // Computational Science and Its Applications. Springer, 2016. Vol. 9790. P. 12-23.
5. Rife D., Lacy S., Fico F. Analyzing media messages: using quantitative content analysis in research. Mahwah, NJ : Erlbaum, 2005.