УДК 004.891.3
А. С. Катасёв, Д. В. Катасёва, А. П. Кирпичников, А. О. Евсеева
НЕЙРОСЕТЕВАЯ МОДЕЛЬ ИДЕНТИФИКАЦИИ БОТОВ В СОЦИАЛЬНЫХ СЕТЯХ
Ключевые слова: бот, твит, репост, нейронная сеть.
В работе проводится анализ проблемы распространения ботов в социальных сетях, описывается нейросете-вая технология фильтрации ботов, строится модель идентификации ботов на базе нейронной сети, приводятся результаты апробации разработанной нейросетевой технологии идентификации ботов.
Keywords: boat, tweet, repost, neural network.
This paper analyzes the problem of proliferation of bots in social networks, filtering technology developed neural network bots, create a model based on the identification of bots neural network, the results of the use of neural network identification technology bots.
Социальные сети являются эффективной площадкой для бизнеса, воздействующего на целевую аудиторию. Это дает возможность быстрого распространения большого объема информации в короткий срок среди выбранной аудитории. В этот момент возникает необходимость автоматизации процесса, так как целевая аудитория может быть разного объема, различной по местам локализации, может иметь разные периоды активности, разные вкусовые предпочтения и т.д. Нужно иметь возможность дублировать информацию в разных социальных сетях, от имени разных аккаунтов, в разное время. Вручную это достаточно трудоемко, поэтому возникает необходимость применения ботов [18].
Бот (англ. bot, сокращенно от robot) [1,19] - это программа, автоматически выполняющая действия на компьютере вместо людей, то есть совершающая некие действия, которые должен делать человек в социальной сети. Например, отвечать и отправлять сообщения, комментировать чужие сообщения, ставить «лайки», и так далее. Бот не является аккаун-том, бот - это программа управления аккаунтом. Но в сложившейся сетевой традиции ботом называют именно аккаунты, управляемые этими программами. Таким образом, можно считать ботами в социальных сетях аккаунты, используемые для распространения целевой информации [1]. Такие программы быстро создали миллионы аккаунтов пользователей, маскирующихся под настоящих людей, и заполонили крупнейшие социальные сети в мире, такие как Facebook, Вконтакте, Твиттер, Instagram и другие.
Проблема распространения ботов в социальных сетях является одной из наиболее актуальных, существующих в современном виртуальном пространстве [4]. Боты нивелируют полезную и бесполезную информацию, засоряют информационное поле, чем отталкивают пользователей от социальных сетей. Кроме того, боты снижают эффективность добросовестной рекламы, тем самым наносят вред организациям, владеющим социальными сетями и их клиентам. Боты могут порочить чужие имена и бренды компаний, нанося репутационный ущерб. Боты приносят известность средствам массовой информации и стали своеобразным рупором пропаганды в социальных сетях. Боты часто приводят к заражению компьютеров вредоносным программным
обеспечением и способствуют утечке конфиденциальной информации.
В данной работе для решения проблемы идентификации ботов в социальных сетях предлагается использовать нейронную сеть [13,15,17], как мощный и эффективный инструмент для решения задачи классификации [12,14]. Решение данной задачи сводится к отнесению пользователя в одну из двух категорий (классификация «бот» / «не бот») по представленному вектору признаков, которыми обладает пользователь (см. рис. 1).
Рис. 1 - Схема идентификации ботов на основе нейронной сети
Как видно из данного рисунка, перед применением нейронной сети для решения задачи идентификации ботов необходимо выбрать тип сети и произвести ее обучение [5]. Следовательно, принцип фильтрации ботов на базе нейронной сети заключается в выработке набора признаков, характеризующих ботов, формировании обучающей выборки, состоящей из значений выделенных признаков, и обучении нейронной сети на основе полученной выборки. Обученная нейронная сеть способна анализировать признаки пользователя и на основании анализа решать задачу классификации [3,8].
В качестве примера рассмотрим социальную сеть Твиттер. Некоторые признаки ботов в данной сети аналогичны и прослеживаются в других социальных
сетях. Остальные могут отличаться, исходя из специфики социальной сети.
Поскольку станицы пользователей представляют собой совокупность данных в электронном виде, необходимо эти данные описать системой числовых параметров и их значений. Значения выбранных параметров, характеризующих ботов, составят обучающую выборку для построения нейросетевой модели.
Выделяют две основные группы признаков ботов [6]: статические и поведенческие. К первой группе признаков относятся особенности оформления акка-унта - то, как полно занесены данные и какие данные использованы для оформления:
- корректное написание имени;
- наличие публикаций аккаунта;
- наличие и содержание фотографии;
- соответствие друг другу разных данных акка-унта;
- дата создания аккаунта;
- число друзей;
- общая заполненность аккаунта и др.
Ко второй группе признаков относятся те особенности, которые характерны для действий изучаемого аккаунта:
- участие в искусственном продвижении материалов;
- скорость комментирования;
- комментарии разных аккаунтов с одного 1Р за короткий промежуток времени;
- содержание комментариев и др.
В данной работе для идентификации ботов в социальной сети Твиттер предлагается следующий набор признаков:
1) количество символов в имени - число символов в имени пользователя (нике);
2) количество твитов - число твитов на странице пользователя;
3) количество читаемых пользователей - число пользователей, на страницу которых подписан пользователь;
4) количество читателей - число пользователей, которые подписаны на станицу пользователя;
5) избранное - число твитов, занесенных в закладки;
6) частота встречаемости ретвитов - частота встречаемости сообщений, которые были скопированы у других пользователей на свою страницу;
7) частота встречаемости своих постов - частота встречаемости сообщений, которые были написаны самим пользователем на своей странице;
8) частота встречаемости хэштегов - частота встречаемости хэштегов;
9) частота встречаемости ответов - частота встречаемости ответов на сообщения другим пользователем;
10) частота встречаемости рекламы - частота встречаемости рекламных сообщений, которые пользователь размещает у себя на странице;
11) наличие поля с информацией о себе - наличие поля с информацией о себе на странице пользователя;
12) поле со ссылкой на дополнительные сайты -наличие ссылки на дополнительные сайты;
13) поле с местоположением - наличие поля с информацией о своем местоположении на странице пользователя;
14) дата регистрации - количество дней, которые пользователь зарегистрирован в социальной сети.
Для формирования исходных данных использована собственная база, состоящая из 200 пользователей, 50 процентов которых содержали характерные признаки ботов. В качестве выходных параметров сети были заданы следующие: 1 -«бот», 2 - «не бот». Выход нейронной сети должен принимать значения «0» или «1». На основании вектора входных признаков, характеризующего распределение значений параметров пользователя, решается задача, к какому классу отнести определенного пользователя социальной сети.
На рисунке 2 представлена схема разработанной нейронной сети для решения задачи идентификации ботов в социальных сетях.
Рис. 2 - Структура нейронной сети для решения задачи идентификации ботов
Достоинством разработанной модели нейронной сети анализа и фильтрации ботов заключается в ее способности «изучать» характеристики пользователей и идентифицировать ботов среди них. В дополнение к начальному периоду обучения разработанная нейронная сеть может обучаться во время непосредственной фильтрации ботов, поддерживая ее актуальность для эффективного решения поставленной задачи.
На рисунке 3 представлена структурная схема применения разработанной технологии идентификации ботов на основе нейронной сети.
Как видно из рис. 3, модель идентификации ботов анализирует пользователей социальной сети по определенным признакам. Вектор значений признаков пользователя подается на вход обученной нейронной сети, принимающей решение об
отнесении данного пользователя к боту или к обычному пользователю.
Социальная сеть
Выбор
> ' пользователя
Анализ
пользователя
Признаки
> ' пользователя
Нейросетевая
модель
Иденти-
> ' фикация
Вывод результат
Рис. 3 - Структурная схема нейросетевой технологии идентификации ботов
Для оценки качества разработанной технологии идентификации ботов и точности построенной на ее основе модели были проведены эксперименты с обученной нейронной сетью на тестовой выборке данных, по результатам которых вычислены коэффициенты ошибок двух типов [9]:
- ошибка первого рода, когда пользователь является ботом, но не классифицируется нейронной сетью как бот;
- ошибка второго рода, когда пользователь не является ботом, но ошибочно классифицируется нейронной сетью как бот.
Расчет коэффициента ошибки первого рода осуществлялся по следующей формуле [7]:
п
E =
N
где п1 - количество пользователей-ботов, классифицированных как «не бот»; N - общее количество пользователей-ботов в тестовой выборке.
Расчет коэффициента ошибки второго рода осуществлялся по следующей формуле:
¿2 = 2 N2
где п2 - количество обычных пользователей, классифицированных как «бот»; Ы2 - общее количество обычных пользователей в тестовой выборке.
В таблице 1 представлены результаты расчетов коэффициентов ошибок I и II рода. При расчетах использовались следующие численные значения параметров: Ы1 = Ы2 = 100 .
Как видно из таблицы, 3,3% ботов были ошибочно классифицированы нейронной сетью как обычные пользователи. Соответственно, 3,3% обычных пользователей было ошибочно отнесено к ботам. Значения ошибок первого и второго рода незначительны. Апробация модели идентификации ботов, построенной на базе нейронной сети, показа-
ла хорошие результаты, поскольку подавляющая часть ботов была успешно классифицирована. Для реальных социальных сетей данный результат является удовлетворительным.
Таблица 1 - Значения коэффициентов ошибок I и II рода для модели идентификации ботов
Правильно идентифицируемые пользователи Коэффициент ошибок I рода (бот идентифицируется как обычный пользователь) Коэффициент ошибок II рода (обычный пользователь идентифицируется как бот)
0,934 0,033 0,033
По ошибке выхода нейронной сети при тестировании можно судить об адекватности построенной модели. Для оценки ее адекватности воспользуемся следующей формулой:
ЕТест = Ь
где у - значение, выданное сетью при тестировании; t - эталонное значение (0 или 1).
Среднее значение ошибки выхода нейронной сети рассчитывается по формуле:
1 ™
1 I*.
N
/=1
где N - количество примеров в тестовой выборке данных.
Результаты проведенных экспериментов показали, что среднее значение ошибки выхода нейронной сети при тестировании на типовых примерах составила E=0,00023. Данный результат показывает, что разработанная модель с высокой точностью решает поставленную задачу идентификации ботов в социальных сетях и является адекватной.
Таким образом, в данной работе получены следующие практические результаты:
- разработана технология идентификации ботов на базе нейронной сети;
- построена нейросетевая модель идентификации ботов в социальных сетях;
- проведены эксперименты и исследована адекватность построенной модели идентификации ботов.
Перспективным видится решение задачи разработки комплексной интеллектуальной автоматизированной системы [2,16], позволяющей производить сбор, обработку, анализ данных пользователей различных социальных сетей на основе нечетких [11] и нейронечетких моделей [10].
Литература
1. Автоопределение ботов [Электронный ресурс] // Безопасность: [сайт], 2014. - URL: http://www.ci2b.info/3-texnologii-iw/3-analiz-informacii/ avtoopredelenie-botov/ (Дата обращения: 18.04.2015).
2. Глова В.И., Аникин И.В., Катасёв А.С. Система предупреждения аварий оборудования в процессах поддержания пластового давления // Вестник Казанского государственного технического университета им. А.Н. Туполева. - 2006. - № 2. - С. 46-49.
3. Глова В.И., Аникин И.В., Катасёв А.С., Кривилёв М.А., Насыров Р.И. Мягкие вычисления: учебное пособие. Казань: Изд-во Каз. гос. технич. университета им. А.Н. Туполева, 2010. - 206 с.
4. Гончаров Н.О. Современные угрозы бот-сетей // Молодежный научно-технический вестник. - 2014. - № 10. - С. 34-37.
5. Емалетдинова Л.Ю., Катасёв А.С., Кирпичников А.П. Нейронечеткая модель аппроксимации сложных объектов с дискретным выходом // Вестник Казанского технологического университета. - 2014. - Т. 17, № 1. - С. 295-299.
6. Зегжда Д.П., Степанова Т.В. Оценка эффективности использования средств защиты для нейтрализации и устранения бот-сетей // Проблемы информационной безопасности. Компьютерные системы. - 2012. - № 2. - С. 21-27.
7. Катасёв А.С. Математическое и программное обеспечение формирования баз знаний мягких экспертных систем диагностики состояния сложных объектов: монография. -Казань: ГБУ «Республиканский центр мониторинга качества образования», 2013. - 200 с., ил.
8. Катасёв А. С. Математическое обеспечение и программный комплекс формирования нечетко-продукционных баз знаний для экспертных диагностических систем // Фундаментальные исследования. - 2013. - № 10 (часть 9). - С. 1922-1927.
9. Катасёв А.С. Формирование базы знаний системы фильтрации электронных почтовых сообщений // Научно-технический вестник Поволжья. - 2013. - № 5. - С. 191194.
10. Катасёв А.С., Ахатова Ч.Ф. Нейронечеткая система обнаружения продукционных зависимостей в базах данных // Программные продукты и системы. - 2011. - № 3.С. 26-32.
11. Катасёв А.С., Газимова Д.Р. Инвариантная нечетко-продукционная модель представления знаний в экспертных системах // Вестник КГТУ им. А.Н. Туполева. - 2011. - № 1. - С. 142-148.
12. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. - 2015. - № 1 (25). - С. 6878.
13. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая диагностика аномальной сетевой активности // Вестник технологического университета. -2015. - Т. 18. № 6. - С. 163-167.
14. Катасёв А. С., Катасёва Д. В., Кирпичников А. П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. - 2015. - Т. 18. № 5. - С. 180-183.
15. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевое прогнозирование инцидентов информационной безопасности предприятия // Вестник технологического университета. - 2015. - Т. 18. № 9. - С. 215-218.
16. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Оценка стойкости шифрующих преобразований моноалфавитной замены с использованием генетического алгоритма // Вестник технологического университета. - 2015. - Т. 18. № 7. - С. 255-259.
17. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Кос-тюжов С.Г. Нейросетевая модель распознавания пользователей в системах дистанционного обучения // Вестник технологического университета. - 2015. - Т. 18. № 13. - С. 160-163.
18. Котенко И.В., Коновалов А.М., Шоров А.В. Агентно-ориентированное моделирование бот-сетей и механизмов защиты от них // Вопросы защиты информации. - 2011. -№ 3. - С. 24-29.
19. Сачков И.К., Назаров А.Н. Автоматизация противодействия бот-атакам // Т-Сотт: Телекоммуникации и транспорт. - 2014. - Т. 8. - № 6. - С. 5-9.
© А. С. Катасёв - д-р. техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; Д. В. Катасёва - аспирант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. П. Кирпичников - д-р. физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: [email protected]; А. О. Евсеева - магистрант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected].
© A. S. Katasev - Dr. Sci, Associate Professor of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; D. V. Kataseva - Postgraduate Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; А. P. Kirpichnikov - Dr. Sci, Prof, Head of Intelligent Systems & Information Systems Control Department, KNRTU, e-mail: [email protected]; J. E. Semenov - Master Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected].