Научная статья на тему 'МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА И МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ КОМПЬЮТЕРНЫХ СИСТЕМ'

МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА И МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ КОМПЬЮТЕРНЫХ СИСТЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / КОМПЬЮТЕРНАЯ БЕЗОПАСНОСТЬ / ПОВЕДЕНЧЕСКАЯ БИОМЕТРИЯ / АНАЛИЗ СОЦИАЛЬНЫХ СЕТЕЙ / UEBA-СИСТЕМЫ / MACHINE LEARNING / COMPUTER SECURITY / BEHAVIORAL BIOMETRICS / SOCIAL NETWORK ANALYSIS / UEBA SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Машечкин И. В., Петровский М. И., Казачук М. А.

В данной статье дается обзор современного состояния и основных научных результатов коллектива кафедры интеллектуальных информационных технологий факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова в области исследования и разработки методов машинного обучения для решения задач анализа и моделирования поведения пользователей компьютерных систем. Рассматриваются модели и задачи для основных источников поведенческих данных, включая человеко-машинный интерфейс, прикладные и системные журналы, электронные документы и взаимодействующие группы и сообщества пользователей, а также комбинации этих источников. Основной акцент делается на решении задач, связанных с компьютерной и информационной безопасностью.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Машечкин И. В., Петровский М. И., Казачук М. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MACHINE LEARNING METHODS FOR ANALYZING AND MODELING THE BEHAVIOR OF COMPUTER SYSTEM USERS

This article provides an overview of the current state and main scientific results of the research team of the Department of Intelligent Information Technologies at the Faculty of Computational Mathematics and Cybernetics at Lomonosov Moscow State University, in the field of researching and developing machine learning methods to solve problems of analyzing and modeling user behavior in computer systems. Models and challenges for major data sources, including human-computer interfaces, application logs, electronic documents, interacting user groups, and communities, are considered, as well as combinations thereof. The focus is on addressing problems related to computer and information security.

Текст научной работы на тему «МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА И МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ КОМПЬЮТЕРНЫХ СИСТЕМ»

ВЕСТН. МОСК. УН-ТА. СЕР. 15. ВЫЧИСЛ. МАТЕМ. И КИВЕРН. 2024. № 4. С. 160-189 Lomonosov Computational Mathematics and Cybernetics Journal

УДК 004.93'12

И. В. Машечкин1 , М. И. Петровский2 , М. А. Казачук3

МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА И МОДЕЛИРОВАНИЯ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ КОМПЬЮТЕРНЫХ СИСТЕМ*

В данной статье дается обзор современного состояния и основных научных результатов коллектива кафедры интеллектуальных информационных технологий факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова в области исследования и разработки методов машинного обучения для решения задач анализа и моделирования поведения пользователей компьютерных систем. Рассматриваются модели и задачи для основных источников поведенческих данных, включая человеко-машинный интерфейс, прикладные и системные журналы, электронные документы и взаимодействующие группы и сообщества пользователей, а также комбинации этих источников. Основной акцент делается на решении задач, связанных с компьютерной и информационной безопасностью.

Ключевые слова: машинное обучение, компьютерная безопасность, поведенческая биометрия, анализ социальных сетей, Т1ЕВА-системы.

Б01: 10.55959/М8и/0137-0782-15-2024-47-4-160-189

1. Введение. В современном информационном обществе компьютерные системы играют ключевую роль во всех сферах деятельности, от корпоративных сетей до личных устройств. С ростом зависимости от цифровых технологий возросли угрозы, связанные с безопасностью информации и конфиденциальностью данных, а также увеличились возможности по использованию информации о взаимодействии пользователей с компьютерными системами для решения задач анализа и моделирования поведения пользователей. Методы машинного обучения стали неотъемлемой частью инструментария для анализа и моделирования поведения пользователей компьютерных систем с несколькими основными целями.

• Безопасность и защита данных. Одна из основных целей моделирования поведения пользователей — обеспечение безопасности информации и защиты данных. Модели машинного обучения используются для выявления аномалий, вторжений и обнаружения несанкционированного доступа. Путем анализа нормального и аномального поведения пользователей системы могут оперативно обнаруживать подозрительные действия и своевременно реагировать на потенциальные угрозы.

• Идентификация и авторизация. Моделирование поведения помогает в эффективной идентификации пользователей и в авторизации доступа к ресурсам. Алгоритмы машинного обучения могут создавать профили пользователей на основе их характеристик и типичного поведения, что позволяет определять аномальные попытки доступа или использования системы.

• Оптимизация пользовательского опыта и управление ресурсами путем анализа поведения пользователей. Можно улучшать пользовательский опыт, предлагая персонализированные рекомендации, оптимизировать использование ресурсов компьютерных систем и предсказывать потребности пользователей для более эффективного управления ресурсами.

1 Факультет ВМК МГУ, проф., д.ф.-м.н., e-mail: mashQcs.msu.su

2 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: michaelQcs.msu.ru

3 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: mkazachukQcs.msu.ru

* Исследование выполнено при поддержке некоммерческого фонда развития науки и образования "Интеллект".

• Анализ трендов и предсказание. Моделирование поведения позволяет анализировать и предсказывать тренды в использовании информационных ресурсов. На основе данных о поведении пользователей можно делать выводы о предпочтениях и тенденциях, что полезно для прогнозирования будущих изменений и разработки стратегий развития компьютерных систем.

• Анализ и моделирование взаимодействия групп и сообществ пользователей. Включается несколько ключевых аспектов, таких, как поиск по образцу источников информации, их мониторинг, латентно-семантический анализ, а также выявление сообществ и классификация ролей участников. Применение этих методов на практике может содержать анализ социальных сетей для выявления влиятельных личностей, мониторинг новостных потоков для обнаружения важных событий, а также анализ форумов и комментариев для понимания общественного мнения и трендов.

Для достижения указанных целей применяются различные методы машинного обучения, и необходимо решать несколько типовых задач.

• Выявление отдельных аномальных событий: модели обнаружения аномалий позволяют идентифицировать необычные или потенциально вредоносные действия пользователей.

• Выявление аномального контекста: анализ окружения и контекста позволяет обнаруживать нестандартные условия, которые могут свидетельствовать о потенциальных угрозах.

• Выявление аномальных трендов: модели временных рядов и статистические методы помогают выявлять изменения в поведении пользователей со временем, что может указывать на возможные угрозы или изменения в структуре сообществ.

• Выявление аномального контента: анализ потоков содержательной текстовой информации (сообщений, писем, документов) пользователей для автоматического обнаружения необычного или вредоносного контента, который может представлять угрозу для компьютерной системы или других пользователей.

• Выявление сообществ и классификация ролей участников: применение методов графового анализа и машинного обучения для выявления структуры сообществ в сетях пользователей. Это дает возможность выделить группы пользователей, которые часто взаимодействуют или имеют общие интересы. Далее методы машинного обучения позволяют построить описательные модели сообщества, помогающие понять его структуру, характеристики циркулирующего в нем контента, и определить роли участников, например, выделив лидеров, активных участников, новичков и т.д. Это полезно для анализа влияния и организации внутренних структур сообществ.

Необходимо отметить, что компьютерные системы, подлежащие анализу, включают разнообразные платформы: корпоративные сети, социальные сети, вычислительные кластеры и индивидуальные компьютеры. Каждая из этих систем имеет уникальные особенности в контексте пользовательского поведения, что требует разработки специализированных моделей для обнаружения аномалий, предсказания потенциальных угроз и построения описательных моделей. И даже в рамках одной компьютерной системы можно рассматривать разные источники информации для построения моделей анализа пользовательского поведения, включая человеко-машинный интерфейс (например, клавиатура, мышь), системные и прикладные журналы, потоки электронных документов и активность в социальных сетях (включая контент и взаимодействия). Каждый источник требует специфического подхода к анализу данных с использованием соответствующих методов машинного обучения.

Использование этих методов требует не только технических знаний в области машинного обучения, но и понимания специфики компьютерных систем и их пользовательской деятельности.

В совокупности они обеспечивают возможность эффективного мониторинга и защиты информационных ресурсов, повышая уровень безопасности и производительности в цифровой среде. Таким образом, моделирование поведения пользователей компьютерных систем направлено на повышение безопасности, эффективности и удобства использования информационных технологий, что делает его важным компонентом в современной цифровой экосистеме.

Работы в данном направлении на кафедре интеллектуальных информационных технологий ведутся более 20 лет и в настоящей статье дается краткий обзор основных полученных результатов. Статья имеет следующую структуру: во второй части дается краткий обзор литературы и современного состояния исследований по данной проблематике; третий, четвертый и пятый разделы посвящены полученным участниками коллектива результатам в области разработки и применения методов машинного обучения для задач моделирования поведения пользователей в рамках человеко-машинного интерфейса, анализа контекста и контента работы пользователей, анализа и моделирования взаимодействия сообществ и групп пользователей соответственно. В заключении приведены выводы.

2. Существующие решения и подходы

2.1. Аутентификация пользователей на основе анализа работы с компьютерными клавиатурой и мышью. Аутентификация пользователей на основе анализа работы с клавиатурой и мышью является достаточно перспективным направлением исследований и широко применяется для обеспечения безопасности как домашних компьютеров пользователей, так и компьютеров крупнейших корпораций, а также для предотвращения несанкционированного доступа злоумышленников к веб-сайтам. Использование двухфакторной аутентификации (по символьному либо графическому паролю и анализу характеристик пользователя по работе с клавиатурой (мышью) при вводе данного пароля) либо же использование беспарольной аутентификации (только на основе характеристик динамики работы с мышью либо клавиатурой при вводе пароля) позволяют провести аутентификацию пользователя при его входе в систему. Использование же фоновой аутентификации позволяет проводить аутентификацию пользователя после его входа в систему, анализируя динамику его работы с мышью и клавиатурой во время выполнения им его повседневных задач в фоновом режиме, тем самым предотвращая попытки смены вошедшего в систему пользователя на злоумышленника. Рассмотрим существующие методы аутентификации пользователей подробнее.

2.1.1. Задача фоновой аутентификации пользователей. В задаче фоновой аутентификации пользователей на основе анализа динамики работы с клавиатурой компьютера анализируемыми данными являются события клавиатурного ввода, характеризующиеся кодом клавиши, типом события (нажатие/отжатие) и соответствующей временной меткой [1-16]. В большинстве работ происходит разбиение потока событий клавиатурного ввода на сессии — временные окна (по 50, 100, 500 событий либо продолжительностью в 1-2 минуты) [2,7] — и вычисление вектора признаков как набора статистик по клавиатурному вводу пользователя в рамках каждого отдельного временного окна [1-3,13]. Примерами используемых статистик являются минимальное, максимальное, среднее значение, медиана, стандартное отклонение, дисперсия продолжительно-стей нажатий и отжатий отдельных клавиш клавиатуры и их комбинаций — N графов [1,3]. При этом, наиболее часто рассматриваемыми N графами в существующих работах являются диграфы — комбинации двух последовательно нажатых пользователем клавиш [1]. При построении вектора признаков расчет статистик проводится как по независимым клавишам и N графам, так и по их группам, полученным при объединении клавиш со схожей функциональностью или физическим расположением.

Отметим, что современные клавиатуры в среднем содержат порядка 100 клавиш, и при N = 2 мы получаем 10000 различных попарных комбинаций клавиш, для каждой из которых рассчитываются различные статистики — размерность полученного признакового пространства получается достаточно большой, при этом само пространство признаков (часть из которых являются шумовыми) получается разреженным, что свидетельствует об актуальности проблемы предобработки данных в рассматриваемой задаче [2]. В существующей литературе для решения задачи

сокращения размерности признакового пространства предлагается использовать следующие методы: метод главных компонент (Principal Component Analysis — РСА) [12], сингулярное разложение (Singular Value Decomposition — SVD) [12], жадный алгоритм [16], а также эвристические методы (генетический алгоритм, метод роя частиц, муравьиный алгоритм) [16]. Также некоторые работы предлагают производить отбор клавиш, соответствующих наиболее часто встречаемым в языке буквам [2].

В качестве методов обработки вычисленных признаков можно выделить нормализацию [15] и стандартизацию [16] данных. Отметим, что нормализация от стандартизации отличается тем, что нормализация подразумевает изменение диапазонов в данных без изменения формы распределения, а стандартизация изменяет форму распределения данных (приводит к нормальному распределению).

Основной сложностью задачи аутентификации является тот факт, что нам доступны данные только одного, легитимного, класса. Данные задачи называются задачами одноклассовой классификации. При работе с пространством признаков большой размерности, где многие признаки оказываются нерелевантными с точки зрения выделения целевого класса, а также многие признаки являются взаимозависимыми, наиболее перспективными методами построения модели пользователя являются kernel-методы, основанные на переходе из исходного пространства признаков в пространство характеристик высокой размерности (Reproducing Kernel Hilbert Space — RKHS) с использованием потенциальной (kernel) функции и поиске зависимостей в новом результирующем пространстве. Наиболее известными из данных методов являются Support Vector Clustering (SVC) [2] и One Class Support Vector Machine (One Class SVM) [2-4,11]. В методе SVC объекты из исходного множества неявно отображаются с помощью потенциальной функции в пространство характеристик высокой размерности, где далее происходит поиск гиперсферы минимального радиуса, содержащей внутри "основную часть" образов объектов из исходного множества. Исключениями (объектами, сильно отличающимися от основной части выборки) считаются объекты, чей образ лежит за пределами найденной гиперсферы. Метод Single Class SVM аналогичен методу SVC: он находит гиперплоскость, отделяющую "основную часть" образов объектов от начала координат. Исключениями считаются объекты, чей образ лежит ближе, чем найденная гиперплоскость, к началу координат. Помимо kernel-методов в существующих работах для построения модели пользователя также применяются следующие методы: изолированный лес (Isolation Forest) [1], одноклассовый метод fc-ближайших соседей (One Class KNN) [2,8], нейронные сети (Artificial Neural Networks (ANN) [3,4], Convolutional Neural Networks (CNN) [6,9], Recurrent Neural Networks (RNN) [6,9], Long Short-Term Memory (LSTM) [15]), скрытые марковские модели (Hidden Markov Models — HMM) [8], байесовские сети, модели гауссовых смесей (Gaussian Mixture Models — GMM) [14], а также ансамбли данных алгоритмов [3,5,6]. При этом наилучшее качество аутентификации достигается при использовании методов One Class SVM, SVC, ANN, CNN, RNN, а также комбинации нейронных сетей CNN и RNN. В случае применения ансамблей алгоритмов предлагается использовать либо взвешенную сумму откликов классификаторов, либо результат байесовского голосования.

В задаче фоновой аутентификации пользователей на основе анализа работы с компьютерной мышью фиксируемые события характеризуются координатами курсора мыши, типом события (движение, нажатие/отпускание левой/правой клавиши) и соответствующей временной меткой [17-27]. Собираемые события разбиваются на временные окна продолжительностью 100— 500 событий, далее происходит вычисление вектора признаков для каждого временного окна. Вектор признаков содержит статистики, вычисляемые по кинематическим характеристикам (перемещение, длина траектории, скорость, ускорение, угловые скорость и ускорение, горизонтальные и вертикальные скорость и ускорение), направлению движения, кривизне траектории перемещения мыши и характеристикам кликов (продолжительность клика, время между кликами) [18,19,23,24]. Статистики вычисляются как в рамках деятельности пользователя относительно всего экрана монитора, так и относительно отдельных его областей [19]. В качестве методов предобработки признакового пространства зачастую используют нормализацию или стандартизацию [20,22,23]. Для сокращения размерности пространства признаков используются алгоритмы

PC А [22], ExtRa Trees (ERT) [23], Sequential forward selection [25]. В качестве методов построения модели пользователя выступают One Class SVM [18,19,21,22,26,27], One Class KNN [21,22,25], нейронные сети (ANN [21,25], CNN [17,23,25], MLP [23], LSTM [23,25]). При этом наилучшие результаты достигаются при использовании нейронных сетей CNN и LSTM, а также методов One Class SVM и One Class KNN.

В ряде работ рассматривается комбинированная фоновая аутентификация пользователей на основе анализа динамики их работы и с мышью, и с клавиатурой компьютера [28-33]. При этом в большинстве работ строится комбинированный вектор признаков, содержащий как статистики работы пользователя с клавиатурой компьютера, так и статистики работы пользователя с компьютерной мышью, и используется единый классификатор. В некоторых же работах строятся отдельные модели, характеризующие работу пользователя с клавиатурой и мышью, и результаты применения данных моделей к тестовым векторам учитываются с разными весами: больший вес придается классификатору, анализирующему динамику работы с клавиатурой, и меньший вес — классификатору, анализирующему динамику работы с компьютерной мышью.

Отметим, что наиболее объективной метрикой для оценки качества аутентификации выступает значение площади под ROC-кривой (ROC AUC), являющееся агрегированной характеристикой качества классификации, не зависящей от соотношения цен ошибок.

Несмотря на большое количество существующих решений по данной тематике, они обладают рядом серьезных недостатков. В частности, точность аутентификации в них достигает порядка 85-90%, ROC AUC ниже 0.90 и качество работы классификатора сильно зависит от выбора значений метапараметров, которые тяжело подобрать в силу отсутствия примеров данных злоумышленника. Отметим, что в ряде работ авторы заявляют о высокой точности работы их решений. Однако, в них рассматривается не полноценная фоновая работа пользователя за компьютером, а ввод пользователями одинакового фиксированного текста либо выполнение с использованием компьютерной мыши фиксированного набора заданий, что является более легкой для решения задачей. Также динамика работы пользователя за компьютером может меняться во времени, что ведет к снижению качества распознавания (в том числе и при смене используемого оборудования) — современные подходы не способны выделять наиболее стабильные по времени признаковые характеристики. Дополнительно заметим, что зачастую необходимо решать задачу оценки аномальности поведения пользователя за длительный период (например, целую сессию) его работы за компьютером. С помощью классификатора мы сможем получить набор откликов для всех временных окон в рамках рассматриваемого временного интервала. Необходимо на основе полученной последовательности откликов уметь получать единое число — степень аномальности поведения пользователя за продолжительный промежуток времени (являясь агрегированной характеристикой, данная величина позволит более точно оценить аномальность действий пользователя). В существующих работах решение данной проблемы не предлагается. Поэтому необходимо разрабатывать алгоритмы фоновой аутентификации пользователей на основе анализа работы с компьютерными клавиатурой и мышью, обладающие высоким качеством работы, способные выделять наиболее стабильные по времени признаки и определять степень аномальности поведения пользователя как за короткий, так и за длинный промежуток времени.

2.1.2. Задача беспарольной (двухфакторной) аутентификации пользователей. В литературе существует несколько подходов к построению модели аутентификации пользователя на основе анализа работы с клавиатурой компьютера при вводе парольной фразы [34-41]: модель времени удержания клавиш, модель наблюдения за скоростью печати, модель порядка нажатий и отпусканий клавиш, модель учета продолжительностей зажатия клавиш и продолжительности перескоков между последовательными нажатиями клавиш, модель использования правой и левой клавиш Shift.

Модель времени удержания [36] использует вектор из n элементов (n — количество клавиш на клавиатуре), где каждым элементом вектора является пара из двух значений — среднего времени удержания клавиши и стандартного отклонения времени удержания для данной клавиши. Таким образом, ввод признается аномальным, если время удержания клавиши отличается от среднего

времени удержания более, чем на величину стандартного отклонения. Метод подразумевает наличие процентного порога аномальных действий, превышение которого признает аутентификацию неудачной.

Модель наблюдения за скоростью печати [36] предполагает, что скорость нажатий для каждой пары клавиш одинакова вне зависимости от набираемого текста. Таким образом, замеряется скорость набора пар клавиш. Анализируется расстояние между эталонным пользовательским вектором, состоящим из скоростей набора пар клавиш при вводе кодового слова, значения в котором упорядочены по скорости набора, и аналогичным тестовым вектором признаков. Данное расстояние рассчитывается как сумма модулей разности всех координат данных векторов.

Модель порядка нажатий и отпусканий клавиш [36] подразумевает наблюдение за тем, в каком порядке пользователь нажимает и отпускает клавиши. Предполагается, что некоторые клавиши пользователь нажимает до того, как отпустит предыдущие. Таким образом получается "перескок" (нажатие новой клавиши до отпускания предыдущей). Подсчет числа таких перескоков между разными клавишами позволяет построить модель пользователя: подсчитываем количество перескоков в рамках одного ввода. Расстояние между двумя вводами есть модуль разности количества перескоков. Среднее расстояние и его стандартное отклонение и будут моделью пользователя. При отклонении расстояния между тестируемым вектором и пользовательским набором от среднего расстояния на величину большую, чем стандартное отклонение, аутентификация считается неуспешной.

Модель учета продолжительностей зажатия клавиш и продолжительностей перескоков между последовательными нажатиями клавиш [34, 35, 37-41] подразумевает расчет продолжительности зажатия каждой клавиши, участвующей во вводе парольной фразы, и расчет продолжительностей всех перескоков между последовательными нажатиями клавиш при вводе пароля. Далее на основе данных характеристик осуществляется построение вектора признаков. В качестве метода построения модели пользователя используется одноклассовый метод опорных векторов [35,37,38], одноклассовый метод fc-ближайших соседей [35], а также нейронные сети (ANN [37,38,41], CNN [38,40]).

Модель использования правой и левой клавиш Shift [36] предполагает, что пользователи применяют правую и левую клавиши Shift по-разному. Таким образом, людей разделили на 4 класса: использующие только левую клавишу Shift, использующие только правую клавишу Shift, люди с преобладанием левой клавиши при периодических использованиях правой, люди с преобладанием правой клавиши при периодических использованиях левой. Принадлежность к неправильному классу (не к тому, что у легитимного пользователя) дает веское основание признать попытку аутентификации нелегитимной.

Для задачи аутентификации пользователей на основе анализа работы с компьютерной мышью при вводе графического пароля (обводе заданного контура) в существующей литературе анализируются скорость и ускорение движения мыши (линейные и угловые), угол движения курсора мыши, расстояние между контуром графического пароля и реальной траекторией движения мыши (евклидово или манхэттенское), а также пройденный при обводе контура путь [42-55]. При этом данные признаки вычисляются как в рамках всего экрана монитора, так и в рамках отдельных его областей [45,49,55]. Для удаления шумов в данных используется фильтр Баттервор-та [52]. Для сокращения размерности признакового пространства используется метод главных компонент [51,52,55]. Для обработки построенных векторов признаков используются нормализация [47,49,52,53] и стандартизация [50]. Наиболее часто используемыми классификаторами в данной задаче являются классификаторы One Class SVM [46,52,55], One Class KNN [47,52], a также нейронные сети (RNN [53,55], LSTM [53-55], CNN [55], MLP [55]). Также в части работ для принятия решения о легитимности пользователя вычисляется евклидово расстояние (либо расстояние Махаланобиса) между пройденной траекторией мыши тестируемого пользователя и эталонной траекторией обвода данного контура легитимным пользователем [44,47,55].

Отметим, что наилучшее качество работы моделей аутентификации пользователей на основе анализа динамики работы с клавиатурой при вводе парольной фразы достигается при использовании модели учета продолжительностей зажатия клавиш и продолжительностей перескоков

между последовательными нажатиями клавиш и составляет порядка 3% FAR (коэффициент ложного принятия) и 9% FRR (коэффициент ложных отклонений). В случае аутентификации на основе анализа динамики работы пользователей при обводе контура с компьютерной мышью, авторы декларируют достижения показателей качества порядка 5% EER (равный коэффициент ошибок) при использовании метода One Class SVM и нейронных сетей архитектур CNN и LSTM. Данные показатели не являются достаточно высокими для возможности практического применения указанных методов. Также неизвестно, как поведут себя существующие решения при смене используемого оборудования. Таким образом, разработка алгоритмов беспарольной (двухфак-торной) аутентификации на основе анализа динамики работы пользователей с компьютерными клавиатурой и мышью также является актуальной задачей.

2.2. Обнаружение внутренних вторжений и попыток хищения конфиденциальной информации. Одной из актуальных задач компьютерной безопасности является задача обнаружения внутренних вторжений [56-74]. Внутренние вторжения осуществляются инсайдерами — сотрудниками компаний, которые в силу своего служебного положения или иных обстоятельств имеют доступ к конфиденциальной информации внутри компании. Под инсайдерской угрозой понимается вредоносная для компании угроза, исходящая от инсайдера. Примерами инсайдерских угроз являются кража интеллектуальной собственности, мошенничество и шпионаж. Ущерб от инсайдерских атак растет с каждым годом, поэтому необходимо разрабатывать интеллектуальные технологии обнаружения внутренних вторжений и попыток хищения конфиденциальной информации.

Для решения данных проблем в существующей литературе используется UEBA (User and Entity Behavior Analytics) — подход, позволяющий анализировать поведение пользователей. Основное преимущество данного подхода заключается в способности обнаруживать ранние признаки готовящейся атаки. Отметим, что данные о работе пользователя с компьютерной системой можно подразделить на два класса — контентную и контекстную информацию. При этом, контекстная информация является хорошо структурированной: это могут быть данные системных журналов операционной системы, журналы SIEM, IDS/IPS, DLP-системы, данные об операциях с файлами, электронной почтой. Контентная информация является слабо структурированной: она представляет собой данные, с которыми работает пользователь (например, содержимое его писем), и ее обработка и анализ представляют собой более сложные задачи, вследствие чего подавляющее большинство существующих UEBA-решений работают только с контекстной информацией, практически не рассматривая контентную составляющую. Рассмотрим существующие методы обнаружения внутренних вторжений более подробно.

2.2.1. Обнаружение внутренних вторжений как задача обучения с учителем. При

подходе к задаче обнаружения внутренних вторжений как к задаче обучения с учителем возникает проблема дисбаланса классов: количество примеров инсайдеров в синтетических наборах данных невелико, а в реальной жизни их еще меньше.

В работе [62] рассматривалась задача классификации пользователей компьютерной системы на добропорядочных и передающих конфиденциальную информацию. При этом проводился анализ эмоциональной окраски текста писем сотрудников и посещенных сайтов. Дополнительно анализировался контекст деятельности пользователей: строился вектор статистик по типам действий пользователя. Авторы работы рассмотрели более 40 различных многоклассовых классификаторов, при этом наилучшее качество работы продемонстрировал алгоритм Random Forest.

Авторы [58] исследуют эффективность агрегации контекста пользователя на разных промежутках времени и приходят к выводу, что наиболее эффективно агрегировать поведенческий контекст пользователя в течение одного рабочего дня. Исследование проводится сразу для четырех алгоритмов обучения с учителем: логистической регрессии, случайного леса, нейронной сети и алгоритма XGBoost. В качестве элементов вектора признаков выступают статистики по типам действий пользователя в компьютерной системе.

В работе [59] предлагается двухэтапный подход: сначала авторы обучают нейронную LSTM-сеть поведению пользователей, а затем извлекают из нее признаки и подают их на вход свер-

точной сети-классификатору. Для кодирования действий пользователей используется One-Hot-кодировка. Использование сети LSTM позволяет осуществлять предсказание новых действий пользователя на основе исторических данных. Сверточная сеть CNN осуществляет классификацию пользователей на добропорядочных и злоумышленников.

В работе [63] авторы применяют обратный подход: сначала сверточной сетью извлекаются признаки, а затем они подаются на вход рекуррентному классификатору с LSTM-ячейками.

Авторы [60] проводят классификацию пользователей на добропорядочных и злоумышленников при помощи нейронной GRU-сети. При этом используется One-Hot-кодирование действий пользователя.

Оригинальный подход предлагается в работе [64]. Сначала создается вектор количественных и качественных признаков, описывающих работу пользователя в течение дня. Затем по вектору признаков создается изображение: значения признаков переводятся в диапазон 0-255 и растягиваются в изображение размером 32 х 32 пикселей. Для классификации доучиваются предобученные нейронные сети архитектур VGG16, Interception и Mobilenet.

В работе [68] проводится анализ событий безопасности журналов операционной системы. Последовательности событий разбиваются на временные окна, расчет статистик по событиям в рамках каждого временного окна проводится путем применения алгоритма TF-IDF. Рассматривается большое количество многоклассовых классификаторов: случайный лес, нейронные сети (CNN, LSTM, FCNN), метод опорных векторов, метод fc-ближайших соседей, при этом наилучшее качество работы достигается при использовании нейронных сетей.

Работа [73] также посвящена анализу событий безопасности. При этом используется One-Hot-кодирование событий, а для обучения с учителем используется логистическая регрессия, а также алгоритмы KNN, XGBoost, LightGBM.

В работах [70, 74] решается задача анализа сетевого трафика. Отбор признаков осуществляется на основе анализа корреляций, а отобранные признаки далее подвергаются One-Hot-кодированию. Для построения моделей пользователей используются классификаторы SVM и KNN.

2.2.2. Обнаружение внутренних вторжений как задача поиска аномалий. В работе [57] используется One-Hot-кодировка действий пользователя. Далее для каждого сотрудника строят LSTM-модель его нормального поведения. Также строят граф сообщества пользователей, где ребра соответствуют общению пользователей через письма. Затем граф пользователей делится на непересекающиеся сообщества алгоритмом Лувена. Далее происходит расчет средней ошибки реконструкции для каждого пользователя на всех обученных моделях его группы. Чем она выше, тем аномальнее поведение пользователя.

В работе [61] моделирование поведения пользователя рассматривается с трех сторон: проводятся агрегация контекста пользователя за каждый день его работы (подсчет статистик по действиям), LDA-моделирование контента электронных писем, а также рассматривается положение пользователя в графе коммуникации внутри компании. При этом применяются четыре алгоритма детекции аномалий: метод главных компонент (для поиска аномалий используется ошибка реконструкции), одноклассовый метод fc-ближайших соседей, оценка распределения наблюдений на тренировочной выборке и последующая оценка вероятности того, что тестовое наблюдение принадлежит данному распределению (проверка, нормальное это распределение или нет), оценка плотности распределения окном Парзена и последующая оценка вероятности принадлежности новых наблюдений данному распределению.

В работе [65] для нахождения аномалий также использовались классические алгоритмы: изолированный лес и одноклассовый метод опорных векторов. В качестве признаков агрегировались количественные и качественные характеристики контекста по нескольким промежуткам времени. Авторы попытались учесть последовательный характер поведения пользователей: строилось несколько моделей по периодам времени, и каждая последующая модель получала особый признак trust score от предыдущей модели.

Авторы работы [56] рассматривали только контентную информацию. При этом решалась за-

дача обнаружения инсайдеров на основе анализа эмоциональной окраски контента. Для этого использовался аспектно-ориентированный анализ (ABSA) эмоциональной окраски контента с помощью собственной сложной рекуррентной нейросетевой модели с механизмом внимания. Для получения эмбеддингов слов использовалась техника GloVe. Для обнаружения аномалий использовался алгоритм Isolation Forest.

В работе [66] авторы исследовали применение механизма внимания для классификаторов RNN, GRU и LSTM с целью обнаружения инсайдерских угроз. При этом по итогам экспериментов наилучшие результаты были достигнуты при использовании нейронных сетей RNN и LSTM.

Авторы [69,71,72] предлагают подход к обнаружению аномального поведения пользователей на основе корреляционных правил и нейронных сетей. При этом анализируется контекст действий пользователя: события безопасности системных журналов, анализ работы с почтой, анализ трафика, анализ работы за компьютером.

Работа [74] посвящена анализу сетевого трафика. При этом для кодирования трафика используется One-Hot-кодирование, а выявление аномалий происходит с использованием алгоритма Isolation Forest.

2.2.3. Подходы при работе с контекстом. Контекстные пользовательские данные хорошо структурированы. При работе с действиями как с последовательностью в большинстве работ используется простое One-Hot-кодирование действий пользователя [57,59,60,70,73,74].

В работах [58,62,68] агрегируются различные статистики по действиям пользователя за различные промежутки времени. Полученные таким образом векторы выступают признаками, к которым применяются классификаторы.

В работе [61] поступали похожим образом: признаки представляли собой число раз, которое пользователь совершил действие определенного вида в течение дня. Затем для каждой должности было определено свое множество "информативных" признаков: авторы оценивали параметры нормального распределения для переменной роли и включали эту переменную в качестве входной переменной, если хотя бы одна из аномальных активностей находилась в области отклонения с уровнем значимости 0.1. При обучении модели для каждой должности использовались только выбранные признаки.

В работе [59] LSTM-сеть обучалась предсказывать по One-Hot-закодированным действиям пользователя его следующее действие. В качестве признаков для классификатора бралась матрица из внутренних векторов последнего LSTM-слоя.

В работах [63,66] в качестве последовательностей рассматривались действия пользователя в течение рабочей сессии и в течение дня соответственно. Эти последовательности использовались для обучения матрицы эмбеддингов. Затем с помощью этой матрицы действия кодировались перед подачей классификатору.

Оригинальное пространство признаков использовалось в работе [64]. В работе были взяты 20 упоминающихся в [67] признаков. Агрегированные за день признаки приводятся к значениям от 0 до 255 и растягиваются в изображение в градациях серого размером 32 х 32 пикселей — это и есть представление признаков пользователя.

В работах [57, 61] данные о действиях пользователей по работе с электронной почтой использовались для составления "графа коммуникации пользователей". В первой работе граф использовался для разделения пользователей на непересекающиеся сообщества, во второй — для получения таких признаков, как: индекс Жаккара и центральность по посредничеству.

2.2.4. Подходы при работе с контентом. Если контекст достаточно агрегировать и закодировать, то контент не имеет четкой структуры и обладает слишком большим объемом для простого кодирования в виде последовательности. В литературе подходы к выявлению внутренних вторжений на основе анализа работы с контентом практически не рассматриваются. Рассмотрим те редкие работы, посвященные решению задачи поиска инсайдерских угроз, где контентные данные используются.

В работе [56] использовался аспектно-ориентированный анализ эмоциональной окраски (ABSA) текстов для получения представления контентных данных. Для получения эмбеддингов слов ис-

пользовалась техника GloVe. Для обнаружения аномалий применялся алгоритм Isolation Forest.

В работе [62] использовался список AFINN-111 для определения типов настроений содержимого писем и посещенных пользователем сайтов в течение месяца, далее формировался общий индекс риска для содержимого писем и сайтов соответственно.

В работе [61] авторы применяли LDA-модель для тематического моделирования содержимого пользовательских писем. Каждое письмо представлялось вектором из 50 тематик и входило в контентную модель пользовательского поведения, затем для этих векторов применялись описанные выше алгоритмы обнаружения аномалий.

Отметим, что большая часть контентных данных является текстовой информацией. Наиболее известными в существующей литературе подходами к тематическому моделированию (представлению документов в виде векторов тематик) являются латентный семантический анализ (LSA) и вероятностное тематическое моделирование (вероятностный латентно-семантический анализ (PLSA) и латентное размещение Дирихле (LDA)).

Таким образом, существующие работы практически не используют контентные данные при анализе поведения пользователей. Контентные данные содержат большое количество информации о характере работы пользователя в компьютерной системе. Поэтому разработка алгоритмов анализа контентных данных для решения задач обнаружения внутренних вторжений и предотвращения попыток хищения конфиденциальной информации является актуальной.

2.3. Моделирование и анализ структуры сетевых сообществ. Задача моделирования и анализа структуры сетевых сообществ является одной из самых важных и актуальных проблем, связанных с получением информации из Интернета [75-112]. Так как сообщество формируется по принципу некоторой близости его участников, то его структура и информация, полученная "изнутри" сообщества, представляют большой интерес в самых разных сферах. В первую очередь имеют значение вопросы безопасности и политической стабильности, поэтому необходимо иметь эффективные средства выявления потенциально опасных сообществ и их лидеров, что позволит своевременно принять меры по их нейтрализации. Одним из значимых проектов последнего времени явилась попытка создать единую централизованную систему сбора, индексации и анализа данных с различных форумов (преимущественно с форумов джихадистов) с целью выявления и анализа сетевых сообществ, формирующих и распространяющих информацию криминального и экстремистского содержания [75,76,112]. Его основным результатом явилось создание массива данных Dark Web. Под Dark Web понимают часть всемирной паутины, контент, существующий в DarkNet и оверлейных сетях, который доступен в сети Интернет, но для доступа требуется определенное программное обеспечение, конфигурация и авторизация.

Существующие научные работы посвящены большому количеству различных задач, возникающих при анализе сетевых сообществ. Можно выделить следующие основные типы проблем, на которых сосредоточено внимание исследователей: выявление структуры сообщества, создание структур данных, описывающих сообщество, анализ информации, распространяемой в сообществе, определение степени влияния различных членов сообщества, выявление связей в сообществе и прогнозирование эволюции сообщества.

2.3.1. Исследование топологии интернет-сообществ. Это направление включает в себя выявление ключевых узлов в сообществе, расчет их метрик (связность, мощность и других), построение моделей поведения пользователей для оценки влияния отдельных узлов на сообщество в целом. Некоторые методы первоначально разрабатывались для решения вполне "гражданских" задач, например в сфере маркетинга, и предполагали исследование игровых или потребительских сообществ, но впоследствии нашли применение и в области противодействия терроризму [77-79].

Разрабатывались и специальные модели и методы, ориентированные на контртеррористическую тематику, среди которых можно выделить следующие. В работе [80] по данным записей в Twitter решается задача выявления пользователей-экстремистов, а также оценивается, будет ли обычный пользователь выбирать экстремистские материалы и будут ли пользователи отвечать на контакты, инициированные экстремистами. В работе [81] предлагается подход, комбинирующий традиционные методы сетевого анализа для выявления перекрывающихся сообществ со

средствами текстового анализа тематических моделей. Для выявления тематик в работе применяется метод латентного размещения Дирихле (LDA), который в комбинации с алгоритмом "все предыдущие ответы" (all-previous-replv) позволяет построить сеть взаимосвязей участников форума по набору тематик. Работы [82,83] исследуют возможность идентификации вербовочной активности экстремистских групп на сайтах социальных сетей и предлагают методы прогнозирования уровня ежедневной активности кибер-вербовки. Для идентификации вербовочных постов используется модель на основе метода SVM, а их текстовое содержание анализируется с помощью LDA. Результаты анализа подаются в различные модели временных рядов для прогнозирования активности вербовки. Количественный анализ показывает, что использование основанных на LDA тематик в качестве предикторов в моделях временных рядов уменьшает ошибку прогнозирования по сравнению с другими методами.

Схожий подход предлагается в работе [84], посвященной решению задачи выявления ключевых членов сообщества на основе тематик, для чего комбинируются инструменты интеллектуального анализа текстов и анализа социальных сетей.

2.3.2. Моделирование структуры интернет-сообществ. После извлечения данных социальной сети из исходного источника необходимо зафиксировать их в структурированной форме для проведения дальнейшего анализа сети и поиска тематически связанных пользователей [111]. В настоящее время используются два подхода: представление знаний и ориентированные графы.

Структурированный контент, состоящий из необработанных данных, может быть закодирован с использованием стандартных методов представления знаний [85,86]. Для каждого входного элемента данных (например, текста, речи, изображения) аналитики создают набор объектов, атрибутов и предикатов, соответствующих интерпретации, которая описывает структурированную информацию в документе. Данный подход опирается на технологию автоматического извлечения контента [87]. Важно то, что представление знаний обычно ограничено двоичными предикатами, т.е. принимает вид "Отношение" (сущность, сущность). Цель такого представления — создать объект сбора M, а затем указать отношения между всеми людьми P, контактирующими с M.

Подход представления знаний эквивалентен модели реляционной базы данных. В работе [88], посвященной реляционным базам данных, использовалась модель предикатов и соответствующее "исчисление" для манипулирования. Каждый предикат соответствует таблице, а сущности в отношениях хранятся в таблице. Альтернативная структура базы данных может представлять собой хранилище идентификаторов, созданных из набора трех отношений (предикат, объект 1, объект 2). Тройные магазины стали популярными в последнее время в рамках Resource Description Framework (RDF), используемого для моделирования семантических сетей [89].

Другое представление данных социальных сетей состоит в построении их структуры в виде ориентированного графа. При визуальном сходстве представления данных эти подходы отражают разные точки зрения и используют разные алгоритмы для анализа данных. Графовый подход нацелен на анализ структуры и сообществ в исходных данных. Подход представления знаний нацелен на хранение, обработку и описание исходных данных.

2.3.3. Поиск тематических сообществ. Структура многих социальных сетей представляет собой объединение сообществ. Сообщества являются группами узлов, которые имеют высокую связность внутри группы и низкую внешнюю связность между группами. Обнаружение сообществ в сетях является сложной задачей.

В литературе было предложено несколько методов обнаружения сообществ, многие из которых аналогичны методам кластеризации, основанным на метриках социального графа. В данный момент стандартными считаются модульная оптимизация Клосета-Ньюмена-Мура (CNM) и спектральная кластеризация.

В работе [90] описывается метод выявления тематических сообществ на основе метрик социального графа. Работа проводилась над классом сетей, представленных в [90]. Однако такие сети не могут рассматриваться в качестве моделей реальных сетей, так как все их узлы имеют практически одинаковую степень (в реальности степени узлов неоднородны), сообщества имеют одинаковый размер (реальные сообщества существенно различаются по размеру), сами сети

небольшого размера. В настоящее время существуют методы, позволяющие анализировать графы с миллионами узлов [91-96], и нецелесообразно сравнивать их характеристики на небольших графах.

Модульная оптимизация является самым популярным методом обнаружения сообществ. Модульность — это оценка корректности разбиения, основанная на сравнении данного графа и графа случайной нулевой модели с тем же ожидаемым распределением степеней, что и в исходном графе. Недостаток стандартных алгоритмов модульности заключается в плохой масштабируемости для больших графов. Метод, предложенный в [91], является модульным алгоритмом, который решает эту проблему и работает быстрее, чем многие конкурирующие алгоритмы: его время работы в сети с п вершинами и m ребрами равно O(m ■ d ■ log и), где d — глубина графа, описывающего структуру сообщества. Многие реальные сети являются разреженными и иерархическими, в этом случае алгоритм работает приближенно за линейное время O(n • log2 и). Если высокие значения модульности соответствуют хорошим разделениям сети на сообщества, то задача сводится к поиску возможных кандидатов с высокой модульностью с помощью приближенных методов оптимизации. Алгоритм жадной оптимизации, предложенный в [92], для каждого единственного члена сообщества повторно объединяет два сообщества, объединение которых приводит к наибольшему увеличению модульности. Для сети из и вершин после и — 1 таких объединений остается одно сообщество, и алгоритм останавливается. Наиболее простая реализация этой идеи включает в себя сохранение матрицы смежности графа в виде массива целых чисел и многократное объединение пар строк и столбцов при объединении соответствующих сообществ. Алгоритм, предложенный в [91], достигает высокой скорости (и эффективности использования памяти), устраняя ненужные операции при работе с разреженными матрицами больших социальных сетей.

2.3.4. Прогнозирование отсутствующих данных пользователей. Проблема отсутствующих данных в социальных сетях играет значительную роль для анализа и выявления интернет-сообществ [94-102]. Социальные сети не ставят конкретных условий заполнения пользовательских данных. Таким образом, существуют пользователи, не указывающие или скрывающие определенные типы данных. Такими данными могут являться как личные данные — пол, страна, гражданство и так далее, так и неструктурированные контентные данные. В настоящий момент методы прогнозирования контентных данных отсутствуют.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рассмотрим основные типы признаков, применяющиеся для прогнозирования отсутствующих данных. Эти признаки по отдельности не обладают достаточной значимостью, однако их комбинации могут быть использованы для корректного прогнозирования.

• Признаки генерируемого контента. Характеристики контента сосредоточены как на самих текстовых сообщениях, так и на метриках временных рядов. Если данные извлечены из одного источника, все доступные посты извлекаются с отметками времени, в противном случае предпочтительным будет анализ на основе ключевых слов.

• Метрики настроения — это статические особенности постов [107-110]. В каждом сообщении могут проявляться некоторые конкретные категории настроений, такие, как счастье и тревога. С помощью системы анализа настроений сообщения могут быть помечены как положительные, отрицательные или нейтральные. Следовательно, количество положительных, отрицательных, нейтральных, не нейтральных и итоговых сообщений являются пятью признаками элементарного контента, имеющими различную значимость для прогноза на разных этапах. Кроме того, возникает возможность вычислить соотношения между ними [93], тем самым отражая относительную значимость этих настроений, а также индекс настроений [94].

• Признаки социального окружения. Моделирование социальной сети в виде ориентированного взвешенного графа позволяет рассчитывать для пользователей следующие категории мер:

— степень вершины — количество ребер с другими вершинами графа; определяются сте-

пени входа и степени выхода вершины соответственно как количество входящих и исходящих ребер вершины;

— общая степень вершины — сумма степеней входа и выхода; в работе [100] степень входа отождествляется с индексом популярности пользователя в социальной сети, а степень выхода — с количеством последователей;

— плотность — пропорция количества существующих ребер относительно максимально возможного количества ребер;

— центральность измеряет относительную важность вершины в сети;

— степень центральности группы [101] — масштаб степеней от уровня вершины до уровня группы;

— метрики структурных дыр измеряют иерархический статус каждой вершины в эгоцентричных сетях (или эго-сетях). Эго-сеть вершины i — это подсеть, состоящая из вершины i и всех ее соседей [102].

Рассмотрим методы прогнозирования отсутствующих нетекстовых данных пользователей. Методы линейной и нелинейной регрессии [95] анализируют взаимосвязь между зависимой переменной, результатом прогнозирования и одной или несколькими независимыми переменными. В настоящее время это самые простые и наиболее используемые методы. Также широко используется баейсовский классификатор [96]. Однако он предполагает, что предикторы должны быть условно независимыми, и не всегда есть убедительные доказательства того, что обсуждаемые метрики удовлетворяют этому предположению [99]. В некоторых работах применяется классификатор fc-ближайших соседей [98]. Большой популярностью пользуются нейронные сети [97] и деревья решений [98].

2.3.5. Прогнозирование возникающих в сообществе связей. Классификацию пользователей сообщества можно разделить на два вида: определение структурных ролей пользователей (например, определение влиятельных узлов, "мостов" и т.п.) и классификация по транслируемым взглядам или свойствам самого участника (например, разделение участников на тех, кто любит больше кошек и тех, кто предпочитает собак). При определении структурной роли участника сообщества анализируют структуру графа сообщества [ЮЗ]. В рамках этого подхода сообщество представляется в виде неориентированного графа. Для оценки ролей членов сообществ вводится метрика, отвечающая количеству сообществ, с которыми связан конкретный узел. На основании степени узла в графе и метрики определяется роль участника в сообществе.

Для прогнозирования возникновения связей в сообществе используются индексы сходства (количество общих соседей, коэффициент Жаккара, индекс преимущественного вложения, аппроксимация индекса Катца, длина кратчайшего пути, общее количество друзей) [104], модели с применением методов максимального правдоподобия, нейронные сети [105,111].

2.3.6. Анализ текстовой информации в сетевой структуре. Работы [81,106] посвящены решению важной для антитеррористических приложений задачи раскрытия подгрупп пользователей, чьи основные предметы обсуждения могут представлять угрозу национальной безопасности. Сложность заключается в том, что большинство алгоритмов выявляют несвязанные сообщества, и каждый член сообщества не может принадлежать более чем одной группе. По этой причине часть информации об участниках сообщества игнорируется, что приводит к неверной интерпретации результатов выявления пользовательских кластеров. В данных работах предлагается подход, комбинирующий традиционные методы сетевого анализа для выявления перекрывающихся сообществ с использованием средств тематического моделирования. Затем разрабатывается алгоритм определения подгрупп. Для выявления тематик в работе применяется метод LDA [107], который в комбинации с алгоритмом Speaker-Listener Topic propagation Algorithm (SLTA) — модификацией Speaker-Listener Propagation Algorithm (SLPA) — позволяет построить сеть взаимосвязей участников социальной сети или форума по набору тематик. В результате итеративная процедура позволяет для каждого пользователя получить нормализованный вектор

тем, после чего у каждого члена социальной сети остаются только те темы, значимость которых оказалась выше заданного порога. Таким образом, каждый пользователь может иметь несколько тем — интерпретируемых кластеров, которые и формируют пересекающиеся группы, что позволяет получать больше информации об участниках открытых обсуждений.

Схожий подход предлагается в работе [84], посвященной решению задачи выявления ключевых членов сообщества на основе тематик, для чего комбинируются методы интеллектуального анализа текстов и социальных сетей. Сначала с помощью LDA по данным форума строятся две основанные на тематиках сети: первая ориентирована на пользователей, генерирующих контент в общей тематической ветке, а вторая — на пользователей, делающих репосты сообщений друг друга. Особенность данного подхода заключается в том, что пользователи связаны не только фактами репостов сообщений друг друга или общей тематической веткой, но и схожестью тематических векторов сообщений, которые и формируют данную связь. Далее с помощью различных средств сетевого анализа выделяются ключевые члены обсуждения тематики. Эксперименты успешно проведены на англоязычных форумах, доступных в Dark Web [75,76].

Как видно, развитие подходов к представлению текстовой информации, ее обработке, методов построения эффективных и точных алгоритмов анализа текстов и выявления их тематик является важным и актуальным научным направлением, которому в мире уделяется большое внимание. Следует отметить, что русскоязычные публикации, посвященные анализу информации террористической направленности с помощью математических методов, практически отсутствуют. По-видимому, это связано и с отсутствием систематизированных данных для тестирования алгоритмов, и с отсутствием выраженной потребности в автоматической обработке и поиске информации в Интернете (поскольку такая обработка осуществляется вручную экспертами). Таким образом, можно утверждать, что текущие исследования, проводимые в рамках изучения экстремистской и террористической активностей в сети Интернет, находятся в русле передовых подходов, используемых в области применения информационных технологий в задачах выявления экстремисткой и террористической информации в сети Интернет.

3. Поведенческие модели в рамках человеко-машинного взаимодействия. Решаемыми коллективом задачами в области построения поведенческих моделей в рамках человеко-машинного интерфейса являются задачи беспарольной (двухфакторной) аутентификации и фоновой аутентификации пользователей на основе анализа работы с мышью и клавиатурой компьютера.

Как было отмечено выше, актуальной задачей является разработка алгоритмов аутентификации пользователей на основе анализа работы с мышью и клавиатурой, обладающих высоким качеством работы, способных выделять наиболее стабильные по времени признаки и определять степень аномальности поведения пользователя как за короткий, так и за длинный промежуток времени. Напомним, что рассматриваемая задача является задачей одноклассовой классификации: для обучения модели нам доступны данные только легитимного пользователя (т.е. пользователя, "залогинившегося" в систему). При этом аномалиями (исключениями) в данных легитимного пользователя считаются объекты или события в выборке, чьи признаки или их комбинации не соответствуют зависимостям, характерным для остальных объектов или событий в данной выборке.

В рамках данного направления коллективом выполнен ряд исследований.

1. Предложен подход к подготовке данных, описывающих клавиатурный почерк пользователя, включающий в себя способ построения признакового пространства и подход к дальнейшей обработке признаков на основе дискретизации их по квантилям. Данные о вводе пользователя (тройки событий — код нажатой клавиши, тип события (нажатие/отжатие) и соответствующая временная метка) при его фоновой работе за компьютером предварительно отфильтровываются, далее проходит разбиение на временные окна и расчет соответствующего вектора признаков для каждого временного окна. При этом анализируются наиболее часто используемые пользователем одиночные клавиши и N-графы (комбинации из N последовательно нажатых клавиш). Предлагается использовать следующий комбинированный

набор признаков, характеризующих клавиатурный почерк пользователей:

• среднее время удержания клавиши во временном окне;

• среднее время между отпусканием первой и отпусканием второй клавиши в окне;

• среднее время между нажатием первой и отпусканием второй клавиши в окне;

• среднее время удержания группы клавиш во временном окне (группы клавиш были выделены согласно их физическому расположению и функциональному назначению);

• частота набора текста пользователем во временном окне — отношение продолжительности данного временного окна к количеству нажатых в рамках него клавиш.

Сокращение размерности признакового пространства производится путем отбора наиболее значимых признаков с использованием критерия Колмогорова-Смирнова: для каждого построенного признака проводится анализ распределения его значений перед их усреднением в каждом временном окне и на всем обучающем наборе. Наиболее значимыми принимаются признаки, распределение которых постоянно с течением времени. Экспериментально установлено, что данный подход позволяет построить пространство стабильных по времени признаковых характеристик.

2. Предложен подход к построению признакового пространства, характеризующего динамику работы пользователя с компьютерной мышью. Данный подход включает в себя предварительную фильтрацию анализируемых данных — последовательностей событий, описываемых координатами курсора мыши, состоянием клавиш мыши (нажатие/отжатие) и соответствующей временной меткой. Далее происходит разбиение последовательности событий на временные окна и расчет векторов признаков — наборов статистик для каждого временного окна. Вектор признаков содержит: скорость, ускорение, перемещение, длину траектории, а также их дискретизированные, минимальные, максимальные характеристики, среднее значение и стандартное отклонение, направление движения (всего рассматривалось восемь направлений), среднюю кривизну траектории движения, траекторию центра масс, коэффициент рассеивания. Для обработки признакового пространства предложено использовать нормализацию и отбор наиболее важных признаков при помощи градиентного бустинга (на обучающей выборке). Для предварительной очистки обучающей выборки от аномальных наблюдений предлагается использовать технологию локального уровня выбросов (Local Outlier Factor).

3. Был предложен метод построения признакового пространства для задачи беспарольной (двухфакторной) аутентификации пользователей на основе анализа работы с клавиатурой компьютера, основанный на расчете следующих признаков для каждого ввода кодового слова: время удержания нажатой клавиши, временной промежуток между отпусканием предыдущей клавиши и нажатием текущей, временной промежуток между нажатием предыдущей клавиши и нажатием текущей. Данные признаки рассчитываются для каждого вводимого символа и записываются последовательно в результирующий вектор признаков.

4. Был предложен метод построения признакового пространства для задачи беспарольной (двухфакторной) аутентификации пользователей на основе динамики работы с компьютерной мышью при вводе графического пароля, основанный на использовании метода динамической трансформации временной шкалы (DTW). При этом в качестве временной последовательности используется вся траектория одного графического пароля, вводимого пользователем, а в качестве элементов сравниваемых временных рядов используются перемещения мыши. Использование алгоритма DTW позволяет вычислять оптимальное соответствие между временными последовательностями, имеющими приблизительно равные формы, но не выровненными по оси времени.

5. Разработан нечеткий метод поиска исключений на основе потенциальных функций (Fuzzy), являющийся модификацией метода One Class SVM. В данном методе с помощью потенциальной функции строится отображение исходного множества анализируемых объектов в пространство характеристик высокой размерности (RKHS). Вместо гиперсферы, содержащей образы анализируемых объектов, в пространстве характеристик строится один общий нечеткий кластер сферической формы, содержащий все образы анализируемых объектов таким образом, чтобы степень принадлежности "основной части" объектов была достаточно высока. Степень принадлежности образа анализируемого объекта этому кластеру интерпретируется как "мера типичности". Исключениями считаются те объекты, чья степень типичности меньше заданного порога.

6. Разработан нечеткий метод выявления аномалий в данных на основе эллиптической кластеризации (ESFC) в RKHS, сочетающий в себе достоинства методов Fuzzy и Kernel РСА. Отметим, что метод Fuzzy строит гиперсферу (сферический нечеткий кластер) с оптимальным центром, но в RKHS сохраняются корреляции между образами входных данных, поэтому для их описания лучше подойдут эллиптические контуры. С другой стороны, Kernel РСА строит эллипсоидальные контуры в RKHS, но их центр в начале работы алгоритма фиксируется в центре масс образов наблюдений и далее итерационно не пересчитывается. Метод ESFC строит в пространстве высокой размерности не сферические, а эллиптические области с оптимальным центром для выявления аномалий, тем самым позволяя более точно описать обучающую выборку пользователя и осуществлять построение более точной модели. Ключевой особенностью данного метода является использование расстояния Ма-халанобиса, позволяющего учесть разброс дисперсии и корреляции между признаками в пространстве высокой размерности.

7. Разработан метод построения модели пользователя, основанный на сумме максимальных покоординатных отклонений между вектором признаков тестируемого пользователя и под-выборкой фиксированного размера ближайших к нему по некоторой метрике векторов обучающей выборки легитимного пользователя. Чем больше сумма максимальных покоординатных отклонений, тем сильнее различие в динамике работы тестируемого и легитимного пользователей. Отметим, что сумма максимальных покоординатных отклонений является оценкой сверху значения расстояния Хаусдорфа в линейном пространстве L1. Для поиска подвыборки ближайших векторов предлагается использовать алгоритм поиска k ближайших соседей.

8. Разработан метод оценки аномальности поведения пользователей на основе анализа целых сессий работы за компьютером с использованием t-статистики Уэлша, позволяющий осуществлять оценку легитимности пользователя за продолжительный период его работы за компьютером. Для анализа аномальности поведения тестового пользователя используются обучающая и валидационная выборки легитимного пользователя, а также тестовая выборка данного тестового пользователя. Проверяется гипотеза о том, что два рассматриваемых распределения аномальностей (результатов классификации легитимного и тестового пользователей - последовательностей откликов классификатора, полученных за продолжительные промежутки времени работы пользователей за компьютером) имеют равные средние значения. В результате расчета t-статистики Уэлша будет получено значение p-value. Данное значение является агрегационной характеристикой, обобщающей все отклики классификатора для данных тестового пользователя за рассматриваемый период (целую сессию) его работы за компьютером. Чем выше данное значение, тем выше вероятность, что перед нами находится легитимный пользователь. Чем ниже значение p-value, тем выше вероятность, что перед нами находится злоумышленник.

9. Разработана архитектура, реализован и апробирован экспериментальный образец мульти-агентного программного комплекса, использующий предложенный комплекс алгоритмов

для обнаружения аномального поведения пользователей по особенностям работы с мышью и клавиатурой компьютера. Проведенные на его основе экспериментальные исследования подтвердили качество и обосновали достоверность полученных результатов.

Апробация разработанных алгоритмов была проведена на четырех наборах данных, описывающих динамику работы пользователей с клавиатурой компьютера, и на шести наборах данных, описывающих динамику работы пользователей с компьютерной мышью. По результатам проведенных экспериментов разработанные алгоритмы превзошли по качеству работы существующие и могут активно применяться на практике.

Полученные в рамках данного направления коллективом результаты были опубликованы в работах [113-120].

4. Поведенческие модели на основе анализа контекста и контента работы пользователей. В рамках данного направления членами коллектива были получены следующие результаты.

1. Были разработаны новые обучаемые алгоритмы обнаружения компьютерных вторжений, основанные на комбинации методов потенциальных функций, теории нечетких множеств и статистической теории обучения. Разработанные алгоритмы предназначены для анализа сетевого трафика и журналов регистрации операционной системы защищаемой компьютерной системы и позволяют обнаруживать атаки как в режиме выявления аномалий (задача поиска исключений), так и в режиме распознавания "замаскированных" атак (задача классификации). Были проведены работы по анализу и моделированию поведения пользователей компьютерных систем. Проведенный по методике DARPA Intrusion Detection Evaluation Program анализ производительности на эталонных тестовых наборах и на реальных данных позволяет позиционировать разработанные алгоритмы как одни из наиболее эффективных среди существующих.

2. Была разработана программная технология, основанная на использовании методов машинного обучения и математической статистики для анализа особенностей использования информационных и вычислительных ресурсов защищаемой компьютерной системы (анализ системных журналов, журналов приложений и дополнительной журналируемой информации), а также особенностей потребляемой и создаваемой пользователем текстовой информации (создаваемые, читаемые и редактируемые документы, электронные сообщения, почта, а также читаемые веб-страницы). Данная технология направлена на решение следующих задач обеспечения компьютерной безопасности: раннее обнаружение внутренних вторжений и, в частности, предотвращение попыток хищения конфиденциальной информации, на основе обнаружения фактов аномальной активности пользователя при работе с текстовыми данными, информационными и вычислительными ресурсами защищаемой компьютерной системы.

3. Для анализа и классификации электронных текстовых данных, в частности, для систем фильтрации и рубрикации электронных сообщений и потоков веб-информации, был предложен ряд модификаций метода бинарной классификации на основе опорных векторов (Support Vector Machines), позволяющих решать задачу классификации в режиме реального времени с учетом как текстового содержания, так и ссылочной структуры анализируемых электронных документов. Это позволило реализовать эффективную распределенную интеллектуальную систему фильтрации спама, основанную на предложенных обучаемых алгоритмах классификации, персональных моделях переписки пользователей и мультиагентной архитектуре. Кроме того, в рамках данного направления проводилось исследование методов решения задачи классификации с несколькими классами, как в традиционной постановке — с взаимоисключающими классами, так и для случая существенно пересекающихся классов — задача multi-label классификации (классифицируемый объект может принадлежать нескольким классам одновременно). Был исследован подход к решению таких задач,

основанный на декомпозиции исходной задачи в серию задач бинарной классификации, и предложен ряд оригинальных решений, основанных на использовании математического аппарата теории игр для случая взаимоисключающих классов и использовании обобщенной модели "Bradley-Terry с ничьей" для случая существенно пересекающихся классов.

4. Для задач тематического моделирования потоков документов коллективом получены следующие результаты: предложено применение неотрицательной матричной факторизации в качестве разложения латентно-семантического анализа для вычисления релевантности фрагментов текста в задаче автоматического аннотирования, разработан метод автоматического аннотирования, показавший высокий результат как по качеству получаемых аннотаций, так и по скорости работы. Членами коллектива было проведено исследование популярных тематических моделей. Помимо методов вычисления релевантности фрагментов текста рассматривались методы кластеризации текстовых документов, которые используют представления документов в пространстве тематик, получаемые путем тематического моделирования коллекции документов, для определения наиболее характерной тематики каждого документа из коллекции, которая и будет соответствовать кластеру документа. Применение неотрицательной матричной факторизации показало наилучшие результаты по сравнению с другими тематическими моделями, в том числе вероятностными (вероятностный латентно-семантический анализ, скрытое распределение Дирихле). Кроме того, у коллектива имеется успешный опыт применения подхода прогнозирования тематических временных рядов для выявления аномального поведения пользователей при работе с текстовыми данными в рамках корпоративной сети для решения задач идентификации пользователей и предотвращения попыток хищения конфиденциальной информации.

Полученные коллективом результаты были опубликованы в работах [121-128].

Обычно целью внутренних вторжений является получение доступа к текстовой информации (отчеты, договоры, техническая документация, электронная почта и т.п.), поэтому ключевым является выявление аномального поведения пользователей при работе с текстовыми данными. Существующие UEBA-системы с помощью методов машинного обучения анализируют данные об операциях пользователя (контекстную информацию), которые являются хорошо структурированными, например, данные системных журналов ОС, журналов SIEM, IDS/IPS, DLP-систем; данные об операциях с файлами, электронной почтой. Анализ содержимого обрабатываемых пользователем текстовых данных представляет более сложную задачу и не рассматривается в существующих решениях UEBA-систем. Во-первых, текст является неструктурированной информацией, а во-вторых, представляет данные гораздо большего объема, зачастую содержащие информационный шум. Поэтому на сегодняшний день существующие подходы не способны выявить случаи нелегитимной активности пользователя при характерных для него действиях, но с нелегальным содержимым (контентом). Кроме того, только лишь анализ структурированной информации об операциях пользователя не дает стопроцентную точность обнаружения утечки. Поэтому актуальным направлением исследований является разработка математического и программного обеспечения обнаружения аномального поведения пользователей на основе анализа содержимого потока обрабатываемых текстовых данных с использованием методов машинного обучения для задач информационной безопасности. В рамках данного направления сотрудники кафедры разработали подход к анализу и моделированию поведения пользователя, основанный на отображении содержимого потока электронных документов в тематическое пространство, формируемое с использованием неотрицательной матричной факторизации. Изменение значений весов тематик во времени представляет многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Анализ такого временного ряда позволяет определять факты аномального поведения пользователя. Разработаны новые методы, основанные на расчете оценки принадлежности документов пользователя к характерным для него тематикам, и методы оценки отклонения тематической направленности пользователя от спрогнозированных значений. Также был реализован экспериментальный образец программного комплекса обнаружения ано-

мального поведения пользователей по особенностям работы с текстовой информацией, предназначенный для решения задач информационной безопасности. Полученные результаты служат основой для построения перспективных современных систем информационной безопасности класса 11ЕВА, которые могут включать средства анализа содержимого обрабатываемых пользователями текстовых данных. Причем могут использоваться как все разработанные программные модули для осуществления сбора поведенческой информации, построения и применения индивидуальных моделей поведения пользователей, так и только модули, служащие для сбора и представления в структурированном виде содержимого обрабатываемых пользователями текстовых данных.

К основным результатам можно отнести следующие.

1. Предложена новая модель представления потока текстовых документов в виде многомерного временного ряда, где каждая компонента ряда показывает изменение веса тематики во времени, при этом характерные тематики потока определяются с использованием методов ортонормированной неотрицательной матричной факторизации. Разработанная модель представления предназначена для решения задач анализа поведения пользователя при работе с текстовыми данными и фильтрации информационного шума из потоков текстовых документов.

2. Разработан ряд новых алгоритмов обнаружения аномального поведения пользователя при работе с текстовыми данными, использующих предложенное тематическое представление потока текстовых документов: алгоритм на основе анализа оценок принадлежности документов к характерным тематикам пользователя, алгоритм на основе анализа отклонений при прогнозировании тематических временных рядов пользователя, а также алгоритмы на основе современных сверточных нейронных сетей.

3. Реализован экспериментальный образец мультиагентного программного комплекса, использующий предложенный комплекс алгоритмов для обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

Данные результаты отражены в публикациях [121,122,127,129-131].

5. Анализ и моделирование взаимодействия сообществ пользователей. В рамках данного направления сотрудниками кафедры разработано математическое и экспериментальное программное обеспечение для построения интеллектуальных систем, предназначенных для решения задач противодействия терроризму и экстремизму с использованием информации из сети Интернет и позволяющих:

• выявлять группы пользователей, сообщества и ресурсы в сети Интернет, в которых циркулирует информация террористического или экстремистского содержания;

• осуществлять мониторинг, получать и прогнозировать характеристики потоков сообщений и документов, распространяемых в группах пользователей;

• оценивать опасность и прогнозировать риски, которые несут члены сообществ.

Работа с информацией террористического и экстремистского содержания в сети Интернет имеет ряд важных особенностей и ограничений, которые необходимо учитывать при использовании методов машинного обучения для решения обозначенных выше задач, а именно:

• анализируемые текстовые сообщения и публикации могут быть короткими, состоящими из нескольких слов, и очень длинными текстовыми документами, могут содержать нетекстовые атрибуты, такие, как отправитель и получатель или автор и читатель, которые должны использоваться для построения топологии группы пользователей или сетевого сообщества. Также присутствует проблема ссылок и хэштегов. Зачастую все сообщение может состоять только из них, поэтому для представления содержания такого сообщения необходимо выгружать и анализировать контент ресурсов или пользователей, на которые ссылается исходное сообщение;

• важным фактором является язык написания сообщения. Особенностью текстов экстремистского и террористического содержания является использование нескольких различных языков в одном документе, а также наличие опечаток и грамматических ошибок, в том числе преднамеренных, с целью "замаскировать" ключевые слова, чтобы осложнить автоматический поиск по ним;

• при анализе структуры сетевых сообществ, в которых циркулирует информация террористического и экстремистского содержания, возникает проблема установления связей между членами сообщества. В некоторых случаях наличие связи между пользователями очевидно (например, при "подписке" или добавлении в "друзья"), иногда, особенно в случае анализа форума, наличие связи установить сложнее (например, то, что один пользователь ответил в ветке, созданной другим пользователем, не значит, что он прочитал всю ветку до корня);

• когда структура графа общения пользователей все-таки получена, остается проблема, связанная с доступом к закрытой переписке между пользователями, поскольку большинство социальных сетей предоставляют такую возможность. Это приводит к необходимости решать задачу оценки угрозы, исходящей от пользователя, без доступа к его публикациям, с использованием только информации о его окружении и структуре социального графа в целом.

Подавляющее большинство существующих систем, применяемых для решения указанных выше задач, носят языково-зависимый характер. По сути, специалистами формируются большие тезаурусы экстремистской и террористической лексики, в том числе с учетом "горячих" регионов и грамматики национальных языков в этих регионах. Далее эти тезаурусы используются в системах информационного поиска для обнаружения текстов, содержащих известные лексические конструкции. Такой подход дает точные поисковые результаты, он прост с точки зрения применения исполнителем, осуществляющим поиск, но в то же время обладает рядом критических недостатков с учетом указанных выше особенностей. Он является экстенсивным и из-за этого весьма трудоемким. Для создания тезаурусов и настройки поисковых систем требуется значительное время. При добавлении новых языков и регионов необходимо привлекать лингвистов и зачастую вносить существенные изменения в алгоритмы работы поисковых систем. Есть существенные проблемы с нечетким поиском для обнаружения искаженных или неправильно написанных слов и терминов. Причем даже в рамках одного языка и региона лексика в области экстремизма и терроризма постоянно меняется: одни термины перестают использоваться и появляются новые, возникают упоминания новых людей и географических мест, обычные слова приобретают экстремистское значение (например, "ватник"). Также при этом подходе велика вероятность ложноотрицательной ошибки, т.е. пропуска экстремистского текста, если он использует нестандартную лексику. И такой подход не позволяет оценивать угрозы, исходящие от пользователей, чьи публикации и сообщения скрыты, например, при использовании закрытых каналов в зарубежной социальной сети. Все это приводит к тому, что существующие системы информационного поиска террористической и экстремисткой информации всегда "на шаг позади", т.е. они ищут информацию, актуальную "вчера", а не сегодня, и требуют больших трудозатрат и высокой квалификации экспертов (в том числе лингвистов) для поддержания относительно актуального состояния своих баз.

Для преодоления указанных выше недостатков коллективом был разработан ряд новых оригинальных методов машинного обучения.

1. Метод выявления ключевых слов и аннотирования на основе тематик, полученных с помощью методов ортонормированной матричной факторизации из п-граммного представления исходного документа в виде матрицы размерности "число возможных п-грамм на число фрагментов текста (по умолчанию — предложений)". Это позволяет эффективно работать с многоязыковыми текстами, содержащими ошибки и опечатки, в том числе преднамеренные.

2. Метод "обогащения" документов и сообщений — последовательный процесс, заключающийся в замене в исходном сообщении всех ссылочных структур, таких, как веб-ссылки, хэ-штеги, имена пользователей и т.д. (потенциально любых ссылок на внешние объекты и события), на набор ключевых слов или аннотаций, связанных с этими ссылочными структурами. Материалы для выделения ключевых слов и составления аннотации по ссылочной структуре получаются с использованием возможностей стандартных поисковых сервисов, например, выкачивания страницы по ссылке или в результате выполнения поискового запроса в социальную сеть по хэштегу или имени пользователя.

3. Метод двухэтапного поиска в Интернете информации по образцу. В этом случае поисковый запрос формируется автоматически с помощью выявленных в документе-образце ключевых слов, поисковая выдача "обогащается" за счет включения информации из ссылочных структур, а затем ранжируется на основе меры сходства с образцом (с учетом скрытых тематик документа-образца), отфильтровывая таким образом шум в выдаче, т.е. присваивая низкий ранг документам и сообщениям, содержащим выявленные ключевые слова, но семантически далеким от исходного документа-образца.

4. Методы на основе латентно-семантического анализа для выявления скрытых тематик в режиме обучения без учителя и представления потоков текстовых документов в виде многомерных временных рядов весов скрытых тематик. Для упрощения интерпретации каждая тематика характеризуется набором ключевых слов. Это удобно и с визуальной точки зрения, так как наглядно демонстрирует, как меняется актуальность тематики, и с точки зрения анализа, так как позволяет рассчитывать корреляции с другими тематиками, прогнозировать увеличение или спад интереса к тематикам в ближайшем будущем. Также разработан ряд новых методов поиска аномалий в потоках разнородных сложно или слабо структурированных данных, в том числе текстовых, для выявления нетипичных для сообщества публикаций или смены тренда общения.

5. Метод построения сетевого окружения целевых пользователей на основе построения нескольких графов с ребрами для разных типов взаимодействий (лайки, репосты, друзья и т.д.), а также использования в этих графах разных весовых схем, зависящих от интенсивности общения и разных направлений ребер. Финальные признаки пользователей на основе мер авторитетности, центральности и т.д. рассчитываются с учетом всех типов связей и схем, т.е. по сути, по всем графам, в которые входит пользователь. Это обогащает признаковое пространство и позволяет строить более точные прогнозные модели.

6. Метод, позволяющий оценивать уровень угрозы, исходящей от членов сетевых сообществ, и прогнозировать вероятность того, что пользователь участвует в создании или обсуждении экстремистских или террористических тем. Данный метод, в отличие от существующих подходов, может использовать только данные о сетевом окружении пользователей и структуре социального графа и не использует контентную (текстовую) информацию пользователей.

7. Метод прогнозирования появления новых связей в сетевом сообществе с помощью одноклас-сового метода опорных векторов, который не использует при построении модели примеры "отрицательного" класса (отсутствующие связи), а значит, является корректным. Кроме того, он работает значительно быстрее традиционных методов бинарной классификации, применяемых для этой задачи, не уступает, а иногда и превосходит их по точности, и значительно обгоняет по качеству прогноза другие популярные одноклассовые методы.

8. Метод поиска в Интернете новых потенциальных участников сетевого сообщества, тематически близких к нему, на основе адаптации двухэтапного языково-независимого метода поиска по документу-образцу. Он позволяет искать тематически близких пользователей, опираясь на текстовую "аннотацию" построенного сообщества, формируемую на основе постов ключевых участников сообщества, рассматривая аннотацию как поисковый документ-

образец. Для формирования запросов к стандартным поисковым API социальных сетей выделяются ключевые слова аннотации, после чего полученная поисковая выдача фильтруется и ранжируется с учетом скрытых тематик аннотации сообщества. В результате аналитик получает список наиболее тематически близких пользователей и может включить их в сообщество как целевых и произвести пересчет окружения и характеристик обновленного сообщества.

Также реализован экспериментальный программный стенд, позволяющий решать вышеперечисленные задачи и проверять разработанные методы как на эталонных, так и на реальных данных. Стенд обладает следующей функциональностью:

• формирование поисковой задачи на основе документов-образцов и их коллекций: в документах производится выделение хэштегов и url, осуществляется поиск и выкачивание информации по ним, текст исходного документа обогащается за счет полученной информации, затем с помощью предложенных коллективом методов выявляются тематики документов-образцов, и по ним формируются ключевые слова для поискового запроса; найденные ключевые слова при необходимости могут быть отредактированы "вручную";

• применение поисковой задачи: выполняется поисковый запрос в заданной социальной сети (vk и/или Twitter) по выявленным ключевым словам, для найденных сообщений пользователей и их групп рассчитывается предложенная коллективом мера сходства с тематиками образцов и формируется отсортированная по релевантности выдача с результатами поиска;

• просмотр результатов поиска с возможностью постановки на мониторинг отобранных пользователей и пользовательских групп, а также переход на исходные страницы в социальной сети найденных пользователей и групп;

• формирование задачи мониторинга группы пользователей и сообществ: определение временного периода для мониторинга, выкачка сообщений за этот период, установление связей по подпискам, лайкам и т.д. с заданной глубиной с возможностью визуализации этих связей в виде графа;

• просмотр результатов мониторинга с возможностью перехода на соответствующие страницы социальной сети, формирование тематической модели (одной или нескольких) для анализа результатов мониторинга, включающее в себя настройку временных окон и параметров алгоритмов тематического моделирования, предложенных коллективом;

• применение тематической модели к выбранному временному окну и группе пользователей (можно применять к данным, отличным от тех, на которых модель строилась);

• визуализация и анализ результатов применения модели: визуализация тематик в виде многомерных временных рядов с набором ключевых слов для каждой тематики (формируются предложенными коллективом алгоритмами), сглаживание рядов тематик с помощью алгоритмов локальной непараметрической регрессии, прогноз изменения тематик во времени на заданный период (с помощью методов типа ARIMA), поиск аномалий во временных рядах с возможностью перехода по клику (на графике ряда) к тексту соответствующих сообщений по тематике и временной метке. Возможность поиска корреляций, автокорреляций и близких тематик, в том числе с тематиками из других задач мониторинга (для других пользователей и групп);

• построение, визуализация, расчет признаков и интерактивный анализ сетевого окружения выбранных целевых пользователей с использованием данных из социальных сетей Twitter и vk с учетом связей типа репост, лайк, друг;

• разметка участников сообщества с использованием экспертных правил на основе задания ролей и с помощью методов машинного обучения, прогнозирование уровня опасности каждого члена сообщества, в том числе без использования текстовых признаков пользователей, постановка на мониторинг ключевых членов сообщества;

• поиск на основе образца в социальных сетях потенциальных новых пользователей, тематически близких к построенному сообществу, и прогнозирование возникновения новых связей в сообществе с использованием одноклассовых и бинарных классификаторов;

• интеграция сценариев работы с базой данных Global Terrorism DataBase (GTDB), позволяющая осуществлять в сети тематический поиск упоминания событий из GTDB и использовать результаты тематического поиска для разметки членов сообществ и оценки их угрозы.

Данные результаты коллектива отражены в публикациях [132-134].

6. Заключение. В рамках данного направления членами коллектива было реализовано более 20 исследовательских и прикладных проектов, включая разработку коммерческого программного обеспечения и внедрение прикладных аналитических систем в российских и зарубежных организациях. Научные работы участников коллектива неоднократно поддерживались научно-исследовательскими грантами российских научных фондов, персональными грантами Президента и Правительства Российской Федерации, а также отмечались наградами РАН. По данному направлению защищены шесть кандидатских диссертаций:

• 2019 "Динамическая аутентификация пользователей на основе анализа работы с клавиатурой компьютера", соискатель: Казачук Мария Андреевна, научный руководитель: к.ф.-м.н., доцент Петровский Михаил Игоревич. Кандидатская диссертация по специальности 05.13.11 — "Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей" (физико-математические науки). Защищена: 26 декабря 2019 г. в диссертационном совете МГУ.01.19;

• 2017 "Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности", соискатель: Царев Дмитрий Владимирович, научные руководители: д.ф.-м.н., профессор Машечкин Игорь Валерьевич, к.ф.-м.н., доцент Петровский Михаил Игоревич. Кандидатская диссертация по специальности 05.13.11 — "Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей" (физико-математические науки). Защищена: 20 июня 2017 г. в диссертационном совете Д 501.001.44 при МГУ имени М.В. Ломоносова;

• 2010 "Мониторинг работы пользователей корпоративных сетей", соискатель: Трошин Сергей Владимирович, научные руководители: д.ф.-м.н., профессор Машечкин Игорь Валерьевич, к.ф.-м.н., доцент Петровский Михаил Игоревич. Кандидатская диссертация по специальности 05.13.11 — "Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей" (физико-математические науки). Защищена: 23 апреля 2010 г. в диссертационном совете Д 501.001.44 при МГУ имени М.В. Ломоносова;

• 2008 "Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов", соискатель: Глазкова Валентина Владимировна, научные руководители: д.ф.-м.н., профессор Машечкин Игорь Валерьевич, к.ф.-м.н., доцент Петровский Михаил Игоревич. Кандидатская диссертация по специальности 05.13.11 — "Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей" (физико-математические науки). Защищена: 28 ноября 2008 г. в диссертационном совете Д 501.001.44 при МГУ имени М.В. Ломоносова;

• 2006 "Система защиты от массовых несанкционированных рассылок электронной почты на основе методов Data Mining", соискатель: Розинкин Андрей Николаевич, научный руководитель: д.ф.-м.н., профессор Машечкин Игорь Валерьевич. Кандидатская диссертация

по специальности 05.13.11 — "Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей" (физико-математические науки). Защищена: 14 апреля 2006 г. в диссертационном совете Д 501.001.44 при МГУ имени М.В. Ломоносова;

• 2003 "Исследование и разработка алгоритмов поиска исключений в системах интеллектуального анализа данных", соискатель: Петровский Михаил Игоревич, научный руководитель: д.ф.-м.н., профессор Машечкин Игорь Валерьевич. Кандидатская диссертация по специальности 05.13.11 — "Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей" (физико-математические науки). Защищена: 24 октября 2003 г. в диссертационном совете Д 501.001.44 при МГУ имени М.В. Ломоносова.

Также членами коллектива получен ряд патентов на полезные модели и свидетельств о регистрации программного обеспечения по данной тематике [135-142].

В настоящее время приоритетным направлением исследований членов коллектива является разработка современных методов глубокого обучения для решения обозначенных выше задач анализа и моделирования поведения пользователей.

СПИСОК ЛИТЕРАТУРЫ

1. В i с а к с i К. et al. Analysis and evaluation of keystroke dynamics as a feature of contextual authentication // 2020 International Conference on Information Security and Cryptology (ISCTURKEY). IEEE, 2020. P. 11-17.

2. Kochegurova E.A., Zateev R.P. Hidden monitoring based on keystroke dynamics in online examination system // Programming and Computer Software. 2022. 48. N 6. P. 385-398.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. К i у a n i A.T. et al. Continuous user authentication featuring keystroke dynamics based on robust recurrent confidence model and ensemble learning approach // IEEE Access. 2020. 8. P. 156177-156189.

4. Maharjan P. et al. Keystroke dynamics based hybrid nanogenerators for biometric authentication and identification using artificial intelligence // Advanced Science. 2021. 8. N 15. P. 2100711.

5. Aversano L. et al. Continuous authentication using deep neural networks ensemble on keystroke dynamics // PeerJ Computer Science. 2021. 7. P. e525.

6. Li J., Chang H.C., Stamp M. Free-text keystroke dynamics for user authentication // Artificial Intelligence for Cybersecurity. Cham: Springer International Publishing, 2022. P 357-380.

7. Martin A.G. et al. Combining user behavioural information at the feature level to enhance continuous authentication systems // Knowledge-Based Systems. 2022. 244. P. 108544.

8. Raul N., Shankarmani R., Joshi P. A comprehensive review of keystroke dynamics-based authentication mechanism // International Conference on Innovative Computing and Communications: Proceedings of ICICC 2019. Vol. 2. Springer Singapore, 2020. P. 149-162.

9. Xiaofeng L., Shengfei Z., Shengwei Y. Continuous authentication by free-text keystroke based on CNN plus RNN // Procedia Computer Science. 2019. 147. P. 314-318.

10. А у о 11 e B. et al. Fast continuous user authentication using distance metric fusion of free-text keystroke data // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2019. P. 1-9.

11. Quraishi S.J., В e d i S.S. On keystrokes as continuous user biometric authentication / / International Journal of Engineering and Advanced Technology. 2019. 8. N 6. P. 4149-4153.

12. Hazratifard M., Gebali F., Mamun M. Using machine learning for dynamic authentication in telehealth: A tutorial // Sensors. 2022. 22. N 19. P. 7655.

13. S a d i к a n S.F.N., R a m 1 i A.A., F u d z e e M.F.M. A survey paper on keystroke dynamics authentication for current applications // AIP Conference Proceedings. 2019. 2173. N I. P. 1-11.

14. S h a d m a n R. et al. Keystroke dynamics: concepts, techniques, and applications // arXiv preprint arXiv:2303.04605. 2023.

15. А с i e n A. et al. TypeNet: Deep learning keystroke biometrics // IEEE Transactions on Biometrics, Behavior, and Identity Science. 2021. 4. N 1. P. 57-70.

16. Roy S. et al. A systematic literature review on latest keystroke dynamics based models // IEEE Access. 2022. 10. P. 92192-92236.

17. H u T. et al. An insider threat detection approach based on mouse dynamics and deep learning // Security and Communication Networks. 2019. 2019. N 1. P. 3898951-3898963.

18. S h e n C. et al. Pattern-growth based mining mouse-interaction behavior for an active user authentication system // IEEE Transactions on Dependable and Secure Computing. 2017. 17. N 2. P. 335-349.

19. M o F. et al. Authentication using users' mouse behavior in uncontrolled surroundings // 5th International Conference on Computing for Sustainable Energy and Environment: Proceedings of ICCSEE 2018. Springer Singapore, 2018. P. 121-132.

20. Salman O.A., Hameed S.M. Using mouse dynamics for continuous user authentication / / Proceedings of the Future Technologies Conference (FTC) 2018. Vol. 1. Springer International Publishing, 2019. P. 776787.

21. Khan A., Quraishi S.J., Bedi S.S. Mouse dynamics as continuous user authentication tool // International Journal of Recent Technology and Engineering (IJRTE). ISSN, 2019. P. 2277-3878.

22. G a o L. et al. Continuous authentication of mouse dynamics based on decision level fusion // 2020 International Wireless Communications and Mobile Computing (IWCMC). IEEE, 2020. P. 210-214.

23. G a r a b a t o D. et al. Al-based user authentication reinforcement by continuous extraction of behavioral interaction features // Neural Computing and Applications. 2022. 34. N 14. P. 11691-11705.

24. Y i 1 d i r i m M., A n a r i m E. Mitigating insider threat by profiling users based on mouse usage pattern: ensemble learning and frequency domain analysis // International Journal of Information Security. 2022. 21. N 2. P. 239-251.

25. Khan S., Hou D. Mouse dynamics behavioral biometrics: a survey//arXiv preprint arXiv:2208.09061. 2022.

26. Antal M., Fejer N., Buza K. SapiMouse: mouse dynamics-based user authentication using deep feature learning // 2021 IEEE 15th International Symposium on Applied Computational Intelligence and Informatics (SACI). IEEE, 2021. P. 61-66.

27. Khan S., Hou D. User authentication by fusion of mouse dynamics and widget interactions: two experiments with PayPal and Facebook // 2023 IEEE 20th Consumer Communications & Networking Conference (CCNC). IEEE, 2023. P. 248-254.

28. Wang X. et al. User authentication method based on MKL for keystroke and mouse behavioral feature fusion // Security and Communication Networks. 2020. 2020. N 1. P. 9282380-9282394.

29. Li B. et al. Wrist in motion: A seamless context-aware continuous authentication framework using your clickings and typings // IEEE Transactions on Biometrics, Behavior, and Identity Science. 2020. 2. N 3. P. 294-307.

30. Thomas P.A. Active behavioural biometric authentication using cat swarm optimization variants with deep learning. // Indian Journal of Computer Science and Engineering. 2022. 13. N 3. P. 653-668.

31. G u a n J., Li X., Z h a n g Y. Design and implementation of continuous authentication mechanism based on multimodal fusion mechanism // Security and Communication Networks. 2021. 2021. P. 1-19.

32. Neha Chatterjee K. Continuous user authentication system: a risk analysis based approach // Wireless Personal Communications. 2019. 108. P. 281-295.

33. Thomas P.A., P r e e t h a M.K. A broad review on non-intrusive active user authentication in biometrics // Journal of Ambient Intelligence and Humanized Computing. 2023. 14. N 1. P. 339-360.

34. Araujo L.C.F. et al. User authentication through typing biometrics features // IEEE Transactions on Signal Processing. 2005. 53. N 2. P. 851-855.

35. K an g P., C h o S. A hybrid novelty score and its use in keystroke dynamics-based user authentication // Pattern Recognition. 2009. 42. N 11. P. 3115-3127.

36. L a u E. et al. Enhanced user authentication through keystroke biometrics // Computer and Network Security. 2004. 6. P. 1-12.

37. Teh P.S., Te o h A. B. J., Yu e S. A survey of keystroke dynamics biometrics / / The Scientific World Journal. 2013. 2013. N 1. P. 408280.

38. A r s h A. et al. Multiple approaches towards authentication using keystroke dynamics // Procedia Computer Science. 2024. 235. P. 2609-2618.

39. A b d H a m i d N. et al. Comparative analysis of classification algorithm to authenticate user based on keystroke technique // Sixteenth International Conference on Correlation Optics. Vol. 12938. SPIE, 2024. P. 294-302.

40. P i u g i e Y.B.W. et al. Keystroke dynamics based user authentication using deep learning neural networks // 2022 International Conference on Cyberworlds (CW). IEEE, 2022. P. 220-227.

41. Lis K., Niewiadomska-Szynkiewicz E., Dziewulska K. Siamese neural network for keystroke dynamics-based authentication on partial passwords // Sensors. 2023. 23. N 15. P. 6685.

42. Tsai C.J. et al. An approach for user authentication on non-keyboard devices using mouse click characteristics and statistical-based classification // International Journal of Innovative Computing, Information and Control. 2012. 8. N 11. P. 7875-7886.

43. Gam boa H., Fred A. A behavioral biometric system based on human-computer interaction // Biometric Technology for Human Identification. International Society for Optics and Photonics. 2004. 5404. P. 381-392.

44. B o u r s P., Fu 11 u C.J. A login system using mouse dynamics // 2009 Fifth International Conference on Intelligent Information Hiding and Multimedia Signal Processing. IEEE, 2009. P. 1072-1077.

45. T r a o r e I. et al. Combining mouse and keystroke dynamics biometrics for risk-based authentication in web environments // 2012 Fourth International Conference on Digital Home. IEEE, 2012. P. 138-145.

46. Revett K. et al. A survey of user authentication based on mouse dynamics // Global E-Security: 4th International Conference. Proceedings. Berlin; Heidelberg: Springer, 2008. P. 210-219.

47. A j u f o r N. et al. Refinement of a mouse movement biometric system // Proceedings of Student-Faculty Research Day. CSIS, Pace University, 2008. P. 1-8.

48. Fe h e r C. et al. User identity verification via mouse dynamics // Information Sciences. 2012. 201. P. 1936.

49. NiewiadomskiW. etal. TracMouse: a computer aided movement analysis script for the mouse inverted horizontal grid test // Scientific Reports. 2016. 6. N I. P. 39331.

50. Raj S.B.E., Santhosh A.T. A behavioral biometric approach based on standardized resolution in mouse dynamics // International Journal of Computer Science and Network Security. 2009. 9. N 4. P. 370377.

51. Muthumari G., Shenbagaraj R., Pepsi M.B.B. Authentication of user based on mouse-behavior data using classification // International Journal of Innovative Research in Science, Engineering and Technology. 2014. 3. P. 2319-8753.

52. Zhang J., B a i R. An intelligent identity authentication method based on mouse trajectory and wireless signal // Digital Signal Processing. 2024. P. 104555.

53. Houssel P.R.B., Leiva L.A. User re-authentication via mouse movements and recurrent neural networks // Proceedings of the 10th International Conference on Information Systems Security and Privacy. IEEE, 2024. P. 652-659.

54. H a n d o k o M.S. Unlocking User Identity: A Study on Mouse Dynamics in Dual Gaming Environments for Continuous Authentication. Cornerstone, 2023.

55. Liu S. et al. Recent advances in biometrics-based user authentication for wearable devices: a contemporary-survey // Digital Signal Processing. 2022. 125. P. 103120.

56. S o h C. et al. Employee profiling via aspect-based sentiment and network for insider threats detection // Expert Systems with Applications. 2019. 135. P. 351-361.

57. Paul S., Mishra S. LAC: LSTM autoencoder with community for insider threat detection // Proceedings of the 4th International Conference on Big Data Research. IEEE, 2020. P. 71-77.

58. L e D.C., Zincir-Heywood N., Hey wood M.I. Analyzing data granularity levels for insider threat detection using machine learning // IEEE Transactions on Network and Service Management. 2020. 17. N 1. P. 30-44.

59. Yuan F. et al. Insider threat detection with deep neural network // Computational Science-ICCS 2018: 18th International Conference. Part I 18. Springer International Publishing, 2018. P. 43-54.

60. A 1 - M h i q a n i M.N. et al. New insider threat detection method based on recurrent neural networks // Indones. J. Electr. Eng. Comput. Sci. 2020. 17. N 3. P. 1474-1479.

61. Kim J. et al. Insider threat detection based on user behavior modeling and anomaly detection algorithms // Applied Sciences. 2019. 9. N 19. P. 4018.

62. Noever D. Classifier suites for insider threat detection // arXiv preprint arXiv:1901.10948. 2019.

63. S a a u d i A. et al. Insider threats detection using CNN-LSTM model // 2018 International Conference on Computational Science and Computational Intelligence (CSCI). IEEE, 2018. P. 94-99.

64. G a y a t h r i R.G., Sajjanhar A., Xiang Y. Image-based feature representation for insider threat classification // Applied Sciences. 2020. 10. N 14. P. 4945.

65. A 1 d a i r i M., K a r i m i L., J o s h i J. A trust aware unsupervised learning approach for insider threat detection // 2019 IEEE 20th International Conference on Information Reuse and Integration for Data Science (IRI). IEEE, 2019. P. 89-98.

66. Yuan F. et al. Attention-based LSTM for insider threat detection // Applications and Techniques in Information Security: 10th International Conference. ATIS 2019. Proceedings. Singapore: Springer, 2019. P. 192-201.

67. Chattopadhyay P., Wang L., Tan Y.P. Scenario-based insider threat detection from cyber activities // IEEE Transactions on Computational Social Systems. 2018. 5. N 3. P. 660-675.

68. Lee J. et al. Cyber threat detection based on artificial neural networks using event profiles // IEEE Access. 2019. 7. P. 165607-165626.

69. S h e e r a z M. et al. Effective security monitoring using efficient SIEM architecture // Hum.-Centric Comput. Inf. Sci. 2023. 13. P. 1-18.

70. Ban T. et al. Breaking alert fatigue: Al-assisted SIEM framework for effective incident response // Applied Sciences. 2023. 13. N 11. P. 6610.

71. G o n z a 1 e z - G r a n a d i 11 o G., G onzalez-Zarzosa S., Diaz R. Security information and event management (SIEM): analysis, trends, and usage in critical infrastructures // Sensors. 2021. 21. N 14. P. 4759.

72. Kotenko I., Fedorchenko A., Doynikova E. Data analytics for security management of complex heterogeneous systems: event correlation and security assessment tasks // Advances in Cyber Security Analytics and Decision Systems. 2020. P. 79-116.

73. N d i c h u S. et al. Al-assisted security alert data analysis with imbalanced learning methods // Applied Sciences. 2023. 13. N 3. P. 1977.

74. Ban T. et al. Combat security alert fatigue with ai-assisted techniques // Cyber Security Experimentation and Test Workshop. 2021. 2021. P. 9-16.

75. Z h a n g Y. et al. Dark web forums portal: searching and analyzing jihadist forums // 2009 IEEE International Conference on Intelligence and Security Informatics. IEEE, 2009. P. 71-76.

76. Abbasi A., Chen H. Applying authorship analysis to extremist-group web forum messages // IEEE Intelligent Systems. 2005. 20. N 5. P. 67-75.

77. B e r g e r J.M., Morgan J . The ISIS Twitter Census: Defining and describing the population of ISIS supporters on Twitter. Brookings, 2015.

78. Agarwal S., Sureka A. Applying social media intelligence for predicting and identifying on-line radicalization and civil unrest oriented threats // arXiv preprint arXiv:1511.06858. 2015.

79. Badia A., Kantardzic M. Link analysis tools for intelligence and counterterrorism / / International Conference on Intelligence and Security Informatics. Berlin; Heidelberg: Springer Berlin Heidelberg, 2005. P. 49-59.

80. F e r r a r a E. et al. Predicting online extremism, content adopters, and interaction reciprocity // Social Informatics: 8th International Conference. Soclnfo 2016. Part II 8. Springer International Publishing, 2016. P. 22-39.

81. Rios S.A., Munoz R. Dark web portal overlapping community detection based on topic models // Proceedings of the ACM SIGKDD Workshop on Intelligence and Security Informatics. IEEE, 2012. P. 1-7.

82. T o u r e I., Gangopadhyay A. Analyzing terror attacks using latent semantic indexing / / 2013 IEEE International Conference on Technologies for Homeland Security (HST). IEEE, 2013. P. 334-337.

83. S c a n 1 o n J.R., G e r b e r M.S. Forecasting violent extremist cyber recruitment // IEEE Transactions on Information Forensics and Security. 2015. 10. N 11. P. 2461-2470.

84. L ' h u i 11 i e r G. et al. Topic-based social network analysis for virtual communities of interests in the dark web // ACM SIGKDD Explorations Newsletter. 2011. 12. N 2. P. 66-73.

85. Brachman R.J., Levesque H.J. Representation and Reasoning. Elsevier, 2004.

86. Russell S.J., Norvig P. Artificial Intelligence: a Modern Approach. Pearson, 2016.

87. Doddington G.R. et al. The automatic content extraction (ace) program-tasks, data, and evaluation // Language Resources and Evaluation. 2004. 2. N I. P. 837-840.

88. C o d d E.F. A relational model of data for large shared data banks // Communications of the ACM. 1970. 13. N 6. P. 377-387.

89. Broekstra J., Kampman A., Van Harmelen F. Sesame: a generic architecture for storing and querying rdf and rdf schema // International Semantic Web Conference. Berlin; Heidelberg: Springer Berlin Heidelberg, 2002. P. 54-68.

90. Lancichinetti A., Fortunato S., Radicchi F. Benchmark graphs for testing community-detection algorithms // Physical Review E-Statistical, Nonlinear, and Soft Matter Physics. 2008. 78. N 4. P. 046110.

91. C 1 a u s e t A., Newman M.E.J., Moore C. Finding community structure in very large networks // Physical Review E-Statistical, Nonlinear, and Soft Matter Physics. 2004. 70. N 6. P. 066111.

92. Newman M.E.J. Fast algorithm for detecting community structure in networks // Physical Review E-Statistical, Nonlinear, and Soft Matter Physics. 2004. 69. N 6. P. 066133.

93. A s u r S., Huberman B.A. Predicting the future with social media // 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. IEEE, 2010. 1. P. 492499.

94. L i c a L., Tu t a M. Predicting product performance with social media // Informática Economica. 2011. 15. N 2. P. 46.

95. S z a b o G., Huberman B.A. Predicting the popularity of online content / / Communications of the ACM. 2010. 53. N 8. P. 80-88.

96. S h a r d a R., D e 1 e n D. Predicting box-office success of motion pictures with neural networks // Expert Systems with Applications. 2006. 30. N 2. P. 243-254.

97. K a k S., Chen Y., Wang L. Data mining using surface and deep agents based on neural networks. / / Proceedings of the Sixteenth Americas Conference on Information Systems. IEEE, 2010. P. 1-7.

98. M u 11 u E.C. et al. Review on graph feature learning and feature extraction techniques for link prediction // arXiv preprint arXiv:1901.03425. 2019. P. 38.

99. GuimeraR., Sales-Pardo M. Missing and spurious interactions and the reconstruction of complex networks // Proceedings of the National Academy of Sciences. 2009. 106. N 52. P. 22073-22078.

100. Huberman B.A., Romero D.M., Wu F. Social networks that matter: Twitter under the microscope // arXiv preprint arXiv:0812.1045. 2008.

101. Hinds P., M c G r at h C. Structures that work: social structure, work structure and coordination ease in geographically distributed teams // Proceedings of the 2006 20th Anniversary Conference on Computer Supported Cooperative Work. IEEE, 2006. P. 343-352.

102. L a z e g a E. Structural holes: the social structure of competition // Revue Française de Sociologie. 1995. 36. N 4. P. 779-781.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

103. Scripps J., Tan P.N., Esfahanian A.H. Node roles and community structure in networks // Proceedings of the 1st SNA-KDD 2007 workshop on Web mining and social network analysis. 2007. P. 2635.

104. Martinez V., Berzal F., Cubero J.C. A survey of link prediction in complex networks / / ACM computing surveys (CSUR). 2016. 49. N 4. P. 1-33.

105. Zhang M., Chen Y. Weisfeiler-lehman neural machine for link prediction // Proceedings of The 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. IEEE, 2017. P. 575583.

106. Ding Y. Synthesis Lectures on the Semantic Web: Theory and Technology. San Rafael: Morgan & Claypool, 2012.

107. Q i n X. et al. User OCEAN personality model construction method using a BP neural network // Electronics. 2022. 11. N 19. P. 3022.

108. Kadyrbek N., Sundetova Z., Torekul S. Information monitoring system of social wellness opinions // 2020 IEEE 8th Workshop on Advances in Information, Electronic and Electrical Engineering (AIEEE). IEEE, 2021. P. 1-4.

109. Karyukin V., Zhumabekova A., Yessenzhanova S. Machine learning and neural network methodologies of analyzing social media // Proceedings of the 6th International Conference on Engineering & MIS 2020. IEEE, 2020. P. 1-7.

110. Pereira-Kohatsu J.C. et al. Detecting and monitoring hate speech in Twitter / / Sensors. 2019. 19. N 21. P. 4654.

111. Rashmi C., Kodabagi M.M. Profiling of social network users using proximity measures // 2020 International Conference on Smart Technologies in Computing, Electrical and Electronics (ICSTCEE). IEEE, 2020. P. 24-28.

112. Florea M. et al. Complex project to develop real tools for identifying and countering terrorism: real-time early detection and alert system for online terrorist content based on natural language processing, social network analysis, artificial intelligence and complex event processing // Challenges in Cybersecurity and Privacy. The European Research Landscape. River Publishers, 2022. P. 181-206.

113. Gorokhov O., Petrovskiy M., Mashechkin I., Kazachuk M. Fuzzy CNN autoencoder for unsupervised anomaly detection in log data // Mathematics. 2023. 11. N 18. P. 3995.

114. Zhuravskii M., Kazachuk M., Petrovskiy M., Mashechkin I. Continuous keystroke dynamics-based user authentication using modified hausdorff distance // Database Systems for Advanced Applications 2021. Springer International Publishing, 2021. P. 223-236.

115. Berezniker A., Kazachuk M., Mashechkin I., Petrovskiy M., Popov I. User behavior authentication based on computer mouse dynamics // Moscow University Computational Mathematics and Cybernetics. 2021. 45. N 4. P. 135-147.

116. Kazachuk М., Petrovskiy М., Mashechkin I., Gorokhov О. Outlier detection in complex structured event streams // Moscow University Computational Mathematics and Cybernetics. 2019. 43. N 3. P. 101-111.

117. Mashechkin I., Petrovskiy M., Popov I. Software system for users continuous identification based on behavioral information about the work with standard input devices // Lobachevskii Journal of Mathematics. 2019. 40. P. 1809-1816.

118. Kazachuk M., Petrovskiy M., Mashechkin I., Gorokhov O. Novelty detection using elliptical fuzzy clustering in a reproducing kernel Hilbert space // Intelligent Data Engineering and Automated Learning. IDEAL 2018. Springer International Publishing, 2018. P. 221-232.

119. Kazachuk M., Kovalchuk A., Mashechkin I., Orpanen I., Petrovskiy M., Popov I., Zakliakov R. One-class models for continuous authentication based on keystroke dynamics // Intelligent Data Engineering and Automated Learning - IDEAL 2016. Springer International Publishing, 2016. P. 416-425.

120. К a g a n о v V., Korolev A., Krylov M., Mashechkin I., Petrovskiy M. Machine learning methods in authentication problems using password keystroke dynamics // Computational Mathematics and Modeling. 2015. 26. N 3. P. 398-407.

121. Mashechkin I., Petrovskiy M., Popov D., Tsarev D. Applying text mining methods for data loss prevention // Programming and Computer Software. 2015. 41. P. 23-30.

122. Королев В., Корчагин А., Машечкин И., Петровский М., Царев Д. Применение временных рядов в задаче фоновой идентификации пользователей на основе анализа их работы с текстовыми данными // Труды Института системного программирования РАН. 2015. 27. № 1. Р. 151172.

123. Tsarev D., Kurynin R., Petrovskiy M., Mashechkin I. Applying non-negative matrix factorization methods to discover user's resource access patterns for computer security tasks // 2014 14th International Conference on Hybrid Intelligent Systems. IEEE, 2014. P. 43-48.

124. Kaganov V., Korolyov A., Krylov M., Petrovskiy M., Mashechkin I. Hybrid method for active authentication using keystroke dynamics // 2014 14th International Conference on Hybrid Intelligent Systems. IEEE, 2014. P. 61-66.

125. Машечкин П., Петровский M., Царев Д. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования / / Вычислительные методы и программирование. 2013. 14. № 1. Р. 91-102.

126. Герасимов С., Курынин Р., Машечкин П., Петровский М., Царев Д., Шести-м е р о в А. Инструментальные средства оценки качества научно-технических документов // Труды Института системного программирования РАН. 2013. 24. Р. 359-380.

127. Mashechkin I., Petrovskiy М., Popov D., Tsarev D. Automatic text summarization using latent semantic analysis // Programming and Computer Software. 2011. 37. P. 299-305.

128. Tsarev D., Petrovskiy M., Mashechkin I. Using NMF-based text summarization to improve supervised and unsupervised classification // 2011 11th International Conference on Hybrid Intelligent Systems (HIS). IEEE, 2011. P. 185-189.

129. Tsarev D., Petrovskiy M., Mashechkin I. Text summarization method based on normalized non-negative matrix factorization // 3rd International Conference on Mechanical and Electrical Technology (ICMET-China 2011). ASME Press, 2011. P. 563-568.

130. Mashechkin I., Petrovskii M., Tsarev D. Machine learning methods for analyzing user behavior when accessing text data in information security problems // Moscow University Computational Mathematics and Cybernetics. 2016. 40. N 4. P. 179-184.

131. Gorokhov O., Petrovskiy M., Mashechkin I. Convolutional neural networks for unsupervised anomaly detection in text data // International Conference on Intelligent Data Engineering and Automated Learning. Cham: Springer International Publishing, 2017. P. 500-507.

132. Petrovskiy M., С h i k u n о v M. Online extremism discovering through social network structure analysis // 2019 IEEE 2nd International Conference on Information and Computer Technologies (ICICT). IEEE, 2019. P. 243-249.

133. Mashechkin I., Petrovskiy M., Tsarev D., Chikunov M. Machine learning methods for detecting and monitoring extremist information on the internet // Programming and Computer Software. 2019. 45. P. 99-115.

134. Petrovskiy M., Tsarev D., Pospelova I. Pattern based information retrieval approach to discover extremist information on the Internet // Mining Intelligence and Knowledge Exploration: 5th International Conference. MIKE 2017. Springer International Publishing, 2017. P. 240-249.

135. Машечкин И., Петровский М. Система мониторинга работы пользователей с информационными ресурсами корпоративной компьютерной сети на основе моделирования поведения пользователей с целью поиска аномалий и изменений в работе. Патент № 105042. РФ. 2010.

136. Глазкова В., Машечкин П., Петровский М. Система анализа и фильтрации Интернет-трафика на основе методов классификации многотемных документов. Патент № 105758. РФ. 2010.

137. Герасимов С., Курынин Р., Машечкин П., Петровский М., Т е р е х и н А., Царев Д., Шести м еров А. Интеллектуальная система оценки качества научно-технических документов. Патент № 132587. РФ. 2013.

138. Машечкин П., Никифоров Д., Петровский М., Попов П., Терехин А. Система двухфакторной аутентификации на основе анализа поведенческой биометрической информации об особенностях работы пользователя с компьютерной мышью. Свид. о регистрации программы для ЭВМ 2016619395. РФ. 2016.

139. Машечкин И., Царев Д., Петровский М., Попов П., Терехин А. Система мониторинга, теневого копирования и автоматического аннотирования текстовых данных при работе пользователя с электронными документами. Свид. о регистрации программы для ЭВМ 2016618914. РФ. 2016.

140. Машечкин И., Петровский М., Попов П., Терехин А., Никифоров Д. Система двухфакторной аутентификации на основе анализа поведенческой биометрической информации об особенностях работы пользователя с клавиатурой компьютера. Свид. о регистрации программы для ЭВМ 2015661555. РФ. 2015.

141. Глазкова В., Курынин Р., Машечкин П., Петровский М., Царев Д. Система мониторинга работы пользователей с информационными ресурсами корпоративной компьютерной сети на основе поведения пользователей. Свид. о регистрации программы для ЭВМ 2014616126. РФ. 2014.

142. Глазкова В., Машечкин П., Петровский М., Мае л я ко в В. Система анализа и фильтрации интернет-трафика. Свид. о регистрации программы для ЭВМ 2008614494. РФ. 2008.

Поступила в редакцию 06.07.24 Одобрена после рецензирования 26.07.24 Принята к публикации 26.07.24

i Надоели баннеры? Вы всегда можете отключить рекламу.