Научная статья на тему 'Визуализация данных социального профиля для использования в прикладных задачах'

Визуализация данных социального профиля для использования в прикладных задачах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
631
142
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ДАННЫХ / ВИЗУАЛИЗАЦИЯ ДАННЫХ / НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ / ОТКРЫТЫЕ ИСТОЧНИКИ ИНФОРМАЦИИ / СОЦИАЛЬНЫЙ ПРОФИЛЬ ЧЕЛОВЕКА / ТЕОРИЯ ГРАФОВ / BIGDATA / IBM I2

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тимонин Алексей Юрьевич

Исследован процесс представления данных социального профиля для их дальнейшего использования в различных прикладных задачах. Привлечено внимание к проблеме визуализации больших объемов социальных данных в условиях ускоренной информатизации современного общества, результаты которой должны быть пригодны как для ручной, так и для автоматизированной обработки. Рассматриваются распространенные области применения социальных профилей, построенных на основе информации из открытых источников сети Интернет, теоретические основы визуализации структурированной социальной информации с использованием методологии теорий графов и анализа социальных сетей, а также практическая реализация подсистемы представления данных социального профиля на базе программного инструментария IВМ i2.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тимонин Алексей Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Визуализация данных социального профиля для использования в прикладных задачах»

УДК 004.62 А. Ю. Тимонин

ВИЗУАЛИЗАЦИЯ ДАННЫХ СОЦИАЛЬНОГО ПРОФИЛЯ ДЛЯ ИСПОЛЬЗОВАНИЯ В ПРИКЛАДНЫХ ЗАДАЧАХ

Аннотация. Исследован процесс представления данных социального профиля для их дальнейшего использования в различных прикладных задачах. Привлечено внимание к проблеме визуализации больших объемов социальных данных в условиях ускоренной информатизации современного общества, результаты которой должны быть пригодны как для ручной, так и для автоматизированной обработки. Рассматриваются распространенные области применения социальных профилей, построенных на основе информации из открытых источников сети Интернет, теоретические основы визуализации структурированной социальной информации с использованием методологии теорий графов и анализа социальных сетей, а также практическая реализация подсистемы представления данных социального профиля на базе программного инструментария IBM ¡2.

Ключевые слова: анализ данных, визуализация данных, неструктурированные данные, открытые источники информации, социальный профиль человека, теория графов, BigData, IBM ¡2.

Введение

Одним из приоритетных прикладных направлений ГГ-науки в сфере анализа социальных сетей являются исследования, рассматривающие отношения в обществе на основе теории сетей [1]. Предметом анализа социальных сетей является структура в виде повторяющихся, регулярных паттернов отношений. Математический аппарат анализа социальных сетей позволяет учитывать реляционные связи фрагментов данных, а также их свойства и скрытые закономерности. Сети обычно описываются социальными сетевыми схемами, где узлы (отдельные участники сети) представлены в виде вершин графа, а связи (отношения между социальными объектами) - в виде ребер. Важной предварительной задачей анализа социальных сетей является построение персональных социальных профилей (СП) людей как структурированных множеств, состоящих из информации, характеризующей социальные свойства человека. Данная проблема решается за счет использования таких передовых достижений информационных технологий, как большие данные (BigData), интеллектуальный анализ данных (DataMining), машинное обучение, нейронные сети и др. [2]. Однако важным моментом решения данной задачи представляется оценка использования конечных результатов исследования и способы их представления для конкретных вариантов использования. Особенностям визуализации данных социального профиля посвящена текущая работа.

Сферы применения социального профиля человека

Социальный профиль человека основывается на информации как из персональных аккаунтов (персональных блогов, социальных сетей, электронных порталов и форумов и т.п.), так и со сторонних ресурсов, где данная личность может упоминаться в каких-либо контекстах.

Область возможного применения социального профиля, построенного на основе открытых источников информации, довольно обширна и не ограничивается достаточно известными задачами коллаборативной фильтрации [3] и противодействия преступности (OSINT) [4]. Наиболее перспективным в настоящее время является использование социальных данных в задачах создания искусственного интеллекта и машинного обучения. Примерами могут служить разработка автомобильного автопилота [5] и использо-

вание суперкомпьютера IBM Watson для диагностики заболеваний [6]. В первом случае из набора социальных профилей водителей берутся геоданные и сведения о наличии нарушений ПДД для обучения нейронной сети автопилота. Во втором случае анализируются не только данные историй болезней пациентов, но и информация об их активности, увлечениях и других неявных факторах, которые могут повлиять на точность постановки диагноза и проведение дальнейшего эффективного лечения.

Иной возможной областью применения социальных профилей является администрирование крупных социально-экономических систем. К ним в первую очередь относят «Умный город» [7] - подходы, заключающиеся в интеграции информационно-коммуникационных технологий и Интернета вещей (IoT решения) для управления городским имуществом и улучшения качества жизни населения посредством оптимизации урбанистических процессов. Это также относится к индивидуальной подстройке окружения (как информационного, так и технического) под конкретного человека с использованием Интернета вещей.

С другой стороны, использование социальных профилей в кадровых службах предприятий может упростить процедуру трудоустройства и повысить эффективность работы коллектива. Алгоритм работы HR (англ. humanresource - «кадровая служба») с социальными профилями следующий: на первом шаге отбрасываются неподходящие кандидатуры, затем при наличии нескольких вакансий происходит распределение кандидатов на основе суммарных характеристик и предпочтений, полученных из профилей, и, наконец, формируются списки на прохождение итогового собеседования. В научной сфере возможны моделирование социальных процессов (в том числе исторических) на основе множества социальных профилей, разработка более гибких механизмов социальной политики.

Перечислим также и более распространенные на сегодняшний день задачи, непосредственно связанные с обработкой данных социальных профилей [8]:

- идентификация пользователей. Обнаружение учетных записей, принадлежащих одному человеку, с целью уточнения картины социального профиля и использования в других задачах;

- социальный поиск. Поиск социальных объектов на основе анализа последовательности связей, от которых зависят искомые сущности;

- выявление истинных связей. Применение подхода «разведки на основе открытых источников» для выявления взаимосвязей между пользователями, т.е. настоящих друзей, родственников и т.п. Активно используется правоохранительными структурами по всему миру для борьбы с терроризмом;

- генерация рекомендаций. Различают рекомендации контента и рекомендации «знакомых». Используется при создании графа интересов на основе социального графа. Граф интересов - это представление интересов человека, полученное на основе его интернет-активности;

- использование графа интересов. Применяется для определения тональности текста и установления связей между пользователями в социальных сетях или реальном мире. Активно используется в маркетинге для анализа целевой аудитории продукта и создания таргетированной рекламы, основанной на интересах. Граф интересов имеет множество других вариантов использования, в том числе задачи поиска содержимого и фильтрации для предоставления рекомендаций по шаблонам контента.

После всего вышеперечисленного нужно отметить, что в большинстве случаев при решении конкретной задачи все многообразие данных социального профиля не требуется. Поэтому перед аналитиками стоит задача обеспечения возможности гибкого представления результатов построения социального профиля.

Представление данных социального профиля

Для визуализации итоговых результатов построения СП в рамках разрабатываемой специализированной системы служит подсистема представления результатов. Она отображает социальный профиль в удобном виде для восприятия, оценки и последующего использования в прикладных задачах. Из-за специфики хранения данных СП и видов прикладных задач рекомендуется использовать методологию теории графов.

Перед тем как перейти к описанию визуализации СП, нужно рассказать о представлении персонализированных данных в виде социального графа и графа интересов. Данные понятия тесно взаимосвязаны. Социальный граф определяет строение общественной группы, т.е. показывает отношения конкретной личности с другими людьми и сообществами в рамках некоторой соцсети. Граф интересов используется для создания сети интересов людей. Рассмотрим его подробнее.

Граф интересов выражает как явные, так и неявные интересы, выведенные на основе активности пользователя. Таким образом, увлечения человека, представленные в виде графа интересов, обеспечивают возможности для дальнейшей персонализации информации, основанной на пересечении графа интересов с веб-контентом.

Рассмотрим особенности представления социальных данных в виде графа интересов [8]. Он может включать в себя различные типы связей, позволяющие пользователю выйти за рамки традиционных социальных сетей. Например, в случае, когда человеку нужна информация, неизвестная его знакомым, выстраивается цепочка из трех типов связей [9]:

- человек-человек;

- человек-интерес;

- интерес-интерес.

При построении взвешенного графа интересов выдвигается предположение о том, что взаимосвязи равнозначны. Первоначально весовой коэффициент связи двух интересов устанавливается в виде бесконечно большого числа. Затем в случае обнаружения сходств в поведении двух групп людей с различными увлечениями значение веса ребра между вершинами данных интересов уменьшается.

Граф интересов является частью структуры социального профиля. Множество социальных профилей без акцентирования на их содержании образуют неявный социальный граф. На рис. 1 представлена возможная структура социального профиля с указанием типов связанных социальных объектов.

Рис. 1. Образец графа типов сущностей социального профиля

Математическое представление социального профиля описывается следующей функцией:

m n

P(S, R) = X vtS (X), +X UjR(Y) j, (1)

,=1 j=1

где S = {Si, S2, ..., Sm} - множество социальных объектов; R = {Ri, R2, ..., Rn} - множество связей между объектами; Xi, Yj - матрицы свойств для каждого объекта/связи социального профиля; m, n - количество объектов и связей соответственно, причем m - 1 < n; v, u -весовые коэффициенты объектов и связей соответственно, определяющие значимость и достоверность приводимой информации.

Способы визуализации конечных данных социального профиля

в системе IBM BigData

Главными составляющими СП являются социальный граф и база данных персоны, которые получаются из исходных данных с помощью системы визуальной аналитики IBM i2 [6]. Дополнительными элементами социального профиля могут служить статистические диаграммы, полученные с помощью BigSheets [6] на этапе фильтрации данных и Content Analytics [6] на этапе анализа.

Приложение IBM iBase служит для создания новой базы данных inputDB, содержащей все типы объектов с атрибутами, которые совпадают с названиями столбцов csv-файла со структурированными данными строящегося профиля. Структура Idb базы данных СП включает в себя множества социальных объектов и связей между ними. При этом каждая сущность СП описывается в виде таблицы свойств, полученных на этапе анализа данных.

На рис. 2 представлена таблица свойств для связи «работает архитектором» между объектами типа «Рассматриваемая персона» и «Организация». В ней перечислены все синонимы определения связи, найденные при анализе в неструктурированных данных социального профиля, а также сопутствующая идентифицирующая информация - такая, как названия должности и даты начала/окончания работы на текущей должности.

■ Properties - 'работает архитектором' X

| Name Value

Е Label работает архитектором

я работает архит... J работает архитектором

главньи архит... J главный архитектор

уходит в уходит в

S Documents 1

г doug cutting

Е post_org главный архитектор

архитектор J архитектор

я главньи архит... J главный архитектор

В work_begin 2009

г 2009 J 2009

work_end

L

Рис. 2. Пример содержимого объекта/связи социального профиля

Также возможен перенос информации СП из ^у-проекта визуальной аналитики в ИЬ базу данных. Для этого требуется выбрать из списка наименований социальных

объектов единственное наиболее полное название каждой сущности и атрибутов, так как в iBase реализовано свойство атомарности, и, как следствие, невозможна запись сразу всех определений сущности. Последующее обращение к базе данных СП возможно через запросы или операции обзора в программе IBM iBase, что показано на рис. 3.

Рис. 3. Обзор сущности «Хобби»

Представление результатов построения социального профиля возможно в виде выборок из базы данных посредством SQL-подобных запросов. Однако такой подход используется только в задачах с автоматизированной обработкой. Чаще аналитики прибегают к визуализации социального профиля или его части в виде социального графа ввиду наглядности последнего.

Для визуализации социального профиля в виде графа нужно запустить IBM i2 Analyst's Notebook, затем во вкладке «Источники данных» открыть созданную базу данных социального профиля. Далее вводится идентификатор ключевой сущности -обычно «Рассматриваемая персона», после чего она выводится на экран. На следующем шаге алгоритма требуется выделить объект и расширить схему: на экране появятся объекты, непосредственно связанные с главной сущностью. Впоследствии выделяются все необходимые сущности социального профиля, и схема расширяется до требуемого состояния. Итоговые результаты визуализации можно расположить на экране в любом удобном для конечного пользователя порядке (рис. 4). К полученному графу применимы алгоритмы для нахождения центральностей.

Таким образом, база данных социального профиля может использоваться как для аналитических функций, так и для представления результатов. На ее основе в приложении IBM Analytic's Notebook строится социальный граф, который наглядно отражает содержимое построенного социального профиля человека.

Рис. 4. Образец социального графа, построенного в IBM i2

Заключение

В данной статье были представлены типы прикладных задач, в которых в качестве исходных данных используются социальные профили людей. Приведены требования, предъявляемые этими задачами к визуализации социальных данных. Рассмотрены способы визуализации социальной информации и структура конечного социального профиля. Кроме того, предложен практический вариант визуализации данных социального профиля с использованием инструментария IBM BigData в виде социального графа и базы данных социального профиля.

Библиографический список

1. Чураков, А. Н. Анализ социальных сетей / А. Н. Чураков // СоцИс. - 2001. - № 1.

2. Тимонин, А. Ю. Разработка социального профиля на основе имеющихся инструментальных средств / А. Ю. Тимонин // Новые информационные технологии и системы : сб. науч. ст. XII Междунар. науч.-техн. конф. - Пенза, 2015. - С. 221-224.

3. Melville, P. Content-Boosted Collaborative Filtering for Improved Recommendations / P. Melville, R. Mooney, R. Nagarajan // 18 national conference of Artificial intelligence. - Edmonton, Alberta, Canada, 2002. - P. 187-192.

4. Кондратьев, А. На основе открытых источников / А. Кондратьев // ВПК. - 16 сентября 2009. -№ 36 (302).

5. Carvatar: Increasing Trust in Highly-Automated Driving Through Social Cues / J. Zihsler, P. Hock, M. Walch, K. Dzuba, D. Schwager, P. Szauer, E. Rukzio // Adjunct Proceedings of the 8th International Conference of Automotive User Interfases and Interactive Vehicular Applications. - Ann Arbor, MI, USA, 2016. - P. 9-14. DObio.1145/3004323.3004354

6. Новые методы работы с большими данными: победные стратегии управления в бизнес-аналитике / отв. ред. А. В. Шмид. - М. : ПАЛЬМИР, 2016. - 528 с.

7. Wu, W. Exploring city social interaction ties in the big data era: Evidence based on location-based social media data from China / W. Wu, J. Wang // World Renaissance: Changing roles for people and places : 55th Congress of the European Regional Science Association. - Lisbon, 2015. - P. 25-28.

8. Теория графов и социальные сети. Eggheado: Science. - URL: https://www.medium.com/egg-heado-science/778c92d20cea (дата обращения: 17.04.2017).

9. Сутурин, Г. С. Формирование сообществ на основе граф интересов / Г. С. Сутурин // Современные исследования социальных проблем. - 2013. - № 1 (13). - С. 215.

Тимонин Алексей Юрьевич, аспирант, Пензенский государственный университет.

E-mail: [email protected]

УДК 004.62

Тимонин, А. Ю.

Визуализация данных социального профиля для использования в прикладных задачах / А. Ю. Тимонин // Вестник Пензенского государственного университета. - 2017. - № 3 (17). - С. 112-118.

i Надоели баннеры? Вы всегда можете отключить рекламу.