УДК 004.62
А. Ю. Тимонин, А. С. Бождай
ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ BIG DATA
ДЛЯ ПОСТРОЕНИЯ СОЦИАЛЬНОГО ПРОФИЛЯ ЧЕЛОВЕКА
НА ОСНОВЕ ОТКРЫТЫХ ИСТОЧНИКОВ ИНФОРМАЦИИ
Аннотация. Целью текущей работы является исследование возможностей распределенных облачных систем и технологии «Больших данных» по сбору и статистическому анализу гетерогенных данных. Показано, что это направление науки о данных быстро набирает популярность в последние годы. В статье рассмотрены построение социального профиля на основе информации из открытых источников с помощью аналитических платформ IBM InfoSphere BigInsights и IBM i2, возможные сферы применения полученных результатов, а также приведен сравнительный обзор систем Big Data. Привлечено внимание к проблеме экспоненциального роста информации в условиях ускоренной информатизации современного общества, в частности построению и последующему применению целостной информационной картины из отдельных частей разнородных данных.
Ключевые слова: анализ данных, неструктурированные данные, сбор данных, открытые источники информации, социальный профиль человека, Big Data, Hadoop, IBM InfoSphere BigInsights, IBM i2.
Введение и актуальность работы
По прогнозам аналитиков из International Data Corporation, общее количество всей производимой информации к 2020 г. увеличится с 9 до 40 зеттабайт [1, 2]. Источники, генерирующие наиболее массивные информационные потоки, состоят из социальных сетей и блогов, хранилищ мультимедиа контента (в том числе, облачных), а также систем контроля и мониторинга. Очевидно, что сбор и последующий анализ таких объемов постоянно обновляемых гетерогенных данных с помощью классических информационных систем, включающих в свой состав сервер с реляционной СУБД и веб-интерфейсом, малоэффективен как с точки зрения производительности, так и с точки зрения удобства представления данных [3]. Здесь на помощь аналитику приходит довольно новая (впервые упоминается в 2008 г. и активно развивается с 2012 г.) концепция «больших данных» (Big Data), в основе которой лежат характеристики данных «3V»: скорость (velocity), объем (volume), многообразие (variety). Главными технологиями Big Data являются [4]:
- NoSQL - модель данных, позволяющая уйти от ограничений реляционных баз данных за счет атомарности и согласованности данных;
- MapReduce - программная технология, отвечающая за параллельные вычисления над большими массивами данных в распределенных кластерах;
- Hadoop - набор программного обеспечения, предлагающий широкие возможности по разработке и выполнению распределенных программ на кластерах и использующийся для реализации поисковых и контекстных механизмов высоконагруженных вебсайтов.
В данной статье исследуются возможности аналитической платформы IBM InfoSphere BigInsights, реализующей технологии NoSQL, MapReduce и Hadoop, а также IBM i2, позволяющей работать с нереляционными графовыми базами данных, для построения социального профиля человека на основе открытых источников информации. Концепция Big Data предоставляет широкие возможности по сбору и анализу гетероген-
140
Техника, технология, управление
ных персональных данных людей из открытых источников. Социальный профиль, построенный на их основе, может найти свое применение в отделах кадров при устройстве человека на работу, при прогнозировании и оценке потребительских предпочтений, написании биографий, в сферах юридических и экономических услуг, а также для индивидуальной подстройки как информационного, так и технического окружения под конкретного человека с использованием «Интернета вещей».
Следует отметить, что большинство систем по сбору персональных данных не афишируются разработчиками, даже несмотря на то, что поиск проводится только из общедоступных источников. Стоит назвать таких гигантов IT индустрии, как EMC, Google, HP, IBM, Microsoft, Oracle, Yahoo [4]. Однако объективная сравнительная оценка возможностей их разработок в этом направлении на данный момент не представляется возможной из-за коммерциализации технологии и платных лицензий.
Среди некоммерческих организаций, занимающихся разработкой Hadoop-технологий, выделяются старт-апы Cloudera и Hortonworks. Эти компании значительно опережают основного разработчика Hadoop - Apache Software Foundation в плане расширения функционала и выпуска стабильных версий программного обеспечения в виде образов Linux-подобной системы. Преимущества их решений состоят в бесплатности и открытости кода программных средств, развивающемся сообществе пользователей и разработчиков, а также своевременном исправлении ошибок. К недостаткам относятся отсутствие полноценной документации даже на английском языке, быстрое устаревание различных методов и программных средств в связи с выпуском обновленных версий и переходом к более производительным аналогам.
В данной работе использован программный инструментарий работы с Big Data от компании IBM по причине предоставления доступа академическим заведениям к своей продукции и наличия русскоязычной документации.
Построение социального профиля с использованием программных средств
IBM InfoSphere BigInsights
Аналитическая платформа IBM InfoSphere BigInsights основана на программном обеспечении с открытым кодом Apache Hadoop и предназначена для хранения и анализа больших объемов неструктурированных или слабо структурированных данных в их исходном формате [5].
Алгоритм построения социального профиля условно можно разделить на три этапа:
- сбор данных из открытых источников с проверкой на дублирующиеся и пустые записи;
- анализ и структурирование полученной информации в виде CSV-таблиц и NoSQL баз данных с выявлением зависимостей и проведением выборок;
- представление результатов в удобном для человеческого восприятия виде.
Последовательность шагов проектирования социального профиля и элементы системы представлены на рис. 1.
Для первоначального сбора исходных данных можно воспользоваться двумя встроенными приложениями платформы IBM BigInsights:
- BoardReader, осуществляющим поиск в блогах и новостных лентах на основе ключевых слов и временного диапазона, в течение которого появилась нужная информация;
- WebCrawler, являющимся поисковым роботом, который был специально создан для сбора «больших данных» в распределенные базы данных по типу HBase.
141
Вестник Пензенского государственного университета № 2 (10), 2015
Рис. 1. Структурная схема взаимодействия данных и компонент IBM
Альтернативным решением может стать поисковая система IBM InfoSphere DataExplorer, обеспечивающая быстрый и точный поиск в любых корпоративных источниках структурированных и неструктурированных данных, либо использование стороннего поискового робота [6]. В качестве входных параметров поиска задаются критерии, позволяющие с достаточной точностью идентифицировать человека (ФИО, никнейм, e-mail адрес, номер телефона, идентификаторы учетных записей). Полученная информация будет представлена в виде списка с указанием места вхождения критерия и ссылки на конечный адрес, что внешне очень напоминает работу обычных поисковых сервисов. После этого при желании можно добавить дополнительные критерии поиска и начать обработку данных.
Результаты поиска представлены во фрагментированном, необработанном виде. Для дальнейших действий с ними требуется удалить повторяющуюся и бесполезную информацию (пустые абзацы, знаки табуляции в конце строк, части HTML-кода). Кроме того, желательно найти явные зависимости в текстах и попытаться собрать их в единое целое. Для этого используется платформа IBM BigSheets, с помощью которой можно отфильтровать ненужную информацию, объединить и представить данные в виде книг - электронных таблиц, поддерживающих обработку с помощью BigSQL и AQL языков. Впоследствии их можно полностью или частично экспортировать в CSV/TSV файлы. Этим обеспечиваются возможности последующего детального анализа с извлечением структурированной информации и представления ее в графическом виде для оценки.
Для достижения указанных целей возможно использование программного средства IBM ContentAnalytics. Оно осуществляет поиск фактов на основе анализа контента, просмотра и импорта содержимого, синтаксический разбор и анализ содержимого, моделирование и прогнозирование, разработку интеллектуальных фильтров и создание пригодного для поиска индекса [7]. Стоит заметить, что ContentAnalytics эффективен только тогда, когда исходные данные более-менее структурированы. В ином случае необходимо воспользоваться средствами аналитического инструментария IBM i2 [8].
142
Техника, технология, управление
Создание социального графа с помощью платформы IBM i2
IBM i2 включает в себя несколько программных продуктов, позволяющих выявлять скрытые зависимости между данными, собирать их в структуры и визуализировать результаты как в табличном представлении, так и в виде графов. Таким образом, можно выявлять характеристики человека, которые либо не указаны явно, либо имеют противоречивые сведения, например возраст, увлечения, связи с другими людьми, известность в какой-либо области деятельности и т.д. Смысл заключается в создании базы данных социального профиля и построении на ее основе социального графа.
Первоначально необходимо создать структуру графовой базы данных. IBM i2 поддерживает два типа сущностей, для которых можно задать наборы атрибутов: узел и связь. В качестве примера можно представить объекты-узлы «Персона», «Хобби», а также связь «Персона-Хобби». После генерации инфологической модели для взаимодействия с базой данных нужно создать файл-шаблон.
Далее в приложении Text Chart осуществляется заполнение базы данных. Исходные тексты в формате CSV поступают на вход программы, после чего аналитик начинает заполнение. Процесс состоит в поиске внутри текста выражений, подходящих под определение той или иной сущности базы данных, и последующей установке связи между ними на основе тех же текстов. Каждый из атрибутов сущностей имеет кроме уникального идентификатора и названия также редактируемое поле описания, по умолчанию совпадающее с названием атрибута. Процесс заполнения базы данных нагляден и частично автоматизирован: есть подсветка значащего текста с возможностью быстрого перемещения между характеристиками одной сущности, аналитику сразу доступен граф взаимосвязей.
Стоит отметить, что при работе в программе данные представлены в нереляционном виде: допустимо наличие нескольких значений у одного аргумента сущности, что облегчает распределение информации, так как для хранения синонимов, сокращений и транслитераций не требуется дополнительных усилий со стороны администратора системы. Однако для последующего использования данные приводятся к реляционному виду: удаляются копии, атомарность сущности обеспечивается за счет выбора наиболее полных значений атрибутов (все дополнительные в базу данных включаться не будут). Полученные результаты можно визуализировать в виде социального графа взаимосвязей или работать с ними в классическом табличном формате баз данных.
Заключение
Современные средства аналитики «больших данных» предоставляют широкий спектр возможностей по сбору и последующей обработке гетерогенных данных, в том числе и персональных. Идея построения социальных профилей людей на основе открытых источников данных может найти применение во многих отраслях жизни, начиная с экономики и IT-сферы и заканчивая такими специфическими дисциплинами, как эргономика и автоматизация повседневной жизни человека. Использование графовой СУБД iBase при построении социального профиля оказалось незаменимым по ряду причин. Во-первых, в плане наглядности iBase помимо традиционного табличного представления предлагает аналитику графические средства для взаимодействия с данными. Во-вторых, она отличается высокой эффективностью при работе с гетерогенными данными и большим количеством связей между объектами БД. В-третьих, iBase характеризуется наличием механизмов, приводящих неструктурированные данные социального профиля к структурированному виду. Набор программных средств IBM InfoSphere BigInsights позволяет оценить реальные возможности по сбору и анализу персональных данных на основе открытых источников информации, а также применению результатов построения социального профиля.
143
Вестник Пензенского государственного университета № 2 (10), 2015
Список литературы
1. Семенов, Ю. А. Обзор по материалам ведущих фирм, работающих в сфере сетевой безопасности / Ю. А. Семенов. - URL: http://book.itep.ru/10/2014.htm (дата обращения 06.05.2015).
2. Рост объема информации - реалии цифровой вселенной // Технологии и средства связи. -2013. - № 1. - С. 24.
3. Бершадский, А. М. Разработка и моделирование гетерогенных инфраструктур для беспроводного информационного обеспечения процессов мониторинга / А. М. Бершадский, А. Г. Финоге-ев, А. С. Бождай // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2010. - № 1. - С. 36-46.
4. Канаракус, К. Машина Больших Данных / К. Канаракус // Сети. - 2011. - № 4.- URL: http://www.osp.ru/nets/2011/04/13010802/ (дата обращения: 06.05.2015).
5. Работа с неструктурированными данными в распределенной файловой системе Hadoop / Центр компетенции по технологии IBM BigData. -М, 2014. - 30 с.
6. Исследование текстовой информации с помощью DataExplorer / Центр компетенции по технологии IBM BigData. - М., 2014. - 23 с.
7. Анализ структурированных и неструктурированных данных с помощью ContentAnalytics / Центр компетенции по технологии IBM BigData. - М., 2014. - 66 с.
8. Выявление скрытых связей на основе анализа текстов с помощью i2 / Центр компетенции по технологии IBM BigData. - М., 2014. - 66 с.
Тимонин Алексей Юрьевич
студент,
Пензенский государственный университет E-mail: [email protected]
Бождай Александр Сергеевич
доктор технических наук, профессор, кафедра систем автоматизированного проектирования,
Пензенский государственный университет E-mail: [email protected]
УДК 004.62 Тимонин, А. Ю.
Использование технологий Big Data для построения социального профиля человека на основе открытых источников информации / А. Ю. Тимонин, А. С. Бождай // Вестник Пензенского государственного университета. - 2015. - № 2 (10). - C. 140-144.
Timonin Aleksey Yur'evich
student,
Penza State University
Bozhday Aleksandr Sergeevich
doctor of technical sciences, professor, sub-department of computer-aided design systems, Penza State University