УДК 311.2
Шаль А. В.
ТЕХНОЛОГИИ БОЛЬШИХ ДАННЫХ В СТАТИСТИКЕ
Аннотация
Статья посвящена сравнительному анализу традиционных методов обработки данных и Больших данных, исследованию предпосылок зарождения парадигмы Big Data, признаков функционирования и сфер применения «Больших данных» на современном этапе. Представлен обзор сфер, в которых Big Data уже нашли свое применение, а также направлений их использования.
Ключевые слова
Методы сбора и анализа данных, технологии хранения и обработки данных, Big
Data. JEL C81
Shal A. V.
BIG DATA TECHNOLOGIES IN STATISTICS Annotation
Article is devoted to the comparative analysis of traditional methods of data processing and Big Data technologies, as well as the study of the prerequisites for the formation of the Big Data paradigm and the features of the functioning and ways of using of the Big Data at the present stage. A review of the areas where is Big Data has already been applied, as well as the directions of its use.
Keywords
Methods of data collection and analysis, data storing technologies, data processing technologies, Big Data.
В XXI веке самым ценным ресурсом стала информация, использование которой позволяет достичь новых высот во всех областях человеческой деятельности. Информации стало настолько много, что хранить и обрабатывать ее традиционными способами стало очень сложно, к тому же данные, обработанные традиционно, появляются, как правило, с опозданием, что затрудняет, а во многих случаях не позволяет своевременно принимать управленческие решения как на макро-, так и на микроуровнях [1].
В последние десятилетия роль технологий во всех сферах жизнедеятельности людей значительно возросла. Технологии, используемые в работе любой компании, должны быть более новыми, качественными и эффективными, чем у конкурентов, таким образом, конкурентоспособность компаний обусловлена уровнем их технологического развития [2]. Методы и системы сбора, обработки и систематизации данных призваны решать актуальные задачи как на государственном уровне, так и в сфере бизнеса [3]. Именно потребность в быстрой и качественной обработке данных, особенно их больших объемов, толкает вперёд разработку и последующее совершенствование технологий обработки данных.
Данные требуют анализа во времени для отслеживания динамики их изменений, поэтому возникает необходимость хранения накопленных данных в течение некоторого временного периода. При этом различные информационные системы предоставляют возможность хранения данных с разной степенью надежности, длительности, могут по-своему проводить учёт и инвентаризацию, упаковку и маркировку данных. Для создания условий безопасного хра-
нения собранных данных необходимо осуществлять контроль доступа и защиту этих данных, кроме того, должна быть организована возможность поиска нужных данных в накопленных массивах [4].
Современные информационные системы могут поддерживать различные форматы представления данных. Как правило, анализируемые данные могут быть представлены в текстовом, табличном, графическом, рейтинговом, аналитическом или ином визуальном виде, что способствует повышению уровня информативности материала за счет его наглядности. В реальной жизни данный подход имеет свои недостатки, делающие многие вещи сложнее, чем они есть на самом деле. Одним из существенных недостатков традиционной обработки данных является её невысокая скорость. Пока собранные сведения пройдут все стадии обработки до предоставления их пользователям, данная информация может стать неактуальной [5]. Сложность анализа и структурирования полученных данных - ещё один недостаток, который может привести к несвоевременности получения необходимых сведений. Также информация может быть представлена не в полном объёме, что вызывает затруднения в работе пользователей.
Big Data - это серия подходов, инструментов и методов обработки структурированных и неструктурированных огромных объёмов и значительного многообразия данных для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети [6]. Данное направление сформировалось в конце 2000-х гг. и является альтернативным традиционным системам управления базами данных и реше-
ниям класса Business Intelligence. В данную серию включают средства массовой обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop [7].
Термин «большие данные» существует уже почти двадцать лет, став за это время всемирно обсуждаемым. За историю своего недолгого существования он успел получить широкую популярность - кого-то данные технологии уже успели разочаровать, а какие-то компании уже внедрили Big Data в свою деятельность, что позволило оптимизировать работу с данными.
Описывая характеристики, определяющих большие данные таковыми, отмечают так называемые «три V» [10]:
• Volume - физический объем, имеющаяся база данных должна представлять собой большой объем информации, для которого было бы слишком трудоемко применять традиционные методы обработки и хранения данных;
• Velocity - скорость, не только накопления данных, но и требуемая скорость их обработки;
• Variety - многообразие, которое даёт возможность одновременной обработки как структурированной, так и неструктурированной разноформатной информации. Неструктурированная информация, в отличие от структурируемой, которая может быть классифицирована, требует куда более тщательного
Под большими данными понимается совокупность данных с возможным экспоненциальным ростом, которые слишком велики, слишком неформати-рованы или слишком неструктурированы для анализа традиционными методами [8]. Инструментарий и методы обработки больших данных коренным образом отличаются от работы с обычными базами данных. На сегодняшний день, разработкой инструментов для работы с Big Data занимаются всемирно известные компании - Microsoft, Oracle, IBM, SAP. Сравнительный анализ традиционных баз данных и Больших данных приведен в таблице 1.
и комплексного анализа для получения возможности её качественной дальнейшей обработки.
Первым критерием сравнения является объем информации: если традиционные данные занимают от нескольких гигабайт (109 байт) до терабайт (1012 байт), то объем базы BigData достигает от нескольких петабайт (1015
18
байт) до нескольких эксабайт (10 байт). Можно сказать, что реализуется принцип "К=А11", который говорит о том, что человечеству доступны абсолютно все данные.
Вторым сравнительным критерием является способ хранения и обработки информации. Традиционному подходу присущ централизованный способ хранения и обработки, предполагающий наличие вычислительного центра (ВЦ),
Таблица 1 - Сравнительный анализ традиционной базы и Больших Данных [9]
Характеристика Традиционная база данных База Больших Данных
Объем информации От гигабайт (109 байт) до терабайт (1012 байт) От петабайт (1015 байт) до эксабайт (1018 байт). К="А11"
Способ хранения Централизованный Децентрализованный
Структурированность данных Структурирована Полуструктурирована и неструктурирована
Модель хранения и обработки данных Вертикальная модель Горизонтальная модель
Взаимосвязь данных Сильная Слабая
на который передается исходная информация, и откуда получают результаты обработки пользователи. В свою очередь такой метод представляется довольно трудоемким и сложным процессом при попытке налаживания связей, а также представляет угрозу перегруженности компьютера. Для Больших Данных характерен децентрализованный способ хранения информации, который обусловлен появлением персональных компьютеров (ПК). Такой подход дает возможность разбить информационную базу на несколько разделенных и позволяет каждому клиенту пользоваться своей базой данных, которая может быть либо частью общей информационной базы, либо копией информационной базы в целом [11].
Полуструктурированность или неструктурированность базы Big Data является еще одним отличием от традиционных данных, для которых присуща структурированность. Под структурированностью понимается наличие уста-
Отечественный бизнес также начинает свою работу с большими данными, но в темпах роста значительно отстаёт от зарубежных коллег. По данным CNews,
элементами внутри системы, распределение элементов системы по уровням иерархии. Big Data отчасти или полностью не обладает вышеперечисленными признаками.
Еще одним критерием сравнения Big Data и традиционных данных может быть генерация данных. Традиционные источники данных всегда предполагают присутствие человека, Большие Данные часто генерируются автоматически, без участия человека [12].
Таким образом, Большие данные имеют ряд принципиальных отличий от традиционных данных, благодаря которым они обладают как рядом преимуществ, так и содержат определенные трудности.
Опрос Tech Pro Research показал, что самое широкое применение технологии больших данных нашли в телекоммуникационной сфере, а также в инжиниринге, в страховании и финансах. Более подробно результаты опроса представлены на графике.
лишь 10 % компаний внедрили большие данные в свою деятельность, в то же время за рубежом уже 30 % организаций сделали это. Однако исследование
новленных связей и отношений между
Здравоохранение Образование Бизнес-сервис/Консалтинг НМСС
Логистика и транспорт Финансы и страхование ИТ
Государственные предприятия Инжиниринг и конструкторские бюро Телекоммуникационные предприятия
13% 75% 13%
15% 67% 18%
18% 64% 18%
21% 57% 21%
33% 67%
33% 50% 17%
36% 59% 5%
38% 62%
45% 55%
58% 21% 21%
□ Да
□ Нет
□ Затрудняюсь ответить
Рисунок 1 - Результаты опроса Tech Pro Research [13]
CNews Analytics о готовности к внедрению больших данных в РФ, показывает положительные результаты.
Более трети опрошенных (36 %) готовятся к реализации технологий больших данных, 17 % респондентов начинают пилотные проекты, а 20 % уже работают с данными технологиями. В то же время почти треть респондентов (27 %) не заинтересована во внедрении технологий больших данных. Тем не менее можно рассчитывать на рост российского рынка технологий, по аналогии с мировыми тенденциями.
В настоящее время большие данные стали рассматриваться как эффективный инструмент принятия государственных решений. Одним из способов оперировать большими данными для регулирования социально-экономических и политических процессов является составление и анализ официальной статистики исключительно на их основе и в комбинации с традиционными источниками: реестрами, опросами, обследованиями и т. д. Таким образом, в последние несколько лет на мировой арене наблюдается рост интереса к применению больших данных в государственной статистике.
Главным преимуществом больших данных в статистических исследованиях является своевременное получение объемных массивов информации с наименьшими финансовыми и временными затратами. Большие данные способны предоставить широкий спектр информации по различным аспектам, не затрагиваемым традиционными источниками. Помимо этого высокая частотность получения информации по сравнению с обычным обследованием обеспечивает детальное рассмотрение процессов и решение проблем на стадии их зарождения [14]. Однако существуют значительные проблемы, препятствующие использованию больших данных в статистических целях. В настоящее время актуальными являются вопросы методологии, качества, доступа к дан-
ным, законодательства, неприкосновенности частной жизни, управления и финансирования. Затруднительными ввиду технических возможностей на текущий момент представляются сбор и хранение больших данных на серверах, поэтому все большую популярность в статистических организациях приобретают облачные технологии. Для обеспечения доступности технологий больших данных широкому кругу пользователей, необходимо обеспечить доверие общества к использованию персональных данных. На сегодняшний день лишь немногие страны разработали долгосрочную стратегию использования больших данных. Чтобы свести к минимуму риски при освоении новых технологий, державы взаимодействуют в рамках ведущих мировых исследовательских центров, таких как Статистическая комиссия ООН и Глобальная рабочая группа по большим данным в официальной статистике.
В ряде стран созданы лаборатории и рабочие группы для осуществления пилотных проектов, цель которых -определить, насколько большие данные пригодны для использования в качестве источника официальной статистики. Большинство проектов связаны с получением экономической и финансовой статистики, демографической и социальной статистики и статистики цен [15].
В качестве главных источников, формирующих большие данные для последующего их применения в статистике, рассматриваются мобильная связь и глобальная система определения координат (GPS), геопространственная информация и социальные сети. Часть этих данных находится не в открытом доступе, а является собственностью частного сектора, поэтому возникает необходимость наладить взаимодействие между органами статистических исследований и компаниями.
В некоторых странах мобильная связь и GPS используются для сбора
сведений о мобильности населения в течение дня и во время эпидемиологических вспышек, статистике туризма, помогают при проведении переписей населения, а также в статистике транспорта. В Колумбии широко используются регистрирующие устройства, которые хранят информацию о транспортном средстве и отслеживают его местоположение. Практическое применение изображений со спутников в Австралии обеспечивает сельскохозяйственную статистику использования земли и урожайности; наряду с этим в Китае, Колумбии и Мексике информация спутников оптимизирует экосистемный учет, а в Бразилии большие данные метеорологических станций являются фундаментом для статистики водных ресурсов. В дополнение к этому, на применении спутниковых снимков базируется мониторинг посевов незаконных культур. Социальные сети, веб-форумы и блоги используются для социальной статистики: примером служат Нидерланды, практикующие применение массивов данных из публичных сообщений пользователей 'Twitter' и 'Facebook' для оценки настроения потребителей, а также Италия и Китай, использующие сеть Интернет для статистики труда [16].
Таким образом, уже имеется ряд положительных примеров использования больших данных в официальной статистике, их применение ведет к эффективному и своевременному решению актуальных задач экономики, политики и социальной сферы. Однако следует ускорить процесс внедрения новых технологий и методов сбора и обработки данных на основе модернизации всей статистической системы, научно-методологической, технической и нормативно-правовой базы.
Библиографический список
1. Филлипс, Т. Управление на основе данных. Как интерпретировать цифры и принимать качественные ре-
шения в бизнесе. - М. : Манн, Иванов и Фербер, 2017.
2. Иванов, П. Д., Вампилов, В. Ж. Технологии Big Data и их применение на современном промышленном предприятии. Инженерный журнал: наука и инновации [Электронный ресурс]. -2014. - Вып. 8. - Режим доступа : http:// engj ournal. ru/ catalog/it/asu/1228. html.
3. Табаков В. Big Data как часть корпоративной стратегии. SAP вам поможет [Электронный ресурс]. - Режим доступа : http://www.sapevents.edgesuite. net/uasapforumkiev/2014/pdfs/01_Tabako v-%20Big%20Data.pdf.
4. Лесковец, Ю., Раджараман, А., Ульман, Д. Д. Анализ больших наборов данных. - М. : ДМК Пресс, 2016.
5. Майер-Шенбергер, В. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. -М. : Манн, Иванов и Фербер, 2014.
6. Медетов А. А. Термин Big Data и способы его применения // Молодой ученый. - 2016. - № 11. - С. 207-210.
7. Фаулер, М., Прамодкумар, Дж. С. NoSQL: новая методология разработки нереляционных баз данных = NoSQL Distilled. - М. : Вильямс, 2013.
8. Моррисон, А. и др. Большие Данные: как извлечь из них информацию (рус.) // Технологический прогноз. Ежеквартальный журнал, российское издание. - 2010. - Вып. 3.
9. Wikibon [Электронный ресурс]. -Режим доступа : http://wikibon.com.
10. Gartener Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data (англ.) Gartener (27 June 2011).
11. Колесниченко, О. Ю., Смородин, Г. Н., Ильин, И. В. и др. Текстовая аналитика Big Data: перспективы для суперкомпьютеров // Национальный Суперкомпьютерный Форум, 2015. Электронная публикация докладов, статья 09-475, секция «Суперкомпьютерные технологии при работе с большими объемами данных (Big Data)». Институт
программных систем имени А. К. Ай-ламазяна РАН. Переславль-Залесский. 24-27 ноября 2015 г.
12. Фрэнкс, Б. Укрощение больших данных. - М. : Манн, Иванов и Фербер, 2014. - Режим доступа : http://bfveteran.ru/rabota-v-internete/925-poyavlenie-bolshix-dannyx-potrebnost-v-standartax.html.
13. Tech Pro Research [Электронный ресурс]. - Режим доступа : http:// techproresearch.com/topic/big-data.
14. Билл Фрэнкс. Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики. Альпина Паблишер, 2016.
15. Доклад Глобальной рабочей группы по вопросам использования больших данных для подготовки официальной статистики - 2015. [Электронный ресурс]. - Режим доступа: http://www.cisstat.com/BigData/CIS-BigData_02%20UNSC%202015%20GWG %20BD-report.pdf.
16. Доклад Генерального секретаря Экономического и социального совета ООН. Большие данные и модернизация статистических систем - 2014. [Электронный ресурс]. - Режим доступа: https://unstats.un.org/unsd/statcom/doc 14/2014-11-BigData-R.pdf.
Bibliographic list
1. Phillips, T. Data management. How to interpret numbers and make quality decisions in business. - Mann, Ivanov & Ferber, 2017.
2. Ivanov, P. D., Vampilov, V. Zh. Big Data technologies and their application in a modern industrial enterprise. Engineering Journal: Science and Innovation, [Electronic resource]. - 2014. - № 8. -Mode of access : http://engjournal.ru/ catalog/it/asu/1228.html.
3. Tabakov, V. Big Data as part of corporate strategy. SAP will help you. [Electronic resource]. - Mode of access : http://www.sapevents.edgesuite.net/uasapf
orumkiev/2014/pdfs/01_Tabakov-%20 Big%20Data.pdf.
4. Leskovets, Yu., Rajaraman, A., Ullman, D. D. Analysis of Big Data sets. -M. : DMK Press, 2016.
5. Mayer-Schönberger, V., Kenneth, Cr. Big Data: A Revolution That Will Transform How We Live, Work, and Think (Russian edition). - Mann, Ivanov & Ferber, 2014.
6. Medetov, A. A. Term Big Data and methods of its application // Young Scientist. - 2016. - № 11. - P. 207-210.
7. Fowler, M., Pramod, J. S. NoSQL Distilled. Brief Guide to the Emerging World of Polyglot Persistence (Russian edition). - M. : Williams, 2013.
8. Morrison A., etc. Big Data: how to extract information from them (Russian). Technological forecast. Quarterly Journal, Russian Edition. - Issue 3. - 2010.
9. Wikibon [Electronic resource]. -Mode of access : http://wikibon.com.
10. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data Gartener (27.06.2011).
11. Kolesnichenko, O. Yu., Smorodin, G. N., Il'in, I. V. etc. Text analytics Big Data: perspectives for supercomputers // National Supercomputer Forum, 2015. Electronic publication of reports, article 09-475, section "Supercomputer technologies for working with large data volumes (Big Data)". Institute of Software Systems named by A. K. Ailamazyan. - Pereslavl-Zalessky. November 24-27, 2015.
12. Franks B. Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics (Russian edition). Mann, Ivanov & Ferber, 2014 [Electronic resource]. - Mode of access : http://bfveteran.ru/rabota-v-internete/925-poyavlenie-bolshix-dannyx-potrebnost-v-standartax.html.
13. Tech Pro Research [Electronic resource]. - Mode of access : http://www. techproresearch.com/topic/big-data.
14. Franks B. The Analytics Revolution: How to Improve Your Business By
Making Analytics Operational In The Big Data Era. - Alpina Pablisher, 2016.
15. Report of Global Working Group on use of Big Data for official statistics -2015 [Electronic resource], - Mode of access: http://www.cisstat.com/BigData/CIS-BigData_02%20UNSC%202015%20 GWG%20BD-report.pdf.
16. Report of Secretary-General of United Nations Economic and Social Council. Big data and the modernization of statistical systems - 2014 [Electronic resource], - Mode of access : https://unstats. un.org/unsd/ statcom/doc 14/2014-11-BigData-R.pdf.