Научная статья на тему 'Феномен big data'

Феномен big data Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1899
265
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы —

Феномен big data связан с практикой использования очень больших объемов данных и технологическими решениями, позволяющими разрешать сложнейшие проблемы в экономике, науке и социальной сфере. Он оценивается промышленными аналитиками, советниками по экономическим стратегиям и специалистами по маркетингу как некий «Эльдорадо» с точки зрения новизны, конкурентоспособности и производительности общения с информационной сферой. Одиннадцатый Симпозиум по мировым показателям развития связи и информационных технологий (WTIS), проходивший в Мехико в декабре 2013 г., подтвердил, что структуры big data могут оказать чрезвычайно полезное воздействие на развитие и распространение информации в реальном масштабе времени при умеренных издержках по сравнению с другими методами работы с информационной средой.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Феномен big data»

Феномен big data связан с практикой использования очень больших объемов данных и технологическими решениями, позволяющими разрешать сложнейшие проблемы в экономике, науке и социальной сфере. Он оценивается промышленными аналитиками, советниками по экономическим стратегиям и специалистами по маркетингу как некий «Эльдорадо» с точки зрения новизны, конкурентоспособности и производительности общения с информационной сферой. Одиннадцатый Симпозиум по мировым показателям развития связи и информационных технологий (WTIS), проходивший в Мехико в декабре 2013 г., подтвердил, что структуры big data могут оказать чрезвычайно полезное воздействие на развитие и распространение информации в реальном масштабе времени при умеренных издержках по сравнению с другими методами работы с информационной средой.

Считается, что почти все, что имеет отношение к данным или к экономической сфере, может быть отнесено к понятию big data. Подогреваемая «облачной информатикой», эта тенденция, похоже, скоро достигнет степени экзальтации. Существует даже предложение именовать этот феномен «облаком совместимых устройств» и размещать в подобных «облаках» информационные ресурсы целых предприятий и организаций.

Оставив в стороне рекламу, можно сказать, что возможности, предлагаемые под вывеской big data, обеспечивают проведение исследований в таких областях, как физика, информатика, генная медицина и экономика. Новые аналитические возможности, которые предоставляют структуры big data, содействуют формированию новых методов и алгоритмов, позволяющих обнаруживать определенные, ранее неизвестные схемы взаимодействия и полезные корреляционные связи внутри больших объемов информации.

Анализ большого количества данных за меньшее время может повысить качество и оперативность принятия решений о проведении тех или иных работ и исследований во многих секторах экономики - от финансов до здравоохранения.

В ноябре 2013 г. был опубликован информационный отчет под заглавием «Большие объемы данных: сегодня - большие, нормальные завтра», подготовленный Адольфом Мартином из Бюро нормативов в области телекоммуникаций Международного союза электросвязи (МСЭ). В отчете исследуются многочисленные примеры использования информационных структур и приложений, объединенных парадигмой big data, описываются их характеристики, подчеркиваются их общие черты и особенности,

ИЗ ЗАРУБЕЖНЫХ ИСТОЧНИКОВ

па ппп ппп пп

*. п

ПРАКТИКА

которые являются причиной энтузиазма, возбуждаемого новым феноменом в среде специалистов. Поскольку этот феномен связан со многими современными технологиями, то использование структур big data, как одного из видов компьютерной технологии, порождает ряд проблем, требующих своего оперативного решения со стороны информационного сообщества. При их решении может даже возникнуть потребность в международных нормативных документах. Нормализация сферы big data поможет предприятиям проникнуть на новые рынки, снизить затраты и повысить свою эффективность.

Пищевой скандал, который потряс многие европейские страны в начале 2013 г., и его преодоление, подтверждают способность структур big data разрешать кризисные ситуации. Этот скандал касался сети, в которой процветали мошенничество, лживая реклама и крайне неудовлетворительное управление снабженческими операциями. Это не первый продовольственный скандал и, видимо, не последний. В ресторанной сети, которая насчитывает тысячи филиалов и сотни поставщиков продуктов по всему миру, в действительности почти невозможно контролировать происхождение и качество каждого ингредиента, используемого при приготовлении блюд. Однако доступные данные и сложные аналитические процессы, выполняемые в реальном масштабе времени, позволяют обнаружить разного рода несоответствия еще на ранней стадии производственного процесса и даже предупредить их. Благодаря анализу соответствующих данных причины упомянутого выше скандала были выявлены и исключены. Этот инцидент показал необходимость ужесточения взаимных обязательств участников совместного бизнеса, а также повышения эффективности системы управления данными в международных, многосторонних и многомерных системах.

Миллиарды элементов информации, поступающие из многочисленных источников, накапливаются ежедневно во всем мире. В частности, такими источниками могут быть: поставщики продуктов, ведомости поставок, данные о местоположении ресторанов, маршруты поставок, картотеки товаров и продуктов, международная база данных Интерпола на криминалитет, рекламации пользователей, информация, предоставляемая пользователями, текстовые сообщения, фотографии, видеоматериалы (например, размещаемые в социальных сетях). Чтобы почерпнуть необходимую информацию и сформировать определенные заключения из этой массы несвязных данных, следует выделить в ней элементы, относящиеся к рассматриваемой проблеме, или отыскать схемы, которые их скрывают. Необходимо также сделать точные, исчерпывающие и пригодные для дальнейшего использования выводы.

Вig data: легче понять, чем дать краткое определение

Поскольку не существует точного определения, что такое big data, то можно попытаться описать этот феномен с помощью четырех характеристик, являющихся общими для всех разновидностей явлений такого рода, то есть: объема, быстроты реакции на него, разнообразия форм и достоверности (аутентичности).

Объем, вероятно, самый важный и самый заметный параметр аналитических процессов на базе big data. Например, в сфере здравоохранения оценка эффективности лечения, когда она проводится путем наблюдения за многочисленной популяцией, дает значительно более скромные результаты, чем когда эта же оценка проводится на группе из 100 пациентов, хотя в последнем случае требуется меньше времени. Несмотря на то, что прилагательное «big» не является количественным, оно качественно отражает тот факт, что 90% данных, накопленных сегодня во всем мире, были получены в течение двух последних лет, поскольку и машины, и люди совместно способствовали росту их объемов.

Быстрота принятия решений - это время между моментом принятия неких данных к сведению (или в расчет) и моментом принятия решения, которое из полученной информации вытекает. Это первостепенный фактор, определяющий эффективность структуры big data. Новые технологии способны обработать огромные объемы данных в реальном или близком к реальному времени. Благодаря этому, организации могут гибко реагировать на изменения, которые внезапно происходят на рынках из-за эволюции вкусов и предпочтений потребителей, а также из-за разного рода мошенничеств. Оперативность и последовательный характер реакции на информацию, так высоко ценимые на финансовом рынке, нередко весьма ощутимо способствуют выходу бизнеса на передовые позиции в конкурентной борьбе во многих секторах промышленности.

Структуры big data, содержащие разнородные и неупорядоченные данные, отличаются большим разнообразием. Они могут быть представлены в виде текста, данных, поступающих от датчиков или полученных путем запросов, данных карт памяти, аудио- и видеоданных, изображений, навигационных маршрутов, картотек. В структурах big data могут присутствовать также данные, которые требуют затрат времени и соответствующего умения для преобразования в форму, доступную для обработки и анализа. Способность некоторой системы анализировать данные, поступающие от различных источников, является исключительно важным свойством для получения информации, которую невозможно приобрести с помощью данных от одного, изолированного от других, источника.

333 2 3

Большой адронный коллайдер (LHC), находящийся в районе Женевы, представляет собой 27-й километровое кольцо сверхпроводящих магнитов, снабженных структурой ускорителей, предназначенных для многократного усиления энергии элементарных частиц, пропускаемых через коллайдер

Наконец, анализ данных является инструментом оценки их достоверности - важнейшей характеристики, которая может служить обоснованием для принятия важных решений. Однако большие массивы данных могут оказаться недостоверными из-за отсутствия связи между информационными элементами, их неполноценности или скрытого состояния. В процессах принятия решений важно учитывать, что уровень достоверности различных данных может быть неодинаковым. Современные информационные системы должны быть способны различать, оценивать и классифицировать различные массивы данных с целью поддержания определенного уровня достоверности искомого информационного продукта или приобретенных знаний.

Big data в здравоохранении, науке и транспорте

Данные имеют существенное значение в секторе здравоохранения для документирования болезней, а также методик и процедур лечения, предписанных пациентам. По оценкам аналитиков, при росте архивов медицинских карт на 20-40% в год средняя больница будет накапливать ежегодно до 665 Тбайт медицинских данных. Примеры аналитической обработки больших объемов данных в сфере здравоохранения многочисленны и разнообразны. Анализ такого рода приме-

няется как в исследовательской, так и в практической медицине. Например, находят применение системы дистанционного наблюдения за пациентами, имеющими хронические заболевания. Эти системы позволяют сократить потребность в личных встречах с врачом, число вызовов скорой помощи, количества дней госпитализации, лучше организовать уход за больным и предупредить некоторые медицинские осложнения, которые могут возникать в долгосрочной перспективе.

Анализ больших массивов данных, содержащих медицинские характеристики пациентов, результаты их лечения и затраты на медицинские услуги, могут способствовать принятию решения о необходимости более эффективного лечения как с клинической точки зрения, так и по финансовым соображениям. Кроме того, анализ эпидемиологических таблиц на международном уровне в целях выявления тенденций развития заболеваний на их предварительной стадии критически важен не только для предотвращения санитарных кризисов и эпидемий. Он также необходим для того, чтобы фармацевтическая и медицинская отрасли получили возможность моделировать будущий спрос на свою продукцию и на основании этих моделей принимать решения об инвестировании исследований и разработок в тех или иных областях медицины и фармацевтики.

Другим примером преимуществ использования структур big data являются усилия, предпринимаемые человечеством для разрешения тайн вселенной. Европейская организация по ядерным исследованиям (CERN), находящаяся всего в нескольких минутах езды на автомобиле от резиденции МСЭ, проводит один из самых значительных экспериментов в мире. Уже 50 лет CERN об-

рабатывает постоянно увеличивающиеся массивы данных, получаемых от исследований и экспериментов в области элементарных частиц и сил, с которыми частицы взаимодействуют. Большой адронный коллайдер (LHC) представляет собой сооружение в форме кольца длиной 27 км, оборудованное сверхпроводящими магнитами и ускоряющими структурами, предназначенными для многократного увеличения энергии частиц, пропускаемых через коллайдер. Детектор коллайдера, состоящий из 150 млн датчиков-улавливателей, действует подобно 30-фотокамере, которая фотографирует события столкновения частиц с частотой 40 млн кадров в секунду. В связи с необходимостью запоминать, распределять и анализировать получаемые данные, количество которых достигает 30 петабайт в год, в 2002 г. для коллайдера была создана всемирная вычислительная сеть. Огромное количество данных, полученных CERN, не структурировано и указывает только на то, произошло событие или нет. Ученые всего мира работают сегодня в тесном сотрудничестве, чтобы структурировать, реконструировать и анализировать события, а также определять причины их возникновения.

Мобильные телефоны оставляют «трассы установленных соединений», которые могут быть использованы для моделирования транспортных связей, что представляет особый интерес, поскольку имеется мало других источников данных по этой проблеме. Например, чтобы помочь планированию новых транспортных маршрутов, снижающих ущерб от транспортных пробок, оператор связи Orange в городе Абиджан (Кот д'Ивуар) предоставил доступ к массивам деноминированных данных, содержащих 2,5 млрд регистраций местных вызовов и сеансов обмена SMS-сообщениями между 5 млн пользователей за 5-месячный период. Аналогичным образом компания Korea Telecom помогла городу Сеулу определить оптимальные маршруты ночных автобусов. В результате к плану, разработанному муниципалитетом Сеула, было добавлено семь маршрутов. На фото представлен результат аналогичного анализа мобильного трафика в Женеве, проведенного компанией Swisscom.

На более высоком географическом уровне (региональном, глобальном) данные сеансов связи между мобильными телефонами вносят свой вклад в анализ схем миграции и являются особенно ценными для управления кризисными ситуациями. Запущенная ООН инициатива «Глобальный

импульс» (Global Pulse) отвечает за размещение в международных информационных сетях более свежей информации, отслеживающей социальные и экономические кризисы на локальном, региональном и мировом уровнях.

В сфере телекоммуникаций сетевые аналитические вычисления помогают поставщикам оптимизировать свои ресурсы, ориентированные на поставки оборудования и сетевой инфраструктуры, а операторам - предвидеть нарушения функционирования сетей связи и возникновение «узких мест» в операторском бизнесе до того, как они нанесут ущерб пользователям. Информация о состоянии сети в реальном времени совместно с данными о полном «профиле» абонентов дает прибавочную стоимость, поскольку позволяет предлагать продукты и услуги, отвечающие спросу, что, в свою очередь, создает предпосылки для повышения доходов, привлечения новых и удержания имеющихся пользователей. Сетевой анализ является также важным средством выявления злонамеренных атак на сеть и ограничения их действия путем запрета на доступ и отказа в обслуживании.

Компьютерная безопасность, защита данных и частной жизни

Структуры big data позволяют отслеживать перемещение, поведение и предпочтения отдельных индивидуумов, предвидеть их поведение с высокой точностью и без их согласия. Эти возможности находятся в явном противоречии с двумя фундаментальными принципами защиты данных, которыми являются скрытие данных и ограничение доступа к ним. Так, например, внедрение электронных медицинских досье и методов самообследования (с помощью датчиков на теле пациента) представляет собой большой шаг вперед в деле рационализации медицинских предписаний, режимов лечения и

ЗЗШИЕ

Цифровые следы от 15 млн соединений, установленных с помощью 2 млн мобильных телефонов абонентами компании Swisscom в Женеве (вечер пятницы)

333 2 2

программ восстановления здоровья, поскольку такого рода информация для многих пациентов является весьма чувствительной.

Анализ больших объемов регистрационных данных о вызовах по сетям мобильной связи, даже когда они осуществляются анонимно и лишены всех данных персонального характера, может позволить выделить собственные параметры пользователя. За счет косвенной связи сетевых параметров пользователя с другими (доступными для анализа) данными, такими как географически обусловленный характер вызывного сигнала или указатели места, которое пользователь подключил к линии связи, с определенной вероятностью может быть установлена и его идентичность.

Пропорционально тому, как растет в мировом масштабе объем персональных данных и цифровой информации вообще, происходит рост количества случаев доступа к ним и их использования. Возникла необходимость предоставления специальных гарантий, которые должны обеспечивать использование данных личного характера в соответствии с национальным и международным законодательством по защите персональных данных.

Другим вопросом, тесно связанным с предыдущей проблемой, является безопасность в сфере компьютерных технологий (cyber security). Угрозы и риски информационных атак должны быть переоценены с учетом феномена big data и технических решений, адаптированных к возможным последствиям преступлений в информационной сфере. Пришло время пересмотреть политику в области информационной безопасности и принципы руководства в информационной сфере, переориентировать их на безусловное соблюдение законов о защите данных и на уважение к частной жизни. Сегодня официальные статистические данные придется комплектовать на основе таких источников, как сотовые сети мобильной связи, а также данных от разнообразных служб, созданных на базе национальных сетей. Симпозиум WTIS привлек внимание к некоторым проблемам, касающимся соблюдения конфиденциальности персональной информации и уважения частной жизни при использовании структур big data. Симпозиум рекомендовал национальным регламентирующим органам заняться выработкой руководящих материалов по вопросу формирования, накопления и использования данных. Государственные статистические органы в кооперации с отраслевыми агентствами должны изучить возможность предоставления услуг на базе структур big data. При этом необходимо обеспечивать качество и аутентичность данных, соблюдать информационную безопасность частной жизни и фундаментальные принципы формирования официальной статистики.

Нормативы

Реализация ожиданий предприятий и индивидуальных пользователей в отношении структур big data потребует взаимодействия многих систем и технологий. Организации, ответственные за внедрение технических нормативов, дали зеленый свет многим инициативам и рабочим группам, возникающим с целью более глубокого исследования феномена big data. В 2012 г. Альянс безопасных облачных систем (Cloud Security Alliance) создал Рабочую группу по вопросу big data, миссия которой состоит в поиске технологий (модульной структуры), способных решить проблемы информационной безопасности и неприкосновенности частной жизни в сообществах, ориентированных на широкое использование данных. Исследования такого рода должны определить наиболее эффективные практики обеспечения безопасности и защиты частной жизни при использовании структур big data, а также помочь промышленному сектору и государственным органам адаптировать эти практики к своей повседневной деятельности.

Национальный институт стандартов и технологий (NIST) США предпринял активные действия по изучению проблемы big data. В июне 2012 г. он организовал специальную лабораторию, а в 2013 г. - рабочую группу, задачей которых является обеспечение надежной и эффективной адаптации феномена big data к современной информационной практике путем достижения консенсуса между участниками исследований по таким аспектам проблемы, как определения, таксономия и методы обеспечения информационной безопасности. Кроме того, они должны подготовить «дорожную карту» разработок в области методов анализа структур big data и связанных с анализом технологических инфраструктур. Комитет по нормализации систем управления и обмена данными ISO уже начал проводить исследования с помощью нового поколения аналитических процессов, использующих структуры big data. Консорциум W3C (World Wide Web Consortium), со своей стороны, создал несколько групп специалистов, которые также исследуют различные аспекты феномена big data.

Сектор нормализации телекоммуникаций МСЭ-Т в настоящее время работает над спецификациями индивидуальных сетевых инфраструктур под феномен big data. В процессе исследований МСЭ-Т по данной проблеме учитываются также работы, ведущиеся в различных странах и организациях в области сетей доступа, оптической транспортной инфраструктуры, сетевой функциональности, мультимедиа и информационной безопасности.

МСЭ-Т исследует также вопрос общности и различий между дематериализованной информатикой, основанной на облачных вычислениях, и информатикой,

ИЗ ЗАРУБЕЖНЫХ ИСТОЧНИКОВ ggf!

пп □

ПРАКТИКА

основанной на возможностях структур big data. Рекомендация UIT-TX.1600 «Условия безопасности, рекомендованные к применению в облачной информатике» определяет угрозы безопасности данных и соответствующие технологии, которые могут снизить эти угрозы. Продолжение работ в области нормализации таких технологий позволит обобщить случаи их применения для анализа структур big data. Можно напомнить также, что предыдущий отчет МСЭ по перспективам развития информационных технологий также ратует за внедрение более эффективных средств и методов информационной защиты частной жизни. Повсеместно признанный принцип «уважение частной жизни, как концепция», по всей видимости, должен соблюдаться неукоснительно в приложениях, использующих потенциал big data.

Учитывая, что МСЭ в данное время осуществляет перегруппировку своих членов - регуляторов, операторов связи, производителей оборудования, учебных и исследовательских институтов многих стран мира, он находится в идеальном положении, чтобы произвести обзор современных практик использования массивов агрегированных данных и разработку технических норм и прикладных принципов управления данной сферой.

МСЭ активизирует свои усилия в целях повышения уровня взаимодействия между информационными приложениями сферы здравоохранения и приложениями других областей экономики. В наибольшей степени эти усилия направлены на сферу обмена медицинскими данными и на концепцию индивидуальных систем контроля здоровья человека. С широким распространением персональных носимых устройств, обеспечивающих индивидуальный и сетевой контроль здоровья их владельцев, нормализация функциональных возможностей таких устройств позволит, например, осуществлять обмен защищенными данными между «интеллектуальными» устройствами разных производителей.

Благодаря стандартизации некоторых общих характеристик индивидуальных устройств медицинского назначения станут невозможными ограничения, которые могли бы вводить производители или специалисты по медицинскому оборудованию. Процессы анализа структур big data позволят интегрировать потоки данных, поступающие от различных аппаратов и делать выводы, на основании которых будут назначаться соответствующие процедуры и курсы лечения.

Рекомендация Н.265, разработанная МСЭ-Т на замену Рекомендации Н.264 и удвоившая качественные показатели последней, является хорошей основой для создания видеокодека, пригодного для организации доступа к web-сети. Учитывая важную роль, которую мультимедиа играют в Интернет-трафике, автоматический анализ цифровых изображений, цифровой аудио- и видеоинформации лучше проводить по методологии, близкой к анализу структур big data. Это важно, поскольку трафик открытых данных достигает степени насыщения как в индустриально развитых странах, так и в странах с развивающейся экономикой.

Учитывая низкий уровень взаимодействия существующих информационных систем и их регламентации, МСЭ необходимо взяться за продвижение и развитие открытого обмена данными и добиться в этом деле прогресса в партнерстве со сторонниками данного принципа в различных странах независимо от того, являются ли они членами МСЭ или нет. В рамках своей нормативной деятельности МСЭ мог бы, например, выработать правила обмена данными, а также механизмы публикации, распространения и использования комплексных данных.

Необходимо также провести некоторые дополнительные работы, позволяющие еще точнее определить потенциал, которым обладает феномен big data, а конкретно, МСЭ - более глубоко исследовать те возможности, которые этот феномен предоставляет отрасли информационных и коммуникационных технологий. ■ По материалам журнала Nouvelles de I'UIT

i Надоели баннеры? Вы всегда можете отключить рекламу.