Применение аналитических систем при принятии
управленческих решений в органах внутренних
дел (аналитические системы OLAP)
А.О. Горбенко
доцент, член-корреспондент Академии проблем безопасности, обороны и правопорядка (Академия экономической безопасности МВД России) к.т.н.;
А.В. Мамасуев
доцент (Академия экономической безопасности МВД России)
к.физ.-мат.н.
Информационно-аналитическая работа вообще, а в органах внутренних дел (ОВД) в частности, основана чаще всего на обработке не связанных, на первый взгляд, данных.
Более того, накопленная в базах и хранилищах данных (более современное название) информация далеко не всегда вовремя и в полном объёме предъявляется руководителю при подготовке того или иного решения.
Использование баз данных также не всегда дает желаемый результат автоматизации деятельности ОВД, так как запросы к базам данных стандартны (заранее запро-граммированы_ и не подлежат оперативной коррекции, а руководителю иногда нужен нестандартный запрос на получение определённой выборки данных. Особо отметим, что управленческое решение в ОВД часто необходимо принимать, учитывая быстро меняющуюся обстановку.
Следует также отметить, что возможности человеческого мозга по оперативной обработке поступающих или имеющихся данных ограничены. Соответственно, большое количество оценочных критериев человеческим мозгом сводится к нескольким «ключевым» критериям, что при многокритериальном анализе ведет к пропуску важной информации и к принятию недостаточно обоснованных решений.
Возникает противоречие, которое можно разрешить введением нового, отличного от прежнего и традиционного способа (метода) анализа данных.
Как известно, в 2005 г. началась реализация крупного инфраструктурного проекта - целевой программы МВД России - создание единой информационно-телекоммуникационной системы (ЕИТКС) ОВД, рассчитанной на период до 2008 г. и направленной на создание инфраструктуры, интегрирующей информационные ресурсы
общего пользования органов внутренних дел за счет реконструкции и технического перевооружения информационных центров, входящих в систему МВД России.
ЕИТКС должна соединить множество баз и хранилищ данных в некоторое единое пространство, позволяющее сотрудникам правоохранительных органов использовать весь объем накопленных данных для своей повседневной деятельности, связанной, в том числе, с информационно-аналитическим обеспечением правоохранительной деятельности в области экономической безопасности.
Поэтому после ввода в строй ЕИТКС встанет вопрос об обработке информации, содержащейся в различных базах данных, с целью повышения эффективности деятельности органов внутренних дел. Для этого необходимо ориентироваться на самые последние разработки в области анализа и синтеза данных.
Одной из таких разработок является OLAP-метод или OLAP-технология, применяемая ранее при обработке банковской или коммерческой информации1.
Авторы предполагают, что эти современные методы, используемые в аналитических системах, да и сами системы, с успехом можно использовать в работе ОВД.
Среди методов обработки данных принято выделять системы и технологии интеллектуального анализа данных2:
— аналитические системы (OLAP) -оперативный анализ данных;
— технологии добычи данных (Data Mining) - поиск и интеллектуальный выбор данных;
— деловые интеллектуальные технологии (BIS-Business Intelligence Services). Главными задачами таких систем является поиск функциональных и логических закономерно-
http://www.statistica.ru/
стеи в накопленных данных, для подсказки обоснованных управленческих решений;
— структурные аналитические технологии (CAT), выполняющие интеллектуальный анализ текстовой информации. Они ориентированы на углубленную обработку неструктурированной информации. Реализуют уникальную способность человека интерпретировать (толковать) содержание текстовой информации и устанавливать связи между фрагментами текста. CAT реализованы на базе гипертекстовой технологии, лингвистических процессоров, семантических сетей;
— технологии экспертных систем(осно-ваны на формализованном способе представления знаний в предметной области);
— технологии систем поддержки принятия решений (DSS) - базируются на информационных хранилищах и аналитических данных.
Для последующих рассуждений необходимо ввести понятие технологии информационного хранилища.
Такая технология обеспечивает сбор данных из существующих внутренних баз данных ОВД и внешних баз данных, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных (знаний) в форме, удобной для анализа и принятия управленческих решений.
К внутренним базам данных МВД (ОВД) относятся локальные базы подсистем (уровень преступности, базы утраченных паспортов, утраченного оружия и др.
К внешним базам - данные, доступные по каналам связи (например по системе ЕИТКС) и размещённые в базах данных других правительственных и законодательных органов, других учреждений и служб (Таможенный комитет, Прокуратора, Верховный суд и т.д.).
Отличие баз данных от информационного хранилища заключается в следующем.
Базы данных содержат только оперативные данные. Информационное хранилище обеспечивает доступ как к внутренним данным организации, так и к внешним источникам данных, доступным по любым каналам связи (в том числе и защищенным - система ДИОНИС).
База данных ориентирована на одну модель данных подсистемы. Информационные хранилища поддерживают большое число моделей данных, включая многомерные.
Идея, положенная в основу технологии информационных хранилищ, состоит в том,
что все необходимые для анализа данные извлекаются из нескольких локальных баз, преобразуются посредством статистических методов в аналитические данные, которые помещаются (погружаются) в один источник данных - информационное хранилище.
В процессе погружения данные3:
— очищаются от ненужной для анализа информации (адреса, почтовые индексы, идентификаторы записей и т.д.);
— агрегируются (вычисляются суммарные, средние, минимальные, максимальные и другие статистические показатели);
— при объединении данных из внутренних и внешних источников производится их преобразование в единый формат;
— данные согласуются во времени, то есть приводятся в соответствие к одному моменту времени (например, к единому курсу рубля на текущий момент) для использования в сравнениях, трендах, прогнозах.
Таким образом, данные, погруженные в хранилище, приобретают новые свойства. Они являются основой для построения аналитических систем и систем поддержки принятия решений.
Управленческомуперсоналуинформаци-онное хранилище обеспечивает предметно-ориентированный подход, отображая какая информация имеется в наличии, как она получена, как может быть использована. При этом обеспечивается конфиденциальность (секретность) данных, предназначенных различным уровням руководителей и сотрудников.
Руководителям данные доступны посредством инструментов создания интерактивных отчётов на экране, многомерного просмотра данных.
Обычно поддержка принятия управленческих решений осуществляется в следующих режимах4:
— анализ детализированных данных;
— обработка агрегированных показателей;
— выявление закономерностей.
Режим выявления закономерностей
основан на интеллектуальной обработке данных. Главной задачей здесь является выявление закономерностей в исследуемых процессах, взаимосвязей и взаимовлияния различных факторов, поиск крупных «непривычных» отклонений, прогноз хода различных существенных процессов. Эта область относится к интеллектуальному анализу (Data mining).
2 http 3 http 4 http
//www.mvd.ru/
//www.visualanalytics.com/
//www.nacbez.ru/security/
ei Z
eo о о
N
U U О о.
d
со
н
и о
X
и п
Е
о
м ф
в
о а
о ф
г S
S о
X
о а
т
S ф
ч:
п
а <
х s х
н
и ф
со
ei Z
eo о о
N
U U О (L
EX
CQ
н
и о
X
и п
Е О
м ф
в
о а и ф г S Е о х о а т
S ф
ч:
п
а <
X S X н
и ф
со
Анализ детализированных данных и агрегированных показателей относится к оперативному или OLAP-анализу. Концепция технологии OLAP была сформулирована Эдгаром Коддом в 1993 году. Этот анализ и представляет особый интерес.
Аналитические системы OLAP (OnLine Analytical Processing) предназначены для анализа больших объемов информации в интерактивном режиме и создания аналитических данных, позволяющих руководителю принять обоснованное решение. Они обе спечивают5:
— агрегирование и детализацию данных по запросу;
— выдачу данных в терминах предметной области;
— анализ деловой информации по многим параметрам (например, поставщик, его местоположение, поставляемый товар, цены, сроки поставки и т.д.);
— произвольные срезы данных по наименованию, выбираемых из внутренних и внешних источников (например, по наименованию товара);
— выполнение аналитических операций с использованием статистических и других методов.
Эта технология основана на построении многомерных наборов данных, так называемых OLAP-кубов (не обязательно трехмерных, как можно было бы заключить из определения). Целью использования технологий OLAP является анализ данных, и представление этого анализа в виде, удобном для восприятия управляющим персоналом и принятия на их основе решений.
Основные требования, предъявляемые к приложениям для многомерного анализа:
— предоставление пользователю результатов анализа за приемлемое время (не более 5 сек.);
— многопользовательский доступ к данным;
— многомерное представление данных;
— возможность обращаться к любой информации независимо от места ее хранения и объёма.
Инструменты OLAP-систем обеспечивают возможность сортировки и выборки данных по заданным условиям. Могут задаваться различные качественные и количественные условия.
Основной моделью данных, использованных в многочисленных инструмен-
тальных средствах создания и поддержки баз данных - СУБД, является реляционная модель. Данные в ней представлены в виде множества связанных ключевыми полями двумерных таблиц - отношений. Для устранения дублирования, противоречивости, уменьшения трудозатрат на ведение баз данных применяется формальный аппарат нормализации таблиц-сущностей. Однако применение его связано с дополнительными затратами времени на формирование ответов на запросы к базам данных, хотя и экономятся ресурсы памяти.
Многомерная модель данных представляет исследуемый объект в виде многомерного куба, чаще используют трехмерную модель. По осям или граням куба откладываются измерения или реквизиты-признаки. Реквизиты-основания являются наполнением ячеек куба. Многомерный куб (пул данных) может быть представлен комбинацией трехмерных кубов с целью облегчения восприятия и квазиобъемного представления при формировании отчетных и аналитических документов и мультимедийных презентаций по материалам аналитических работ в системе поддержки принятия решений ОВД.
Типы многомерных OLAP-систем6.
В рамках OLAP-технологий на основе того, что многомерное представление данных может быть организовано как средствами реляционных СУБД, так и многомерных специализированных средств, различают три типа многомерных OLAP-систем:
— многомерный (Multidimensional) OLAP- MOLAP;
— реляционный (Relation) OLAP - ROLAP;
— смешанный или гибридный (Hibrid) OLAP - HOLAP.
Многомерные ОLAP-системы.
В многомерных СУБД данные организованы не в виде реляционных таблиц, а в виде упорядоченных многомерных массивов в виде гиперкубов, когда все хранимые данные должны иметь одинаковую размерность, что означает необходимость образовывать максимально полный базис измерений. Данные могут быть организованы в виде поликубов, в этом варианте значения каждого показателя хранятся с собственным набором измерений, обработка данных производится собственным инструментом системы. Структура хранилища в этом случае упрощается, так как отпадает необходимость
5 http://www.sas.com
6 Кузнецов Н.Н. Информация: сбор, защита, анализ: учебник по информационно-аналитической работе. - М., ООО Изд. Яуза, 2001.
в зоне хранения данных в многомерном или объектно-ориентированном виде. Снижаются огромные трудозатраты на создание моделей и систем преобразования данных из реляционной модели в объектную.
Достоинствами MOLAP являются:
— более быстрое, чем при ROLAP получение ответов на запросы - затрачиваемое время на один-два порядка меньше;
— из-за ограничений SQL затрудняется реализация многих встроенных функций.
К ограничениям MOLAP относятся7:
— сравнительно небольшие размеры баз данных;
— за счет денормализации и предварительной агрегации многомерные массивы используют в 2,5-100 раз больше памяти, чем исходные данные (расход памяти при увеличении числа измерений растет по экспоненциальному закону);
— отсутствуют стандарты на интерфейс и средства манипулирования данными;
— имеются ограничения при загрузке данных.
Реляционные OLAP-системы8:
Трудозатраты на создание многомерных данных резко увеличиваются, так как практически отсутствуют в этой ситуации специализированные средства объективизации реляционной модели данных, содержащихся в информационном хранилище. Время отклика на запросы часто не может уложиться в рамки требований к OLAP-системам.
Достоинствами ROLAP-систем являются:
— возможность оперативного анализа непосредственно содержащихся в хранилище данных, так как большинство исходных баз данных - реляционного типа;
— при переменной размерности задачи выигрывают ROLAP, так как не требуется физическая реорганизация базы данных;
— ROLAP-системы могут использовать менее мощные клиентские станции и серверы, причем на серверы ложится основная нагрузка по обработке сложных SQL-запросов;
— уровень защиты информации и разграничения прав доступа в реляци-
онных СУБД несравненно выше, чем в многомерных.
Недостатком ROLAP-систем является меньшая производительность, необходимость тщательной проработки схем базы данных, специальная настройка индексов, анализ статистики запросов и учет выводов анализа при доработках схем баз данных, что приводит к значительным дополнительным трудозатратам.
Выполнение же этих условий позволяет при использовании ROLAP-систем добиться схожих с MOLAP-системами показателей в отношении времени доступа, а также превзойти в экономии памяти.
Гибридные OLAP-системы9:
Представляют собой сочетание инструментов, реализующих реляционную и многомерную модель данных. Это позволяет резко снизить затраты ресурсов на создание и поддержание такой модели, время отклика на запросы.
При таком подходе используются достоинства первых двух подходов и компенсируются их недостатки. В наиболее развитых программных продуктах такого назначения реализован именно этот принцип.
Использование гибридной архитектуры в OLAP-системах - это наиболее приемлемый путь решения проблем, связанных с применением программных инструментальных средств в многомерном анализе.
Выводы.
Авторы считают, что в преддверии завершения работ по созданию ЕИТКС в МВД (срок окончания - 2008 год) на первый план выходит вопрос выбора инструментов (в том числе математических и программных) для обработки первичных данных с целью обеспечения информационно-аналитиче ской работы. Поэтому, этой публикацией авторы предлагают к обсуждению направление работы, связанное с математическим, программным и инструментальным обеспечением информационно-аналитической работы ОВД.
Авторы с благодарностью примут все критические замечания.
01 Z
во о о
N
U U О о.
d
со
н
и о
X
и п
Е
о
м ф
в
о а
о ф
г S
S о
X
о а
т
Там же.
8 http://www.nacbez.ru/security/
9 http://www.basegroup.ru/
S ф
ч:
п
к <
X S X н
и ф
со
7