Сер. 10. 2012. Вып. 2
ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
УДК 519.68
В. М. Буре, М. В. Свиркин, А. Г. Степанов МЕТОДОЛОГИЯ ПОСТРОЕНИЯ
ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОГО ПРОГРАММНОГО КОМПЛЕКСА ДЕЯТЕЛЬНОСТИ ОРГАНИЗАЦИОННЫХ СИСТЕМ
1. Введение. В настоящее время в задачах, связанных с разработкой управленческих решений, основное внимание направлено на получение объективной информации, а также на последующий анализ на основе применения современных информационных технологий и математико-статистических методов обработки. Главной задачей является создание программных модулей поддержки принятия обоснованных оптимальных решений.
Настоящая статья посвящена методологии проектирования информационно-аналитических программных комплексов по обработке статистической информации деятельности организационных систем. Рассматриваются основные принципы использования современных информационных технологий для решения такого рода задач вместе с разработкой информационно-аналитических программных комплексов этих систем. Особое внимание уделяется использованию современных математико-статистических методов анализа специфических данных, характерных для организационных систем. Работоспособность предлагаемой методологии иллюстрируется в п. 5 на примере создания информационно-аналитического программного комплекса «Анализ приема в СПбГУ», созданного в рамках выполнения прикладного гранта по Мероприятию 3 на 2011 г.
2. Методология применения информационных технологий. Использование информационных технологий для математико-статистической обработки данных и создания программного комплекса поддержки принятия управленческих решений в организационных системах накладывает определенные требования в проектирование таких комплексов. Предполагается, что аналитический комплекс является внутренним модулем для интегрированной системы. Такой подход должен согласовываться с современными принципами проектирования сложных программных комплексов и выбором оптимального программного обеспечения для внутреннего информационно-аналитического модуля. Основным программным продуктом, используемым для написания комплекса,
Буре Владимир Мансурович — доктор технических наук, профессор кафедры математической теории игр и статистических решений факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Количество опубликованных работ: 122. Научные направления: анализ данных, вероятностно-статистическое моделирование. E-mail: [email protected].
Свиркин Михаил Владимирович — кандидат физико-математических наук, доцент кафедры математического моделирования энергетических систем факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Количество опубликованных работ: 20. Научное направление: статистический анализ. E-mail: [email protected].
Степанов Александр Германович — математик факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Научное направление: технология программирования. Телефон: +7(905)228-31-52.
© В. М. Буре, М. В. Свиркин, А. Г. Степанов, 2012
служит современная система управления базами данных (БД). Вопрос заключается именно в том, какие задачи по анализу и принятию решений в деятельности организационной системы должен решать проектируемый комплекс. В статье рассматривается случай, когда основными задачами являются многокритериальный отбор данных, описательная статистика, визуализация и графический вывод информации, а также математико-статистический анализ данных.
Предположим, что рассматриваемая организационная система характеризуется многочисленными аспектами деятельности, а число записей в таблицах БД исчисляется десятками тысяч. К наиболее подходящим БД для адекватного описания организационной системы относится Access [1].
Access является классической реляционной БД с поддержкой концепции объектно-ориентированного программирования, которая позволяет адекватно описать компьютерную модель данных организационной системы, в которой хорошо реализован процесс импорта и экспорта данных, есть хорошие возможности встроенного языка VBA, позволяющего писать приложения произвольной сложности.
Для написания математического модуля информационно-аналитического комплекса наиболее разумно использовать язык программирования С#.
3. Алгоритм проектирования программных комплексов. Самый сложный этап создания программно-аналитического комплекса - этап его проектирования [2,3]. На этом этапе осуществляется связь логики программного комплекса с его программной реализацией. Формально алгоритм проектирования будет состоять из следующих пунктов-этапов:
1) построение модели предметной области деятельности организационной системы;
2) построение информационно-логической модели как формализованной модели предметной области;
3) проектирование реляционной БД с соответствующей нормализацией;
4) проектирование интерфейса, форм и многоуровневых отчетов данных с многокритериальным отбором;
5) проектирование математико-статистического модуля анализа;
6) проектирование модуля поддержки принятия управленческих решений.
4. Математико-статистический модуль обработки данных. Он представляет собой упорядоченный набор процедур, реализующих математико-статистический анализ собранных посредством многокритериального отбора данных. Этот модуль функционально решает несколько задач:
1. Проведение первичного статистического анализа на основе использования дескриптивной статистики.
2. Проведение вероятностного анализа данных с построением плотностей законов распределения, их визуализацией и возможностью проведения сравнительного анализа.
3. Определение статистических коэффициентов, описывающих взаимозависимости между выбранными показателями, такими как каппа Коэна, каппа Флейса и т. д.
4. Возможность сформулировать статистическую гипотезу, получить необходимые данные и проверить ее с определенным уровнем значимости.
Специфика рассматриваемых данных в значительной мере определяет выбор статистических инструментов, применяемых для их анализа. Особенность анализируемых данных, получаемых в результате деятельности организационных систем, заключается в том, что основа данных - это данные, имеющие бинарную природу (1 - да, 0 - нет), или, в общем случае, дискретную природу, как правило, с небольшим количеством
градаций. Вследствие этого при большом количестве данных по одной переменной имеется очень большое число совпадений значений числовых признаков. Это обстоятельство затрудняет обоснованное применение традиционных методов анализа данных и вызывает необходимость использования таких инструментов анализа, которые позволяли бы учесть такую особенность. Изучаемые данные носят в значительной мере классификационный характер, следовательно, и их анализ должен проводиться методами, специально разработанными для классификационных (номинальных) шкал или для измерений, частично проводимых в классификационных шкалах.
Одной из основных математических методик исследования взаимосвязи между выбранными показателями является применение ранговых коэффициентов корреляции и таблиц сопряженности.
Отметим, что ранговые коэффициенты корреляции используются для определения наличия или отсутствия связи и оценки силы связи, когда по каждому признаку можно провести упорядочивание объектов (порядковые шкалы). При значительном числе совпадений ранговые коэффициенты корреляции неприменимы в принципе. Таблицы сопряженности лишены такого ограничения и применяются для изучения связи признаков, измеренных в номинальных шкалах или в любых других шкалах при наличии небольшого числа градаций для возможных значений признака. Целесообразно использование многочисленных коэффициентов, включая, например, каппу Коэна.
5. Проектирование программного комплекса «Анализ приема в СПбГУ». Рассмотрим создание информационно-аналитического программного комплекса по приему абитуриентов в соответствии с предложенной выше методологией. Выделим основные сущности предметной области - проведение процесса приема в высшее учебное заведение - на примере приема в Санкт-Петербургский государственный университет. Основные сущности (метаданные):
1. Высшее учебное заведение (структурные учебные подразделения внутри СПбГУ - факультеты, структура факультетов - направления, специальности).
2. Абитуриент (регион, тип конкурса, основа обучения, направление).
3. Предметы ЕГЭ, баллы ЕГЭ.
4. Олимпиады.
5. Успеваемость.
Первичные данные размещаются в трех основных БД:
• БД Прием (данные по поступлению);
• БД Олимпиады (данные по зачетным олимпиадам);
• БД Деканат (данные по успеваемости в процессе учебы) (или ее аналог). Отправной пункт формализации данных - это анализ данных по поступлению, т. е. первичных данных из БД Прием, которые включают в себя основные сведения об абитуриенте:
• факультет (предполагается возможность проведения аналитического исследования для любого факультета СПбГУ);
• специальность (по поступлению);
• форма обучения (дневная, вечерняя, заочная);
• основа обучения (госбюджетная, договорная);
• регион (откуда прибыл);
• тип конкурса (общий, без экзамена, вне конкурса, договорной и т. д.);
• ЕГЭ по необходимым предметам (на каждой специальности свои предметы) и творческие конкурсы;
• данные по олимпиадам:
- вид (всероссийская, СПбГУ, другая олимпиада),
- уровень (первый, второй, третий),
- предмет (согласно специальности),
- степень (победитель, призер, участник).
Это основные данные. Также БД Прием включает в себя набор дополнительных персональных данных (дата рождения, пол, военнослужащий, инвалид, с ограниченными возможностями, сирота, участник боевых действий и т. д.), что позволяет проводить исследования для специфических групп поступающих.
На основе таких данных можно программно сформировать следующие большие группы поступивших в СПбГУ абитуриентов:
1. Победители олимпиад.
2. Участники олимпиад, но не победители (поступили по ЕГЭ)(имеют дополнительные баллы).
3. Поступившие по ЕГЭ (не участвовали в олимпиадах). Вышеперечисленные группы формируются для каждого года поступления. Кроме того, предусмотрено выделение таких подгрупп:
1) тип олимпиады;
2) регион;
3) балл ЕГЭ.
Данные из этих трех баз позволяют решить одну важную задачу исследования: проведение анализа зависимостей между способом поступления в высшее учебное заведение (ЕГЭ, олимпиада и т. д.) и оценками, полученными на первом курсе по профильным экзаменам, включая их динамику, а также выяснение характера и вида этих зависимостей.
Программный комплекс предназначен для анализа статистических данных по контингенту поступивших в СПбГУ (в том числе участвующих в зачетных олимпиадах). Для решения этой задачи предлагается следующий набор программных средств: возможность отбора контингента по многочисленным критериям, получение статистик по выборке, построение наглядных диаграмм, отображающих статистические показатели в графическом виде, построение плотностей распределения баллов ЕГЭ по различным предметам для разных факультетов, а также статистика успеваемости по результатам учебы в СПбГУ.
В программном комплексе для анализа успеваемости с многокритериальным выбором данных используются вкладки:
• Успеваемость (предметы),
• Успеваемость (оценки),
• Успеваемость (статистика),
• Успеваемость (диаграммы).
Использование такого модуля позволяет получить, с одной стороны, многоуровневые аналитические отчеты по вкладке «Успеваемость», а с другой - данные в нужном виде, необходимые для математического анализа проверки статистических гипотез.
На рисунке представлен интерфейс главного окна программного комплекса с данными многокритериального отбора по факультету, специальностям и типу конкурса с данными по успеваемости по первому семестру и баллами ЕГЭ. Далее эти данные используются для проведения математико-статистического анализа.
Главное окно программы
6. Математический модуль. Этот модуль формирует дескриптивную статистику, позволяющую получить числовые характеристики структуры контингента поступивших абитуриентов (ЕГЭ и олимпиады), распределения баллов по предметам ЕГЭ и успеваемости студентов.
Так, для выделенных групп и подгрупп проводится анализ данных - определяются максимальный, минимальный баллы, медиана и средняя сумма баллов в различных разрезах: по специальностям, по регионам, по предметам, по форме обучения (дневная, вечерняя), по основе обучения (бюджетная, договорная) и т. д.
Сопоставление описательной статистики для нескольких лет позволяет выявлять основные тренды в динамике поступающих в СПбГУ и строить прогнозы на следующий год.
В программном комплексе реализована возможность определения не только числовых характеристик, но и плотностей распределений значений баллов, полученных абитуриентами по ЕГЭ и творческим конкурсам, по различным предметам и факультетам.
Математическое исследование взаимосвязи профильных и непрофильных предметов ЕГЭ, а также зависимости успеваемости студентов от баллов ЕГЭ и участия в олим-пиадном движении проводится на основе применения ранговых коэффициентов корреляции и таблиц сопряженности.
В программном комплексе ранговые коэффициенты корреляции используются для установления наличия или отсутствия связи между результатами ЕГЭ по разным предметам. Статистическим критерием независимости признаков служит критерий \2 или точный критерий Фишера.
Таблицы сопряженности применяются для изучения связи признаков, измеренных в номинальных шкалах или в любых других шкалах при наличии небольшого числа градаций для возможных значений признака. В программном комплексе таблицы сопряженности используются для решения вопроса о взаимосвязи оценок, полученных студентом на первой сессии, от баллов ЕГЭ при поступлении в СПбГУ.
7. Заключение. Основными результатами данной статьи являются:
1) разработка методологии по созданию информационно-аналитических программных комплексов анализа деятельности организационных систем;
2) обоснование применения соответствующих информационных технологий, используемых для создания таких комплексов;
3) методика применения статистико-математических методов анализа деятельности организационных систем;
4) создание общего алгоритма проектирования информационно-аналитических программных комплексов;
5) иллюстрация предлагаемой методологии на примере создания информационно-аналитического программного комплекса «Анализ приема в СПбГУ».
Литература
1. Кошелев В. Е. A^ess 2007. Эффективное использование. М.: Бином, 2009. 592 с.
2. Новиков А. М., Новиков Д. А. Методология научного исследования. М.: Либроком, 2009. 280 с.
3. Дэйт К. Дж. Введение в системы баз данных. 8-е изд. / пер. с англ. М.: Вильямс, 2008. 1328 с. (Date R. J. Introduction to daytobaise systems.)
Статья рекомендована к печати проф. Л. А. Петросяном. Статья принята к печати 28 февраля 2012 г.