еория управления социально-экономическими и организационными структурами
УДК 62-50
МЕТОДОЛОГИЯ ЭКСПЕРТНО-КЛАССИФИКАЦИОННОГО АНАЛИЗА О ЗАДАЧАХ УПРАОЛЕНИЯ И ОБРАБОТКИ ДАННЫХ
(история и перспективы развития]
A.A. Дорофеюк
Рассмотрена история и перспективы развития методологии структурно-классификационного анализа сложноорганизованных данных — стремительно развивающееся как в России, так и за рубежом направления, «выросшего» из статистических методов обработки данных и распознавания образов. Описаны как теоретические, так и прикладные полученные результаты.
Ключевые слова: экспертно-классификационный анализ; автоматическая классификация, экстремальная группировка параметров; кусочная аппроксимация сложных зависимостей; структурное прогнозирование; многовариантная экспертиза.
ВВЕДЕНИЕ
Основу методологии структурно-классификационного анализа данных заложили работа Э.М. Бра-вермана 1960 г. и последующие работы Э.М. Бра-вермана и А.А. Дорофеюка 1963—1966 гг., которые выполнялись в лаборатории Института автоматики и телемеханики (ныне Институт проблем управления им. В.А. Трапезникова РАН), руководимой М.А. Айзерманом. Зарождение и пути развития этой тематики подробно рассмотрены и проанализированы в статье [1] из сборника, посвящённого памяти выдающегося советского и российского учёного — Марка Ароновича Айзермана. Отметим только, что именно М.А. Айзерману принадлежит идея формирования нового научного направления, связанного с моделированием способности многих биологических объектов к самообучению, к формированию новых понятий, способности автономно группировать наблюдаемые объекты (или события) в классы «подобных». Сейчас это стремительно развивающееся направление, идеологически близкое к распознаванию образов, называют «интеллектуальным анализом данных», «структурно-классификационным анализом», «разведочным анали-
зом», на Западе оно известно, в основном, под названием «DATA MINING».
Основная идея этого направления состоит в следующем. Пусть имеется некоторый массив данных, описывающий состояние исследуемой группы из n объектов. Обычно под этим подразумевается, что имеется к параметров (числовых, качественных или номинальных), значения которых xj1) (i = 1, ..., к, j = 1,..., n), и определяют этот массив как матрицу данных. В динамических случаях значения параметров изменяются со временем xjl) (t),
поэтому массив становится трёхмерным (куб данных). Необходимо выявить структуру этого массива для построения сжатого, содержательно хорошо интерпретируемого описания исследуемых объектов с целью: идентификации основных характеристик их функционирования, выявления и прогнозирования интегральных показателей поведения объектов во времени, поиска закономерностей их взаимодействия и т. д. При этом выявление структуры производится по всем трём «направлениям» куба данных — структуре объектов в различных подпространствах параметров, структуре взаимосвязи параметров по данным имеющего-
СПЕЦИАЛЬНЫЙ ВЫПУСК ЖУРНАЛА «ПРОБЛЕМЫ УПРАВЛЕНИЯ» № 3.1 • 2009
19
!>?!?!"!?
ся массива, структуре динамических характеристик объектов (например, структуре траекторий параметров или интегральных показателей исследуемых объектов).
1. СТРУКТУРИЗАЦИЯ ОБЪЕКТОВ
Для выявления структуры объектов широко применяются методы структурного анализа данных (другие названия: автоматическая классификация, кластер-анализ, самообучение, распознавание образов без учителя, численная таксономия, стратификация и др.). Основы теории и алгоритмической базы этого направления были заложены Э.М. Браверманом и А.А. Дорофеюком в 1961—1966 гг. в ИПУ РАН (в то время — ИАТ), а затем продолжены А.А. Дорофеюком и сотрудниками его лаборатории — Е.В. Бауманом, А.Л. Чернявским, И.Б. Мучником, Н.Е. Киселёвой, В.Г. Мов-сумовым, А.Г. Дмитриевым, Ю.А. Дорофеюк. В Институте этой же проблематикой занимались также Я.З. Цыпкин, Г.К. Кельманс, Р.П. Агаев, В.Н. Вап-ник, А.Я. Червоненкис, А.Р. Стефанюк, А.А. Журавель, Касавин А.Д., В.Я. Лумельский. Из других научных центров, активно занимавшихся задачами этого направления, отметим ВЦ РАН (Ю.И. Журавлёв, К.В. Рудаков, В.В. Моттль, К.В. Воронцов и др.), ЦЭМИ РАН (С.А. Айвазян, З.И. Бежаева, И.С. Енюков, В.С. Мхитарян, О.В. Староверов, и др.), ЦНИИКА (И.Ш. Торговицкий, И.П. Баумш-тейн и др.), Институт математики СО АН СССР (Н.Г. Загоруйко, Г.С. Лбов, В.Н. Елкина и др.), ИЭОПП СО АН СССР (Б.Г. Миркин, В.Л. Купер-шток и др.), Горьковский (ныне Нижегородский) Государственный университет (Ю.И. Неймарк и его сотрудники), Институт кибернетики АН УССР (М.И. Шлезингер, В.А. Ковалевский, А.В. Миленький, А.Г. Ивахненко и др.). Из зарубежных центров упомянем университеты в Мэриленде, Лос-Анжелесе, Энн-Арборе, Пэдью (США); Риме, Солерно, Удине, Милане, Национальную лабораторию кибернетики в Неаполе (Италия); Марселе, Экс-ин-Провансе, Бордо, Гренобле, университет Париж-IX, ИНРИА (Франция); технические университеты в Аахене и Брауншвейге (Германия), Международный институт прикладного системного анализа (Австрия). С большинством из них Институт долгие годы поддерживал плодотворное сотрудничество в рамках взаимного командирования специалистов, организации и проведения конференций и симпозиумов, межправительственных соглашений (Италия, Франция, Австрия), а также прямых договоров и соглашений между Академией наук или Институтом и зарубежными научными центрами — университеты в Удине, Солерно, Риме (Италия), ИНРИА (Франция), Мичиганский университет (Энн-Арбор, США).
1.1. Содержательная постановка задачи автоматической классификации
Пусть исследуется некоторое множество п объектов. Предположим, что все объекты разделены по своим свойствам на г классов, причем объекты с близкими свойствами попадают в один и тот же класс, а с существенно различными — в разные классы. Кроме того, будем предполагать, что каждый такой объект характеризуется значениями некоторого заранее выбранного набора из к параметров {х(1), ..., х(к)}, причём предполагается, что этот набор достаточно полно характеризует свойства исследуемых объектов, которые необходимо учитывать при их классификации. Введем в рассмотрение к-мерное пространство параметров X, в котором /-й оси соответствуют значения параметра х(г), т. е. „/-му объекту в пространстве X соответ-
/ ( 1)
ствует точка xj = ( xj ,
). В соответствии со
сделанными предположениями, близким в пространстве X точкам будут соответствовать объекты с близкими свойствами. Тогда задачу выявления структуры объектов можно поставить как задачу разбиения пространства X на такие г областей, чтобы близкие точки исходной выборки, как правило, попадали в одну и ту же область (задача автоматической классификации). Для случая конечной выборки задача сводится к выделению г изолированных, «компактных» групп точек (классов) исходной выборки в к-мерном пространстве параметров X.
За 10 лет (1960—1970 гг.) было опубликовано огромное число работ, в которых предлагались различные эвристические алгоритмы автоматической классификации, опирающиеся на содержательную постановку этой задачи, когда либо не формализован критерий качества классификации, либо не доказано, что алгоритм экстремизирует какой-либо формальный критерий. Разнообразие и особенности таких алгоритмов достаточно полно отражены в обзоре [2].
1.2. Формальная постановка задачи автоматической классификации
Впервые формальная постановка задачи автоматической классификации была сделана М.И. Шлезингером в 1963 г. (опубликована в 1965 г.). Он сформулировал критерий качества разбиения следующего общего вида:
R = Z P, í í S(x, y)P(x/j)P(y/j)dxdy,
(1)
j = i A A
где ^(х, у) — потери от отнесения точек х и у к одному и тому же классу А,, Р(х//) — условная плотность распределения вероятностей в классе А,, р, —
20
SPECIAL ISSUE «CONTROL SCIENCES» № 3.1 • 2009
априорная вероятность класса А,. Однако в дальнейшем он рассматривал только случай конечного классифицируемого множества точек с квадратичной функцией потерь S(x, у) = (х — у) . В этом случае критерий (1) принимает вид средневзвешенной
Г
дисперсии точек в классах Я(г) = ^ ^ (хг- — с,) ,
) =1 хе А
где с, — центр тяжести точек в классе А,.
В это же время (1963—1966 гг.) в ИАТе были введены в рассмотрение формальные критерии качества классификации и разработаны алгоритмы их экстремизации. Здесь следует выделить два случая — конечное или бесконечное множество классифицируемых точек. Первые работы относились к существенно более простому случаю конечного числа классифицируемых точек. Был предложен целый ряд критериев качества классификации, базирующихся на характеристиках средней близости точек в классах и средней близости (удаленности) самих классов. В статье [3] был введён класс критериев I=/(/1, 12), причем I должно увеличиваться с увеличением 11 и уменьшаться с уменьшением 12. К такому классу относятся, например, критерии
11
,3 = /, - /4 = а, /, = ^, (2)
где q — некоторая константа, корректирующая разномасштабность величин 11 и 12. В выражениях (2) критерий 11 — это средняя по классам мера
1Г
близости точек в классах 11 = - ^ К(А., А), где
І = 1
K(A,, A) =
Z Z K(x¿, xj), а критерий 12
п.(п; - 1) ^ ^
л 1 ’ I = 1, > I
это средняя мера близости (удаленности) классов
2Г
друг от друга 12 = ——— ^ ^ К(А, А,), где
j > І
1
A) = Z Z K(x>’x) (3)
* j xі є A(- xs є Aj
Здесь K(x, y) =
1
— потенциальная
1 + а Я р (х, у)
функция, п. — число точек в классе А., а ир —настраиваемые параметры. Ясно, что классификация тем лучше, чем больше 11 и чем меньше 12.
Был разработан набор алгоритмов экстреми-зации введённых критериев для конечного п [3]. В последние годы для решения этой задачи был разработан высокоэффективный алгоритм т-ло-кальной оптимизации (в составе комплекса алго-
ритмов структурно-классификационного анализа данных) [4].
Существенно более сложным является случай бесконечной классифицируемой последовательности объектов. Здесь можно использовать только рекуррентные алгоритмы. Первый рекуррентный алгоритм для такого случая был предложен и теоретически исследован Э.М. Браверманом [5], там же была доказана его сходимость. Критерий качества классификации (экстремизируемый функционал) и сам алгоритм формулируются на языке метода потенциальных функций [6], а именно: в спрямляющем пространстве Z (см. книгу [6]) критерий качества, предложенный в работе [5], является частным случаем критерия (1) для квадратичной функции потерь и может быть записан в виде (для наглядности рассмотрен случай г = 2)
K = J(z - Za) P(z)dz + J(z - zB) P(z)dz ■
A
B
= (MA)2
(MB )2
(4)
где zA и zB — центры классов А и В соответственно, Р(г) — функция плотности распределения вероятностей появления точек классифицируемой последовательности, МА = | гР(г)с1г — первый ненор-
А
мированный момент класса А, а рА = | zP(z)dz —
А
априорная вероятность класса А (нулевой ненормированный момент). Аналогично определяются соответствующие величины для класса В.
В работе [5] была доказана важная теорема, позволяющая по виду аддитивного экстремизиру-емого функционала выбирать класс разделяющих поверхностей. В частности, для функционалов вида (4), зависящих только от ненормированных моментов не выше первого, можно брать линейные разделяющие функции /^) = (с, г) — а. Для предложенного в работе [5] алгоритма впервые для бесконечного случая была доказана его сходимость, обеспечивающая стационарное значение (4).
В работе [7] предложены рекуррентные алгоритмы, являющиеся непосредственным обобщением алгоритмов, разработанных в работе [3] для конечного п, на случай бесконечной последовательности. В этом случае аналоги критериев 11, 12 и 13 могут быть записаны как выпуклые функционалы от нулевых и первых ненормированных моментов. В работе [8] была доказана теорема (обобщение теоремы Э.М. Бравермана [5]), в соответствии с которой оптимальные разделяющие функции для таких критериев можно также искать в классе линейных.
СПЕЦИАЛЬНЫИ ВЫПУСК ЖУРНАЛА «ПРОБЛЕМЫ УПРАВЛЕНИЯ» № 3.1 • 2009
21
A
B
n
Отметим, что, в отличие от распознавания образов с учителем, теоретическое исследование сходимости рекуррентных алгоритмов автоматической классификации (распознавания образов без учителя) невозможно проводить классическими методами стохастической аппроксимации ввиду невыпук-лости экстремизируемого функционала [2].
1.3. Вариационный подход
Следующий период исследований задач автоматической классификации был связан с так называемым вариационным подходом, т. е. рассмотрением уравнений, следующих из необходимых условий экстремума функционала качества классификации (равенства нулю первой его вариации). Теоретическую базу таких исследований заложил
Э.М. Браверман [5], реализовав вариационный подход для конкретного критерия качества классификации (4). Эта работа была далее обобщена на существенно более широкий класс функционалов Е.В. Бауманом и А.А. Дорофеюком [9].
1.4. Размытая автоматическая классификация
Начиная с работы [8], задачи автоматической классификации в общей постановке исследуются для случая размытой классификации, когда вместо характеристических функций классов вводятся функции принадлежности к классу. Другими словами, размытая классификация задается r-мерной вектор-функцией H(x) = (hx(x), ..., hr(x)), где h;(x) — функция принадлежности x к /-му классу. Функция H(x) удовлетворяет следующим условиям: -#(•) е L2(X, P), и для любого x значение H(x) принадлежит некоторому ограниченному множеству V пространства значений вектор-функции
H(x), т. е. H(x) е V с Rк. Путем выбора ограничивающего множества V можно получить различные типы размытости, а именно — чёткую классификацию, размытую классификацию и классификацию с размытыми границами.
В работе [8] был рассмотрен критерий качества классификации достаточно общего вида:
Ф = Ф2(Ц(Н)),
(5)
где Ф — выпуклый функционал, ц(Н) = (р., М; / = 1, ..., г). Значительная часть известных критериев качества классификации точек евклидова пространства является частным случаем функционала (5). В работе [8] предложен алгоритм максимизации критерия (5), доказана его сходимость к стационарному значению для случая строго выпуклого, дважды непрерывно дифференцируемого функционала (5).
В последующем был рассмотрен ещё более широкий класс критериев качества классификации — произвольный выпуклый функционал Ф3 = Ф3(Н)
от вектор-функции H(x). Было показано, что к этому классу относится не только подавляющее большинство известных критериев качества классификации (в том числе функционалы в неметрических шкалах), но и широкий класс функционалов, используемых в других задачах анализа данных (кусочная аппроксимация сложных зависимостей, экстремальная группировка параметров, диагонализация матрицы связи и др.). С этого времени область применения методов автоматической классификации расширилась настолько, что появилось новое направление, получившее весьма общее название «анализ данных». Это направление, в отличие от традиционных статистических методов, требующих для своего применения некоторой вероятностной модели (построение которой достаточно трудная, а иногда и принципиально неразрешимая задача) предназначено для «разведочного» анализа многомерных массивов сложноорганизованных данных [10]. Соответствующие алгоритмы стали называться алгоритмами классификационного (структурно-классификационного) анализа данных.
Для исследования вида оптимальной размытой классификации важно понятие опорнойразмытой классификации HF(x) для произвольного линейного функционала F(H): HF(x) = argmax(F(x), H).
H e V
Доказана теорема о том, что оптимальная размытая классификация принадлежит классу опорных классификаций.
Этот результат позволяет построить итерационный алгоритм максимизации функционала Ф = Ф3. Основу алгоритма составляют два правила: правило нахождения опорной классификации по данному линейному функционалу F(H) и правило нахождения по результатам классификации такого функционала, который был бы субградиентом исходного функционала [10]. Доказана теорема о сходимости этого алгоритма.
1.4.1. Размытая классификация с фоновым классом
Во многих задачах классификационного анализа приходится классифицировать объекты одинаково далёкие от всех классов, например, при грубых ошибках наблюдений или при неправильно выбранном числе классов (заниженном по отношению к истинному). Был введён в рассмотрение специальный класс, в пределах которого не учитывается близость объектов друг к другу, который был назван фоновым [10]. При наличии фонового класса размытая классификация задается вектор-функцией H(x) = (h0(x), hx(x), ..., hr(x)), где h0(x) — функция принадлежности x к фоновому классу. При исследовании размытой классифика-
22
SPECIAL ISSUE «CONTROL SCIENCES» № 3.1 • 2009
ции с фоновым классом в дополнение к уже рассмотренным выше трём типам размытости появляются ещё дополнительные варианты, например, размытая классификация с чётким фоновым классом.
2. СТРУКТУРИЗАЦИЯ ПАРАМЕТРОВ
При решении задач автоматической классификации объектов достаточно часто возникала проблема размерности пространства параметров X и выбора набора информативных (в смысле получения качественной классификации) параметров. Именно тогда возникла задача структуризации параметров. Формально задача ставится как задача нахождения такой классификации (группировки) параметров и таких эталонов классов (в этой задаче они называются факторами), обеспечивающих экстремальное значение некоторого заданного критерия качества такой группировки, имеющего интуитивно понятный содержательный смысл. В работе [11] была поставлена задача экстремальной группировки параметров, которая, в определённом смысле, является обобщением задачи факторного анализа. Были разработаны и теоретически изучены два алгоритма экстремальной группировки параметров, отличающиеся видом критерия качества группировки [11]. В обоих критериях в качестве меры связи (или «близости») параметров используется коэффициент корреляции (ковариации). Как эти алгоритмы, так и их многочисленные модификации широко применяются до сих пор, как независимо — в задачах анализа структуры конкретных наборов параметров, так и в составе программно-алгоритмических комплексов, предназначенных для решения крупномасштабных задач структурного анализа больших массивов сложноорганизованных данных [4, 12].
Одна из важнейших задач структурно-классификационного анализа — задача выделения (иногда — построения) так называемых «информативных» параметров. Дело в том, что практически все алгоритмы структуризации достаточно чувствительны к присутствию в исходном наборе «шумящих» или «малоинформативных» параметров, т. е. параметров слабо связанных с основными характеристиками исследуемой системы (по сравнению с другими, «информативными» параметрами). Наличие таких параметров приводит к «размыванию» исследуемой структуры, а при их значимом числе — к серьёзному её искажению.
Алгоритмы экстремальной группировки параметров дают хороший инструмент получения набора информативных параметров. А именно, в качестве информативных предлагается выбирать либо синтетические параметры — факторы, которые являются аналогами центров классов в задаче
классификации объектов, либо по 1—2 параметра из каждой группы, ближайших к соответствующему фактору [4].
Несколько особняком стоит задача структуризации номинальных признаков, которая стала весьма актуальной в последнее время в связи с решением прикладных задач структуризации для крупномасштабных слабо формализованных систем управления [13]. В таких задачах приходится рассматривать десятки, а иногда и сотни классификаций объектов, входящих в исследуемую систему (для различных — пространств признаков, видов выбранной метрики в этом пространстве, значений свободных параметров применяемого алгоритма, различных типов алгоритмов и т. д.). Задача исследования такого множества классификаций, как правило, неподъёмная для экспер-та-прикладника. Учитывая, что каждая классификация — это и-позиционный, ^-градационный номинальный признак (и — число объектов, г — число классов), то задача структуризации множества классификаций эквивалентна задаче структуризации соответствующих номинальных признаков [14].
Интересные результаты получены в задаче структуризации параметров долевого типа, широко используемых в демографии, медицинской статистике, социологии, при обработке результатов переписи населения и др. [15].
3. МЕТОДЫ СТРУКТУРНОЙ АППРОКСИМАЦИИ СЛОЖНЫХ ЗАВИСИМОСТЕЙ
В конце 1960-х гг. интенсивно велись работы по применению разработанных алгоритмов автоматической классификации для решения целого ряда прикладных задач. В процессе решения некоторых из них появились новые постановки задач структурного анализа данных. Самой интересной как с теоретической, так и с прикладной точки зрения оказалась задача кусочной аппроксимации сложных зависимостей. Исторически она вначале формулировалась как задача идентификации статической характеристики некоторого технологического объекта (процесса), функционирующего в нескольких режимах. Дадим более подробно содержательную постановку этой задачи.
Рассмотрим технологический объект, состояние которого достаточно точно описывается вектором значений контролируемых входных пара-
метров х = {х
=
х
.(*)!
х є X, где X — пространс-
тво входных параметров. Эффективность работы объекта определяется значениями выходного параметра у. Необходимо идентифицировать статическую характеристику объекта, другими словами, моделью объекта служит функциональный преобразователь у = Дх), где Дх) — неизвестная функ-
СПЕЦИАЛЬНЫИ ВЫПУСК ЖУРНАЛА «ПРОБЛЕМЫ УПРАВЛЕНИЯ» № 3.1 • 2009
23
ция. Обычно для такой идентификации по известным значениям векторов входных параметров хр ..., хп и соответствующих значений выходного параметра у1, ..., уп строится аппроксимация
у = Д (х), для которой заданный критерий качества аппроксимации / принимает экстремальное значение. Обычно таким критерием служит остаточная дисперсия у относительно аппроксимиру-
ющей функции I7 (х), т. е. функционал вида / = | [у - I (х)]2аР(х).
(6)
Существует ряд методов решения этой задачи — метод наименьших квадратов, метод максимального правдоподобия, классические алгоритмы регрессионного и корреляционного анализа, процедуры типа стохастической аппроксимации и др. Все эти методы предполагают априорный выбор
класса аппроксимирующих функций I7 (х, а), который обычно задаётся параметрически — с помощью векторного параметра а.
В практических задачах объем имеющегося статистического материала жёстко ограничивает число оцениваемых параметров в смысле статистической достоверности получаемых результатов. А это
означает, что для сложных функций I7 (х, а) требуется оценивать слишком большое число параметров, что невозможно на ограниченном материале. Однако в процессе анализа реальных объектов было замечено, что во многих случаях статическая характеристика, хотя и является сложной функцией во всей допустимой области изменения вектора входных параметров, но может быть представлена как совокупность достаточно простых функций Д(х) в пределах отдельных областей В- пространства входов X, соответствующих различным режимам функционирования объекта. Другими словами, статическая характеристика сложного вида может быть представлена как совокупность достаточно простых «кусков».
Это означает, что аппроксимируемая функция у = Дх) может быть представлена в виде у =
Г
= ^ .х)Д(х), где к.(х) — функции принадлеж-
] = 1
ности х областям В., на которые разбивается пространство X (или область определения функции Дх)). Как уже говорилось в п. 1.4, вид к.(х) определяется выбранным типом размытости.
Аналогично определяется вид аппроксимирующей функции
F(x, а) = X jx)F(x, а).
(7)
і = 1
В этом случае функционал (6) имеет вид
Г
1 = И-х)[у - Д (х, а)]2аР(х).
- = 1X
(8)
Для нахождения по статистическим данным аппроксимирующей функции (7), минимизирующей значение функционала (8), были разработаны специальные методы кусочной аппроксимации, существенно использующие алгоритмы автоматической классификации. Первые публикации на эту тему касались задач контроля качества сложных изделий (кусочно-постоянная или ступенчатая аппроксимация) [16] и идентификации статической характеристики промышленного объекта (кусочно-линейная и кусочно-полиномиальная аппроксимация) [17]. Исчерпывающее описание алгоритмов решения последней задачи содержится в брошюре [18].
Алгоритмы кусочной аппроксимации можно условно разделить на одноэтапные и двухэтапные. В одноэтапных алгоритмах поиск оптимального в смысле критерия (8) разбиения {В.}, у = 1^г, и соответствующих локальных аппроксимаций Д. (х, а), у = 1^г, производится одновременно. В двухэтапных — предполагается, что область значений входных параметров в пространстве X, соответствующих одному и тому же режиму функционирования объекта, является достаточно компактным кластером. Поэтому вначале производится автоматическая классификация выборочных значений входных параметров, которая порождает разбиение пространства X на области В., соответствующие различным режимам функционирования объекта. На втором этапе для этого разбиения находятся оптимальные локальные регрессии Д (х, а), У = 1^г.
Наибольший интерес в смысле приложений представляют рекуррентные алгоритмы кусочной аппроксимации, поскольку они позволяют проводить идентификацию объекта в реальном времени (в режиме нормальной эксплуатации). Кроме того, на базе рекуррентных алгоритмов достаточно просто реализовать адаптивные схемы идентификации, позволяющие отслеживать медленные изменения статической характеристики объекта (например, в нефтехимии это происходит из-за старения катализатора). Такие алгоритмы были разработаны на базе вариационного подхода [18]. Однако теоретический анализ сходимости таких алгоритмов сопряжён с существенными трудностями, которые удалось преодолеть только после доказательства того, что задача кусочно-линейной аппроксимации является частным случаем задачи автоматической классификации [19]. Впослед-
24
SPECIAL ISSUE «CONTROL SCIENCES» № 3.1 • 2009
r
ствии были разработаны оптимальные алгоритмы кусочно-линейной аппроксимации [20].
Для задач кусочной аппроксимации была предложена оригинальная иерархическая схема одновременного поиска наборов информативных переменных и локальных аппроксимаций, названная методом иерархической кусочной аппроксимации [21]. Идея этого метода состоит в следующем. Разбиение пространства входов X на области B. подразумевает, что эти области соответствуют различным режимам функционирования объекта. А это, в свою очередь, может означать, что для каждого режима может быть свой набор информативных входных переменных. Другими словами, в таком анизотропном случае информативные переменные необходимо искать для каждой области Bj независимо. Подобное рассуждение справедливо не только для всего пространства X, но и для каждой области Bj (каждый режим функционирования объекта может распадаться на подрежимы) и т. д.
В процессе решения прикладных задач, связанных с аппроксимацией сложных зависимостей, было замечено, что для многих объектов в промышленности, экономике, геологии и других областях искомая зависимость y = F(x) имеет следующую структуру: на фоне некоторой, как правило простой, зависимости y = f(x) (основная закономерность, тренд, тенденция и т. д.) в отдельных
(аномальных) областях B* пространства X (но не
обязательно во всех) наблюдаются существенные отклонения от f(x). Другими словами, искомую функцию F(x) в таких случаях целесообразно представлять как композицию двух функций — глобальной составляющей f(x) и локальных функций отклонения от неё F* (x) в аномальных областях Bj*. В этом случае аппроксимирующую функцию F (x) следует искать в виде: I7 (x, а) =
Г
= f(x, а) + ^ б* (x)Fj (x, а), где б* (x) — характе-j = 1
ристическая функция аномальной области Bj* (принимает значение 1 только для точек этой области). Задача нахождения такой функции была названа задачей комбинированной кусочной аппроксимации, были разработаны алгоритмы решения этой задачи, существенно использующие процедуры кусочно-линейной аппроксимации [22].
Отметим ещё один интересный алгоритм кусочно-линейной аппроксимации второго типа, в котором при построении аппроксимации анализируется не только близость областей Bj, но и, в определённом смысле, близость локальных рег-
рессий F:(x, а.) в этих областях [23]. Идея этого ал-
J
горитма состоит в следующем. Вначале по выборочным значениям входных параметров с помощью одного из алгоритмов автоматической классификации пространства X разбивается на гнач областей, где гнач . r (r — экспертная оценка, вообще говоря, неизвестного числа различных режимов работы исследуемого объекта). Единственное ограничение на гнач — это возможность построения статистически значимой оценки локальной
линейной регрессии F< (x, а.) для большинства областей. Области, для которых это невозможно сделать, объединяются, исходя из ранее введённой меры близости (3) между группами точек А. и А.,
. J
соответствующих областям B. и B.. Такое объединение продолжается до тех пор, пока в каждой области не будет построена статистически значимая оценка локальной регрессии F, (x, а.). На втором этапе полученные области объединяются с помощью следующего алгоритма. На каждом шаге ищутся ближайшие в смысле меры близости (3) области B. и B, затем рассматривается гипотеза:
«аппроксимации локальных регрессий Ft (x, а.) и
F, (x, а.) статистически не различимы (эквивалентны)». Если гипотеза подтверждается, то области B. и B. объединяются, и для объединённой области B.. строится аппроксимация локальной регрессии
F. (x, а.), в противном случае рассматривается следующая пара ближайших областей и т. д. Для проверки этой гипотезы в работе [23] используется статистика G. Chou, для которой необходимо знать
аппроксимации локальных регрессий Ft (x, а.), F, (x, а.) и F. (x, а..), а также выбрать уровень зна-
. .. ..
чимости F0. Важная особенность описанного алгоритма — автоматическое определение числа r областей B., причём в определённом смысле оптимальным образом.
4. МЕТОДЫ СТРУКТУРНОГО ПРОГНОЗИРОВАНИЯ
Многие крупномасштабные системы управления, в первую очередь — организационно-административные, функционируют в условиях большой информационной размытости и неопределён-ности. Именно поэтому в последнее время для исследования таких систем стали широко применяться не только методы структурного анализа данных, но и методы структурного прогнозирования, основу которых составляют процедуры клас-
СПЕЦИАЛЬНЫИ ВЫПУСК ЖУРНАЛА «ПРОБЛЕМЫ УПРАВЛЕНИЯ» № 3.1 • 2009
25
сификационного анализа. Основная идея методов структурного прогнозирования состоит в том, что исследуются не точные значения параметров, описывающих состояние каждого объекта (например, траектории состояний), а лишь класс, к которому принадлежит каждый объект в рамках некоторой структуры (классификации) множества объектов, входящих в исследуемую систему [24]. Такое интегральное описание объектов позволяет существенно повысить эффективность анализа поведения системы, а также устойчивость и робастность процедур принятия управленческих решений и прогнозов.
Опишем вкратце общую схему работы одного из алгоритмов структурного прогнозирования [25]. Пусть исследуемая система состоит из п объектов, каждый из которых характеризуется набором из к параметров, измеряемых в дискретные моменты времени. В к-мерном пространстве параметров X у-ый объект в момент времени ? представляется
точкой х,.(?) = {х.^ (?), х(2) (?), ..., х.к) (1)}. Упорядоченная совокупность точек Х/(^), ..., Х/(^) является известной частью траектории, характеризующей динамику у-го объекта. Как уже говорилось, для многих прикладных задач для у-го объекта требуется прогнозировать не точные значения параметров-характеристик х.(7) в момент времени tm + р а лишь класс, к которому будет принадлежать объект в этот момент времени в рамках некоторой структуры (классификации) множества объектов изучаемой системы. Таким образом, основу предложенного алгоритма составляет процедура выявления структуры объектов, входящих в исследуемую систему. Для этой цели в работе [25] применяется комплексный алгоритм автоматической классификации, специально разработанный для решения таких задач [4]. С его помощью в момент времени tx производится структуризация п точек в
пространстве X на г классов, каждый из которых и характеризует определённый тип объекта. Число классов г выбирается с помощью человеко-машинной процедуры, входящей в комплексный алгоритм [4]. Вводится понятие модели (эталона) класса яг(0, / = 1, ..., г, (обычно это центр класса) [10]. Для каждого объекта вычисляются расстояния до эталонов Д-(0, I = 1, ..., г, у = 1, ..., п.
В момент времени ^ каждая точка х..(^) с помощью одного из алгоритмов распознавания образов с учителем относится к тому или иному классу в рамках классификации, полученной на первом шаге. В работе [25] для этого применяется алгоритм метода потенциальных функций, который в спрямляющем пространстве эквивалентен алгоритму ближайшего среднего [26]. После этого производится пересчёт эталонов ар2), I = 1, ..., г, а
также пересчёт (для точек х,.(^)) или подсчёт (для точек х,.(^)) расстояний Л(х..(^), яг(^)) до новых эталонов / = 1, ..., г, у = 1, ..., п. Такая процедура выполняется для всех т моментов времени. В итоге для каждого объекта получается последовательность (траектория) из т позиций. В каждой позиции находится г + 1 число, первое из которых — это номер класса, к которому относился этот объект в соответствующий момент времени, а последующие числа — это значения расстояний до центров классов в тот же момент времени. Требуется спрогнозировать номер класса (тип объекта), к которому будет относиться каждый объект в момент времени tm + г
В качестве прогнозной модели для каждого объекта используется марковская цепь с г состояниями, т. е. на каждом шаге рассчитываются элементы матрицы переходных вероятностей Р = ||р..||, у = 1, ..., п, I = 1, ..., г. В работе [25] разработан специальный алгоритм пересчёта на каждом шаге соответствующих переходных вероятностей р.. с
у.
использованием информации о значениях расстояний до центров классов и условия нормировки
мат-
^р. = 1 для всех у = 1, ..., п. Построенная
I = 1
рица переходных вероятностей используется для прогнозирования принадлежности объекта тому или иному классу. На практике обычно применяется не рандомизированная, а байесовская схема, когда объект относится к тому классу /0, для которого р. = тах р... Возможны различные мо-
^ / = 1, Г У
дификации описанной выше схемы [25]: классификация объектов задаётся заранее (например, экспертным путём) и в последующем остаётся неизменной; используются данные только об 5 прошлых состояниях множества объектов (алгоритм с «памятью», 5 — глубина памяти); для структуризации применяются алгоритмы размытой классификации, в том числе с фоновым классом [10].
5. ЭКСПЕРТНЫЕ МЕТОДЫ В ЗАДАЧАХ СТРУКТУРНОГО АНАЛИЗА
Экспертные методы применялись в задачах структурного анализа достаточно давно, в большинстве своём при выборе свободных параметров алгоритмов структуризации (см., например, обзор [2]). Затем появились специальные корректирующие экспертные процедуры в алгоритмах выбора «оптимального» числа классов, выбора информативных параметров, заполнения пропущенных наблюдений [4], построения хорошо интерпретируемых классификаций [27]. Но наибольшее распространение экспертные методы получили при
26
SPECIAL ISSUE «CONTROL SCIENCES» № 3.1 • 2009
r
решении задач исследования слабо формализованных социально-экономических и организационных систем управления [28].
Наиболее востребованными оказалась коллективная бесконфликтная многовариантная экспертиза, впервые предложенная в работе [29], концепция которой базируется на следующих основных принципах [28]:
— экспертиза проводится в экспертных комиссиях, число которых не меньше числа различных точек зрения на исследуемую проблему;
— в одну и ту же комиссию должны включаться эксперты, имеющие близкие точки зрения на исследуемую проблему;
— в каждой комиссии могут работать только эксперты, не имеющие конфликтных взаимоотношений;
— для коллективной экспертизы отбираются условно компетентные эксперты (те, которые считаются компетентными для экспертов из одной и той же комиссии);
— организация и проведение экспертизы, обработка экспертных оценок, формирование результатов экспертизы должны проводиться специальной консалтинговой группой, приглашённой, для большей объективности, со стороны, независимой и незаинтересованной в результатах экспертизы.
Концепция была реализована в рамках специальной методики формирования экспертных комиссий [28]. Методика состоит из пяти основных разделов (этапов): выявление кандидатов для работы в экспертных комиссиях; выявление существенно различных точек зрения; определение групп неконфликтующих экспертов; оценка условной компетентности экспертов; формирование экспертных комиссий. Были разработаны также варианты структурной, структурно-иерархической и заочной многовариантной экспертизы.
ЗАКЛЮЧЕНИЕ
Разработанные алгоритмы структурно-классификационного анализа сложноорганизованных данных широко применяются для решения разнообразных прикладных задач. Достаточно обширный набор примеров решения таких задач содержится в работах [2, 4, 7, 18, 22, 23, 25, 26, 28, 30]. К ним надо добавить работы по медицинской диагностике и анализу медицинской информации с применением структурно-классификационных алгоритмов, например, [31, 32]; решению естественнонаучных задач, например, [33]; проектированию профессиональных и образовательных стандартов, например, [34]; созданию процедур оценки эффективности функционирования крупномасштабных организационно-административных систем, например, [35].
В ближайшей перспективе центр тяжести исследований в этой области будет перемещаться в сторону создания оптимальных и квазиоптималь-ных алгоритмов структуризации большой и сверхбольшой размерности для разнородных параметров, при существенных пропусках в исходной информации, значимом уровнем помех (в том числе целенаправленного свойства), которые значительно больше будут ориентированы на экспертную информацию, в том числе: при выборе общей стратегии и конкретного набора процедур обработки, для выбора свободных (настраиваемых) параметров, содержательной интерпретации и коррекции получаемых результатов. В прикладных работах основное внимание будет уделяться крупномасштабным, слабо формализованным объектам (финансовые, социально-экономические и организационно-административные системы) и комплексам взаимосвязанных технологических процессов (в машиностроении; приборостроении, в том числе медицинском; химии, нефтехимии и нефтепереработке; в производстве современного вооружения и др.).
ЛИТЕРАТУРА
1. Дорофеюк A.A., Мучник И.Б. Работа М.А. Айзермана в области распознавания образов и анализа данных / В кн.: «Марк Аронович Айзерман 1913 — 1992». — М.: Физмат-лит, 2002. — С. 115—159.
2. Дорофеюк A.A. Алгоритмы автоматической классификации // Автоматика и телемеханика. — 1971. — № 12.
3. Дорофеюк A.A. Алгоритмы обучения машины распознаванию образов без учителя, основанные на методе потенциальных функций // Автоматика и телемеханика. — 1966. — № 10.
4. Дорофеюк Ю.А. Комплексный алгоритм автоматической классификации и его использование в задачах анализа и принятия решений // Таврический вестник информатики и математики. — 2o0s. — № 1. — С. 171—177.
5. Браверман Э.М. Метод потенциальных функций в задаче обучения машины распознаванию образов без учителя // Автоматика и телемеханика. — 1966. — № 10.
6. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. — М.: Наука, 1970.
7. Дорофеюк A.A. Алгоритмы автоматической классификации, основанные на методе потенциальных функций, и их практическое использование // Вопросы технической кибернетики. — М.: Наука, 1968.
8. Бауман Е.В., Дорофеюк A.A. Рекуррентные алгоритмы автоматической классификации // Автоматика и телемеханика. — 1982. — № 3.
9. Бауман Е.В., Дорофеюк А.А. Вариационный подход к задаче автоматической классификации для одного класса аддитивных функционалов // Автоматика и телемеханика. — 1978. — № 8.
10. Бауман Е.В., Дорофеюк A.A. Классификационный анализ данных // Избранные труды Междунар. конф. по проблемам управления. — М.: СИНТЕГ, 1999. — Т. 1.
11. Браверман, Э.М. Методы экстремальной группировки параметров и задача выявления существенных факторов // Автоматика и телемеханика. — 1970. — № 1.
СПЕЦИАЛЬНЫЙ ВЫПУСК ЖУРНАЛА «ПРОБЛЕМЫ УПРАВЛЕНИЯ» № 3.1 • 2009
27
12. Программно-алгоритмический комплекс структурно-классификационного анализа сложноорганизованных данных / Е.В. Бауман, А.А. Дорофеюк, Ю.А. Дорофеюк, Н.Е. Киселёва // Таврический вестник информатики и математики. — 2008. — № 1. — С. 66—72.
13. Дорофеюк А.А., Гольдовская М.Д., Покровская И.В. Когнитивные методы структурного анализа в задаче оценки эффективности слабо формализованных региональных систем // Когнитивный анализ и управление развитием ситуаций / Тр. VII Междунар. конф. — М.: ИПУ, 2007. — С. 33—36.
14. Бауман Е.В., Москаленко Н.Е. Структуризация результатов размытого кластер-анализа // Искусственный интеллект. — 2004. — № 2. — С. 355—359.
15. Бауман Е.В., Москаленко Н.Е. Методы экстремальной группировки параметров долевого типа // Автоматика и телемеханика. — 2008. — № 11. — С. 133—142.
16. Дорофеюк A.A., Торговицкий И.Ш. Применение методов автоматической классификации данных в задаче контроля качества изделий // Стандарты и качество. — 1967. — № 4.
17. Дорофеюк A.A., Касавин А.Д., Торговицкий И.Ш. Применение методов автоматической классификации для построения статической модели объекта / Автоматика и телемеханика. — 1970. — № 2.
18. Райбман Н.С., Дорофеюк А.А., Касавин А.Д. Идентификация технологических объектов методами кусочной аппроксимации. — М.: Институт проблем управления, 1977. — 70 с.
19. Бауман Е.В. Сведение задачи кусочно-линейной аппроксимации к задаче автоматической классификации // Моделирование и оптимизация сложных систем управления. — М.: Наука, 1981.
20. Бауман Е.В., Дорофеюк A.A., Корнилов Г.В. Алгоритмы оптимальной кусочно-линейной аппроксимации сложных зависимостей // Автоматика и телемеханика. — 2004. — № 10. — С. 163—171.
21. Dorofeyuk A., Kasavin A. Hierarchical piecewise approximation method in identification of complex plants // Identification and System Parameter Estimation. Part 3. — Amsterdam: North-Holland PC. 1978. — P. 1727—1736.
22. Алиев С.А., Дорофеюк A.A., Мовсумов В.Г. Методы комбинированной кусочной аппроксимации и их приложения // Анализ данных и экспертные оценки в организационных системах. — М.: ИПУ, 1985. — С. 45—50.
23. Дорофеюк А.А. Ибрагимли Ш.Д., Мовсумов В.Г. Использование критерия статистической эквивалентности моделей в задаче кусочной аппроксимации // Автоматика и телемеханика. — 1976. — № 7. — С. 109—113.
24. Дорофеюк A.A., Дорофеюк Ю.А. Методы структурно-классификационного прогнозирования многомерных динами-
ческих объектов // Искусственный интеллект. — 2006. — № 2. — C. 138—141.
25. Дорофеюк Ю.А. Структурно-классификационные методы анализа и прогнозирования в крупномасштабных системах управления // Проблемы управления. — 2008. — № 4. — С. 78—83.
26. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. — М.: Наука, 1983.
27. Дорофеюк A.A., Чернявский А.Л. Алгоритмы построения хорошо интерпретируемых классификаций // Проблемы управления. — 2007. — № 2. — С. 83—84.
28. Дорофеюк A.A., Покровская И.В., Чернявский А.Л. Экспертные методы анализа и совершенствования систем управления // Автоматика и телемеханика. — 2004. — № 10. — С. 172—188.
29. Дорофеюк А.А. Методы автоматической классификации в задачах получения экспертной информации // Статистика. Вероятность. Экономика. Учёные записки по статистике. — М: Наука, 1985. — Т. 49. — С. 137—145.
30. Дорофеюк A.A., Покровская И.В., Шипилов Ю.В. Процедуры структурно-классификационной экспертизы и их практическое использование // Третья Междунар. конф. по проблемам управления. Пленарные доклады и избранные труды. — М.: ИПУ, 2006. — С. 372—375.
31. Классификационный анализ характеристик пульсового сигнала в задачах диагностики сердечно-сосудистых заболеваний / А.А. Дорофеюк, В.В. Гучук, А.А. Десова и др. // Таврический вестник информатики и математики. — 2008. — № 1. — С. 152—158.
32. Дорофеюк A.A., Дмитриев А.Г. Методы кусочной аппроксимации многомерных кривых // Автоматика и телемеханика. — 1984. — № 12.
33. Браверман Э.М., Дорофеюк A.A., Лумельский В.Я. Применение методов распознавания образов без учителя в естественнонаучных исследованиях // Адаптивные системы. Распознавание образов. Тр. Междунар. симпозиума ИФАК по техническим и биологическим аспектам управления, Ереван, 1968. — М.: Наука, 1971.
34. Классификация объектов профессиональной деятельности специалиста при проектировании профессиональных и образовательных стандартов / В.В. Никитин, С.В. Мальцева, А.А. Дорофеюк и др. // Проблемы управления. — 2007. — № 4. — С. 51—55.
35. Лифшиц Д.В., Дорофеюк Ю.А.. Методология оценки эффективности управления жилищно-коммунальным хозяйством крупного города на базе экспертно-классификационных методов анализа и моделирования ситуаций // Управление развитием крупномасштабных систем (MLSD'2008). Материалы второй междунар. конф. — М.: ИПУ РАН, 2008. — Т. I. — С. 63—66.
Дорофеюк Александр Александрович — д-р техн. наук, профессор, зав. лабораторией обработки больших массивов информации в иерархических системах. Председатель секции «Управление социально-экономическими, медико-биологическими и организационными структурами» Учёного совета ИПУ, член Научного совета РАН по теории управляемых процессов и автоматизации, член НТС Минтранса МО, член Экспертного совета Фонда «Социальное развитие» при Правительстве РФ, член Экспертного совета РФФИ, член редколлегии журнала «Проблемы управления». Опубликовал более 200 научных трудов, в том числе 14 монографий. Под его руководством защищено 16 кандидатских и 3 докторские диссертации. Основные научные интересы — структурно-классификационный анализ сложноорганизованных данных; коллективная многовариантная экспертиза; системные методы поддержки принятия решений в слабо формализованных системах управления; методы анализа, совершенствования и прогнозирования в социально-экономических и организационных системах управления. ®(495) 334-75-40, Н [email protected].
28
SPECIAL ISSUE «CONTROL SCIENCES» № 3.1 • 2009