Научная статья на тему 'Математический метод СК-анализа в свете идей интервальной бутстрепной робастной статистики объектов нечисловой природы'

Математический метод СК-анализа в свете идей интервальной бутстрепной робастной статистики объектов нечисловой природы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
226
59
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Луценко Евгений Вениаминович

Интервальные оценки сводят анализ чисел к анализу фактов и позволяют обрабатывать количественные величины как нечисловые данные. Однако это ограничивает возможности обработки количественных величин методами обработки нечисловых данных. В математической модели СК-анализа, основанной на системной теории информации, наоборот, качественным, нечисловым данным приписываются количественные величины. Это позволяет использовать все возможности количественных методов для исследования нечисловых данных. Таким образом, в СК-анализе числовые и нечисловые данные обрабатываются единообразно на основе одной математической модели как числовые данные. Рассматривается связь метода измерения адекватности модели в СК-анализе с бутстрепными методами. Описывается робастная процедура выявления и устранения артефактов в СК-анализе.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Луценко Евгений Вениаминович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Математический метод СК-анализа в свете идей интервальной бутстрепной робастной статистики объектов нечисловой природы»

УДК 007.681.5:519.714:519.766

МАТЕМАТИЧЕСКИЙ МЕТОД СК-АНАЛИЗА В СВЕТЕ ИДЕЙ ИНТЕРВАЛЬНОЙ БУТСТРЕПНОЙ РОБАСТНОЙ СТАТИСТИКИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ

Луценко Е.В. - д. э. н., профессор Кубанский государственный аграрный университет

Интервальные оценки сводят анализ чисел к анализу фактов и позволяют обрабатывать количественные величины как нечисловые данные. Однако это ограничивает возможности обработки количественных величин методами обработки нечисловых данных. В математической модели СК-анализа, основанной на системной теории информации, наоборот, качественным, нечисловым данным приписываются количественные величины. Это позволяет использовать все возможности количественных методов для исследования нечисловых данных. Таким образом, в СК-анализе числовые и нечисловые данные обрабатываются единообразно на основе одной математической модели как числовые данные. Рассматривается связь метода измерения адекватности модели в СК-анализе с бутстрепными методами. Описывается робастная процедура выявления и устранения артефактов в СК-анализе.

1. Постановка проблемы

Современный этап развития информационных технологий характеризуется быстрым ростом производительности компьютеров и облегчением доступа к ним. С этим связан всевозрастающий интерес к использованию компьютерных технологий для организации мониторинга различных объектов, анализа данных, прогнозирования и управления в различных предметных областях. Исследователи и руководители возлагают определенные надежды на повышение эффективности применения компьютерных технологий.

Однако на пути реализации этих ожиданий имеются определенные сложности, связанные с относительным отставанием в развитии математических методов и реализующего их программного инструментария. И анализ, и прогнозирование, и управление существенным образом основываются на математическом моделировании объектов. Математическое моделирование, в свою очередь, предполагают возможность выполнения всех арифметических операций (сложение, вычитание, умножение и деление) над отображениями объектов в моделях и над их элементами.

В практике интеллектуального анализа данных в экономике, социологии, психологии, педагогике и других предметных областях все чаще встречаются ситуации, когда необходимо в рамках единой математической модели совместно обрабатывать числовые и нечисловые данные.

Числовые данные могут быть различной природы, и, соответственно, они измеряются в самых различных единицах измерения. Однако арифметические операции можно выполнять только над числовыми данными, измеряемыми в одних единицах измерения.

Данные нечисловой природы, т.е. различные факты и события, характеризуются тем, что с ними вообще нельзя выполнять арифметические операции.

Соответственно, возникает потребность в математических методах и программном инструментарии, обеспечивающих совместную сопоставимую обработку разнородных числовых данных и данных нечисловой природы.

2. Традиционные пути решения проблемы

Для проведения подобных исследований обычно реализуется один из двух вариантов:

- изучается подмножество однородных по своей природе данных, измеряемых в одних единицах измерения;

- перед исследованием данные приводятся к сопоставимому виду, например, широко используются процентные или другие относительные величины, реже - стандартизированные значения.

Первый вариант является не решением проблемы, а лишь ее вынужденным обходом, обусловленным ограничениями реально имеющегося в распоряжении исследователей инструментария.

Второй вариант лишь частично решает проблему - снимает различие в единицах измерения. Однако он не преодолевает принципиального различия между количественными и качественными (нечисловыми) величинами и не позволяет обрабатывать их совместно в рамках единой модели.

В последние годы развивается ряд новых методов статистики, полный обзор которых дан в работах А.И. Орлова [1, 2]. Прежде всего, это интервальная статистика, статистика объектов нечисловой природы, робастные, бутстрепные и непараметрические методы.

В частности, методы интервальной статистики позволяют сводить числовые величины к фактам попадания их значений в определенные интервалы, т.е. к событиям. При этом преодолевается проблема возникновения различий в размерности числовых величин, обеспечивается также обработка числовых величин как событий совместно с информацией о других событиях, связанных с объектами нечисловой природы. Таким образом, интервальные методы сводят обработку числовых величин к методам обработки нечисловой информации и позволяют обрабатывать их единообразно по одной методике. Это, в общем-то, вполне очевидный и естественный ход. Однако достигается этот результат дорогой ценой: сведением числовых величин к нечисловым, т.е. преобразованием их к "низменному типу", что приводит к утрате ряда возможностей обработки. Это происходит потому, что для числовых величин существует гораздо больше методов и возможностей обработки, чем для нечисловых.

3. Идея решения проблемы

По нашему мнению, более предпочтительным является противоположный подход, основанный на введении некоторой количественной меры, позволяющей единым и сопоставимым образом описывать как числовые данные различной природы, так и нечисловые величины с использованием всего арсенала возможностей, имеющегося при обработке числовых данных.

Приведем аналогию традиционного и предлагаемого решений проблемы на примере обработки документов текстовых редакторов. Если у нас есть документы стандартов "Документ Word" и "Текст-DOS" и мы хотели бы обрабатывать их все в одном редакторе, то это можно осуществить двумя способами:

- преобразовать все документы Word в "низменный стандарт" "Текст-DOS" (аналог традиционного решения проблемы)

- преобразовать "досовские" документы в формат Word (аналог предлагаемого решения проблемы).

В 1979 году автором разработана [3], а в 1981 году впервые применена [4] математическая модель, обеспечивающая реализацию этой идеи. В последующем этот математический аппарат был развит в ряде работ, основной из которых является [5], была разработана соответствующая ему методика численных расчетов, включающая структуры данных и алгоритмы базовых когнитивных операций, а также создана программная система "Эйдос", реализующая математическую модель и методику численных расчетов [6, 7].

Предложенный метод получил название "Системно-когнитивный анализ" (СК-анализ) [5]. В СК-анализе числовым величинам, так же как и нечисловым, приписываются сопоставимые в пространстве и во времени,

а также между собой количественные значения, позволяющие обрабатывать их как числовые. Это осуществляется в два этапа:

- числовые величины преобразуются в нечисловые методом интервалов;

- нечисловым величинам, а также преобразованным числовым приписываются числовые значения.

Второй этап является особенностью СК-анализа.

СК-анализ включает следующие этапы:

1. Когнитивная структуризация, а затем и формализация предметной области.

2. Ввод данных мониторинга в базу прецедентов за период, в течение которого имеется необходимая информация в электронной форме.

3. Синтез семантической информационной модели (СИМ).

4. Оптимизация СИМ.

5. Проверка адекватности СИМ (измерение внутренней и внешней, дифференциальной и интегральной валидности).

6. Анализ СИМ.

7. Решение задач идентификации состояний объекта управления, прогнозирование и поддержка принятия управленческих решений по управлению с применением СИМ.

На первых двух этапах СК-анализа, детально рассмотренных в работе [8], числовые величины сводятся к интервальным оценкам, как и информация об объектах нечисловой природы (фактах, событиях). Эти этапы реализуются также в методах интервальной статистики.

На третьем этапе СК-анализа всем этим величинам по единой методике, основанной на системном обобщении семантической теории информации А. Харкевича, приписываются количественные вели-

чины, с которыми в дальнейшем и производятся все операции моделирования.

4. Математическая модель СК-анализа

4.1. Системное обобщение формулы Хартли

Системное обобщение формулы Хартли для равновероятных состояний объекта управления можно представить в виде:

I = Ьов2(СШ + с2 +... + сМ), (4)

М Ш

при М = Ш: Iсш = 2ш -1. (5)

т=1

I = Ьое2(2Ш -1)» Ш,

при Ш >> 1; I » Ш с очень малой (6) и быстро уменьшающейся погрешностью,

где Ш - количество чистых (классических) состояний системы; ф - коэффициент эмерджентности Хартли (уровень системной организации объекта, имеющего Ш чистых состояний).

4.2. Гипотеза о Законе возрастания эмерджентности

Исследование математических выражений системной теории информации (7-12) позволило сформулировать гипотезу о существовании "Закона возрастания эмерджентности". Суть этой гипотезы состоит в том, что в самих элементах системы содержится сравнительно небольшая доля всей записанной в ней информации, а основной ее объем составляет системная информация подсистем различного уровня иерархии.

I = Ьое 2 Ш .

(1)

I = ^2 Шф

(2)

I = Ь0В2 IС

(3)

т=1

Различие между классическим и предложенным системными понятиями информации соответствует различию между понятиями МНОЖЕСТВА И СИСТЕМЫ, на основе которых они сформированы.

М

I = Ь0Е 2Ш ф= ^ 2 I ст.

т=1

(7)

М

Ь0В2 IС

2 ^ '-Ш т=1

52

(8)

Ш

ЦШ,М) = Ьое2 Ш ^ (9) КШ,М) » Ь0В2 Ш^Ш = Ш. (10)

I

системная

Ш - Log2 Ш. (11) I(Ш, М) = Ь0В2 Ш + Ь082 Шф-1. (12)

Математическая формулировка

ф =

М

Log2 IСШ

т=1

Ш

Log2 Ш Log2 Ш

I

системная

Ш - Log2 Ш

Интерпретация

4.3. Системное обобщение формулы Харкевича

Ниже приведен вывод системного обобщения формулы Харкевича, а именно:

- классическая формула Харкевича через вероятности перехода системы в целевое состояние при условии сообщения ей определенной информации и без использования (13);

- выражение классической формулы Харкевича через частоты (14,

15);

- вывод коэффициента эмерджентности Харкевича на основе принципа соответствия с выражением Хартли в детерминистском случае (1619);

- вывод системного обобщения формулы Харкевича;

- окончательное выражение для системного обобщения формулы Харкевича (21).

Классическая формула Харкевича

г т Pi>

Iij = Log 2^- (13)

PJ ’

где Pj - вероятность перехода объекта управления в j-е состояние в условиях действия i-го фактора; Pj - вероятность самопроизвольного перехода объекта управления в j-е состояние, т.е. в условиях отсутствия действия i-го фактора или в среднем.

Известно, что корреляция не является мерой причинно-следственных связей. Если значение корреляции между действием некоторого фактора и переходом объекта управления в определенное состояние высокое, то это не значит, что данный фактор является причиной этого перехода. Для того чтобы по корреляции можно было судить о наличии причинноследственной связи, необходимо сравнить исследуемую группу с контрольной группой, в которой данный фактор не действовал.

Высокая вероятность перехода объекта управления в определенное состояние, так же как и высокая корреляция, в условиях действия некоторого фактора сама по себе не говорит о наличии причинно-следственной связи между ними, т.е. о том, что данный фактор обусловил переход объекта в это состояние. Это связано с тем, что вероятность перехода объекта в это состояние может быть вообще очень высокой и независимо от действия фактора. Поэтому в качестве меры силы причинной обусловленности определенного состояния объекта действием некоторого фактора Харкевич предложил логарифм отношения вероятностей перехода объекта в это состояние в условиях действия фактора и при его отсутствии или в среднем (13).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, семантическая мера информации Харкевича является мерой наличия причинно-следственных связей между факторами и состояниями объекта управления.

Выражение классической формулы Харкевича через частоты фактов

ж

м

ж м

(15)

Вывод коэффициента эмерджентности Харкевича на основе принципа соответствия с выражением Хартли в детерминистском случае

Однако мера Харкевича (13), в отличие от меры Шеннона, не удовлетворяет принципу соответствия с мерой Хартли, т.е. не переходит в меру Хартли в детерминистском случае, когда каждому будущему состоянию объекта управления соответствует единственный уникальный фактор и между факторами и состояниями имеется взаимно однозначное соответствие (17).

_ С мчм V

_ Ьоё 2 ■ (16) "Му _ N _ Му _ 1. (17)

і 1 у

Откуда

1у _ Ьое 2М *_ Ьое 2 ж * .(18)

(19)

Ьо§2М •

Вывод системного обобщения формулы Харкевича

Iij = L°g2

M

Log2 z cm

m=1

/ \Y

NNл

NiNj ,

V

= Log2

NN'

,NN,

Log2 W j Log2 N

Log2 W j

Y = Log2 W L°g2W (20) = Tog~F

/

Log2

N

ij

Log2 N

NiNj v v J

\

+ Log2 N

= Log2

Nij

Log2 W j Log2 N

NiNj

V W

Окончательное выражение для системного обобщения формулы Харкевича

(21)

4.4. Связь системной теории информации (СТИ) с теорией Хартли - Найквиста - Больцмана и теорией Шеннона

Связь между выражениями для плотности информации в теориях Хартли, Шеннона и СТИ показаны на рисунке 1.

Рис. 1. Связь между выражениями для плотности информации в теориях Хартли, Шеннона и СТИ

4.5. Интерпретация коэффициентов эмерджентности СТИ

Интерпретация коэффициентов эмерджентности, предложенных в рамках системной теории информации, приведена на рисунке 2.

Рис. 2. Интерпретация коэффициентов эмерджентности СТИ

Коэффициент эмерджентности Хартли ф (4) представляет собой относительное превышение количества информации о системе при учете системных эффектов (смешанных состояний, иерархической структуры ее подсистем и т.п.) над количеством информации без учета системности, т.е. этот коэффициент является аналитическим выражением для уровня системности объекта.

Коэффициент эмерджентности Харкевича ¥ изменяется от 0 до 1 и определяет степень детерминированности системы.

Таким образом, в предложенном системном обобщении формулы Харкевича (21) впервые непосредственно в аналитическом выражении для самого понятия "Информация" отражены такие фундаментальные свойства

систем, как "Уровень системности" и "Степень детерминированности" системы.

4.6. Матрица абсолютных частот

Основной формой первичного обобщения эмпирической информации в модели является матрица абсолютных частот (табл. 1). В этой матрице строки соответствуют факторам, столбцы - будущим целевым и нежелательным состояниям объекта управления, а на их пересечении приведено количество наблюдений фактов (по данным обучающей выборки), когда действовал некоторый /-й фактор и объект управления перешел в некоторое 7-е состояние.

Таблица 1. МАТРИЦА АБСОЛЮТНЫХ ЧАСТОТ

Атрибуты Классы - будущие состояния объекта управления Сумма

Целевые состояния Нежелательные состояния

і *** 1

Факторы, характеризующие текущее и прошлые состояния объекта управления, в т.ч. его рефлексивность **.

г N0 w и,=1Х Н

■***

Управляющие факторы системы управления і N0 w н

Факторы, характеризующие прошлые, текущее и прогнозируемые состояния окружающей среды к N.. и

**.

Сумма М і=1 м аГ аГ м

где:

N у - количество встреч 1-го признака у объектов ]-го класса по данным обучающей выборки

4.7. Матрица информативностей

Непосредственно на основе матрицы абсолютных частот с использованием системного обобщения формулы Харкевича (21) рассчитывается матрица информативностей (табл. 2).

Таблица 2. МАТРИЦА ИНФОРМАТИВНОСТЕЙ

Атрибуты

Классы - будущие состояния объекта управления

Целевые состояния

Нежелательные состояния

I

Средняя детерминирующая мощ-________ность фактора________

Факторы, характеризующие текущее и прошлые состояния объекта управления, вт.ч. его рефлексивность

/г, = т-^2

1=1 ;=1

,=1 >1

1-1 >1

Управляющие факторы системы управления

К-!!*,

1^-Ьо8ги

3=1 j=\

Ій^-Ьоі2----

Факторы, характеризующие прошлые, текущее и прогнозируемые состояния окружающей среды

к) А 62 а/ У

1=1 и

VI їх

Средняя детерминированность будущих состояний АОУ

<7,

Я = 2 ——

_ 1 м - среднее значение коорди-

I = — ^ 1 нат вектора класса,

1 м % ] м - количество факторов.

- среднее значение коорди-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ї, =— VI

1

_ м

нат вектора фактора, ^ ^ V V / мативность приЩ IV - количество классов IV-М '3 знаков по матрице

)_1 (будущих состояний АОУ). ;~1 !_1 информативностей.

коэффициент эмерд- Я - мера уровня системности предметной

жентности Харкевича, области в рамках СТИ

- средняя инфор-

ф - коэффициент эмерд-

її жентности Хартли.

Матрица информативностей является универсальной формой представления смысла эмпирических данных в единстве их дискретного и интегрального представления (причины - последствия, факторы - результирующие состояния, признаки - обобщенные образы классов, образное -логическое, дискретное - интегральное).

Весовые коэффициенты матрицы информативностей непосредственно определяют, какое количество информации /17 система управления получает о наступлении события: "объект управления перейдет в 7-е состояние" из сообщения: "на объект управления действует /-й фактор".

Когда количество информации /у>0, то /-й фактор способствует переходу объекта управления в 7-е состояние, если /у<0 - препятствует этому переходу, /у =0 - никак не влияет на это.

Таким образом, предлагаемая семантическая информационная модель позволяет непосредственно на основе эмпирических данных и независимо от предметной области рассчитать, какое количество информации содержится в любом событии о любом другом событии.

Этот вывод является ключевым для данной статьи, т.к. конкретно показывает возможность числовой обработки в СК-анализе как числовой, так и нечисловой информации.

Матрица информативностей является также обобщенной (неклассической) таблицей решений, в которой входы (факторы) и выходы (будущие состояния объекта управления) связаны друг с другом не с помощью классических (Аристотелевских) импликаций, принимающих только значения: "Истина" и "Ложь", а различными значениями истинности, выраженными в битах и принимающими значения от положительного теоретически максимально возможного до теоретически неограниченного отрицательного.

4.8. Неметрический интегральный критерий сходства, основанный на лемме Неймана - Пирсона

В выражениях (22-24) приведен неметрический интегральный критерий сходства, основанный на фундаментальной лемме Неймана -Пирсона и обеспечивающий идентификацию и прогнозирование в предложенных неортонормированных семантических пространствах с финит-

ной метрикой, в которых в качестве координат векторов будущих состояний объекта управления и факторов выступает количество информации, рассчитанное в соответствии с системной теорией информации (21), а не Булевы координаты или частоты, как обычно.

Іу = ґ(Іу ), (22)

или в координатной форме

ІУ = (у ц)

(23)

М

ІУ = І Ічц,

і=1

(24) у = аг§тах((Іу, Ц)),

(25)

где //7 = {//7 } - вектор 7-го состояния объекта управления; } - век-

тор состояния предметной области, включающий все виды факторов, характеризующих объект управления, возможные управляющие воздействия и окружающую среду (массив-локатор), т.е.

1, если і - й фактор действует;

аі, где 0 < аі < 1, если і - й фактор действует с истинностью аі.

0, если і - й фактор не действует.

ІУ =

М ( і(і

О у О М і=1

У Іі

(і - Ц).

®Іу 1у ц ®ц

(26) 'у у ' ' (27)

где Iу - средняя информативность по вектору класса; Ц - среднее по вектору идентифицируемой ситуации (объекта); о у - среднеквадратичное отклонение информативностей вектора класса; О1 - среднеквадратичное отклонение по вектору распознаваемого объекта.

4.9. Связь системной меры целесообразности

л

информации с критерием с2

В (28-33) показана связь системной меры целесообразности инфор-

2 -мации с известным критерием % , а также предложен новый критерий

уровня системности предметной области, являющийся нормированным

объемом семантического пространства (34, 35).

ж м (N.. - г)2 XX г]

7=1=1 г

(28)

г =

N,N7

N

(29)

где N7 - фактическое количество встреч /-го признака у объектов 7-го класса; г - ожидаемое количество встреч /-го признака у объектов7-го класса.

V*

//7 = ^2

N/N7 ,

V У

(30)

/Ц = Ь°Б2

N..

г

(31)

/7 = ¥2 Ni] - 2 г). (32)

если N7 < г, тео С7 > 0, /у < 0

если К,- = г, то %/7 = 0, //7 = 0

У ’ Л'У ’ У

если N7 > г, то С7 > 0, /7 > 0

(33)

Н = 2

1

ЖМ , _ч

XX (1/7 -/)

(ЖМ - 1)ПЙ

(34)

_ 1 ж м

/ = — XX/а

Ж М 7 =1/=1

(35)

В качестве более точного критерия уровня системности модели предлагается в данной статье объем неортонормированного семантического пространства, рассчитанный как объем многомерного параллелепипеда, ребрами которого являются оси семантического пространства. Однако для этой меры сложнее в общем виде записать аналитическое выражение, и

для ее вычисления могут быть использованы численные методы с использованием многомерного обобщения смешанного произведения векторов.

Абстрагирование (ортонормирование) значительно сокращает размерность семантического пространства без существенного уменьшения его объема.

4.10. Оценка адекватности семантической информационной модели в СК-анализе и бутстрепные методы

Под адекватностью модели СК-анализа понимается ее внутренняя и внешняя дифференциальная и интегральная валидность. Понятие валидности является уточнением понятия адекватности, для которого определены процедуры количественного измерения, т.е. валидность - это количественная адекватность. Это понятие количественно отражает способность модели давать правильные результаты идентификации, прогнозирования и способность вырабатывать правильные рекомендации по управлению.

Дадим определения следующим понятиям:

- внутренняя валидность - валидность модели, измеренная после ее синтеза путем идентификации объектов обучающей выборки;

- внешняя валидность - валидность модели, измеренная после ее синтеза путем идентификации объектов, не входящих в обучающую выборку;

- дифференциальная валидность модели - достоверность идентификации объектов в разрезе по классам;

- интегральная валидность - средневзвешенная дифференциальная валидность.

Возможны все сочетания: внутренняя дифференциальная валидность, внешняя интегральная валидность и т.д.

Основная идея бутстрепа по Б. Эфрону [9] состоит в том, что методом Монте-Карло (статистических испытаний) многократно извлекаются

выборки из эмпирического распределения. Эти выборки, естественно, являются вариантами исходной, напоминают ее.

Эта идея позволяет сконструировать алгоритм измерения адекватности модели, состоящий из двух этапов:

1. Синтез модели на одном случайном подмножестве обучающей выборки.

2. Измерение валидности модели на оставшемся подмножестве обучающей выборки, не использованном для синтеза модели.

Поскольку оба случайных подмножества имеют переменный состав по объектам обучающей выборки, то подобная процедура должна повторяться много раз, после чего могут быть рассчитаны статистические характеристики адекватности модели, например, такие как:

- средняя внешняя валидность;

- среднеквадратичное отклонение текущей внешней валидности от средней и др.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Достоинство бутстрепного подхода к оценке адекватности модели состоит в том, что он позволяет измерить внешнюю валидность по уже имеющейся выборке и изучить статистические характеристики адекватности модели при изменении объема и состава выборки.

4.11. Непараметричность модели. Робастные процедуры и фильтры для исключения артефактов

Предложенная семантическая информационная модель является непараметрической, т.к. базируется на системной теории информации [5], которая не предполагает нормальности распределений исследуемой выборки.

Под робастными понимаются процедуры, обеспечивающие устойчивую работу модели на исходных данных, зашумленных артефактами, т.е.

выпадающих из общих статистических закономерностей, которым подчиняется исследуемая выборка.

Критерий выявления артефактов, реализованный в СК-анализе, основан на том, что при увеличении объема статистики частоты значимых атрибутов растут, как правило, пропорционально объему выборки, а частоты артефактов так и остаются чрезвычайно малыми, близкими к единице. Таким образом, выявление артефактов возможно только при достаточно большой статистике, т.к. в противном случае недостаточно информации о поведении частот атрибутов с увеличением объема выборки.

В модели реализована такая процедура удаления наиболее вероятных артефактов, и она, как показывает опыт, существенно повышает качество (адекватность) модели.

5. Методика численных расчетов СК-анализа

5.1. Детальный список БКОСА и их алгоритмов

Детальный список базовых когнитивных операций системного анализа, которым соответствуют 24 алгоритма, здесь привести нет возможности из-за их объемности (табл. 3). Они представлены в полном объеме в работе [5].

Таблица 3. ДЕТАЛЬНЫЙ СПИСОК БАЗОВЫХ КОГНИТИВНЫХ ОПЕРАЦИЙ СИСТЕМНОГО АНАЛИЗА (БКОСА)

1 О и гё 1 си X О О Ф с а < и о и Наименование БКОСА Полное наименование базовых когнитивных операций системного анализа (БКОСА)

1.1 1 Присвоение имен Присвоение имен классам (интенсиональная, интегральная репрезентация)

1.2 Присвоение имен атрибутам (экстенсиональная, дискретная репрезентация)

1 2.1. 2 Восприятие Восприятие и запоминание исходной обучающей информации

2 2.2. Репрезентация. Сопоставление индивидуального опыта с коллективным (общественным)

3 3.1.1 3 Обобщение (синтез, индукция) Накопление первичных данных

4 3.1.2 Исключение артефактов

5 3.1.3 Расчет истинности смысловых связей между предпосылками и результатами (обобщенных таблиц решений)

6 3.2 Определение значимости шкал и градаций факторов, уровней Мерлина

7 3.3 Определение значимости шкал и градаций классов, уровней Мерлина

8 4.1 4 Абстраги- рование Абстрагирование факторов (снижение размерности семантического пространства факторов)

9 4.2 Абстрагирование классов (снижение размерности семантического пространства классов)

10 5 5 Оценка адекватности Оценка адекватности информационной модели предметной области

11 7 6 Сравнение, идентификация и про-гнозирова-ние Сравнение, идентификация и прогнозирование. Распознавание состояний конкретных объектов (объектный анализ)

12 9.1 7 Анализ, дедукция и абдукция Анализ, дедукция и абдукция классов (семантический анализ обобщенных образов классов, решение обратной задачи прогнозирования)

13 9.2 Анализ, дедукция и абдукция факторов (семантический анализ факторов)

14 10.1.1 8 Классификация и генерация конструктов Классификация обобщенных образов классов

15 10.1.2 Формирование бинарных конструктов классов

16 10.1.3 Визуализация семантических сетей классов

17 10.2.1 Классификация факторов

18 10.2.2 Формирование бинарных конструктов факторов

19 10.2.3 Визуализация семантических сетей факторов

20 10.3.1 9 Содержа- тельное Содержательное сравнение классов

21 10.3.2 Сравнение Расчет и отображение многомногозначных когнитивных диаграмм, в т.ч. диаграмм Мерлина

22 10.4.1 Содержательное сравнение факторов

23 10.4.2 Расчет и отображение многомногозначных когнитивных диаграмм, в т.ч. инвертированных диаграмм Мерлина

24 11 10 Планирование и управление Многовариантное планирование и принятие решения о применении системы управляющих факторов

5.2. Иерархическая структура данных семантической информационной модели СК-анализа

На рисунке 3 приведена в обобщенном виде иерархическая структура баз данных семантической информационной модели системнокогнитивного анализа. На этой схеме базы данных обозначены прямоугольниками, а базовые когнитивные операции системного анализа, преобразующие одну базу в другую, - стрелками с надписями. Имеются также базовые когнитивные операции, формирующие выходные графические формы. Из этой схемы видно, что одни базовые когнитивные операции готовят данные для других операций, относящихся к более высоким уровням иерархии системы процессов познания. Этим определяется возможная последовательность выполнения базовых когнитивных операций.

Рис. З. Иерархическая структура баз данных семантической

информационной модели

6. Специальный программный инструментарий СК-анализа - система "Эйдос"

В таблице 4 показана обобщенная схема когнитивной аналитической системы "Эйдос", которая реализует математическую модель и численный метод системно-когнитивного анализа, являющийся его инструментарием.

В состав данной системы входят 7 подсистем.

Первые 3 подсистемы являются инструментальными, т.е. позволяют осуществлять синтез и адаптацию модели.

Остальные 4 подсистемы обеспечивают идентификацию, прогнозирование и кластерно-конструктивный анализ модели, в т.ч. верификацию модели и выработку управляющих воздействий.

Система "Эйдос" является довольно большой системой: распечатка ее исходных текстов 6-м шрифтом составляет около 800 листов, она генерирует 53 графические формы (двумерные и трехмерные) и 50 текстовых форм. На данную систему и системы окружения получено 8 свидетельств РосПатента РФ.

Таблица 4. ОБОБЩЕННАЯ СТРУКТУРА УНИВЕРСАЛЬНОЙ КОГНИТИВНОЙ АНАЛИТИЧЕСКОЙ СИСТЕМЫ "ЭЙДОС"

№ Подсистема Режим Функция Операция

Классификационные шкалы и градации

Описательные шкалы и градации Наименования шкал

Наименования градаций

Градации описательных шкал (признаки)

1 Словари Иерархические уровни организации Уровни классов

систем Уровни признаков

Почтовая служба по нормативной Обмен по классам

информации Обмен по признакам

Печать анкеты

Ввод—корректировка обучающей выборки

Управление составом обучающей выборки Параметрическое задание объектов для обработки

Статистическая характеристика, ручной ремонт

Автоматический ремонт обучающей выборки

Накопление абсолютных частот

Исключение артефактов (робастная процедура)

2 Обучение Расчет информативностей признаков

Пакетное обучение системы распознавания Расчет условных процентных распределений

Автоматическое выполнение режимов 1—2—3—4

Измерение сходимости и устойчивости модели Сходимость и устойчивость информационной модели

Зависимость валидности модели от объема обучающей выборки

Почтовая служба по обучающей информации

Формирование ортонормированного базиса классов

3 Оптимизация Исключение признаков с низкой селективной силой

Удаление классов и признаков, по которым недостаточно данных

Ввод—корректировка распознаваемой выборки

Пакетное распознавание

4 Распознавание Вывод результатов распознавания Разрез: один объект — много классов

Разрез: один класс - много объектов

Почтовая служба по распознаваемой выборке

Информационные (ранговые) портреты (классов)

Расчет матрицы сходства образов классов

Типологический анализ классов распознавания Кластерный и Генерация кластеров и конструктов классов

конструктивный Просмотр и печать кластеров и конструктов

анализ классов Автоматическое выполнение режимов: 1,2,3

Вывод 2с! семантических сетей классов

5 Типология Когнитивные диаграммы классов

Информационные (ранговые) портреты признаков

Расчет матрицы сходства образов признаков

Типологический анализ первичных признаков Кластерный и Генерация кластеров и конструктов признаков

конструктивный Просмотр и печать кластеров и конструктов

анализ признаков Автоматическое выполнение режимов: 1,2,3

Вывод 2с! семантических сетей признаков

Когнитивные диаграммы признаков

Оценка достоверности заполнения объектов

Измерение интегральной и дифференциальной валидности системы распознавания

6 Анализ Измерение независимости классов и признаков

Просмотр профилей классов и признаков

Графическое отображение нелокальных нейронов

Отображение Паретто-подмножеств нейронной сети

Все базы данных

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Всех баз данных

Нормативная БД классов

Генерация (сброс) баз данных информация БД первичных признаков

БД обобщенных признаков

Обучающая выборка

7 Сервис Распознаваемая выборка

Базы данных статистики

Переиндексация всех баз данных

Печать БД абсолютных частот

Печать БД условных процентных распределений

Печать БД информативностей

Интеллектуальная дескрипторная информационно—поисковая система

7. Выводы

Интервальные оценки сводят анализ чисел к анализу фактов и позволяют обрабатывать количественные величины как нечисловые данные. Это ограничивает возможности обработки количественных величин методами

обработки нечисловых данных. В математической модели СК-анализа, основанной на системной теории информации, наоборот, качественным, нечисловым данным сопоставляются количественные величины. Это позволяет использовать все возможности количественных методов для исследования нечисловых данных.

Таким образом, в СК-анализе числовые и нечисловые данные обрабатываются единообразно на основе единой математической модели как числовые данные.

Рассматривается связь метода измерения адекватности модели в СК-анализе с бутстрепными методами.

Описывается робастная процедура выявления и устранения артефактов в СК-анализе.

Список литературы

1. Орлов А.И. Надежность и контроль качества. 1991. № 8. С. 3-8.

2. Орлов А.И. Современная прикладная статистика. http://www.mira-ech.com.ua/linkst art.htm.

3. Луценко Е.В. Автоматизированная система распознавания образов: математическая модель и опыт применения // В.И. Вернадский и современность (к 130-летию со дня рождения): Сборник. - Краснодар: КНА, 1993. - С. 37-42.

4. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280 с.

5. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационнотехнических систем): Монография (научное издание). - Краснодар: КубГАУ, 2002. -605 с.

6. Пат. № 940217. РФ. Универсальная автоматизированная система распознавания образов "ЭЙДОС" / Е.В. Луценко (Россия); Заяв. № 940103. Опубл. 11.05.94. - 50 с.

7. Пат. № 2003610986 РФ. Универсальная когнитивная аналитическая система "ЭЙДОС" / Е.В. Луценко (Россия); Заяв. № 2003610510 РФ. Опубл. от 22.04.2003. - 50 с.

8. Луценко Е.В. Типовая методика и инструментарий когнитивной структуризации и формализации задач в СК-анализе // Научный журнал КубГАУ. - 2004.- № 1 (3). -18 с. Ьир://еі. киЬааго. ги

9. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. - 263 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.