Библиографические ссылки
1. Kennel M. B., Brown R., Abarbanel H. D. I. Determining embedding dimension for phase-space reconstruction using a geometrical construction // Phys. Rev. A. 1992. Vol. 45. № 6. P. 3403-3411.
2. Grassberger P., Procaccia I. Measuring the strangeness of strange attractors // Physica D. 1983. Vol. 9. P. 189.
3. An unusually active sun during recent decades compared to the previous 11 000 years / S. Solanki,
I. Usoskin, B. Kromer et al. // Nature. 2004. Vol. 431. № 7012. P. 1084-1087.
M. A. Bondarenko
METHODS FOR CHAOTIC DYNAMICS IN THE PROBLEM OF ANALYSIS OF WOLFER'S TIME SERIES
The results of computer studies of time series composed of the Wolfer’s numbers are presented in the article. In accordance with the approach based on Takens's theorem, the author solves the problem of reconstructing dimension of attractor of a dynamical system describing the dynamics of the Sun. It is shown that for the last 3 000 years, fundamental changes in the evolution of the Sun have not happened.
Keywords: Taken’s theorem, reconstruction of the attractor, Wolfer’s numbers.
© Бондаренко М. А., 2010
УДК 519.67-519.24, 519.6
А. А. Викентьев
О ВВЕДЕНИИ МЕТРИК НА ВЫСКАЗЫВАНИЯХ ЭКСПЕРТОВ С ВЕРОЯТНОСТЯМИ
*
Предлагаются способы введения метрик на высказываниях экспертов, заданных формулами исчисления высказываний с вероятностями. Результаты переносятся на формулы над бесконечными носителями.
Ключевые слова: высказывания экспертов, кластеризация, расстояния, метрики.
В настоящее время проявляется все больший интерес к анализу экспертной информации, заданной в виде вероятностных логических высказываний экспертов. Интересны исследования о высказываниях экспертов, представленных формулами исчисления высказываний (ИВ) с вероятностями. Возникают задачи об алгоритмах распознавания закономерностей, согласования логических (экспертных) знаний и их кластеризации [1-6]. Для решения этих задач необходимы метрики на знаниях.
В данной статье рассматриваются логические высказывания экспертов, представленные формулами исчисления высказываний с вероятностями, предлагаются способы задания расстояний на формулах-высказываниях с вероятностями, а также устанавливаются свойства введенных расстояний, для чего используются вероятностный и теоретико-модельный подходы [2; 5; 7].
Основные определения. Будем рассматривать знания экспертов, представленные формулами ИВ с вероятностями (вероятностные высказывания), т. е. высказывания вида « ф с вероятностью рф», где ф -формула ИВ. Для таких высказываний будем использовать следующую запись:
в =(ф, Рф), в] = (у,Рч).
Пусть Е - база знаний, состоящая из формул ИВ, т. е. в Е содержатся все формулы, с которыми будут работать эксперты; £(ф) - носитель формулы ф , т. е. множество элементарных высказываний, используемых при написании формулы ф , £(Е) = ^ £(ф) - но-
феЕ
ситель совокупности знаний.
Рассмотрим совокупность Р(£(Е)) = 2£(Е) - множество всевозможных подмножеств множества £(Е). Для простоты обозначения примем, что
|Р(£(Е))| = 2£(Е) = п. Элементы множества Р(£(Е)) называются моделями. Более подробно о теории моделей см. в [2-4].
Пусть эксперты говорят о вероятностях (частости) формул на множестве всех п моделей, и каждое высказывание присутствует только с одной вероятностью. Тогда будем интерпретировать вероятность, данную экспертом, следующим образом: В = ^ф, р^. Это означает, что высказывание ф истинно на Пф = [п • Рф ] моделях, где п = 2^£(Е) - число всех моделей.
*Работа выполнена при поддержке Российского фонда фундаментальных исследований (гранты 07-01-00331a, 08-07-00136а).
Пусть имеется два вероятностных логических вы-
Докажем свойство 4 сначала слева направо (^).
сказывания
Б, = (ф,рф) и Б, = (у,ру). Дадим спосо6 Если Бі = Б , то ф^у и, значит, пф = пу = k. Следо-
ф / “ , \ТУҐУ
вычисления расстояния р(Б,, Б,) между такими высказываниями.
Интерпретируя данные экспертами вероятности описанным выше способом, получаем, что высказывание ф истинно на Пф = [п • Рф ^ моделях, а высказывание у - на пу = [п • ру ] моделях. Отметим, однако,
что при таком подходе мы не знаем, на каких именно моделях каждое высказывание истинно, а также число моделей, на которых эти высказывания истинны одновременно.
Решим следующую задачу: пусть высказывание ф истинно на Пф моделях, высказывание у истинно на пу моделях и k - число моделей, на которых эти высказывания истинны одновременно. Вычислим расстояние между высказываниями Бі = ^ф, р^ и
Б, =(^ Ру).
Обозначим рассматриваемые далее расстояния через рк (Бі, Б,), где k = 0,1, 2,..., тіп(пф, пу).
Как и в [2-4], расстояние рк (Бі, Б,) для каждого
k = 0,1,2,., тіп(пф, пу) определим через разность:
р* (Б-, Бі) =
п - * + п - * п + п - 2*
ф у _ ф у
Теорема 1. Для расстояний р* (Бі, Б,) справедливы свойства:
1) 0 <р* (Б,., Б,) < 1;
2) р* (Б,, Б,) = р* (Б,, Бі);
3) р*(Б,,Б,) <р*(Б,,Б,) + р*(Б,,Б,);
4) Б, = Б, « р*(Б,, Б,) = 0 ( Б, = Бі « ф = у и Рф = Ру, т. е. формулы ф и у истинны на одних и тех же моделях);
5) Б, = -Б] «р* (Б,, Б,) = 1;
6) р*(В,,Б,) = 1 -р*(Б,, ) = р*(-Б,, );
7) р* (Б,, Б,) = р* (Б, л Б,, Б, V Б,).
Докажем неочевидное свойство 3. Определение р* (Б,, Б,) можно переписать следующим образом:
р* (Б,, Б]) =
п + п - 2* п,.
фу _ фДу
(-іфлу^(фл- -у)
п
р* (Б,, Б ) = пфДу< пфД^ + ^ ' ] п п п
= р* (Б,, Б,) + р* (Б,, Бі).
вательно,
р* (Б,, Б]) =
п + п - 2*
ф у______________ = 0
Докажем свойство 4 в обратную сторону (^). Если рк (В., В]) = 0, то пф + пу — 2к = 0. Так как к может принимать значения 0,1, 2,..., К, тш(пф, пу), то
Следовательно,
(пф+ пу— 2к = 0 » пф = пу = к).
ф = у и, значит, В1 = В].
Докажем свойство 5 слева направо (^). Если Д. = "В], то ф = "у. Тогда пф = п — пу и к = 0, следовательно
р* (Б,, Б,) =
п + п - 0 п
ф у = _ =1 п п
Докажем свойство 5 в обратную сторону (^). Если рк (В., В]) = 1, то пф + пу — 2к = п. Так как к может принимать значения 0,1, 2,., К, тш(пф, пу), то (пф + пу — 2к = п » пф + пу = п и к = 0). Следовательно, ф = "у и В1 = "В].
Докажем свойство 6:
п + п,,, - 2*
р* (Б,, ) =
р* (Б,, Б,) = -
п
пф + п-у - 2(пф - *> _ пф + (п - пу) - 2(пф - *)
п - пф- пу - 2*
= 1 -
пф+ пу - 2*
= 1 -р* (Б,, Б,),
Откуда нетрудно доказать, что
1 -р* (Б,, Б,) = р* (-Б,, -Бі).
Докажем свойство 7. Легко доказать, что п
(флу)Д(фvу) пфДу. Тогда
р* (Б, Л Б,, Б, V Б, ) =■
= р* (Б,, Б]).
(по определению симметрической разности). Тогда для произвольного высказывания Вл. = ^%, Рх) нетрудно доказать, что пфДу < пфДх + пхДу, откуда
Далее предложим несколько способов вычисления расстояния р(В., В]) между вероятностными высказываниями В1 = ^ф,Рф^ и В] = ^у,ру^.
Так как нам неизвестно число к, т. е. число моделей, на которых высказывания ф и у истинны одновременно, и если нет никаких предпочтений для значения к (хотя они и могут быть высказаны экспертами), то мы можем поступить следующим образом.
Предположим, что все значения числа к равновероятны. Тогда расстояние между вероятностными высказываниями В1 = ^ф,р^ и В] = ^у,Ру^ определим
как усреднение расстояний рк (В., В]) по всем значениям к:
п
п
п
п
п
п
п
П(флу)Д(фvу) пфДу)
п
п
п
п
шт(пф ,пу )
£ р* (Б,, Б,) р( Бі, Б.) = —^-------------.
тіп(пф, пу) +1
Для этого расстояния также справедлива теорема 1, и слагаемые под знаком суммы можно взять с весами, в которых учтены мнения экспертов.
Если экспертами указано, какое значение * предпочтительнее, то в качестве р(Б,, Б,) берется расстояние р* (Б,, Б,). Это возможно в случае, когда мы
знаем, что пересечение состоит из * моделей.
Можно подойти к вопросу определения расстояния р* (Б,, Б,) и с вероятностно-статистической точки
зрения и для каждого * вычислить частоту того, что высказывания ф и у одновременно истинны на * моделях.
Найдем частоту (вероятность) рк того, что в выбранных пф и пу моделях (они выбираются из п моделей) будет * моделей, на которых высказывания ф и у истинны одновременно, где * = 0,1,2,...,К,
тІП(пф , пу ).
Сначала определим вероятностное пространство (О, А, р), где О - пространство элементарных исходов - моделей, О = {0,1, 2, ., К, тіп(пф, пу) | -
число возможных совпадений моделей в наборах из пф и пу моделей; А - система пар подмножеств множества моделей О, образующая ст-алгебру событий; р - вероятность на (О, А).
Определим для * = 0,1, 2,., К, тіп(пф, пу) на декартовом произведении О®А случайную величину
5:
5(*) = р* (Б,, Б,),
т. е. функция 5 каждому * из О будет ставить в соответствие число - расстояние р* (Б,, Б,).
Вероятность этого события (с пересечением *) на классе из п моделей можно вычислить так:
Рк =-
Cn Cn-k Сп-«
с« с«
nn
где СпИф - число способов выбрать пф моделей из п моделей.
Действительно, любой набор, состоящий из пф моделей, может сочетаться с любым набором, состоящим из пу моделей, значит число С • С?) определяет количество всех способов выбрать два набора, один из которых состоит из пф моделей, а другой -
из пу моделей. Выбрать * моделей, которые будут общими в этих наборах, из п моделей можно Скп
способами. Тогда остальные (пф - *) и (пу - *) моделей должны быть дизъюнктными. Следовательно, остальные (пф - *) моделей для пополнения набора, состоящего из *, до пф моделей можно выбрать С-к способами, а (пу - *) моделей для получения набора, состоящего из пу моделей, с учетом наших предположений, - С”у„* способами. Итак, имеется всего
из
(с,Сп--кС"гу-* | способов выбрать два набора, один которых состоит из пф моделей, а другой - из пу моделей, и * моделей в этих наборах моделей совпадут. Поэтому вероятность того, что * моделей совпадет в наборах из пф и пу элементных моделей, составит
Рк =-
скспф-к спу-к
n n-k n-Пф
с«ф сП
nn
В результате получим, что расстояния
Рк (В, Bj) =
«ф + %- 2к
будут появляться с вероятностями
Рк =-
скспф-к с«-к
n n-k п-«ф
с«ф с«
nn
где k = 0,1, 2,..., K, min(n,ny). Эти вероятности (и
близкие к ним числа) можно использовать в качестве весов-коэффициентов расстояний для получения результирующего расстояния для данных формул с вероятностями (подробнее об этом см. дальше).
Заметим, что при таком подходе главную роль играют не сами формулы, а числа, определяющие количество моделей и их пересечения. Не имея другой информации, мы рассмотрели все возможные подмножества для подсчета частости (вероятности) появления расстояния для конкретного k. Используя свойство инвариантности расстояний между формулами и вероятностей высказываний (формул) [2-4], можно получить аналогичный результат, но с меньшим носителем знаний, включающим только те, которые встречаются в двух формулах, для которых и ищется расстояние. Будем считать, что мы так и сделали с самого начала. И тогда наш расчет будет оптимальным.
Зная вероятности рк для каждого расстояния рк (B,, Bj), в качестве расстояния между вероятностными высказываниями Bi = ^ф, р^ и Bj = ^y, py ^
можно взять, например, наиболее вероятное расстояние р(В,., B ) = рт (B,., B ), где pm = max рк, для коток
рого справедлива теорема 1.
Для получения других расстояний можно использовать расстояние, усредненное для некоторых выбранных подмножеств из всех полученных расстояний.
n
Если мы возьмем произвольные веса Рк (исходя из экспертных оценок или дополнительных сведений экспертов, которые могут и не совпадать!) для расстояний рк (В., В]) таким образом, чтобы они подчинялись закону распределения, то получим общий случай для адаптивного поиска нужного расстояния между формулами с вероятностями. Тогда в качестве расстояния между вероятностными высказываниями В1 = ^ф, Рф ^ и В] = ^у, Ру ^ можно взять величину,
равную математическому ожиданию (центру тяжести) или среднему значению случайной величины £:
тп(иф .пу )
Р(В,., В])=М£ = £ Рк (В, В]) • Рк.
к =0
Теорема 2. Для расстояния р( В., В]) справедливы
свойства:
1) 0 <р(В, В]) < 1;
2) р(В,, В]) = р(В], В,.);
3) р(В,, В]) <р(В,, В,) + р(В,, В]);
4) если р(В., В]) = 0, то В. = В];
5) р(В, В]) = 1 — р(В1, "В]) = р( "В., "В]);
6) р(В, В]) = р(В. л В], В. V В]).
Докажем неочевидное свойство 3. Для расстояния
В. = ^ф, Рф ^ по свойству 3 теоремы 1 имеем
рк (В, В]) < рк (В., В,) + рк (В,, В]). Тогда по свойствам математического ожидания:
а) £ < л ^ М£ < Мл;
б) М (£+л) = М £ + М л, откуда получаем требуемое свойство для расстояния.
Докажем свойство 4. Пусть £(к) = рк (В., В]) > 0 и
М £ = 0. Тогда по свойству математического ожидания £(к) = рк (В1, В]) = 0 с вероятностью, равной 1, а по свойству 4 теоремы 1 В. = В].
Докажем свойство 5. Так как для расстояния рк (В., В]) по свойству 6 теоремы 1 справедливо равенство
рк (В, В]) = 1—рк (В>, "В]) = рк ("В., "В]),
тогда по свойствам математического ожидания:
а) если р(£ = л) = 1 и 3M£ (математическое ожидание существует), то M £ = M л;
б) M(a + b£) = a + bM£, откуда получаем требуемое свойство для расстояния р( Bj, Bj).
Таким образом, в данной статье исследованы способы введения метрик на классах эквивалентных высказываний экспертов, заданных формулами ИВ с вероятностями. Такое исследование необходимо для решения задач согласования вероятностных высказываний экспертов, кластеризации и для построения баз знаний и экспертных систем. Результаты переносятся на формулы над бесконечными носителям и формулы с переменными языка первого порядка с использованием измеримых (для фиксированной теории) подклассов измеримых (в том числе и метрических) моделей.
Библиографические ссылки
1. Блощицын В. Я., Лбов Г. С. О мерах информативности логических высказываний // Технология разработки экспертных систем : докл. Респ. школы-семинара. Кишинев, 1987. С. 12-14.
2. Лбов Г. С., Старцева Н. Г. Логические решаю-
щие функции и вопросы статистической устойчивости решений. Новосибирск : Изд-во Ин-та
математики, 1999.
3. Vikent’ev A. A., Lbov G. S. Setting the metric and informativeness on statements of experts // Pattern Recognition and Image Analysis. 1997. Vol. 7 (2). P. 175-189.
4. Викентьев А. А., Лбов Г. С. О метризациях булевой алгебры предложений и информативности высказываний экспертов // Докл. Рос. акад. наук. 1998. Т. 361 (2). С. 174-176.
5. Бериков В. Б. Кластерный анализ с использованием коллектива деревьев решений // Науч. вестн. Новосиб. гос. техн. ун-та. 2009. № 3 (36). С. 67-76.
6. Лбов Г. С., Бериков В. Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. Новосибирск : Изд-во Ин-та математики, 2005.
7. Ершов Ю. Л., Палютин Е. А. Математическая логика. М. : Наука,1991.
A. A. Vikentiev
INLETTING METRICS FOR EXPERT STATEMENTS WITH PROBABILITIES
In the work the author discusses ways of inletting metrics for expert statements represented as the formulas of Sentence Logic. Methods for inletting metrics on such formulas are offered and properties of the entered metrics are investigated. The research can be applied for solving problems of the best reconciliation of expert statements, for constructing decision functions in pattern recognition and for building expert systems.
Keywords: cluster analysis, expert statements, distance, metrics.
© BnKeHTteB A. A., 2010