УДК 004.855:519.216
0.С. БАЛАБАНОВ*
В1ДТВОРЕННЯ КАУЗАЛЬНИХ МЕРЕЖ НА ОСНОВ1 АНАЛ1ЗУ МАРКОВСЬКИХ ВЛАСТИВОСТЕЙ
1нститут програмних систем НАН Украши, Кшв, Украша
Анотаця. Охарактеризовано новий nidxid до виведення каузальних моделей з емтричних даних, який спираеться на виявлення фактiв умовног незалежностi. Пiдхiд, базований на незалежностi, забезпечуерозробку асимптотично-коректних методiв виведення каузальних мереж, у той час як регрестна методологiя непридатна для цього. Базованим на незалежностi методам притаманна дворiвнева декомпозищя задачi, що сприяе зниженню розмiрностi потрiбних статистик та обчи-слювальних витрат. Для тдвищення ефективностi метод доцтьно озброгти набором резолюцт, як забезпечують устання простору пошуку сепараторiв та фокусування верифiкацiг зв'язюв. Пропоноват засоби грунтуються на необхiдних вимогах до члена локально-мШмального d-сепаратора. Ефективтсть розроблених методiв продемонстровано на прикладах. Викладено принципи контролю ефективностi методiв i адекватностi моделi.
Ключов1 слова: каузальм мережi, умовна незалежшсть, локально-мШмальний d-сепаратор, кау-зальний вплив, верифтащя та орiентацiя ребра, iдентифiкацiя структурних параметрiв, оцтка адекватностi моделi.
Аннотация. Охарактеризован новый подход к выводу каузальных моделей из эмпирических данных, который опирается на выявление фактов условной независимости. Подход, основанный на независимости, обеспечивает разработку асимптотически-корректных методов вывода каузальных сетей, в то время как регрессионная методология непригодна для этого. Основанным на независимости методам присуща двухуровневая декомпозиция задачи, что способствует снижению размерности необходимых статистик и вычислительных расходов. Для повышения эффективности в метод целесообразно ввести набор резолюций, которые обеспечивают усечение пространства поиска сепараторов и фокусировку верификации связей. Предложенные средства основаны на необходимых требованиях к члену локально-минимального d-сепаратора. Эффективность разработанных методов продемонстрирована на примерах. Изложены принципы контроля эффективности методов и адекватности модели.
Ключевые слова: каузальные сети, условная независимость, локально-минимальный d-сепаратор, каузальное влияние, верификация и ориентация ребра, идентификация структурных параметров, оценка адекватности модели.
Abstract. We characterize an independence-based approach to causal model inference from data. In contrast to regression, methods of this approach are aimed to asymptotically correctly recover a generative model. The merit of independence-based methods is inherent decomposition of model inference. This results in reducing dimensionality of statistics used as well as problem hardness. Aiming to enhance efficiency of methods we devise a few resolutions which facilitate contraction a space of search for separator and reducing a hardness of edge verification. The resolutions are grounded on necessary requirements on a member of locally-minimal d-separator. Efficiency of methods developed is demonstrated via few examples. Principles for verification of method effectiveness and model adequacy are presented. Keywords: causal networks, conditional independence, locally-minimal d-separator, causal influence, edge verification and orientation, identification of structural parameters, evaluation of model adequacy.
1. Вступ
Одна з центральних задач аналiзу даних та моделювання - виведення каузальних моделей, придатних для аналiзу ршень та планування дш у дослщжуванш предметнш галузь Такому призначенню найкраще вщповщають каузальш мережi - моделi ймовiрнiсних залежно-стей, структуроваш зпдно з марковськими властивостями [1, 2]. Впродовж останшх 20-ти роюв у провщних кранах штенсивно розвиваються методи вщтворення каузальних мереж
© Балабанов О.С., 2016
ISSN 1028-9763. Математичш машини i системи, 2016, № 1
зi статистичних даних. Ми розглядаемо тут найважчу постановку задач^ коли структура моделi не вiдома апрiорi (й активш експерименти недоступнi). Невiдомим може бути на-вiть темпоральний порядок змшних. У такiй проблемнiй ситуацп стають некоректними традицiйнi методи, наприклад, регресшш (коли виводиться неадекватна модель, яка «ви-кривлюе» картину каузальних зв'язкiв). У статтi розглядаеться систематичний тдхщ до вирiшення проблеми реконструкцп моделi, який забезпечуе асимптотично-коректний роз-в'язок. Модель вiдтворюеться за фрагментами, через знайдення локальних марковських патершв й статистичних свiдчень про зв'язки. (Темпоральний порядок змшних з'являеться як лопчний наслщок iз структури модель) Невизначена проблемна ситуащя робить точне ршення недосяжним. Виведена модель буде, по-перше, нечiткою («розмитою» у статисти-чно-ймовiрнiсному сенсi) i, по-друге, щентифшована як клас еквiвалентностi моделей (з невизначеними напрямками деяких зв'язкiв). Модель може мютити безпосереднi зв'язки (ребра) чотирьох титв. Ребро (дуга) вигляду X ® У вiдображае каузальний вплив X на У . Ребро и « Ж позначае юнування приховано'1 змшно! (причини), що впливае рiвноча-сно (паралельно) на и та Ж . Ребро V 2 вщображае два можливих варiанти: каузальний вплив або юнування приховано1 змшно! (стльно1 причини). Ребро Q °— ° Я означае,
що каузальний характер цього зв'язку зовсiм невизначений.
Процес виведення моделi стикаеться з обчислювальними проблемами, бо кiлькiсть можливих структур моделi е факторiально (експоненцшно) великою. Кiлькiсть варiантiв порядку змшних - також експоненцшна. Для пщвищення ефективностi реконструкцп мо-делi запропоновано систематичний тдхщ до пошуку сепараторiв, базований на викорис-таннi iмплiкацiй марковських властивостей каузальних мереж. Теоретичний грунт новацш - поняття локально-мшмального ё-сепаратора (ЛоМС) та необхiднi вимоги до члешв ЛоМС. Запропонованi засоби дозволяють адаптивно оптимiзувати i звужувати пошук складних мiнiмальних сепараторiв, виходячи iз знання вже знайдених «сусщшх» простих сепараторiв та патернiв залежностей. Вщакаються цiлi сектори простору пошуку адекватно'!' модель
2. Незадовшьшсть застосування регресп
Монографп з аналiзу даних традицiйно застерiгають вiд каузально1 штерпретацп кореляцп та фактiв залежносп. В [3] проаналiзовано трактування каузальност регресiйними методами в економетрищ. Вiдомо, що регресiйний аналiз - недосконалий метод реконструкцп структур залежностей [2-4]. Дшсно, за невщомого темпорального порядку змшних незро-зумiло, як обирати цшьову змiнну та предиктори. Результат регресп не дае каузально1 ш-формацп. Регресiйний аналiз не гарантуе нав^ь коректно1 щентифшацп сукупносп безпо-середнiх статистичних зв'язкiв мiж змiнними. Зрозумiло, можна перебрати вс варiанти впорядкування змiнних i виконати багато регресшних задач, а потсм серед багатьох виве-дених моделей вибрати мшмальну (найпростiшу). Одначе кшькють варiантiв порядку змiнних вже при двох десятках змшних стае астрономiчно великою. Модель, виведена через регреаю, «викривлюеться» також внаслiдок наявносп прихованих змiнних.
Для шюстрацп розглянемо простий приклад. Нехай система структуральних рiвнянь (генеративна модель) мае вигляд
X := а ■ 2 + Ь ■ Н +ех, У := с ■ Н + еУ
(структура моделi зображена на рис. 1). Припустимо, змiнна Н - прихована (не включена в даш). Нехай темпоральний порядок змшних - вщомий, i змiнна У стать у порядку тсля (пiзнiше) X та 2 . Тодi буде виконана регреая змшно! У на змiннi X, 2. Стандартна процедура множинно1 регресп визнае X та 2 значущими предикторами (врахування
. H ;
4 SJ
змшно!' X «втягуе» Z ). А це створюе iлюзiю, що X Hi та Z мають каузальний вплив на Y. Але насправдi
жодна з цих змiнних зовам не мае каузального впливу на Y . Змшна Z нав^ь не асоцшована з Y ^ж ними нульова кореляцiя). Зазначимо, що анал^ики дiйсно Y припустилися подiбного неадекватного висновку в ре-
n , г альному дослiдженнi [5].
Рис. 1. Генеративна модель J L J
1з прихованою змшною
3. HoBi методи в1дтворення каузальних моделей
Модель виводиться у формi каузально! мереж (точнiше, ii модифшацп, що вiдображае не-визначенiсть орiентацiй ребер) [2, 6, 7, 9]. Структура моделi визначаеться ациклонним орь ентованим графом (АОГ). АОГ-модель залежностей описуеться як (G, 0 ), де G - АОГ, а 0 - сукупшсть локально заданих параметрiв у формi умовних розподшень iмовiрностей (або функцп щшьносп) p(X | В(X)), де В(X) - множина вах батьюв вершини (змш-но!) X . (Батько вщповщае безпосереднiй «причиш».)
Ефективний шструментарш розроблено для певних рiзновидiв АОГ-моделей i саме з ними працюють найчаспше. До таких рiзновидiв АОГ-моделей належать баесовi мережi (БМ) та гаусовi мережi (ГМ). БМ визначеш на категорних (дискретних) змшних; ГМ - мо-делi з неперервними змшними, нормальними дистурбацiями та лшшними залежностями. Для БМ параметри задаш безпосередньо як компоненти p(X | В(X)) , яю зазвичай пода-ють як таблищ. (Тому баесовi мереж1 iнодi називають напiвпараметричними моделями.) Загальна форма опису параметрiв виглядае як p(X | В(X), J) , де J е 0 - пiдмножина параметрiв, прив'язаних до ( X, В(X) ).
Нехай U - множина вах змшних модел^ A - множина вах дуг орграфа G , а | A |- 1х кшьюсть. У теоретичнiй постановцi задача формулюеться так: задано розподь
лення ймовiрностей p (U) ; знайти таку (G, 0), що | A | ^ min за вимоги
p(U | G, 0) = p ( U ) . Проте, оскшьки на практицi задаеться вибiрковий розподш р ( U ) ,
який випадково вщхиляеться вiд генеративного (теоретичного) p (U ) , вказана постановка задачi неприйнятна. (Вона веде до того, що модель «тдганяеться» до «гамору» у да-них.) Реалiстичнiша постановка: задано розподш р (U ) (практично, вибiрковий); знайти модель (G, 0) за максимумом обраного критер^. Таким критерiем може бути BIC; вш об'еднуе правдоподiбнiсть моделi й «штраф» за складнiсть. Вказана задача - важка через величезну кшькють структур модель До того ж розв'язання часто потребуе великоформат-них статистик.
Нами обрано шакший, базований на незалежносп (або «constraint-based»), тдхщ до розв'язання задачi [2, 6, 7]. Структура АОГ-моделi характеризуеться марковськими власти-востями, якi накладають на розподш p(U | G, 0) обмеження (типу рiвнiсть), iнварiантнi до параметризацii' моделi. Марковсью властивостi орiентованих мереж залежностей фор-малiзовано у графовому апаратi за допомогою критер^ d-сепарацii' [1, 2, 7, 8]. Предикат Ds (X; S; Y) означае, що вершини X та Y е d-сепароваш (d-незалежш), i множина S на-зиваеться d-сепаратором для пари (X, Y). Умовну незалежшсть змшних X та Y позна-чимо як Ind (X, Y | S ).
Каузальна марковська умова (постулат) встановлюе, що в АОГ-моделi з кожно!' d-сепарацп випливае вiдповiдна умовна незалежнiсть:
"X,Y, S (X,Y £ S) : [Ds (X; S;Y) ^ Ind (X, Y|S) ].
Для oбгpунтувaння мeтoдiв, бaзoвaниx на нeзaлeжнocтi, пoтpiбнa oбepнeнa iмплiкa-цiя. Bora cфopмульoвaнa як пpипущeння, яке в ocнoвнoму викoнуeтьcя в мoдeляx (за ви-ключенням ocoбливиx випaдкiв) i в acимптoтичнo-вeликиx вибipкax даних [2, 7].
Припущення Каузальног неоманливостг. В кoжнoму (точшму) poзпoдiлeннi ймoвip-нocтeй змiнниx, гeнepoвaнoму з AOГ-мoдeлi, для вcix змiнниx чинна iмплiкaцiя вигляду
VX, Y :[ 3S (X,Y Ï S): Ind ( X, Y j S ) ] ^ Ds ( X; S;Y ).
Завдяки цщ влacтивocтi мoжнa вивoдити мoдeль на ocнoвi виявлeниx умoвниx неза-лeжнocтeй. Haбip S, щo забезпечуе нeзaлeжнicть, називають ceпapaтopoм. Пpoцec pe^TO-тpукцiï мoдeлi бaзуeтьcя на гошуку ceпapaтopiв; тaкi мeтoди звутьcя ceпapaцiйними.
Пocтaнoвкa зaдaчi тpaнcфopмуeтьcя у завдання, poзгopнутe за етапами:
1. Biдтвopити cукупнicть peбep, тoбтo вepифiкувaти peбpo для кoжнoï пapи змшнж, вiдшукуючи ceпapaтopи i тpaктуючи умoвну нeзaлeжнicть як факт d-cenapa^ï (вiдcутнicть peбpa).
2. Iдeнтифiкувaти нaпpямки peбep (opieнтувaти), cпиpaючиcь на aнaлiз cуciднix зв'я-зкiв [1, 2, 7, 9].
3. Oбчиcлити пapaмeтpи мoдeлi p(X j В(X)) , виxoдячи з р ( U ) та знайденж В( X ).
Таким чинoм, здiйcнeнo кoнцeптуaльну дeкoмпoзицiю зaдaчi, пpичoму гoлoвнa де-кoмпoзицiя зaxoвaнa вcepeдинi пepшoгo (нaйбiльш cклaднoгo) етапу. Piшeння щoдo юну-вання кoжнoгo зв'язку мoдeлi мoжнa пpиймaти aвтoнoмнo. Це oзнaчae, щo зaмicть пepeбo-pу цш^ мoдeлeй (чи нaвiть фpaгмeнтiв-«poдин») викoнуeтьcя пepeбip ceпapaтopiв для nap змшнж. Тим caмим дocягaeтьcя зниження poзмipнocтi пoтpiбниx cтaтиcтик. Peбpa oтpи-мують cтaтуc кaузaльниx тiльки внacлiдoк виявлення пaтepнa «Y-кoнфiгуpaщï» [1, 2, 7, 9]. Не ва peбpa вичepпнo opieнтуютьcя, тoму peзультaт етапу «2» peпpeзeнтoвaнo у фopмi «пoвнoгo чacткoвo opieнтoвaнoгo aциклiчнoгo гpaфa» (CPDAG).
Haйпepшими cepeд бaзoвaниx на нeзaлeжнocтi (ceпapaцiйниx) aлгopитмiв виведення мoдeлi були IC та PC [1, 2]. З метою пpиcкopeння в aлгopитм PC зaклaдeнo кiлькa ^инци-пiв, cepeд якиx e такий: ceпapaтop для пapи ( X, Y ) шукaeтьcя як пiдмнoжинa вepшин (змiнниx), пoтeнцiйнo-cумiжниx дo X aбo Y . В xoдi вишнання етапу «1» peбpa видаля-ютьcя, oтжe, дepeвo пepeбopу звужуeтьcя. Але в умoвax кaузaльнoï нeдocтaтнocтi (тобто за нaявнocтi пpиxoвaниx cпiльниx ^ичин двox змiнниx) aлгopитм PC мoжe втpaтити cenapa-тop. Тoму для умoв кaузaльнoï нeдocтaтнocтi poзpoблeнo шший aлгopитм - FCI [2, 6], який включае дoдaткoвi cпeцiaльнi етапи пoшуку ceпapaтopiв та opiern^iï peбep.
Oгляд мeтoдiв виведення кaузaльниx мoдeлeй мoжнa знайти в [2, 10-12]. Ocтaннiми poкaми cepeд мeтoдiв, бaзoвaниx на нeзaлeжнocтi, виoкpeмилocя цiлe вщгалуження, xapa^ тepнe тим, щo замють ceпapaтopiв (для nap змiнниx) виявляютьcя «мapкoвcькi бланкети». Мабуть, пepшим таким aлгopитмoм був GS-aлгopитм [13]. Дoвкoлa кoжнoï змiннoï фopму-eтьcя «мapкoвcький бланкет»; вepифiкaцiя cиcтeми зв'язкiв здiйcнюeтьcя у два пiдeтaпи -«poзpocтaння» та «уciкaння» (мiнiмiзaцiя) блaнкeтiв. Дo aлгopитмiв цьoгo вiдгaлужeння належать, зoкpeмa, GLL [14], MBFS [15], TC [16]. Bикopиcтaння «мapкoвcькиx блaнкeтiв», з oднoгo бoку, cпpияe зменшенню кiлькocтi тecтiв, але з iншoгo - пpизвoдить дo ужлад-нення фopмaту тecтiв нeзaлeжнocтi. Bнacлiдoк цьoгo зpocтae вaжкicть oбчиcлeння crarac-тик, нeoбxiдниx для викoнaння тecтiв, щo вiдoбpaжaeтьcя на oбчиcлювaльнiй вaжкocтi ал-ropm^ виведення. Kpiм тoгo, уcклaднeння статистик тягне загострення пpoблeми нена-дiйнocтi (пoгipшeння aдeквaтнocтi мoдeлi).
Та ocoбливicть пiдxoду, щo piшeння щoдo piзниx peбep мoжнa пpиймaти aвтoнoмнo, не oзнaчae, щo piшeння тpeбa шукати iзoльoвaнo. Ocтaннe пpизвeлo б дo бaгaтoкpaтнoгo дублювання poбoти. Aлгopитм PC [2, 17] eкoнoмить кiлькicть теепв, зменшуючи нaбopи
потенцiйно-сумiжних вершин (змшних) для ваа модел^ обходячи пари змiнних по стра-лi. Припустимо, ребро (X — У ) юнуе. Для того, щоб алгоритм переконався у цьому факт
2 (" — 2Л
(в ходi розв'язання задачi на етапi «1»), вш мае виконати ^
г=0 V1
перевiрок незалежнос-
тi для (X, Y ) , де n у пршому випадку дорiвнюе | U |, а у кращому випадку дорiвнюе кь
лькостi вершин, сумiжних до X або Y . 3i зростанням насиченостi моделi зв'язками переваги тдходу у швидкостi поступово втрачаються. Тож треба знаходити подальшi резерви оптимiзацii' пошуку. Резерви знайдено у тдвищенш ефективностi пошуку сепараторiв за рахунок використання «iнформацiйного обмiну» мiж рiзними гiлками пошуку сепараторiв. Ключем до рiшення стало залучення необхiдних вимог до локально-мiнiмальних сепарато-рiв та систематичне використання «глибоких» властивостей сукупностi фактiв d-сепарацп в каузальних мережах [7, 18, 19].
Визначення. Локально-мшмальним сепаратором для пари (X, Y ) називаеться такий сепаратор S, що в результат видалення будь-якого його елемента Z е S множина S /{Z} не буде сепаратором для ( X, Y ) .
Достатньо зосередити пошук на локально-мшмальних сепараторах. Необхщш ви-моги до члена локально-мшмального сепаратора iмплiкують резолюцп (правила) вщаю-вання змшних зi списку кандидатв до складу сепараторiв. Цi резолюцп дають засоби вщ-сiкати цiлi сектори простору пробних (потенцшних) сепараторiв, фокусувати верифiкацiю ребер i скорочувати тривалiсть реконструкцп модель
4. Адаптивне звуження простору пошуку
Формально було доведено низку резолюцш (правил) для локально-мшмальних d-сепараторiв та 'х членiв [7, 8, 18, 19]. Розроблено цший комплект правил оптимiзацii пошуку сепараторiв. Вони були втiленi в алгоритмах виведення моделi та випробуванi [7, 20,
21]. За результатами експеримешив ефективними й практично найбшьш важливими показали себе кшька правил, поданих нижче. Найкориснiшим е правило «вщсторонення».
Правило «в1дсторонення» кандидат1в у сепаратор ('placing aside'): якщо в орграфi G вершина X d-сепаруе Z та Y , то вершина Z не е членом жодного локально-мЫмального сепаратора для пари ( X, Y ) .
Правило обов'язковост1 потенцшного стрижня. До складу кожного не порожнього локально-мшмального d-сепаратора для пари вершин (X,Y) входить щонайменше одна
вершина Z , така, що чинш факти —Ds(Z;{};X), —Ds(Z;{};Y), —Ds(Z;{Y};X), ^Ds(Z;{X};Y).
Також корисним показало себе правило «замкнених стрижнiв», яке формулюеться бшьш громiздко. Це правило можна вивести з кшькох положень, таких, як пропозищя 4 (про iзольованi спшьш близькi) з [19], принцип композицп ненадлишкового сепаратора з [8] або твердження 2.2 з [7]. Сенс правила «замкнених стрижшв»: для задано'' пари (X, Y ) маемо список кандида^в у стрижш сепаратора та список шших (нестрижневих, «залуче-них») кандидатiв у члени сепаратора для (X, Y ). Якщо серед члешв другого списку немае жодного, який безумовно залежить вщ якогось члена першого списку, то треба видалити увесь другий список (нестрижневих кандидатив).
Якщо модель (за своею структурою) належить до тдкласу, названого люами [17,
22], то достатньо озбро'ти стандартний алгоритм лише двома правилами - «вщсторонен-ня» кандида^в у сепаратор та правилом стрижня - для того, щоб алгоритм вже тсля теспв першого рангу розтзнавав вичерпання можливостей реконструкцп моделi [7, 17].
Зpoзумiлo, щo для виведення мoдeлi з данж зacтocoвуютьcя eмпipичнi (статистич-ш) «злiпки» (counterparts) вкaзaниx пpaвил. Замють фaктiв d-cerapa^ï викopиcтoвуютьcя peзультaти cтaтиcтичниx тecтiв. Aлгopитми виведення мoдeлi, oзбpoeнi такими зacoбaми, зaлишaютьcя acимптoтичнo-кopeктними, i вoднoчac пoмiтнo пepeвaжaють вiдoмi aлгopит-ми за швидкicтю [7, 17, 20, 21]. KopTOmcib poзpoблeниx peзoлюцiй пoяcнюeтьcя тим, щo вoни cпиpaютьcя на npocxi вiднoшeння i cenapaTOp^ а зacтocoвуютьcя для пoшуку жлад-ниx ceпapaтopiв та для з^ування, щo шукaнoгo ceпapaтopa не юнуе.
Ceнc звуження пoшуку ceпapaтopiв у xoдi peкoнcтpукцiï мoдeлi пoлягae у замш не-oбoв'язкoвиx тecтiв лoгiчним aнaлiзoм (зicтaвлeнням) peзультaтiв викoнaниx теепв з дoти-чними змiнними. ^йбшьший вигpaш oчiкуeтьcя в мoдeляx, де тестування пoтpeбуe важ-киx oбчиcлeнь i де кoжний тecт вимагае нoвoгo cкaнувaння вибipки дaниx. Таку оттуащю мaeмo в нeлiнiйниx мoдeляx, бaecoвиx мepeжax та мoдeляx зi змiнними piзниx типiв. Ha-томють виведення rM - oбчиcлювaльнo найбшьш пpocтe, 6o cпoчaтку oбчиcлюeтьcя мат-pиця кoвapiaцiй, з я^' готсм мoжнa oтpимaти cтaтиcтики для будь-якoгo тecту.
5. Iлюстративнi приклади
З метою нaoчнocтi poзглянeмo пpocту rM (xoчa для лiнiйниx мoдeлeй ефект нaшиx шва-цiй - найменший). Hexaй rM oпиcуeтьcя тaкoю cиcтeмoю cтpуктуpaльниx piвнянь.
X1 := 0,75 • X5 +e1, X 3:= 0,8 • X 6 +e3, X5 := 0,8 • X7 + e5,
X2 := 0,65 • X5 + e2, X4 := 0,4 • X3 + 0,55 • X6 +e4 X 6:= 0,9 • X 7 +e6,
X7 := 0,5 • X8 + 0,6 • X9 + 0,45 • X10 + e7,
X
X
0,7 • X10 +e9,
X
10
10
де e ~ N(0,1), e ± ej (e Ф ej ).
У фopмулax зaмicть piвнocтi cвiдoмo викopиcтaнo знак пpиcвoeння; тим caмим гад^е^те-нo, щo piвняння e cтpуктуpaльними. ^ефоденти виpaжaють каузальний вплив. Якщo пе-peнecти члени влiвo/впpaвo чepeз знак «:=», тo piвняння пepecтaнe бути cтpуктуpaльним.
Cтpуктуpa мoдeлi пoкaзaнa на pra. 2 а. З ще'1 мoдeлi булo гeнepoвaнo вибipку данж oбcягoм 1000 зaпиciв. Дaнi булo oбpoблeнo i oтpимaнo мaтpицю пapниx кoвapiaцiй (див. таблицю). Цю мaтpицю кoвapiaцiй булo пoдaнo на вxiд aлгopитму Razor-1.3. Hiякиx a^io-pниx знань пpo мoдeль aлгopитм не oтpимaв (втiм, зpoзумiлo, щo пoдaчa на вxiд лише мат-pицi кoвapiaцiй aвтoмaтичнo oзнaчae пpийняття ^^тези, щo мoдeль належить дo клacу
rM).
Таблиця 1. Maтpиця кoвapiaцiй, oбчиcлeнa з дaниx
2,46
1,33 2,07
0,998 0,847 2,75
1,05 0,916 2,31 3,15
1,99 1,72 1,40 1,52 2,72
1,25 1,07 2,19 2,38 1,78 2,73
1,47 1,25 1,58 1,73 2,02 2,04 2,36
0,340 0,252 0,382 0,423 0,442 0,507 0,577 1,03
0,782 0,674 0,809 0,854 1,08 1,01 1,22 0,054 1,49
0,508 0,448 0,543 0,568 0,713 0,681 0,855 0,060 0,671 0,951
У результат було виведено структуру модел^ показану на рис. 2б. Коректно вщтво-рено клас еквiвалентностi генеративно! модель Залишилися невизначеними (невiдомими)
спрямування деяких зв'язкiв. Орieнтацiю ребер Х9 °— ° X10 та Х3 °— ° Х4 неможливо ще-
нтифiкувати на базi фактiв умовно! незалежностi (в такому оточенш). Частково орieнтованi
ребра (субкаузальш зв'язки): Х8 о® Х7, Х9 о® Х7 та Х10 о® Х7.
Для зв'язкiв з невизначеним напрямком неясно, як щентифшувати структуры пара-метри (коефiцieнти), хiба що зробити вiдповiдне припущення. Але все ж таки модель дае змогу однозначно отримати «майже структуры» параметри. Тобто можна оцiнити «пряму»
(безпосередню) кореляцiю сумiжних змiнних. Наприклад, для ребра Х3 о— о Х4 «пряма»
кореляцiя обчислюеться як частинна кореляцiя з умовою на Х 6 , а для ребра Х9 о— о Х10
- як безумовна корелящя. З iншого боку, навт для повнiстю визначеного каузального ребра не завжди можливо однозначно ощнити структурний параметр. На рис. 2б знаком «+» позначенi зв'язки, як мають однозначнi оцiнки структурних параметрiв. Для каузальних зв'язкiв Х6 ® Х3 та Х6 ® Х4 структурнi параметри неможливо однозначно ощнити через невизначешсть орiентащi ребра Х3 о— о Х4 . (С два можливих варiанти.) Натомiсть для субкаузального зв'язку Х8 о® Х7 iснуе «майже структурний» параметр, який ощнюеться
як безумовна кореляцiя.
Застосування правил звуження простору пошуку сепараторiв для ще! моделi не дае прискорення порiвняно з алгоритмом РС (тут прискорення й не потрiбне; тривалiсть виве-дення - менша за 1 секунду). Але виграш полягае в iншому: виведення ще! моделi алгоритмом Яа20г-1.3 закшчилося на циклi тестiв першого рангу; натомють РС дiйшов до теспв четвертого рангу. (Хоча в лшшних моделях статистики для всiх теспв обчислюються з па-рних кореляцш, пiдвищення рангу тесту тягне зростання похибки i ризику помилок.)
Нехай модель виводиться в умовах каузально! недостатность Тод^ якщо додатково задати темпоральний порядок змшних, то вс неорiентованi ребра перейдуть у статус суб-каузальних. Але це не додасть жодного каузального ребра i не збшьшить кiлькiсть щенти-фшованих структурних параметрiв.
Для контрастностi опишемо також приклад виведення БМ, який був найважчим серед виконаних експерименпв. Модель Именована "ВВ55") мае 30 тризначних змшних та
120 pe6ep. ^зи^!' pe6ep i значення пapaмeтpiв були oбpaнi випaдкoвим мexaнiзмoм [23]. Для виведення таш! cклaднoï мoдeлi пoтpiбнa велика вибipкa дaниx. У пepшoму e^^p^ мeнтi з цieю мoдeллю викopиcтaнa вибipкa данж 20000 зaпиciв. Poбoтa aлгopитму Razor-1.2 тpивaлa 76 xвилин. Для aлгopитму PC тpивaлicть дocяглa 137 xвилин. У xoдi виведення aлгopитм Razor-1.2 викoнaв 16950 тecтiв, а aлгopитм PC - 27650 теепв. Зoкpeмa, Razor-1.2 викoнaв 5 теепв дeв'ятoгo paнгу, а PC - 110 такж тecтiв. Cуттeвoгo пpиcкopeння Razor-1.2 дocяг за paxунoк ^авил звуження пpocтopу пoшуку ceпapaтopiв. У xoдi виведення мoдeлi пpaвилo «вiдcтopoнeння» кaндидaтiв у ceпapaтop пpoдуктивнo cпpaцювaлo 132 paзи. npa-вилo «замкнен^ cтpижнiв» пpoдуктивнo cпpaцювaлo 43 paзи.
Aлгopитм Razor-1.2 пpoпуcтив 45 aвтeнтичниx pe6ep мoдeлi, а aлгopитм PC - 54 pe-6pa. Велика кшькють тaкиx пoмилoк зумoвлeнa тим, щo викopиcтaний мexaнiзм re^pa^i пapaмeтpiв пopoджуe «xaoтичний» xapaктep зaлeжнocтeй. №йбшьш небезпечним типoм пoмилки у виведенш мoдeлi e peвepcувaння pe6pa, тобто виведення pe6pa, cпpямoвaнoгo у пpoтилeжнoму нaпpямку пopiвнянo з гeнepaтивнoю мoдeллю. Пoмилкa типу пpoпущeнe pe6po мoжe бути кoмпeнcoвaнa iншими зв'язками. ^том^ть peвepcувaння pe6pa пpизвo-дить дo пpинципoвoï нeaдeквaтнocтi у зacтocувaннi вивeдeнoï мoдeлi та xибниx виcнoвкiв. У xoдi виведення мoдeлi "BB55" aлгopитм PC зpoбив peвepcувaння oднoгo pe6pa. Aлгo-pитм Razor-1.2 не зpoбив жoднoï таш! пoмилки в eкcпepимeнтax з двoмa дecяткaми мoдe-лей (включнo з цieю).
В дpугoму eкcпepимeнтi з цieю мoдeллю викopиcтaнa вибipкa дaниx 50000 зaпиciв. Тpивaлicть виведення мoдeлi з таш! вибipки дocяглa 746 xвилин для aлгopитму Razor-1.2 та 912 xвилин для aлгopитму PC. Це бiльшe 15 годин. Юльюсть пpoпущeниx aвтeнтичниx pe6ep мoдeлi cклaлa 29 pe6ep для aлгopитму Razor-1.2 та 40 pe6ep для aлгopитму PC. Kpa-ща тoчнicть aлгopитму Razor-1.2 пoяcнюeтьcя тим, щo звуження пpocтopу пoшуку cerapa-тopiв вiдciкae цiлi apeaли пpocтopу з пiдвищeним pизикoм пoмилoк теепв.
Haвeдeмo тaкoж пpиклaд виведення мoдeлi «пoмipнoï» cклaднocтi. Гeнepaтивнa мo-дель ("BB31") являe coбoю БM, яка мae 30 тpизнaчниx змiнниx та 90 pe6ep. Cукупнicть pe-6ep Щ€1 мoдeлi вiдoбpaжeнa на p^. 3. Виведення мoдeлi "BB31" з вибipки дaниx (20000
зaпиciв) дaлo тaкi peзультaти. Aлгopитм Razor-1.2 вшратив 12 xвилин, aлгopитм PC - 19 xвилин. Kiлькicть викoнaниx тecтiв була 4771 та 7188 вщ-пoвiднo. В xoдi виведення мoдeлi aлгopитм Razor-1.2 пpoдуктивнo зacтocувaв ^а-вилo «вiдcтopoнeння» 106 pa-зiв, а пpaвилo «зaмкнeниx cтpижнiв» - 81 paß. Aлгopитм Razor-1.2 пpoпуcтив 16 авте-нтичниx pe6ep мoдeлi, а алго-pитм PC - 29 pe6ep. Якщo бpaти дo уваги тшьки «кaузaльнi» pe6pa гeнepaтивнoï мoдeлi (тoбтo т pe6pa, щo тeopeтич-нo муcять бути iдeнтифiкoвaнi пoвнicтю), тo aлгopитм Razor-1.2 вipнo щентифшував 6 та-киx pe6ep, а aлгopитм PC - 3 pe6pa. Peвepcувaння кaузaльниx pe6ep не cтaлocя.
Велика кiлькicть pe6ep з ^acra^o) невизначеними opieнтaцiями poбить нeмoжли-вим oцiнку бaгaтьox пapaмeтpiв бaecoвoï мepeжi. Haгaдaeмo, щo на вiдмiну вщ rM, у БM pe6pa не мають cвoïx «oкpeмиx» пapaмeтpiв (^ли e кiлькa бaтькiв).
6. Верифжащя методiв та алгоритмiв реконструкцн моделi
Розглянутi методи виведення моделi з даних в першу чергу призначеш для проблемних ситуацiй, коли модель у дшсносп невiдома. Але для того, щоб моделi, виведеш в таких ситуацiях, заслуговували на довiру, метод виведення мае переконливо демонструвати ко-ректнiсть та ефектившсть. Здатнiсть методу вiдтворювати адекватнi моделi можна було б пiдтвердити, застосувавши виведенi моделi на практицi й дочекавшись наслiдкiв. Але такого тдтвердження не завжди можна дочекатися (чи нав^ь приступити до впровадження).
Реалютичний шлях випробування розроблених алгоршмв пролягае через експерименти з можливютю порiвняти виведену модель з генеративною (справжньою). Генеративна модель мае бути вщома дослiднику (анал^ику), але невь дома методу. Для «жорсткого» випробування методу модель треба виводити виключно iз статис-тичних даних (без будь-яких апрь орних знань про структуру). Схема експерименпв показана на рис. 4. Для «чистоти» експериментiв потрiбно виконати своерiдну «квазi-рандомiзацiю», тобто i структуру, i параметри моделi генерувати випадково [7, 23].
Оцшити адекватшсть моделi можна через порiвняння прогнозiв наслiдкiв управлш-ня (втручання), яю дають виведена та автентична модель Але в ситуацп, коли конкретш вимоги до моделi не задано, компактний споаб оцiнки полягае у виявленш та пiдрахунку структурних вщхилень (помилок). Зустрiчаються структурнi помилки рiзних типiв; особ-ливу увагу треба надавати каузальним зв'язкам. Наочну ощнку адекватност виведено! мо-делi можна отримати за допомогою iндексу каузально! продуктивност [7], який вимiрюе коректшсть та повноту вiдтворення каузальних зв'язюв. Мабуть, rрунтовнiшим критерiем адекватностi е структурно-штервенцшна дистанцiя [24] (хоча той критерш стикаеться з труднощами через невизначешсть орiентацiй ребер).
7. Висновки
В робот запропоновано тдсилення методу вщтворення каузальних мереж з даних засоба-ми усiкання простору пошуку, якi грунтуються на закономiрностях марковських властиво-стей. Згiдно з результатами, таке тдсилення не тшьки значно прискорюе вiдтворення мо-делi, але в бшьшосп випадкiв також зменшуе кiлькiсть помилок. Останне пояснюеться тим, що вiдсiкаються сектори простору з тдвищеним ризиком помилок.
Виведення каузальних моделей з емтричних даних призначене для тзнавальних задач i тдтримки управлiння об'ектами та процесами у погано дослщжених галузях i се-редовищах. Така ситуацiя типова для вщкритих середовищ, де взаемодiють багато факто-рiв, якi вивчаються рiзними дисциплiнами (все «заплутане»), так що неможливо побудува-ти модель на теоретичних пiдставах. У багатьох ситуащях також неприйнятно (ризикова-но) цшком покладатися на експертiв. Водночас можуть бути неприпустимими (рандомiзо-ванi) експерименти на об'ект моделювання (з огляду на етичш чи економiчнi мiркування або через тимчасову недосяжнiсть об'екта).
Для реконструкцп адекватно! моделi (особливо у випадках складних та нелшшних
Випадкова I
I
генерац1я «■
-----------Гч
Ациклонний
Параметри
АОГ-модель
Ш
Даш
Фшсащя структурних розб1жностей
А
Виведення модел1
Рис. 4. Схема експерименпв
форм залежностей) необхщно мати велию B^ipm даних. Кожний елемент даних мае бути вимiряний точно i вщображати «миттевий» стан процесу. Втiм збшьшення обсягу даних не розв'язуе проблему принципово'1 неiдентифiкабельностi еквiвалентних моделей (невизна-ченiсть напрямкiв орiентацiй зв'язкiв у «заплутаних» моделях). У структурах, перенасиче-них зв'язками, неможливо навiть розпочати процес орiентацiй ребер. Для виходу з такого тупика потрiбно «перезавантажити» (оновити) завдання, включивши в номенклатуру даних додатковi змiннi (сподiваючись, що деякi з них з^ають роль iнструментальних). Та-кож корисно збшьшити частоту вимiрювання тих самих характеристик. Звичайно, якщо е достовiрнi апрiорнi знання, !х треба використати. Це дозволить прискорити виведення та уточнити модель. Нагадуемо, що невизначешсть у виведенш моделi об'ективно зумовлена i застерiгае аналiтика вiд необгрунтованих висновкiв.
У наш час дослщження в цiй галузi ведуться в кшькох напрямах. Паралельно з методами реконструкцп моделi з даних дослщження охоплюють: теоретичне узагальнення класу каузальних моделей; техшку тестування умовно'1 незалежностi у складних (загаль-них) випадках; методи застосування каузальних моделей, в першу чергу - прогнозування каузального ефекту управлшня.
СПИСОК Л1ТЕРАТУРИ
1. Pearl J. Causality: models, reasoning, and inference / Pearl J. - Cambridge: Cambridge Univ. Press, 2000. - 526 p.
2. Spirtes P. Causation, prediction and search / Spirtes P., Glymour C., Scheines R. - New York: MIT Press, 2001. - 543 p.
3. Chen B. Regression and causation: a critical examination of six econometrics textbooks / B. Chen, J. Pearl // Real-World Economics Review. - 2013. - Issue 65. - P. 2 - 20.
4. Bollen K.A. Eight myths about causality and structural equation models / K.A. Bollen, J. Pearl // Methods in Social Epidemiology / J.M. Oakes, J.S. Kaufman (eds.). - John Wiley & Sons, Jossey-Bass, 2006. -P. 301 - 329.
5. Fienberg S. E. Expert statistical testimony and epidemiological evidence: the toxic effects of lead exposure on children / S.E. Fienberg, C. Glymour, R. Scheines // Journal of Econometrics. - 2003. - Vol. 113.
- P. 33 - 48.
6. Learning high-dimensional directed acyclic graphs with latent and selection variables / D. Colombo, M.H. Maathuis, M. Kalisch [et al.] // Annals of Statistics. - 2012. - Vol. 40, N 1. - P. 294 - 321.
7. Балабанов О.С. Каузальш мережк анатз, синтез та виведення з статистичних даних: дис. ... доктора фiз.-мат. наук: спец. 01.05.01 / Балабанов Олександр Степанович. - К.: 1нститут юбернетики iменi В.М. Глушкова НАНУ, 2014. - 305 с.
8. Балабанов А.С. Логика минимальной сепарации в каузальных сетях / А.С. Балабанов // Кибернетика и системный анализ. - 2013. - № 2. - С. 36 - 47.
9. Балабанов О.С. Вщ коварiацiй до каузальности Вщкриття структур залежностей в даних // Системы дослщження та шформацшш технологи. - 2011. - № 4. - С. 104 - 118.
10. Kalisch M. Causal structure learning and inference: a selective review / M. Kalisch, P. Buhlmann // Quality Technology & Quantitative Management. - 2014. - Vol. 11, N 1. - P. 3 - 21.
11. Fu S. Markov blanket based feature selection: a review of past decade / S. Fu, M.C. Desmarais // Proc. of the World Congress on Engineering (WCE-2010). - London, UK: Intern. Association of Engineers: Newswood Limited, 2010. - Vol. 1, June 30 - July 2. - P. 321 - 328.
12. Koski T. J. T. A review of Bayesian networks and structure learning / T.J.T. Koski, J.M. Noble // Annales Societatis Mathematicae Polonae. Series 3: Mathematica Applicanda. - 2012. - Vol. 40, N 1. - P. 53
- 103.
13. Margaritis D. Bayesian network induction via local neighbourhoods / D. Margaritis, S. Thrun // Advances in Neural Information Processing Systems. - 1999. - Vol. 12. - P. 505 - 511.
14. Local causal and Markov blanket induction for causal discovery and feature selection for classification / C.F. Aliferis, A. Statnikov, I. Tsamardinos [et al.] // J. Machine Learn. Res. - 2010. - Vol. 11. - P. 171 -234.
15. Ramsey J.D. A PC-style Markov blanket search for high dimensional dataset / J.D. Ramsey // Techni-
cal Report. - 2006. - N 177. - Department of Philosophy, Carnegie Mellon University. - Pittsburgh, PA, 2006. - 13 p.
16. Pellet J.P. Using Markov blankets for causal structure learning / J.P. Pellet, A. Elisseeff // J. Machine Learn. Res. - 2008. - Vol. 9. - P. 1295 - 1342.
17. Балабанов О.С. Прискорення алгоршмв вщтворення баесових мереж. Адаптащя до структур без ци^в / О.С. Балабанов // Проблеми програмування. - 2011. - № 1. - С. 63 - 69.
18. Балабанов А.С. Минимальные сепараторы в структурах зависимостей. Свойства и идентификация // Кибернетика и системный анализ. - 2008. - № 6. - С. 17 - 32.
19. Балабанов А.С. Формирование минимальных d-сепараторов в системе зависимостей / А.С. Балабанов // Кибернетика и системный анализ. - 2009. - № 5. - С. 38 - 50.
20. Быстрый алгоритм вывода структур байесовых сетей из данных / А.С. Балабанов, А.С. Гапеев, А.М. Гупал [и др.] // Проблемы управления и информатики. - 2011. - № 5. - С. 73 - 80.
21. Balabanov O.S. On perspectives of causal networks reconstruction by independence-based methods / O.S. Balabanov // Proc. of the 4th Intern. Conf. on Inductive Modelling (ICIM'2013), (Kyiv, September 16 - 20 2013). - Kyiv, 2013. - P. 139 - 142.
22. Балабанов О.С. Системи ймовiрнiсних залежностей: графовi та статистичш властивост / О.С. Балабанов // Математичш машини та системи. - 2009. - № 3. - С. 80 - 97.
23. Балабанов О.С. Базоваш на незалежност методи i^^^ii' каузальних мереж i сепаращя в орграфах / О.С. Балабанов // Матерiали VI Всеукр. наук.-практ. конф. "1нформатика та системш науки" (1СН-15), (Полтава, 19-21 березня 2015 р.). - Полтава, 2015. - С. 12 - 16.
24. Peters J. Structural intervention distance for evaluating causal graphs / J. Peters, P. Bühlmann // Neural Computation. - 2015. - Vol. 27, N 3. - P. 771 - 799.
Стаття над1йшла до редакцп 24.11.2015