ТЕХНОЛОГії НАБЛИЖЕНИХ МНОЖИН В іНТЕЛЕКТУАЛЬНОМУ АНАЛіЗі ДАНИХ

Нікольський Ю.В.; Завалій Т.І.

■а о

У статтi описано методику використання наближених мно-жин для пошуку правил у табли-1Ц13С даних. Щ правила утворюють класифшатор, який може класи-фжувати новi приклади. Здшснено оцтювання якостi такого кла-сифтатора за допомогою ROC-кривог та коефщента устшнос-тi. Наведено результати аналiзу таблиц медичних даних та результати класифшацп нових прикла-дiв, отримат за допомогою систе-ми Rosetta

■а о

УДК 004.8

ТЕХНОЛОГИ НАБЛИЖЕНИХ МНОЖИН В 1НТЕЛЕКТУАЛЬНОМУ АНАЛ1З1 ДАНИХ

Ю. В. Н i к о л ьс ь к и й

кандидат фiзико-математичних наук, доцент кафедри* Контактний тел.: моб. 8 (067) 9355381, роб. 8 (032) 2582538

E-mail: [email protected]

Т. I. З а в а л i й

астрант кафедри*

Контактний тел.: моб. 8 (097) 7022844, роб. (032) 2582538

E-mail: [email protected]

*Кафедра «1нформацты системи та мережЬ» 1нституту комп'ютерних наук та шформацтних технологш Нацюнального

ушверситету <^bBiBCb^ полЬехшка» вул. С. Бандери, 12, м. Львiв, УкраТна 79013

1. Постановка проблеми в загальному виглядi

Майже в ycix галузях, де використовуються шфор-мацiйнi технологii, в pi3Horo типу базах даних накопичу-ються величезнi масиви даних, якi стае важко обробляти, аналiзyвати та розумгги. Ця проблема стала виршува-тися застосуванням спещальних методiв видобування знань з баз даних (knowledge discovery in databases) i, зокрема, штелектуального аналiзy даних (data mining). Такий аналiз спрямований на побудову моделей знахо-дженням фyнкцiональних i лопчних залежностей мiж елементами даних та аномалш в даних, вирiшення задач кластеризацп та дискретизацii, резюмування даних, пошуку асощацш, виявлення тенденцш тощо. Побyдованi моделi використовують для прогнозування або прийнят-тя ршень у ситyацiях, якi не були вщображет в даних пiд час побудови модель

В данiй робоп автори розглядають проблему до-слщження великого набору медичних даних. Щ данi необхiдно попередньо опрацювати, проаналiзyвати i ви-вести правила, ощнити якiсть цих правил. Оцiнка якост отриманих правил та прийнятих ршень розглядаеться як актуальна проблема видобування знань. Основним результатом дослiдження, проведеного за формалiзованою в цiй роботi методикою, е побудований класифжатор та ощнка його якостi. При виведеннi правил використано технологш наближених множин.

Теорiя наближених множин (rough sets) е гнучким математичним шструментом подолання суперечливостей та надлишковосп в даних, виявлення прихованих зако-номiрностей. Основи ^ei теорii уперше сформyльованi

у rami Ж. Павлака (Z. Pawlak) [1]. Розвиток наближених множин призвiв до появи нових напрямюв у штучному штелекп, таких як нейро-наближене числення [2], наближеш розмит системи [3] тощо. Актyальнiсть цих пiдходiв спричинена необхiднiстю застосування систем шдуктивного виведення у задачах прийняття ршень для генерування правил на основi суперечливих або не-точних даних.

Свщченням широкого зацiкавлення наближеними множинами е проведення ряду конференцш, зокрема First International Workshop on Rough Sets — State of the Art and Perspectives, 1992 та International Conference on Rough Sets and Current Trends in Computing, 2000, 2002, 2004, 2006; видання спещального мiжнародного журналу LNCS Transactions on Rough Sets; видання моно-графш, до яких варто вщнести найбшьш вiдомi [4, 5]; значна кшьюсть публжацш (база даних пyблiкацiй — http://rsds.univ.rzeszow.pl/); реальт проекти [6, 7] та мiж-народнi робочi групи, зокрема Група лопки при Вар-шавському yнiверситетi.

2. Аналiз останшх дослщжень

Процес видобування знань [8] зображений на рис. 1. В загальному випадку вш складаеться з таких основних кроюв:

1. Вщбирання даних;

2. Попередне опрацювання даних;

3. 1нтелектуальний аналiз даних;

4. Ощнка та штерпретащя побудованих моделей та знайдених залежностей.

Рисунок 1. Загальна схема процесу видобування знань

Вщбирання i попередне опрацювання даних значною мiрою залежать вщ способу подання даних. У бшьшосп випадкiв потрiбно вибирати данi з юлькох таблиць ба-зи даних, фшьтрувати великi масиви даних за певним KpmepieM або подавати даш у форматi, якого вимагае алгоритм. Попередне опрацювання даних може включа-ти в себе змшу типу даних, кодування чи розкодування окремих значень, дискретизащю числових значень, за-повнення або вилучення порожшх значень тощо. Якшо потрiбно, множину даних розбивають на навчальну та тестову тдмножини. На цьому етапi також можливе застосування методiв дискретизацii числових значень або кластеризаци множини прикладiв. Цi дii е першими кроками в побудовi моделi даних. В процеа дискрети-зацii шукають так зваш зрiзи (cuts) — числовi значення, що утворюють границi iнтервалiв дискретизацii. Ре-зультати дискретизацii з одного боку сильно залежать ввд обраного методу та обраних параметрiв алгоритму, а з шшого — мають значний вплив на остаточш результа-ти дослiдження даних.

На етат iнтелектуального аналiзу даних застосову-ють один або декiлька алгоритмiв побудови моделi, якою може бути набiр правил, шаблонiв або функцш. Зокрема, при застосуваннi логiстичноi регреси, кiнцевим результатом буде набiр числових параметрiв, а при застосуванш нейромережевого пiдходу моделлю буде навчена нейрон-на мережа.

В рамках технологи наближених множин для пошуку правил застосовують метод лопчного виведення (boolean reasoning). Юнцевим результатом застосування технологи наближених множин може бути або набiр лопчних правил вигляду «якщо ..., то», яю здебiльшого отриму-ються генеруванням матриць нерозрiзненнностi та ре-дуктiв, або шаблони даних, яю можна застосувати для фшьтраци даних.

Данi, що дослiджують, подають за допомогою прикла-дiв, зiбраних у таблицi даних. Нехай U = {ui,u2,...,un} — непорожня сюнченна множина прикладiв, кожен з яких поданий рядком таблищ, A = {aj,a2,.,am} — непорожня скшченна множина умовних атрибупв та a: U ^ Va для вах aeA. Множину |Xi| = True(Xj) + False(X0). називають множиною значень, або доменом атрибута, а саму таблицю — шформацшною системою. Таблицю A = (U,A u{d}) з класифжуючим атрибутом d, за зна-ченням якого приклади вщносять до вщповщного класу, називають таблицею прийняття ршень.

Частина даних може бути надлишковою або супереч-ливою, зокрема, якщо певш приклади еквiвалентнi на множит умовних атрибупв, але мають рiзнi значення атрибуту прийняття ршення. Цi приклади неможливо однозначно класифжувати. Кажуть, що вони належать

граничнш областi. Такi суперечливi приклади вилучають з таблищ. Також вилучають приклади, для яких кнуе повтстю, включно з атрибутом прийняття ршення, еквь валентний приклад.

Пiсля видалення з таблицi прикладiв, що належать граничнiй областi, вилучають таю стовпщ, атрибути яких не впливають на класифжащю; для аналiзу залишають лише тi стовпцi, вщ яких залежить класифiкацiя при-кладiв таблицi. Множину атрибутiв, що залишилися, називають редуктом. 1ншими словами, редукт — це тдмно-жина RED с A уах атрибупв таблицi, якi забезпечують той самий результат класифжаци всiх прикладiв таблищ, як i множина A атрибупв.

Редукт таблицi можна шукати за методом лопчного виведення [5]. Метод полягае у побудовi функци розрiз-нення (discernibility function) i ii подальшому спрощен-нi. Окремими методами спрощення функцii розрiзнення е алгоритм Джонсона та генетичний алгоритм [6].

На основi побудованих редукпв генерують лопчт правила — правила прийняття ршень вигляду а ^ в, та розраховують 'хт числовi характеристики. Тут, а — умо-ва правила, в — наслщок. Таке правило вщображае залеж-нiсть мiж набором значень v атрибутiв a та значенням vd атрибуту прийняття ршення d. Елементарною частиною правила е дескриптор — вираз вигляду a = v, де a e RED, veVa. Умову правила утворюе кон'юнкщя дескрипто-рiв a = v, а наслщком правила е дескриптор d = vd.

Яюсть правила оцiнюють такими числовими характеристиками як тдтримка, точшсть, покриття [9]. Цi параметри розраховуються на базi навчальних при-кладiв i дають не лише певш вщомосп про характер от-риманих правил, а й безпосередньо використовуються при застосуванш цих правил у процеа прийняття ршень. Правила та '¿х характеристики утворюють класифiкатор. Результати роботи класифжатора подають матрицею по-милок (МП), елементами яко' е юльюсш результати застосування правил для класифжаци прикладiв з тестово' частини таблищ. У випадку бiнарного класифжатора такими результатами е таю юлькосп тестових прикладiв:

1. True (Xi) — правильно вiднесених до класу Xi.

2. True (X0) — правильно вiднесених до класу X0.

3. False (X1) — помилково вщнесених до класу X1.

4. False (X0) — помилково вщнесених до класу X0.

Вигляд матрищ помилок у разi бшарно' класифiкацii

показано у табл. 1. На основi результатiв класифiкацii розраховано коефщент успiшностi класифiкатора

КУ =

True(Xo) + True(X1)

True (X0 ) + True(X1) + False (X0 ) + False (X1)'

Матриця помилок якiсного класифiкатора повинна мктити якомога бiльшi значення на головнш дiагоналi та

якомога меншi (в щеальному випадку — нульов^ значен-ня в решп K0Mip0K.

Таблиця 1

Матриця помилок, отримана у pa3i бiнарнiй класифкаци

конання кроюв алгоритму; CUTS — множина 3pi3iB, отриманих у результат дискретизацii; RED — набiр по-будованих редуктiв; RUL — m6ip згенерованих правил; МП — матриця помилок.

Прогнозований клас

X0 X1

Справжнiй клас X0 True (X0) False (X1)

X1 False (X0) True (X1)

Ощнку класифiкацiйно'i якостi побудованого класи-фiкатора також виконують з допомогою ROC-криво'i [9]. Цю яюсть називають дискримiнацiйною здатнiстю; вона за змштом е здатнiстю класифiкатора правильно визна-чати деякий клас Х. Дискримшацшна здатнiсть е статис-тичною оцiнкою правильного прогнозу певного класу прикладiв та оцiнюеться значенням плошд пiд ROC-кри-вою. Що бшьша площа пiд кривою, то краща яюсть класи-фiкатора. Значення плошд пщ ROC-кривою служить штег-ральним показником якост класифiкатора, не залежним вщ обраного граничного значення функцп класифiкацii, i використовуеться при порiвняннi класифiкаторiв.

Для побудови ROC-криво! для кожного вибраного граничного значення т е [0, 1] на оа ординат вiдкладають вiдносну частку прикладдв, правильно класифiкованих до класу X1. Цю частку позначають sensitivity i об-

числюють так TrUe(Xl), де |Xi| = True(X1) + False(X0). lXi|

На осi абсцис вщкладають вiдносну частку прикладiв, неправильно класифжованих до класу X1. Цю частку позначають 1 — specificity i обчислюють так 1 - True(Xo) де |X0| = True(X0) + False(X1).

3. Методика дослщжень

|X0

Алгоритм дослiдження даних з використанням на-ближених множин складаеться з тако! послiдовностi крокiв [9]:

1. Доповнення або вилучення прикладдв з невiдоми-ми значеннями.

2. Подiл таблищ на навчальну та тестову частини.

3. Дискретизащя значень числових атрибупв на-вчально! таблицi.

4. Дискретизащя значень числових атрибупв тесто-во1 таблицi.

5. Знаходження редуктiв для навчально! таблицi.

6. Генерування правил на основi редуктiв.

7. Тестування правил на прикладах тестово! таблищ.

Кроки 1-4 утворюють етап попереднього опрацю-

вання даних в процеа видобування знань, зображеному на рис. 1. Кроки 5 та 6 утворюють етап штелектуального аналiзу даних, а крок 7 — етап ощнки та штерпрета-ц11. Алгоритм дослщження даних зображено орiентова-ним графом, вершини якого позначенi номерами кроюв, а дуги — даними, яю опрацьовують на наступному кро-цi (див. рис. 2).

Дугам графа вщповщають такi данi та результати: А — початкова таблиця прийняття ршень розмiрiв т х п; А1, А2, А3, А4, А5 — таблицi, отриманi в результат ви-

Рисунок 2. Методика дослщження даних з використанням наближених множин

Опишемо особливостi виконання кроюв наведеного алгоритму дослщження даних та процесу опрацювання даних, який виконують на цих кроках.

Крок 1. (Доповнення або вилучення прикладгв з не-в1домими значеннями). На цьому крощ виконують за-повнення або вилучення невщомих значень. Для цього з множини прикладдв U задано! таблищ A вилучають таю приклади, у яких хоча б одне значення будь-якого атрибута е вщсутшм або невизначеним. Результатом виконання цього кроку е таблиця A1. Заметь вилучення рядюв таблищ iнодi виконують доповнення невщомих значень. Для цього використовують методи заповнення середшм/звичайним (mean/mode fill), контрольоване за-повнення середнiм/звичайним (conditioned mean/mode fill), комбшаторне заповнення (combinatorial completion) чи контрольоване комбшаторне заповнення (conditioned combinatorial completion) [6]. У деяких випадках будь-яке довизначення невщомого значення небажане.

Крок 2. (Подт таблицi на навчальну та тестову частини). На цьому крощ виконують подш прикладiв на навчальт та тестов! Множину U1 прикладiв таблицi A1 розбивають на двi пiдмножини U2 та U3, яю утворюють таблицi A2 та A3, вiдповiдно. При цьому приклади у множину U2 вiдбирають випадково за допомогою генератора рiвномiрно розподiлених псевдовипадкових чисел. Для генератора можна задавати початкове вщхи-лення — число, з якого починаеться генеращя псевдовипадкових чисел. Це дозволяе у разi необхщносп повтстю повторити експеримент та вiдтворити розбиття таблищ на навчальну та тестову частини. Пропорщю, в якш таблиця дшиться на навчальну i тестову, задають коефщен-том подыу (split factor) — дшсним числом з промiж-ку (0, 1). Наприклад, якщо коефщент подiлу рiвний 0,6, то 60 % уах прикладiв утворюють навчальну таблицю, а решта 40 % — тестову.

Крок 3. (Дискретизащя числових атрибутiв навчаль-ног таблиц). На цьому крощ виконують дискретиза-щю неперервних числових атрибупв навчально! таблицi одним з багатьох алгоритмiв [6]. Це дозволяе суттево зменшити розмiр домешв атибутiв. Пiд час дискрети-зацп вiдбуваеться розбиття домену значень атрибуту на штервали. Для коректного розбиття на штервали, при якому зберкаеться правильнiсть класифiкацii при-кладiв в таблищ прийняття ршень, враховують атрибут прийняття ршень. Iнформацiя про штервали, на яю розбито значення атрибута, зберкаеться для подальшого

використання при дискретизацп вiдповiдного атрибута тестово! таблицi.

Крок 4. (Дискретизацш числових атрибутю тестовог таблиц). Проводять дискретизацш числових атрибупв у тестовiй таблищ А3. Для цього використовуеться набiр зрiзiв CUTS, отриманий при дискретизацп навчально! таблицi А2. Це робиться з метою отримання для А3 щен-тичного з А2 розбиття числових значень на штервали.

Крок 5. (Знаходження редуктю для прикладгв з на-вчальног таблиц). Для знаходження редукту можна за-стосовувати алгоритм лопчного виведення або алгоритм Джонсона. Часто застосовують шший, ефективний алгоритм побудови редукпв — генетичний алгоритм.

Крок 6. (Генерування правил на основi редукт1в). Бу-дують логiчнi правила вигляду ЯКЩО ..., ТО. Проте, з метою тдвищення ефективностi, правила переважно генеруються пiд час побудови редукпв на попередньому кроцi. Кожному правилу присвоюються певнi число-вi характеристики. Пiдтримка правила (RHS Support) вказуе кшьюсть прикладiв тестово! таблищ, для яких виконуеться i лiва i права частина правила. Характеристика LHS Support вказуе, кшьюсть прикладiв, для яких виконуеться лiва частина правила. Що бiльша точ-нiсть (RHS Accuracy) i покриття (LHS Coverage) правила, тим воно «сильшше».

Крок 7. (Тестування правил на прикладах з тестовог таблиц). На цьому крощ здшснюють тестування знайдених правил на тестовш таблищ A3. Результатом класифiкацii тестових прикладiв е матриця помилок МП з даними про кшьюсть правильно класифжованих при-кладiв, а також додатковi данi для побудови ROC-криво!, яка iлюструе якiсть отриманого класифжатора.

4. Цiлi статт

Мета авторiв полягала в описi основних кроюв за-стосування методологii наближених множин для вирь шення задач аналiзу даних та побудови класифiкаторiв. Необхщно було проаналiзувати масив медичних даних з результатами дiагностування певно'i хвороби серця. На основi наявного масиву даних побудувати правила i застосувати 'iх для класифiкацii нових прикладiв захво-рювання, оцiнити побудований класифжатор та описати методику використання системи ROSETTA. В результатi проведених дослщжень здiйснено формалiзацiю методики аналiзу, виконано опис та попередне опрацювання набору даних, знайдено атрибути, яю найбiльше впливають

на прийняття рiшень, побудувано правила та ощнено якiсть класифiкацii.

5. Основний матерiал

Задача, яку розглянуто в практичнш частинi статтi, полягае у побудовi на основi медичних даних класифь катора у виглядi набору правил та його подальшш оцiнцi. Даш медичних спостережень подаш таблицею розмь рiв 3532 х 15 (табл. 2).

Таблиця прийняття ршень мктить стовпцi з атрибутами Age (вш), Gender (стать: 0 — жш., 1 — чол.), iншi стовпцi, що представляють результати теспв, та класи-фiкуючий стовпець KHKS (0 — захворювання немае, 1 — захворювання е). Стовпець Age мктить значення з дiапазону [15, 88], середне значення вжу — 58. Bti iншi стовпцi — двшковГ Таблиця не мiстить порожшх значень.

Дослiдження таблицi виконувалось у системi RO-SETTA [6, 9, 10]. Система ROSETTA призначена для аналiзу даних та виявлення в них прихованих закономГр-ностей за технолопею наближених множин. Bхiдними даними для не! е таблиця прийняття ршень.

Схемою на рис. 3 подано послщовтсть кроюв аналь зу таблищ, вхщт та вихiднi дат, параметри кожно! дГ! в системi ROSETTA. Якщо параметри не вказат, то вони або не кнують для дано! дГ!, або система задае !х за замов-чуванням. Вказано назву таблищ над якою виконуеться кожна дГя та шлях до пункту контекстного меню, який реалГзуе цю дгю. Наведемо пояснення змкту кожного з наведених на рис. 3 кроюв. Для керування процесом побудови множини правил використовують засоби контекстного меню системи ROSETTA.

Рисунок 3. Схема дослщження, виконаного в ^creMi ROSETTA

Крок 1. (Доповнення або вилучення прикладАв з не-вгдомими значеннями). Вхщними даними цього кроку е задана таблиця прийняття ршень, яку позначено A.

Таблиця 2

Фрагмент таблиц з результатами дiагноcrування

№ Age Gender PIK KV SK UA AA BE OH REW R_AK R_MK R_AKMK GH KHKS

1 53 1 0 0 0 0 0 0 0 0 0 0 0 1 1

2 65 1 1 0 0 0 0 0 0 1 0 0 1 0 0

3 63 1 1 0 0 0 0 0 0 0 0 0 0 1 1

4 62 1 1 0 0 0 0 0 0 0 0 0 0 1 1

5 70 1 0 0 0 0 0 0 0 0 0 0 0 0 1

< . . . >

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3530 69 0 0 0 0 0 0 0 0 1 0 0 1 1 0

3531 44 1 1 0 0 0 0 0 0 0 0 0 0 0 0

3532 62 1 1 0 0 0 0 0 0 0 0 0 0 1 0

Для усунення прикладiв з неповними або невизначеними даними можна застосувати команду контекстного меню « Complete > Remove incompletes». Оскшьки таблиця A не мктить порожтх чи невизначених значень, то результатом виконання цього кроку е таблиця Ai, яка спiвпадаe з таблицею A та мiстить |U1| = 3532 приклади.

Крок 2. (Поды таблиц на навчальну та тестову час-тини). Вхщними даними для ще1 Д11 е таблиця A1. До не! застосовано команду «Other > Split in two», яка дшить таблицю A1 на двi таблицi: A2 — навчальну та A3 — тестову. Параметр Split factor = 0,5 вказуе на те, що таблиця дшиться навтл, тобто |U2| = |U3| = 1766, а параметр RNG seed = 1 задае початкове вщхилення для генератора ви-падкових чисел.

Крок 3. (Дискретизацш числових атрибутiв навчаль-ног таблиц). Вхщними даними е таблиця А2. До ще1 таблищ застосовано команду дискретизацп за методом булiвського наближення «Discretize > Boolean reasoning algorithm». У заданш таблищ потрiбно було дискретизу-вати лише атрибут Age. Для цього перед запуском алгоритму потрiбно промаскувати таблицю A2, деактивуючи всi стовпцi, крiм Age та KHKS. Щ два стовпцi залишено активними i вони братимуть участь у дискретизацп. Шсля завершення дискретизацп потрiбно знову активу-вати ва стовпцi у таблицi A4. Параметрами Filename = = «a2_br_cuts.txt» та Approximate = False вказано iм'я файла, в який будуть записаш побудоваш зрiзи i вимкне-но функщю наближено! дискретизацii.

Варто звернути увагу на таку специфжу реалiзацii у системi ROSETTA алгоритму Boolean reasoning. Алгоритм знаходить мМмальний редукт для щформацшно! си-стеми. Якщо один з дискретизованих атрибупв не увiйде в цей редукт, то вш iгноруеться i не дискретизуеться. До та-

кого атрибута можна додатково застосовувати неконтро-льоват алгоритми дискретизацп, наприклад Equal frequency binning. У даному випадку алгоритм знайшов дев'ять зрiзiв: 32,5, 33,5, 38,5, 42,5, 43,5, 81,5, 82,5, 84,5, 86. Кожне значення атрибута Age у новш таблищ A4 замшене позна-ченням одного з утворених iнтервалiв. Вихiднi данi цього кроку: таблиця A4 та файл зi зрiзами «a2_br_cuts.txt». Фрагмент таблищ A4 наведено у табл. 3.

Крок 4. (Дискретизащя числових атрибутiв тестовог таблиц). Вхщними даними е таблиця А3 з тестовими прикладами i файл зi зрiзами з попереднього кроку. До таблищ А3 застосовано команду «Discretize > From file with cuts» i задано файл зi зрiзами. Параметри: Filename = «a2_br_cuts.txt». Перед дискретизащею потрiбно деактивувати в тестовш таблицi всi стовпцi, крiм стовпця Age. Вихщш данi: А5 — модифжована тестова таблиця. Фрагмент таблищ А5 наведено у табл. 4.

Крок 5. (Знаходження редуктю для прикладiв з на-вчальног таблиц). Вхщними даними е таблиця А4. До не! застосовуеться команда «Reduce > Genetic algorithm». Параметри: Discernibility = Object related; Modulo decision = = True; Approximate = False; Hitting fraction = 1,0; Extra keep lists = 1.

На цьому крощ для кожного прикладу х з U4 за допо-могою генетичного алгоритму шукаються редукти. Зна-чення Full параметра Discernibility вказуе, що редукт треба шукати для вае! таблищ в щлому, а значення Object related — окремо для кожного приклада. Значення параметра Modulo decision вказуе на необхщтсть враховувати атрибут прийняття ршення, а Hitting fraction задае сту-тнь наближення редукту. Параметр Extra keep lists задае кшьюсть мМмальних наборiв атрибупв, якi додатково вiдбираються алгоритмом при побудовi редукту.

Таблиця 3

Фрагмент навчальноТ таблицi з дискретизованим атрибутом Age

№ Age Gender PIK KV SK UA AA BE OH REW R_AK R_MK R_AKMK GH KHKS

1 [33, 34) 1 0 0 0 0 0 0 0 0 0 0 0 1 1

2 [44, 82) 1 1 0 0 0 0 0 0 1 0 0 1 0 0

3 [82, 83) 1 1 0 0 0 0 0 0 0 0 0 0 1 1

4 [44, 82) 1 1 0 0 0 0 0 0 0 0 0 0 1 1

5 [86,*) 0 1 0 0 0 0 0 0 0 0 0 0 1 0

1764 [34, 39) 0 0 0 0 0 0 0 0 1 0 0 1 0 0

1765 [39, 43) 1 0 0 0 0 0 0 0 1 0 0 1 0 0

1766 [39, 43) 1 0 0 0 0 0 0 0 0 0 0 0 1 1

Таблиця 4

Фрагмент тестовоТ таблиц з дискретизованим атрибутом Age

№ Age Gender PIK KV SK UA AA BE OH REW R_AK R_MK R_AKMK GH KHKS

1 [44, 82) 1 0 0 0 0 0 0 0 0 0 0 0 0 1

2 [34, 39) 1 1 1 0 0 0 0 0 0 0 0 0 1 0

3 [33, 34) 1 1 0 0 0 0 0 0 0 0 0 0 1 0

4 [43, 44) 0 1 0 0 0 0 0 0 0 0 0 0 1 0

5 [44, 82) 1 1 0 0 0 0 0 0 0 0 0 0 0 0

1764 [39, 43) 1 1 0 0 0 0 0 0 0 0 0 0 0 0

1765 [39, 43) 1 0 0 0 0 0 0 0 0 0 0 0 1 1

1766 [82, 83) 0 1 0 0 1 0 0 0 0 0 0 0 1 0

На цьому крощ було знайдено 319 редукпв, яю мш-тять вщ 1 до 10 атрибутiв. Вихвдт данi: Ha6ip редук-TiB RED, Ha6ip згенерованих правил RUL.

Таблиця 5

Приклади побудованих редуклв

Коефвдент уcпiшноcтi отриманого класифжато-ра КУ = 0,856172. Це вщповщае близько 85,6 % правильно класифжованих тестових прикладдв. Крiм матрицi помилок, результатом останнього кроку е шформащя, призначена для представлення якоcтi знайдених правил ROC-кривою. На оcновi ^eï iнформацiï було побудовано графiк ROC-кривоï (рис. 4). Значення площi тд даною кривою складае 0,9 при похибщ обчислень 0,01. Це значення свщчить про дуже хорошу здатнicть отриманого клаcифiкатора визначати клас «1» (оскшьки було задано параметр ROC Class = 1), тобто дiагноcтувати наявтсть хвороби.

№ Редукт Довжина

1 { PIK, KV, UA, GH } 4

2 { PIK, KV, SK, GH } 4

3 { PIK, KV, R_MK, GH } 4

4 { PIK, KV, REW, GH } 4

5 { PIK, KV, R_AK, R_AKMK, GH } 5

6 { PIK, KV, AA, R_AKMK, GH } 5

7 { PIK, KV, SK, UA, AA, BE, REW, GH } 8

8 { PIK, KV, SK, UA, AA, BE, R AK, R_MK, R_AKMK, GH } 10

9 { R_AKMK } 1

10 { REW } 1

Крок 6. (Генерування правил на основi редуктгв). В бiльшостi випадюв, генерування правил в системi RO-SETTA вiдбуваeться автоматично, пiд час побудови ре-дуктiв на крощ 5. В результату кiлькiсть виведених з таб-лицi даних правил склала 120. Частина правил наведена у табл. 6. Правила вщсортовано за значенням характеристики LHS Support.

Крок 7. (Тестування правил на прикладах з тестовог таблиц). Вхщними даними е таблиця А5 i набiр правил RUL. До таблищ А5 застосовано команду контекстного меню «Classify».

1

0,9 -

0,8 -

0,7 -

, 0,6

I 0,5 ^

0,4

0,3

0,2

0,1

0 0

0,2

0,4 0,6

1 - specificity

0,8

Рисунок 4. ROC-крива для побудованого класифкатора

Таблиця 6

Приклади згенерованих правил

№ Правило LHS Support RHS Support RHS Accuracy LHS Coverage

1 AGE([44, 82)) AND KV(0) AND UA(0) AND 0H(0) AND R AK(0) AND R_MK(0) AND GH(0) => KHKS(0) OR KHKS(1) 629 546, 83 0,868044, 0,131955 0,356172

2 AGE([43, 44)) AND KV(0) AND SK(0) AND R AK(0) AND R MK(0) AND GH(0) => KHKS(0) OR KHKS(1) 629 543, 86 0,863275, 0,136725 0,356172

3 AGE([39, 43)) AND KV(0) AND SK(0) AND 0H(0) AND R AK(0) AND R_MK(0) AND GH(0) => KHKS(0) OR KHKS(1) 628 542,86 0,863057, 0,136943 0,355606

120 GENDER(1) AND SK(1) => KHKS(0) 19 19 1.0 0,010759

Параметри: Classifier = Standart voting; Log = True; Log Filename = «log.txt»; Log Verbose = True; ROC = True; ROC Class = 1; ROC Filename = «roc.txt»; Calibration = False. Вихщт дат: матриця помилок (табл. 7); файли log.txt, roc.txt.

Таблиця 7

Матриця помилок з результатами класифкацп

6. Висновки

У статп розглядався процес штелектуального аналiзу медичних даних, реалiзований за допомогою системи RO-SETTA. Основним результатом такого аналiзу став набiр виведених з таблищ даних правил, як використовуються для класифжацп тестових, ратше невщомих системi, прикладiв. При використант для дискретизацii стовпця Age алгоритму boolean reasoning отримано 10 iнтервалiв вжу пацiентiв, а кiлькiсть знайдених правил склала 120. Класифжатор на основi цих правил дозволяе правильно класифжувати 85,6 % тестових прикладiв. Як показала серiя експериментiв, незначна змша параметрiв аналiзу мае поминий вплив на кiнцевий результат. В подальшо-му, необхiдно дослiдити яюсть рiзних класифiкаторiв,

Прогнозований клас

0 1

Справжнш клас 0 1380 1

1 253 132

побудованих за pi3Hrn napaMeTpiB алгоритму, придшити увагу опису характеристик правил та ix застосування при класифiкацii.

^irepaTypa

1. Pawlak Z. Rough Sets. International Journal of Computer and Information Sciences, vol. 11/5, p. 341-356, Plenum Press New York, USA, 1982.

2. S. K. Pal, L. Polkowski, and A. Skowron, eds. Rough-Neuro Computing: Techniques for Computing with Words, SpringerVerlag, Heidelberg, 2003.

3. S. K. Pal and A. Skowron, eds. Rough Fuzzy Hybridization: A New Trend in Decision Making. Springer-Verlag, Singapore, 1999.

4. Pawlak Z. Rough Sets — Theoretical Aspects of Reasoning about Data. Kluwer Academic Publishers, Dordrecht, 1991.

5. Jan Komorowski, Lech Polkowski, Andrzej Skowron. Rough Sets: A Tutorial. // Eds. S. K. Pal and A. Skowron, Rough

Fuzzy Hybridization: A New Trend in Decision-Making, Spriner-Verlag, Singapore, 1999.

6. 0hrn A. ROSETTA Technical Reference Manual, 2001 (http://www.idi.ntnu.no/~aleks/).

7. RSES 2.2. User's Guide (http://logic.mimuw.edu.pl/~rses/).

8. Mitra Sushmita, Pal Sankar K., Mitra Pabitra. Data mining in soft computing framework: a survey, IEEE Transactions on Neural Networks, Vol. 13, Issue 1, 2002.

9. 0hrn A. Discernibility and Rough Sets in Medicine: Tools and Applications, PhD thesis, Norwegian University of Science and Technology, Department of Computer and Information Science, 1999.

10. 0hrn A., Komorowski J., Skowron A., and Synak P. The design and implementation of a knowledge discovery toolkit based on rough sets: The ROSETTA system. In L. Polkowski and A. Skowron, editors. Rough Sets in Knowledge Discovery 1: Methodology and Applications, volume 18 of Studies in Fuzziness and Soft Computing. Physica-Verlag, Heidelberg, Germany, 1998, chapter 19, pages 376-399.

УДК 615.47:616-072.8

ПОР1ВНЯЛЬНА ОЦ1НКА 1НФОРМАЦ1ЙНО-СТРУКТУРНОТ ОРГАЖЗАЦП ТЕХНОЛОГ1Й ПСИХОФ1З1ОЛОГ1ЧНОГО ТЕСТУВАННЯ

I В1ДБОРУ ПЕРСОНАЛУ

-□ □-

Розглянутi сучасш технологи психофiзiологiчного вгдбору i тесту-вання персоналу, зазначет 'ix переваги та недолши. Запропоновано комплекс 1АПДК та видповидну технологю псиxофiзiологiчного тестування, що мають суттeвi вiдмiнностi i переваги над wнуючими аналогами i забезпечу-ють ятсний, багаторiвневий, професшний вiдбiр та розстановку кадрiв

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С. М. Злеп ко Л. Г. Коваль С. В. Тимчик

Вступ

Будь-яка технолопя псиxофiзiологiчного вщбору i тестування за своею структурою i змштом повинна вщповь дати класичному визначенню iнформацiйноi технологи, а саме — представляти собою сукуптсть методiв, ви-робничих процеав i програмно-техшчних засобiв, об'ед-наних в технолопчний ланцюг, який забезпечуе збiр, збереження, обробку, виведення та розповсюдження ш-формацп для зменшення трудоемносп процеав викори-стання шформацшних ресурав, тдвищення ix надшносп та оперативност [1].

Технолопя псиxофiзiологiчного вщбору i тестування персоналу ОВС Украши, як i тест «Визначення типу особистостЬ», базуеться на класифжацп розладiв «Амери-канськоi псиxiатричноi асощацп» (1994 р.), дiагностич-ному та статистичному довiдниковi розумових розладiв DSN-IV (1994 р.), тесту ЕРО — «Експертиза розладу осо-бистостi», дiагностичниx критерiяx тесту Дж. Олдхема

i Л. Моррiс (1994 р.) [2]. Використання в технологи режиму прихованого контролю забезпечуе практично 100 % об'ектившсть контролю фiзюлоriчноi компоненти, що обумовлено, на наш погляд, психолопчним феноменом людини, коли вона при проходженш тесту не знае i не т-дозрюе про те, що розроблена технолопя дае можливкть здшснювати прихований контроль психофiзiологiчного стану кандидата за рахунок вперше запропонованого режиму прихованого контролю фiзiологiчноi компоненти людини. Крiм того, ще одтею особливiстю розробленою нами технологii психофiзiологiчного тестування i вiдбору персоналу е те, що вона вщповщае умовi iснування типiв особистостi, якi взаемопов'язаш не тiльки в межах одного тесту, а i з тестами, побудованими за шшими принципами i методиками, i перш за все, Кейрсi-Маерс-Брiгс та Enneagram, що в кшцевому результатi пiдвищило точ-нiсть та якiсть тестування (рис. 1).

При розроблент технологii ми визначили надштсть тестування, як обов'язкову характеристику будь-я^

ТЕХНОЛОГії НАБЛИЖЕНИХ МНОЖИН В іНТЕЛЕКТУАЛЬНОМУ АНАЛіЗі ДАНИХ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нікольський Ю. В., Завалій Т. І.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Нікольський Ю. В., Завалій Т. І.

Текст научной работы на тему «ТЕХНОЛОГії НАБЛИЖЕНИХ МНОЖИН В іНТЕЛЕКТУАЛЬНОМУ АНАЛіЗі ДАНИХ»