УДК004.891.2:550.8.052
Кондратенко Н. Р.1, Сшгур О. О.2
1Канд. техн. наук, доцент, професор кафедри захисту нформацп Внницького национального технчного ушверситету,
Внниця, УкраТна
2Аспрант кафедри захисту нформацц' Внницького национального технчного унiверситету, Вiнниця, УкраТна
1НТЕРВАЛЬНИЙ НЕЧ1ТКИЙ КЛАСТЕРНИЙ АНАЛ1З ДЛЯ МОН1ТОРИНГУ СТАНУ АРТЕЗ1АНСЬКО1 СВЕРДЛОВИНИ
Актуальтсть. Мошторинг природних систем рiзного характеру е необхщною умовою ращонального природокористування. Технологи штелектуального аналiзу даних, зокрема кластерний аналiз, надають широкi можливостi для вiзуалiзащi наборiв даних, що дозволяе використовувати щ технологii людьми, як не мають спецiальноi математичноi шдготовки. Задача монiторингу системи, стан яко! змiнюеться в часi, висувае вимогу розширено!' iнтерпретацii результатiв кластеризацii з урахуванням iсторичних даних. Технiчнi можливост для виявлення характеру змiн, що вщбуваються в об'ектi, представленому набором даних, мають особливе значення в задачi мошторингу водних ресурсiв, оскшьки вони перебувають у тiсному взаемозв'язку з зовншшм середовищем, та величина 1хшх запасiв залежить вiд багатьох фактс^в, зовнiшнiх вiдносно водоносно! системи. Шсля введення в експлуатацiю артезiанська свердловина потребуе постiйного спостереження задля правильного керування експлуатащею пiдземних вод, захисту !х вiд забруднення та вичерпання, а також попередження негативних наслщгав впливу водовщбору на навколишне середовище. Крiм того, для складних природних систем характерна висока надлишковють простору параметрiв, а також наявшсть як вщомих, так i не виявлених дос кореляцiйних зв'язкiв мiж параметрами. Цi фактори зумовлюють необхщшсть використання методiв кластерного аналiзу, здатних працювати в умовах невизначеностi та надлишковост параметрiв.
Мета роботи - розширення можливостей для аналiзу змши стану системи в часi шляхом урахування невизначеностей, присутнiх у даних спостережень.
Метод. Запропоновано застосування методу штервального нечггкого кластерного аналiзу для дослщження змiни характеристик набору даних у чаш та виявлення загальних тенденцш. Формалiзацiя поставленоi технологiчноi задачi в термiнах iнтелектуального аналiзу даних передбачае можливють одночасноi роботи з множиною вхiдних векторiв. Сформульовано покроковий алгоритм побудови iнтервальноi оцiнки стану природно! системи на основi юторичних даних спостережень та поточних значень.
Результати. Запропоновану модель адаптовано до розв'язання технологiчноi задачi монiторингу артезiанськоi свердловини та експериментально показано можливост раннього виявлення прихованих закономiрностей.
Висновки. 1нтервальний нечiткий кластерний аналiз дозволяе враховувати та моделювати невизначеностi довшьно! природи, що виникають у даних дослщжень артезiанськоi свердловини на рiзних стадiях монiторингу. Показано, що одночасне подання на вхщ системи даних кшькох свердловин може дати змогу ощнити не лише 1хне розташування щодо стандартних компактних класiв за (потенцшною) якiстю води, але й взаемне розташування, i в кшцевому пiдсумку вказати на деяку не виявлену до цього закономiрнiсть.
Ключовi слова: кластерний аналiз, iнтервальнi ступеш належностi, iнтервальнi нечiткi множини, критери якостi кластеризацii, вiзуалiзацiя даних.
НОМЕНКЛАТУРА
SC(c, m) - шдекс розбиття (Partition Index); K(c, m) - критерш Квона; XB(c, m) - критерш Xie-Bem;
- стутнь належностi точки j до кластера i; v j - центр j-го кластера; m - рiвень нечiткостi; С - кiлькiсть кластерiв; N - кiлькiсть точок;
v - середне значення центрiв кластерiв; (X, Y) - набiр даних спостережень; W' - артезiанська свердловина; p ...pm - простар ознак (параме^в свердловини);
Xi = {х1,..., x'm } - результати дослiдження свердловини W за параметрами p ..pm;
Y = {>1,..., yn } - класи, утвореш об'ектами x' вщпо-вiдно до оцшюваного параметра. ВСТУП
Методи та моделi нечiткого кластерного аналiзу мають широке поле для застосування в сучасних штелекту-альних системах. У контекста технологш Data Mining одним iз основних призначень кластеризацп е наочне по© Кондратенко Н. Р., Сшгур О. О., 2017 DOI 10.15588/1607-3274-2017-4-9
дання (вiзуалiзацiя) результатав обчислень, що дозволяе використовувати щ технологii людьми, яю не мають спец-iальноi математичжи пiдготовки [1]. Кластерний аналiз широко використовуеться для видшення прихованих за-кономiрностей та внутрiшнiх взаемозв'язкiв у великих масивах багатовишрних даних, таких як обробка зобра-жень, розтзнавання образiв, дослiдження та прогнозу-вання соцiально-економiчних процесiв тощо. Одним iз важливих його застосувань е також попередня обробка наборiв даних, зокрема видшення шформативних ознак при робота з надлишковими даними.
У системах, стан яких змiнюеться в чам, виникають бiльш широкi можливостi для штерпретацп результатiв кластеризацii. В умовах змшних значень параметрiв об'ектiв видаеться перспективним дослщження змiни характеру розбиття видозмшеного набору даних у по-рiвняннi з вихiдним. Прикладом застосування такого тдхо-ду можуть бути системи мошторингу об'ектав та про-цесiв рiзного походження, як природних, так i технiчних. В рамках дослщження цей шдхщ буде застосовано в за-дачi монiторингу артезiанськоi свердловини. Пiсля введення в експлуатащю вона потребуе постiйного спостереження задля правильного керування експлуатащею тдземних вод, захисту iх вщ забруднення та вичерпання, а також попередження негативних наслщюв впливу во-
довiдбору на навколишне середовище [2]. Завдання поточного та перюдичного монiторингу свердловини в багатьох випадках покладаеться на оргашзащю, що здiйснювала роботу 3i свердловиною вiд початку пдро-геолопчно! розвщки, пов'язано! з даним проектом. З одного боку це означае, що в розпорядженш дослщника е вс данi попереднiх спостережень; з iншого, якщо у вщанш оргашзацл знаходиться все родовище або ж його частина, що охоплюе значну кiлькiсть свердловин, детальний аналiз кожного з контрольованих параметрiв на предмет потенц-iйно небезпечних в!дхилень вимагае суттевих затрат часу. Якщо взяти до уваги надлишковють простору параметрiв, що завжди характерна для складних природних систем, та вiдомi корелящйш зв'язки мiж ними, задача ускладнюеть-ся ще бiльше. Кр1м того, в системi можуть також iснувати досi не виявлеш зв'язки мiж параметрами, яю не можуть бути врахованi експертом-лю диною.
Кластерний аналiз як iнструмент подання, або в!зуал-!зацп, даних дозволяе виявити прихованi закономiрностi та внутршш взаемозв'язки, присутнi в дослiджуваному наборi даних [3-7]. Серед iснуючих на сьогодшшнш день методiв кластеризацл е й таю, що показують добрi резуль-тати на даних високо! розмiрностi [3, 4, 7-9]. Об'ектом да-ного дослiдження е методи штервально! нечггко! класте-ризацп на основ! альтернативних критерпв якостi [6]. Предметом досл^ження е можливост застосування цього методу для розв'язання задачi монiторингу природних систем. Мета роботи - розширення можливостей для ана-лiзу змiни стану системи в час шляхом урахування невиз-наченостей, присутнiх у даних спостережень. Задля досяг-нення поставлено! мети виршуються так! задачi:
- формалiзувати задачу мошторингу природно! системи в термшах Data Mining;
- сформулювати алгоритм побудови штервально! оцшки стану артез!ансько! свердловини на основ! попе-реднiх та поточних даних спостережень;
- показати можливють роботи методу на даних спос-тережень природних систем.
1 ПОСТАНОВКА ЗАДАЧ1
Задачу мониторингу одте! або бшьше артез!анських свердловин в термшах кластерного анализу можна сформулювати таким чином. Нехай задано наб!р даних спостережень:
X = ■ Х1 Х2 x2 . Х22 Х 1 лт Х2 т , Y = У1 У2
_ xn Х2П Х" лт _ _ Уп _
Ощнюваний параметр, в розрiзi якого проводиться дослщження, умовно назвемо «перспектившсть свердловини». В даному випадку це узагальнена юльюсна оц-iнка стану свердловини, що вщображае перспективнiсть 11 подальшо! експлуатацii, а також стутнь невизначеностi, пов'язано! з щею оцшкою. Для набору (X, Т), який у по-дальшому будемо називати навчальним набором, вда-мо висновок експерта про належшсть свердловини Ж' до одного з клашв за перспективною. Вiдомо також, що об'екти х1, ..., х" утворюють компактш кластери в про-
сторi вхщних ознак. На множину X також накладаеться умова репрезентативностi 11 вщносно генерально! сукуп-ностi векторiв ознак, тобто множина X повинна мютити представниюв усiх с класiв. Необхщно розбити множину X на с кластерiв та визначити ступенi належност до кож -ного з с кластерiв довiльноi свердловини Ж2, що описуеть-
ся вхiдним вектором X2 = {х^,..., хгт }, X2 й X.
Як буде показано далi, така постановка допускае мож-ливють одночасного розв'язання задачi не лише для одного вхщного вектора, а й для матрищ, побудовано! з даних дослiджень множини свердловин. 2 ОГЛЯД Л1ТЕРАТУРИ
В робота [10] здшснено спроби розв'язання задач ре-гiонального районування та соцiально-економiчного прогнозування. Роботи [11, 12, 13] демонструють, як кластерний аналiз може виконувати сегментацiю множини абоненлв провайдера телекомунiкацiйних послуг Про-те математичш методи, що лежать в осжга цих дослщ-жень, суттево обмеженi припущенням, що вхiднi дат е абсолютно точними, правдивими та незашумленими. Метод, запропонований в роботах [14, 15], попри висою оптимiзацiйнi властивосп, ставить аналогiчну вимогу. Вдамо, що на практицi такi умови трапляються вкрай рiдко, тому дана задача вимагае метсадв кластерного ана-лiзу, стiйких до викидiв та шуму. Метод РСМ (Ро881Ъ111811о С-Меаш) [16] задовольняе цiй вимозi - вш надзвичайно стiйкий до шутшв у вхiдних показниках, але базуеться на нечетких множинах типу 1. Це не дае змогу дати повшстю адекватну оцiнку дослiджуванiй множит даних, осюль-ки крiм точок, що вносять шум, у характеристиках кож -но! точки закладена певна невизначешсть, яка не може не перенестись на результат кластеризацп. При цьому характеризувати стутнь належност точки до кластера одним числом недостатньо. Зважаючи на це, подання ступешв належност у виглядi штервальних значень та застосування математичного апарату нечiтких множин типу 2 в задачi кластеризацii мае практичний сенс.
Методи нечетко! кластеризацii дають також позитивш результати в задачi загального оцiнювання якостi води [17, 18]. Робота з тдземними водами ускладнюеться !хньою недоступнiстю для безпосереднiх спостережень. 1нформащя про стан системи достеменно вщома в окре-мих точках родовища; данi ж про iншi дiлянки отриму-ють, екстраполюючи фактичш точковi данi на дiлянки, про яю фактично! iнформацii немае [19]. Тому сучасш методи та технологи ощнювання якостi пiдземних вод [2022] в цiлому суттево не вiдрiзняються вiд методiв, що за-стосовуються для дослiджень поверхневих вод. З ушх факторiв, що впливають на якiсть та особливостi видо-бутку пiдземних вод особливу увагу придiлено антропогенному забрудненню [23, 24] та досл^женню вразли-вост водоносних горизонтiв до шкiдливих речовин, при-сутнiх у повiтрi, Грунтах та поверхневих водах [25, 26]. Математичш моделi та методи, яю при цьому застосову-ються, не передбачають моделювання невизначеностей, що виникають при спостереженш пдрогеолопчних систем. Вш вони побудованi на припущенш, що отриманi данi спостережень точш, повнiстю визначенi, однозначнi та достсдарш. У випадку такого складного об'екта спос-
тережень як тдземш води задовольнити цi вимоги до вибiрки даних практично неможливо, що не може не вплинути на адекватшсть побудованих моделей. Враху-вання та моделювання невизначеностей, закладених у вихщному наборi даних, у рядi випадюв дае змогу по-мiтити тенденцп та змiни в характерi процемв, що про-тiкають у природнш системi, на стадii iх формування [27].
Розв'язання задачi мошторингу тдземних вод на ос-жда методу iнетрвального нечiткого кластерного аналiзу дасть змогу пiдвищити ефективнiсть спостережень та ске-рувати увагу спещатстав на можливi негативнi фактори й тенденцп на рантх фазах iх розвитку. Широю можливостi для одночасноi роботи з множиною свердловин дозволять тдвищити частоту таких контролюючих заходiв. 3 МАТЕР1АЛИ I МЕТОДИ
Для розв'язання задачi поточного мошторингу арте-зiанськоi свердловини застосуемо модель на основi мо-дифжованого методу кластеризацii PCM з штервальним виходом, запропоновану в роботi [6]. Вш мае за основу метод можливiсноi кластеризацii [16] та передбачае от-римання iнтервальних значень ступешв належностi об'ектiв до кластерiв за рахунок регулювання рiвня не-чггкоста. 1нтервал змiни рiвня нечiткостi визначаеться за допомогою критерiiв якостi кластеризацп Квона, Хiе-Бенi та iндексу розбиття [5]:
SC (c, m) = Ц-
k=1 Vhi,kY\\xk -vi
i=1
ZN -чт^
k=1h',k I
(1)
■Jv —v
Mil j 1
K (c, m) =
c N ,
IlK
i=1j=1
\xj —vi
I c
II v —^
• i=1
(2)
min V' — v .
'* j 11
XB(c, m) =
cN
Iltj
1=1j=1
xj —v'
N min V' — xj\ i, j
(3)
Процес прийняття ршення вiдбуваеться в такiй по-rai довноси.
1. Визначити параметри розбиття навчального набору (X,Y) на кластери вщповщно до методу [6]. В даному його застосуваннi суттевими е лише значення рiвня не-чiткостi та координати цен^в кластерiв. Обчислювати остаточш значення ступешв належностi зразкiв навчаль-
ного набору до отриманих кластерiв немае необхiдностi.
2. На останньому кроцi методу [6] обчислити значення ступешв належност до кластерiв для зразка, що являе собою вектор Wz параметрiв контрольованоi свердловини. Обчислення вiдбуваеться за формулою (4) методу РСМ:
hj =■
1
1 +
( d 2 Tm—1
n j
(4)
3. В загальному випадку векторiв може бути бшьш нiж один; в такому випадку йдеться про «шдшну» на-вчального набору даних тестовим. Оскiльки для оцiню-вання позицii кожного з контрольованих зразюв достат-ньо лише обчислити ступеш належностi за формулою (4), на обсяг тестового набору даних, що може обробля-тися, не накладаеться обмежень; в загальному випадку вiн може перевищувати обсяг навчального набору
4. Обчислити значення критирж> (критерiiв) якоста кла-стеризацii на об'еднаннi навчального та тестового наборiв даних. Пропонуеться використати критерii (1-3), значення яких дослщжуються на кроках 1-2 протягом виконання iнтервальноi кластеризацii навчального набору даних. Це дасть змогу оцшити, чи спотворюють даш тестового набору «вдеальне» розбиття, отримане для навчального набору, та визначити кшьюсну мiру цих спотворень.
5. Остаточне ршення приймаеться за ступенями на-лежностi точки, що характеризуеться вектором Xz, до кожного з c утворених кластерiв.
4 ЕКСПЕРИМЕНТИ
Об'ектом кластеризацii будемо вважати набiр значень параметрiв артезiанськоi свердловини X' = {x1,..., x'm },
включаючи такi, що описують особливостi геологiчноi будови, тектонiчнi, ктматичт та гiдрогеологiчнi умови, а також результати дослвдних робiт безпосередньо в сверд-ловинi: данi геофiзичних дослщжень, пробних i дослiдних вiдкачок, параметри, що характеризують як1сть пiдземних вод. Кластерний аналiз вiдбуваеться в простер ознак свер-дловини x1, . x84, приклади яких наведено в табл. 1.
Навчальний набiр даних побудовано на осжда архiв-них даних дослiджень свердловин родовищ тдземних вод, розташованих на територii Правобережжи Геологi -чноi Експедицii. Вхщному вектору, що мiстить усi параметри свердловини x—x , ставиться у вiдповiднiсть вис-новок експерта-гiдрогеолога про ii придатнiсть до видо-бутку питноi води термiном на найближчi 5 рокiв. Навчальний набiр даних складаеться з 20 зразкiв, прикла-ди зразкiв наведено в табл. 2.
Таблиця 1 - Параметри гщрогеолопчного дослщження
1
2
2
2
2
2
2
2
Позначення змшно!' Назва параметру Область значень
x1 В1ддален1сть в1д населених пункпв, км 0-50
x2 В1ддален1сть в1д шосейних дор1г загальнодержавного значення, км 0-50
x83 Гiдрогеологiчнi умови за ступенем складност1 1-3
x84 Гiдрогеологiчнi умови за ступенем вивченост! 0-10
В ходi експерименту дослiджено можливостi запро-понованого вище методу, визначивши параметри роз-биття на основi навчального набору даних з табл. 2 та застосувавши ïx до тестового набору, частково показа-ного в табл. 3.
Тестовий набiр даних складаеться з 30 зразкiв, що не входять до навчального, та iмiтуе множину вxiдниx даних задачi мониторингу реальних артезiанськиx свердловин. 5 РЕЗУЛЬТАТИ
Розiб'емо навчальний набiр даних на кластери за методом [6]. Число кластерiв вважаемо наперед заданим, с=3.
Поведiнку критерiïв якостi розбиття вiдносно рiвня нечiткостi показано на рис. 1.
За правилом, запропонованим в [6], iнтервальне зна-чення рiвня нечiткостi
m = î~k u mxB u msc = [1,7; 3,5] u [1,7; 3,5] u [1,6; 4,1].
Побудувавши розбиття для правоï та лiвоï границь iнтервалу m, отримано центри кластерiв та ступенi на-лежност зразкiв навчального набору даних, наведет в таблицях 4-5.
Аналiз розташування центрiв та складу кластерiв в розрiзi поняття «перспектившсть свердловини» дозво-ляе поставити у вiдповiднiсть кластерам значення перс-пективностi: кластер 1 - висока, кластер 2 - недостатня, кластер 3 - достатня.
Значення критерпв якост кластеризацп на навчаль-ному наборi даних становлять SC(c,m) = 155; K(c,m) = 11880,2; XB(c,m) = 589,9.
Отримаш значення рiвня нечiткостi та координат центрiв кластерiв приймаемо за вихщт для обчислення ступенiв належност зразкiв iз тестовоï вибiрки. Запро-понований метод не передбачае повторного обчислен-ня центрiв кластерiв та знаходження оптимального рiвня нечiткостi, тому час виконання обчислень лшшно зале-жить вщ кiлькостi зразкiв у тестовому наборг Результати обчислень ступенiв належност зразкiв тестового набору даних до трьох кластерiв подано в табл. 6.
Значення критерпв якост кластеризацп на тестовому наборi даних становлять SC(c,m) = 218,9; K(c,m) = 12034,4; XB(c,m) = 626,5.
Рисунок 1 - Поведшка критерпв якост вщносно р1вня не-чгткост1:
а - критер1й Квона; б - критерш Х1е-Бен1; в - шдекс розбиття
Таблиця 2 - Даш дослщжень свердловин (навчальна виб1рка)
Зм1нна 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Х1 1,5 3 12 22 18 15 15 26 37 35 27 4 48 50 50 30 25 22 39 31
Х2 43 12 12,5 25 4 11 32 2 5 2 10 3 3 0,8 4,5 1 40 14 1,5 3
x83 2 2 2 2 3 2 2 3 2 2 3 3 2 2 3 3 2 2 2 2
Х84 10 7 7 10 10 10 7 10 7 7 7 7 7 7 7 7 7 7 7 7
Таблиця 3 - Тестовий наб1р даних
Змшна 1 2 3 4 5 6 7 8 9 10 ... 26 27 28 29 30
Х1 30 25 22 39 37 35 27 12 22 18 26 37 35 27 39
Х2 1 40 14 1,5 5 2 10 12,5 25 4 2 5 2 10 1,5
Х83 2 2 3 3 2 3 2 2 2 3 3 2 2 3 3
Х84 7 7 7 10 7 10 10 10 10 10 10 7 7 7 10
б
в
Таблиця 6 - Ступеш належност зразкiв тестовоi вибiрки
Таблиця 4 - Центри кластерiв
Змшна Кластер 1 Кластер 2 Кластер 3
Л1ва границя Права границя Л1ва границя Права границя Л1ва границя Права границя
Х1 25,82 29,13 20,98 20,99 18,23 24,11
Х2 34,17 37,36 12,91 16 14,14 22,87
Х83 0,9 0,99 1,05 2,82 1,48 2,24
х84 7,98 9,88 5,06 9,6 6,3 6,33
Таблиця 5 - Ступенi належност
№ Кластер 1 Кластер 2 Кластер 3
Л1ва границя Права границя Л1ва границя Права границя Л1ва границя Права границя
1 0,694 0,858 0,107 0,468 0,196 0,536
2 0,064 0,594 0,286 0,494 0,227 0,362
19 0,148 0,867 0,351 0,387 0,076 0,332
20 0,209 0,730 0,167 0,382 0,323 0,494
№ Кластер 1 Кластер 2 Кластер 3 Результат / ширина Оцшка експерта
штервалу
Л1ва Права Л1ва Права Л1ва Права
границя границя границя границя границя границя
1 0,165 0,178 0,618 0,918 0,249 0,491 Недостатня / 0,3 Недостатня
4 0,722 0,99 0,029 0,326 0,053 0,352 Висока / 0,27 Висока
30 0,661 0,96 0,211 0,389 0,119 0,422 Висока / 0,3 Недостатня
6 ОБГОВОРЕННЯ
Змютовшсть отриманих значень критерпв якост кла-стеризацii та характер !х iнтерпретацii визначаеться природою тестовоi вибiрки в кожному конкретному випадку. В рамках даного дослщження тестова вибiрка склада-лася з даних довiльних свердловин на рiзних стадiях експлуатацii, тому складно простежити закономiрнiсть, яка могла б пояснити розходження в значеннях критерiiв. Загальнi критерii якостi характеризують тестову вибiрку в цiлому та мають практичний сенс лише тода, коли вона формувалася за деяким принципом або системою. Мож-ливi застосування запропонованого методу, в яких значення критерпв якост тсля об'еднання навчальноi та тестовоi вибiрки можуть нести змiстове навантаження, доступне для iнтерпретацii в термiнах предметши галузi. Наприклад, тестова вибiрка може складатися з даних рiзних свердловин одного родовища в заданий момент часу, скажiмо, за 10 роюв пiсля введення !х в експлуатащю. В цьому випадку незначне розходження в значеннях кри-терiiв якостi до та тсля внесення тестового набору може говорити про стабшьшсть гiдрогеологiчноi системи та процемв, що в нш вщбуваються, i широкi перспективи подальшоi експлуатацii артезiанських свердловин на дос-лiджуванiй територii.
У даному ж випадку слщ звернути увагу на розходження мiж iндивiдуальними значеннями iнтервалiв ступенiв належностi зразкiв тестовоi вибiрки до кластерiв. Дослщ-ження моделi на основi iнтервальноi кластеризацп зокрема показують розходження ршення, прийнятого системою, з експертним висновком у прикладi 30 (табл. 6). Зразок
30 за вмма показниками ^м одного (концентрацiя радону, 219 Бк/дм3) близький до кластера 1. Оскшьки кластерний аналiз як технологiя навчання без учителя не мае можливостей для врахування шших факторiв, окрiм Евк-лiдовоi вiдстанi мiж точками в простер ознак, зразок 30 вщнесено до кластера 1 (Висока), хоча насправдi вода з такими характеристиками непридатна до вживання. Без-перечно, якщо розглядати зразок 30 окремо вщ даних iнших спостережень, результат роботи системи в цьому випад-ку слiд вважати незадовшьним. В будь-якому разi, вс системи пiдтримки прийняття рiшень у галузi моделю-вання гiдрогеологiчних процемв вимагають коригування за допомогою експертних знань. Проте якщо зважити на те, що зразок 30 за сво'ми значеннями практично повшстю повторюе зразок 4, а також на те, що зразок 30 iмiтуе поступове виникнення негативноi тенденцii в час (пщви-щення радiоактивностi), то до ощнювання результату слiд тдходити по-iншому. В даному випадку спостершаеться розширення зони невизначеностi ([0,661; 0,96]) в ж^внянт з попередтм значенням ([0,722; 0,99]) та зсув ступеня належностi до «хорошого» кластера в бж зменшення. Водночас помина змша ступенiв належностi зразка до шших кластерiв у бiк зростання: [0,211; 0,389] порiвняно з [0,029; 0,326] для зразка №4; [0,119; 0,422] проти [0,053; 0,352] вщповщно.
Таким чином, у контекста задачi мошторингу артезь ансьюл свердловини результат, отриманий для зразка 30 достатньо змютовний для того, щоб звернути увагу дос-лiдника на процеси, що вщбуваються в цш свердловиш, та вказуе на необхiднiсть бшьш детального дослiдження. В рештi випадюв результат роботи системи повнiстю уз-
годжуеться з ршенням експерта для вiдповiдного зраз-ка; ширину iнтервалу можна вважати мiрою невизначе-ностi, спричиненоï браком експертних знань. Вона до-сить суттева, як i слiд оч^вати вiд такого складного об-'екта дослiдження як гiдрогеологiчна система.
ВИСНОВКИ
Роботу присвячено розширенню галузi застосування метседв кластерного аналiзу шляхом аналiзу змiни характеру розбиття набору даних у чаи. Подання ступешв належност в iнтервальнiй формi робить можливим вив-чення цих змiн та ïx якiсну штерпретащю. 1нтервальний нечiткий кластерний аналiз дозволяе враховувати та мо-делювати невизначеност довiльноï природи, що виника-ють в об'ектi спостереження на рiзниx стадiяx мошто-рингу. Ця властивОь мае особливу цiннiсть у задачах мониторингу водних ресурсiв, оскiльки вони перебува-ють у тiсному взаемозв'язку з зовнiшнiм середовищем, та величина ïxнix запасiв залежить вiд багатьох фактс^в, зовнiшнix вiдносно водоносноï системи. Тому регуляр-ний монiторинг е невщ'емною складовою процесу дос-лщження та експлуатацiï артезiанськиx свердловин i дае можливють виявити раннi ознаки вичерпання джерела водопостачання, а також змши в складi вод або глибини залягання водоносного горизонту.
В рамках досл^ження виконано адаптащю методу штервального нечiткого кластерного аналiзу до приклад-ноï задачi монiторингу стану тдземних вод. Формалiза-цiя поставлежй теxнологiчноï задачi в термiнаx штелек-туального аналiзу даних передбачае можливОь одно-часноï роботи з множиною вх^них векторiв. Сформульовано покроковий алгоритм побудови штер-вальноï оцiнки стану свердловини на осжда iсторичниx даних спостережень та поточних значень. Подання сту-пешв належностi в iнтервальнiй формi дозволяе враховувати та моделювати невизначеноста, пов'язаш з браком експертних знань. Останне мае особливо важливе значення в контекста кластерного аналiзу як технологи навчання без учителя. Отримаш результати перевiрено експериментально. Показано, що одночасне подання на вxiд системи даних кшькох свердловин може дати змогу оцiнити не лише ïxне розташування щодо стандартних компактних класiв за (потенцшною) якiстю води, але й взаемне розташування, i в юнцевому тдсумку вказати на деяку не виявлену до цього закономiрнiсть.
СПИСОК ЛГГЕРАТУРИ
1. Дюк В. А. Data Mining: учебный курс / В. А. Дюк, А. П. Самойленко. - СПб. : Изд. Питер, 2001. - 368 с.
2. Петровська М. А. Охорона вод (саштарш норми i правила): навч. поабник / М. А. Петровська. - Львiв : Видавничий центр Львiвського нацюнального ушверситету ii^m 1вана Франка, 2005. - 205 с.
3. Субботин С. А. Выделение набора информативных признаков на основе эволюционного поиска с кластеризацией / С. А. Субботин, А. А. Олейник // Штучний штелект. - 2008. -№ 4. - С. 704-711.
4. Cai W. Fast and robust fuzzy c-means clustering algorithms incorporating local information for image segmentation / W. Cai, S. Chen, D. Zhang // Pattern Recognition. - 2007. -Vol. 40, № 3. - P. 825-838.
5. Oliveira J. V. Advances in Fuzzy Clustering and Its Applications / J. V. Oliveira, W. Pedrycz. - Sidney : John Wiley & Sons, 2007. -
435 p.
6. Кондратенко Н. Р. 1нтервальна нечпгса кластеризащя на основ! альтернативних критерпв якост1 / Н. Р. Кондратенко, О. О. Сшгур // Науков1 в1ст1 НТУУ «КП1». - 2012. - № 2. -С. 59-66.
7. Martyniuk T. B. Formalization of the Object Classification Algorithm / T. B. Martyniuk, A. V. Kozhemiako, L. M. Kupershtein // Cybernetics and Systems Analysis. - 2015. - Vol. 51, № 5. -P. 751-756.
8. Bankruptcy forecasting: a hybrid approach using fuzzy c- means clustering and multivariate adaptive regression splines (MARS) / [J. De Andres, P. Lorca, F. J. D. C. Juez et al.] // Expert Systems with Applications. - 2011. - № 38. - P. 1866-1875.
9. A modified FCM algorithm for MRI brain image segmentation using both local and non-local spatial constraints / [J. Wang, J. Kong, Y. Lu et al.] // Computerized Medical Imaging and Graphics. - 2008. - Vol. 32, № 8. - P. 685-698.
10. Зайченко Ю. П. Нечеткие модели и методы в интеллектуальных системах / Ю. П. Зайченко. - К. : «Издательский дом «Слово», 2008. - 344 с.
11. Захарченко С. М. Використання генетичного алгоритму в задач! кластеризацп абонент1в штернет-провайдера / С. М. Захарченко, Н. Р. Кондратенко, О. О. Манаева // 1нфор-мац1йн1 технологи та комп'ютерна 1нженер1я : I М1жнародна науково-практична конференц1я, В1нниця, 19-21 травня 2010 р. : тези допов1дей. - В1нниця : ВНТУ 2010. - С. 120-121.
12. Захарченко С. М. Досл1дження можливостей генетичного ал-горитмув задач! кластеризацп користувач1в мереж! 1нтернет / С. М. Захарченко, Н. Р. Кондратенко, О. О. Манаева // 1нфор-мац1йн1 технологи та комп'ютерна 1нженер1я. - В1нниця : ВНТУ - 2010. - № 2 (18). - С. 68-72.
13.Манаева О. О. Побудова кластер1в з використанням генетичного алгоритму / О.О. Манаева // ХХХ1Х науково-техшчна конференц1я професорсько-викладацького складу, сп1вроб1т-ник1в та студент1в ушверситету з участю прац1вник1в науково-досл1дних оргашзацш та 1нженерно-техн1чних прац1вник1в шдприемств м. В1нниц1 та област1, В1нниця, 10-12 березня 2010 р. : тези допов1дей. - В1нниця : ВНТУ 2010.
14. Кондратенко Н. Р. Неч1тка кластеризащя абонент1в штернет-провайдера / Н. Р. Кондратенко, О. О. Манаева // Науков1 пращ В1нницького нацюнального техн1чного ушверситету - 2011. -№ 2.
15. Кондратенко Н. Р. Неч1тка кластеризащя з урахуванням 1ндексу в1рог1дност1 в задачах сощального спрямування / Н. Р. Кондратенко, О. О. Манаева // Системний анал1з та 1нфор-мац1йн1 технологи: матер1али М1жнародно! науково-техшчно! конференци SAIT 2011. - К. : ННК «1ПСА» НТУУ «КП1». -2011. - С. 265.
16. Krishnapuram R. A Possibilistic Approach to Clustering / R. Krishnapuram, J. M. Keller // IEEE Transactions on Fuzzy Systems. - 1993. - № 1 (2). - P. 98-110.
17. A fuzzy technique for food- and water quality assessment with an electronic tongue / [B. Iliev, M. Lindquist, L. Robertsson et al.] // Fuzzy Sets and Systems - 2006. - Vol. 157, №. 9. - P. 1155-1168.
18. Assessment of the surface water quality in Northern Greece / [V. Simeonov, J. A. Stratis, C. Samara et al.] // Water Research. -2003. - Vol. 37, № 17. - P. 4119-4124.
19. Боревский Б. В. Оценка запасов подземных вод / Б. В. Боревс-кий, Н. И. Дробноход, Л. С. Язвин. - 2-е изд., перераб. и доп. -К. : Выща шк. Головное изд-во, 1989. - 407 с.
20. Analysis of groundwater quality using fuzzy synthetic evaluation / [S. Dahiya, B. Singh, S. Gaur et al.] // Journal of Hazardous Materials. - 2007. - Vol. 147, № 3. - P. 938-946.
21. Use of fuzzy synthetic evaluation for assessment of groundwater quality for drinking usage: a case study of Southern Haryana, India / [B. Singh, S. Dahiya, S. Jain, et al.] // Environmental Geology. - 2008. - Vol. 54, № 2. - P. 249-255.
22. Transient Ground-Water Flow Simulation Using a Fuzzy Set 25. Dixon В. Applicability of neuro-fuzzy techniques in predicting Approach / [C. Dou, W. Woldt, M. Dahab et al.] // Groundwater. - ground-water vulnerability: a GIS-based sensitivity analysis / 2005. - Vol. 35, № 2. - P. 205-215. B. Dixon // Journal of Hydrology. - 2005. - Vol. 309, № 1. -
23. An integrated fuzzy-stochastic modeling approach for risk assessment P. 17-38.
of groundwater contamination / [J. Li, G. H. Huang, 26. Dixon В. Groundwater vulnerability mapping: A GIS and fuzzy
G. Zeng et al.] // Journal of Environmental Management. - 2007. - rule based integrated tool / B. Dixon // Applied Geography. -
Vol. 82, № 2. - P. 173-188. 2005. - Vol. 25, № 4. - P. 327-347.
24. Groundwater vulnerability and risk mapping using GIS, modeling 27. Kondratenko N. Interval Fuzzy Modeling of Complex Systems and a fuzzy logic tool / [R. C. M. Nobre, O. C. Rotunno Filho, under Conditions of Input Data Uncertainty / N. Kondratenko, W. J. Mansur et al.] // Journal of Contaminant Hydrology. - O. Snihur // Eastern-European Journal of Enterprise Technologies. -2007. - Vol. 97, № 3. - P. 277-292. 2016. - Vol. 4/4 (82). - P. 20-28.
Стаття надшшла до редакци 14.03.2017.
Шсля доробки 17.05.2017.
Кондратенко Н. Р.1, Снигур О. А.2
'Канд. техн. наук, доцент, профессор кафедры защиты информации Винницкого национального технического университета, Винница, Украина
2Аспирант кафедры защиты информации Винницкого национального технического университета, Винница, Украина ИНТЕРВАЛЬНЫЙ НЕЧЕТКИЙ КЛАСТЕРНЫЙ АНАЛИЗ ДЛЯ МОНИТОРИНГА СОСТОЯНИЯ АРТЕЗИАНСКОЙ СКВАЖИНЫ
Актуальность. Мониторинг природных систем различного характера является необходимым условием рационального природопользования. Технологии интеллектуального анализа данных, в частности кластерный анализ, предоставляют широкие возможности для визуализации наборов данных, что позволяет использование этих технологии людьми, не имеющими специальной математической подготовки. Задача мониторинга системы, состояние которой изменяется во времени, выдвигает требование расширенной интерпретации результатов кластеризации с учетом исторических данных. Технические возможности для выявления характера изменений, происходящих в объекте, представленном набором данных, имеют особое значение в задаче мониторинга водных ресурсов, поскольку они находятся в тесной взаимосвязи с внешней средой, и величина их запасов зависит от многих факторов, внешних по отношению к водоносной системе. После введения в эксплуатацию артезианская скважина нуждается в постоянном наблюдении для правильного управления эксплуатацией подземных вод, защиты их от загрязнения и истощения, а также предупреждения негативных последствий влияния водоотбора на окружающую среду. Кроме того, для сложных природных систем характерна высокая избыточность пространства параметров, а также наличие как известных, так и не выявленных ранее корреляционных связей между параметрами. Эти факторы обуславливают необходимость использования методов кластерного анализа, способных работать в условиях неопределенности и избыточности параметров.
Цель работы - расширение возможностей для анализа изменения состояния системы во времени путем учета неопределенностей, присутствующих в данных наблюдений.
Метод. Предложено применение метода интервального нечеткого кластерного анализа для исследования изменения характеристик набора данных во времени и выявления общих тенденций. Формализация поставленной технологической задачи в терминах интеллектуального анализа данных предусматривает возможность одновременной работы с множеством входных векторов. Сформулирован пошаговый алгоритм построения интервальной оценки состояния природной системы на основе исторических данных наблюдений и текущих значений.
Результаты. Предложенная модель адаптирована к решению технологической задачи мониторинга артезианской скважины. Экспериментально показаны возможности раннего выявления скрытых закономерностей.
Выводы. Интервальный нечеткий кластерный анализ позволяет учитывать и моделировать неопределенности произвольной природы, возникающих в данных исследований артезианской скважины на разных стадиях мониторинга. Показано, что одновременная подача на вход системы данных нескольких скважин может позволить оценить не только их расположение относительно стандартных компактных классов по (потенциально) качеству воды, но и их взаимное расположение, и в конечном итоге указать на некоторую не обнаруженную ранее закономерность.
Ключевые слова: кластерный анализ, интервальные степени принадлежности, интервальные нечеткие множества, критерии качества кластеризации, визуализация данных.
Kondratenko N. R.1, Snihur O.O.2
*PhD, Associate professor, Professor of department of information security, Vinnytsia National Technical University, Vinnytsia, Ukraine 2Postgraduate student of department of information security, Vinnytsia National Technical University, Vinnytsia, Ukraine INTERVAL FUZZY CLUSTER ANALYSIS FOR ARTESIAN WEL L STATE MONITORING
Context. Monitoring natural systems of diverse nature is an essential condition of rational environmental management. Data Mining technologies, cluster analysis in particular, provide a wide range of capabilities for data sets visualization, which makes it possible for these technologies to be used by individuals with no specialized background in mathematics. The task of monitoring a system that changes its state in time requires extended interpretation of clustering result, which would allow accounting for historical data. Technical capabilities for revealing the nature of changes occurring in the object represented by a data set are of particular importance in water resources monitoring area, as they are strongly related to their environment, and the quantity of the available reserves depend on multiple factors, which are external to the water-bearing system. Upon commissioning, an artesian well requires constant monitoring in order to ensure proper management of groundwater processing, protection against pollution and exhaustion, and preventing negative effects of groundwater mining on the environment. In addition, high redundancy of the parameter space is typical for complex natural systems, as well as existence of both known and not yet discovered correlations between parameters. These factors necessitate the use of cluster analysis methods, which would be capable of operating within the conditions of uncertainty and parameter redundancy.
Objective. The goal of the research is extending the capabilities for analyzing changes in a system's state in time by accounting for uncertainties present in observations data.
Method. An application of the interval fuzzy cluster analysis method for investigating changes in data set characteristics in time, and for revealing general trends, is proposed. Formalizing the technological problem faced by the research in terms of Data Mining provides for a
possibility of simultaneously processing multiple input vectors. A step-by-step algorithm for interval evaluation of the state of a natural system based on historical observations data and current values is developed.
Results. The proposed model is adapted for solving the technological task of an artesian well monitoring, and its capabilities for revealing hidden patterns on early stages are demonstrated experimentally.
Conclusions. Interval fuzzy cluster analysis allows taking into account and modeling uncertainties of any given nature, which may occur in artesian well research data on different stages of monitoring. It is shown, that concurrent input of multiple wells data may allow to evaluate not only there position against the standard compact classes according to (potential) water quality, but also their position against each other, and eventually indicate a previously unknown pattern.
Keywords: cluster analysis, interval membership grades, interval fuzzy sets, clustering validity indices, data visualization.
REFERENCES
1. Dyuk V. A., Samoylenko A. P. Data Mining: uchebnyiy kurs. Sankt-Peterburg, Izd. Piter, 2001, 368 p.
2. Petrovska M. A. Okhorona vod (sanitarni normy i pravyla): Navch. Posibnyk. Lviv, Vydavnychyi tsentr Lvivskoho natsionalnoho universytetu imeni Ivana Franka, 2005, 205 p.
3. Subbotin S. A., Oleynik A. A. Vyidelenie nabora informativnyih priznakov na osnove evolyutsionnogo poiska s klasterizatsiey, Shtuchniy Intelekt, 2008, No. 4, pp. 704-711.
4. Cai W., Chen S., Zhang D. Fast and robust fuzzy c-means clustering algorithms incorporating local information for image segmentation, Pattern Recognition, 2007, Vol. 40, No. 3, pp. 825-838.
5. Oliveira J. V., Pedrycz W. Advances in Fuzzy Clustering and Its Applications. Sidney, John Wiley & Sons, 2007, 435 p.
6. Kondratenko N. R., Snihur O. O. Intervalna nechitka klasteryzatsiia na osnovi alternatyvnykh kryteriiv yakosti, Naukovi visti NTUU «KPI», 2012, No. 2, pp. 59-66.
7. Martyniuk T. B., Kozhemiako A. V., Kupershtein L. M. Formalization of the Object Classification Algorithm, Cybernetics and Systems Analysis, 2015, Vol. 51, No. 5, pp. 751-756.
8. Andres J. De, Lorca P., Juez F. J. D. C. et al. Bankruptcy forecasting: a hybrid approach using fuzzy c- means clustering and multivariate adaptive regression splines (MARS), Expert Systems with Applications, 2011, No. 38, pp. 1866-1875.
9. Wang J., Kong J., Lu Y. et al. A modified FCM algorithm for MRI brain image segmentation using both local and non-local spatial constraints, Computerized Medical Imaging and Graphics, 2008, Vol. 32, No. 8, pp. 685-698.
10. Zaychenko Yu. P. Nechetkie modeli i metodyi v intellektualnyih sistemah. Kiev, «Izdatelskiy dom «Slovo», 2008, 344 p.
11. Zakharchenko S. M., Kondratenko N. R., Manaieva O. O. Vykorystannia henetychnoho alhorytmu v zadachi klasteryzatsii abonentiv internet-provaidera, Informatsiini tekhnolohii ta kompiuterna inzheneriia : I Mizhnarodna naukovo-praktychna konferentsiia, Vinnytsia, 19-21 travnia 2010 r. : tezy dopovidei. Vinnytsia, VNTU, 2010, pp. 120-121.
12.Zakharchenko S. M., Kondratenko N. R., Manaieva O. O. Doslidzhennia mozhlyvostei henetychnoho alhorytmuv zadachi klasteryzatsii korystuvachiv merezhi Internet, Informatsiini tekhnolohii ta kompiuterna inzheneriia. Vinnytsia, VNTU, 2010, No. 2 (18), pp. 68-72.
13.Manaieva O. O. Pobudova klasteriv z vykorystanniam henetychnoho alhorytmu, KHIKh naukovo-tekhnichna konferentsiia profesorsko-vykladatskoho skladu, spivrobitnykiv ta studentiv universytetu z uchastiu pratsivnykiv naukovo-doslidnykh orhanizatsii ta inzhenerno-tekhnichnykh pratsivnykiv pidpryiemstv m. Vinnytsi ta oblasti, Vinnytsia, 10-12 bereznia 2010 r. : tezy dopovidei. Vinnytsia: VNTU, 2010.
14. Kondratenko N. R., Manaieva O. O. Nechitka klasteryzatsiia abonentiv internet-provaidera, Naukovi pratsi Vinnytskoho natsionalnoho tekhnichnoho universytetu, 2011, No. 2.
15. Kondratenko N. R., Manaieva O. O. Nechitka klasteryzatsiia z urakhuvanniam indeksu virohidnosti v zadachakh sotsialnoho spriamuvannia, Systemnyi analiz ta informatsiini tekhnolohii: materialy Mizhnarodnoi naukovo-tekhnichnoi konferentsii SAIT 2011, Kiev, NNK «IPSA» NTUU «KPI», 2011, P. 265.
16. Krishnapuram R., Keller J. M. A Possibilistic Approach to Clustering, IEEE Transactions on Fuzzy Systems, 1993, No. 1 (2), pp. 98-110.
17. Iliev B., Lindquist M., Robertsson L. et al.A fuzzy technique for food- and water quality assessment with an electronic tongue, Fuzzy Sets and Systems, 2006, Vol. 157, No. 9, pp. 1155-1168.
18. Simeonov V., Stratis J. A., Samara C. et al. Assessment of the surface water quality in Northern Greece, Water Research, 2003, Vol. 37, No. 17, pp. 4119-4124.
19. Borevskiy B. V., Drobnohod N. I., Yazvin L. S. Otsenka zapasov podzemnyih vod, 2-e izd., pererab. i dop. Kiev, Vyischa shk. Golovnoe izd-vo, 1989, 407 p.
20. Dahiya S., Singh B., Gaur S. et al. Analysis of groundwater quality using fuzzy synthetic evaluation, Journal of Hazardous Materials, 2007, Vol. 147, No. 3, pp. 938-946.
21. Singh B., Dahiya S., Jain S., et al. Use of fuzzy synthetic evaluation for assessment of groundwater quality for drinking usage: a case study of Southern Haryana, India, Environmental Geology, 2008, Vol. 54, No. 2, pp. 249-255.
22. Dou C., Woldt W., Dahab M. et al.Transient Ground-Water Flow Simulation Using a Fuzzy Set Approach, Groundwater, 2005, Vol. 35, No. 2, pp. 205-215.
23. Li J., Huang G. H., Zeng G. et al. An integrated fuzzy-stochastic modeling approach for risk assessment of groundwater contamination, Journal of Environmental Management, 2007, Vol. 82, No. 2, pp. 173-188.
24. Nobre R. C. M., Rotunno Filho O. C., Mansur W. J. et al.Groundwater vulnerability and risk mapping using GIS, modeling and a fuzzy logic tool, Journal of Contaminant Hydrology, 2007. Vol. 97, No. 3, pp. 277-292.
25. Dixon В. Applicability of neuro-fuzzy techniques in predicting ground-water vulnerability: a GIS-based sensitivity analysis, Journal of Hydrology, 2005, Vol. 309, No. 1, pp. 17-38.
26. Dixon В. Groundwater vulnerability mapping: A GIS and fuzzy rule based integrated tool, Applied Geography, 2005, Vol. 25, No. 4, pp. 327-347.
27. Kondratenko N., Snihur O. Interval Fuzzy Modeling of Complex Systems under Conditions of Input Data Uncertainty, Eastern-European Journal of Enterprise Technologies, 2016, Vol. 4/4 (82), pp. 20-28.