mgr inz. Marcin Michal MIRONCZUK1 dr hab. inz. Tadeusz MACIAK2
PROPOZYCJA MIESZANEGO PRZETWARZANIA POLSTRUKTURALNEGO MODELU OPISU ZDARZEN Z AKCJI RATOWNICZO-GASNICZYCH PANSTWOWEJ STRAZY
POZARNEJ PSP3
Proposition of hybrid process model semi structured description of event from
fire services rescues operation
Streszczenie
W opracowaniu przedstawiono aktualnie rozwijane reprezentacje wiedzy i sposoby opisow zdarzen, dla systemu wnioskowania na podstawie przypadkow zdarzen sluzb ratowniczych Panstwowej Strazy Pozarnej PSP. W artykule zaproponowano sposob ich przetwarzania. Przedstawiony sposob bazuje na klasyfikacji i wyszukiwaniu opisow zdarzen.
Summary
This paper describes a review of actual developed knowledge representation and case representation for fire services cases based reasoning system. The article also describes a method of processing the cases of events. This processing method based on classification and information retrieval.
Slowa kluczowe: klasyfikator Bayesa, naiwny klasyfikator Bayesa, eksploracja tekstu, reprezentacja tekstu, reprezentacja meldunkow, wnioskowanie na podstawie przypadkow, reprezentacja przypadkow zdarzen, ontologia sluzb ratowniczych; Keywords: Bayes Classifier, Naive Bayes Classifier, text mining, text representation, representation of reports, case-based reasoning, ontology for rescue service;
1. Wprowadzenie
W Panstwowej Strazy Pozarnej PSP forma po-wstajacych raportow sporz^dzanych po kazdej ak-cji ratowniczo-gasniczej jest regulowana przez Roz-porz^dzenie Ministra Spraw Wewnçtrznych [1]. Na podstawie tego rozporz^dzenia utworzona zosta-la w formie papierowej karta Informacji ze zdarze-nia. Stanowi ona raport ze zdarzenia z akcji ratow-niczo-gasniczej i jest czçsciowo ustrukturyzowana. Czçsciowa strukturyzacja polega na tym, ze istnie-je mozliwosc wprowadzenia i sprawdzenia informacji o takich elementach akcji ratowniczo-gasniczej, jak np.: czas zdarzenia, czas dzialan ratowniczych, rodzaj prowadzonych dzialan, rodzaj uzytego sprzç-tu, miejsce prowadzonych dzialan, dane o budynku lub pomieszczeniu, w ktorym powstalo zdarzenie, etc. Kierjcy Dzialaniami Ratowniczymi (KDR),
1 Instytut Podstaw Informatyki PAN, Zespol Podstaw Sztucznej Inteligencji
2 Politechnika Bialostocka, Wydzial Informatyki
3 Wklad procentowy autorow w powstanie artykulu wyniosl 80% - M. Mironczuk i 20% - T. Maciak.
po kazdej akcji wypelnia taki raport, umieszczaj^c w nim odpowiednie informacje dotycz^ce podjç-tych dzialan. KDR ma takze mozliwosc wprowadze-nia dodatkowych informacji dotycz^cych zdarzenia, ktore nie zostaly uwzglçdnione w karcie, do sekcji zatytulowanej - Dane opisowe do informacji ze zdarzenia. Sekcja ta podzielona jest na szesc podpunk-tow: opis przebiegu dzialan ratowniczych (zagroze-nia i utrudnienia, zuzyty i uszkodzony sprzçt), opis jednostek przybylych na miejsce zdarzenia, opis tego, co uleglo zniszczeniu lub spaleniu, warunki at-mosferyczne, wnioski i uwagi wynikaj^ce z przebiegu dzialan ratowniczych oraz inne uwagi dotycz^-ce danych z pierwszej czçsci formularza. Ze wzglç-du na to, ze zawartosc poszczegolnych podpunktow tej sekcji jest wyrazona za pomoc^. jçzyka naturalne-go w postaci zdan, na ktore skladaj^ siç slowa oraz frazy, zostala ona nazwana czçsciq poiustrukturyzo-wanq.
Na bazie poszczegolnych przypadkow w Ko-mendach Wojewodzkich PSP wykonywane s^ ana-lizy wybranych zdarzen i skladowane w postaci pa-
pierowej. W Komendzie Glownej PSP specjalisci analizuj^ meldunki pod k^tem okreslonych stra-tegicznych zapytan. Przechowywane w PSP opi-sy przypadkow oraz analizy zdarzen w informacyj-nym systemie ewidencji zdarzen EWID [2-4] i w ko-mendach wojewodzkich, s^. tez dokumentami tylko cz^sciowo ustrukturyzowanymi i nie nadaj^. si^ bez-posrednio do przetwarzania komputerowego. Cz^-sciowa strukturyzacja wynika z tego, iz sekcje oraz pola z Karty informacji ze zdarzenia s^. mapowane i przedstawiane w postaci relacji oraz odpowiednich typow danych. Jednak w dalszym ci^gu sekcja Dane opisowe do informacji ze zdarzenia jest reprezento-wana za pomoc^ tekstu opisanego j^zykiem natural -nym. Numeryczn^ analizy tej cz^sci raportu utrudnia fakt, ze szesc wczesniej wymienionych podpunktow
- skladaj^cych si^ na t^. sekcja w wersji papierowej
- w systemie informacyjnym ewidencji zdarzen zo-staje przedstawionych jako pojedynczy rekord danych bez zachowania nalezytego podzialu. Z tego wzgl^du ta cyfrowa sekcja stanowi czqsc nieustruk-turyzowanq. Ewentualne pozyskanie z niej informacji dla KDR jest klopotliwe, a samo przeksztalce-nie jej do uzytecznych przypadkow zdarzen syste-mu wnioskowania na podstawie zdarzen (ang. case-based reasoning - CBR) [5] wymaga zastosowania wielu zabiegow semantycznych. Termin uzyteczne przypadki zdarzen okresla taki zbior przypadkow zdarzen, ktore w sposob czytelny i klarowny dostar-cz^. KDR niezb^dnej wiedzy o zaistnialym zdarze-niu. Wiedza ta ma dotyczyc problemow i zagrozen, jakie niesie ze sob^ powstale zdarzenie, wskazo-wek na co nalezy uwazac, prowadz^c dzialania, oraz mozliwych rezultatow powstalych na skutek wyboru danej strategii likwidacji zagrozenia i realizacji dzia-lan ratowniczych. Wiedza ta ma byc pozyskiwana na podstawie analiz podobnych przypadkow z prze-szlosci zawartych w bazie wiedzy systemu CBR.
W wyniku tego, ze analizy zdarzen wykonywane s^. przez rozne osoby, ktore definiuj^ i opisuj^. zdarzenie wedlug wlasnego postrzegania i za pomoc^. innego slownictwa, powstaje pewnego rodzaju problem semantyczny. Powoduje to, iz do okreslenia tych samych zdarzen stosowane s^ rozne nazwy. Ba-dania wykazuj^, ze przy opisywaniu jednego zagad-nienia jedynie 20% badanych posluguje si^ tym sa-mym slownictwem [6]. Zaleznosc ta nie zmienia si^ znacz^co bez wzgl^du na to, czy badanymi s^. eks-perci w danej dziedzinie, czy tez mniej doswiadczo-ne osoby.
PSP nie stworzyla do tej pory standardowego, ujednoliconego, szerokiego slownika zawieraj^cego poj^cia z zakresu ratownictwa, ktory definiowalby zachodz^ce mi^dzy nimi relacje oraz stanowilby ontologii dla sluzb ratowniczych. Slownik taki poslu-zylby do utworzenia precyzyjniejszej, homogenicz-nej komunikacji i wymiany wiedzy na temat zdarzen z zakresu ratownictwa w obr^bie PSP. Ponadto roz-
norodna interpretacja i opis podobnych wypadkow powoduj^, iz pozyskiwanie informacji z tego typu dokumentow tj. sekcji opisowej systemu EWID i transformacja ich bezposrednio do ustandaryzo-wanego, uzytecznego opisu przypadkow zdarzen w sensie systemu CBR, nie jest do konca mozliwa i wymaga zastosowania technik z zakresu kompute-rowej analizy tekstu.
Aktualnie prowadzone s^. badania zmierzaj^ce do usystematyzowania wiedzy w obr^bie dzialan ra-towniczo-gasniczych przeprowadzanych przez sluz-by ratownicze PSP. Pierwszy kierunek tych badan stanowi^. projekty nad zastosowaniem rozproszone-go wnioskowania przy uzyciu systemu wnioskowa-nia na podstawie przypadkow zdarzen [5, 7, 8] czy tez bardziej kompleksowe rozwi^zania takie, jak hybry-dowy system wspomagania decyzji HSWD [9, 10]. Skupiaj^ si^ one bardziej zarowno na architekturze i komponentach samego systemu, procesach oraz metodach jego projektowania, jak i badaniu jego wydajnosci. Drugi nurt badan dotyczy sposobu po-zyskiwania, budowania przetwarzania wiedzy w sa-mym systemie. Dotyczy wi^c one zagadnien zwi^za-nych z warstw^. nosn^. tj. z reprezentaj i sposobem wykorzystania wiedzy. Dodatkowo w tym obszarze mozna wyroznic dwa trendy. Pierwszy z nich zaj-muje si^ modelowaniem i tworzeniem ontologii dla badanej dziedziny. Drugi natomiast dotyczy analiz nieustrukturyzowanych raportow z sekcji opisowej systemu informacyjnego EWID w celu dostarczenia dodatkowych informacji do budowy ontologii, jak rowniez budowy samych raportow - uzytecznych przypadkow zdarzen systemu CBR. Transformacja raportow z akcji ratowniczo-gasniczych zawartych w systemie informacyjnym EWID - ktore stanowi^. nieprzetworzony w zaden sposob ci^g zdan bez podzialu na ww. sekcje, w polstrukturalne oraz struk-turalne przypadki zdarzen ma odbywac si^ w sposob automatyczny w celu otrzymywania polstruktur oraz polautomatyczny do otrzymywania pelnych struktur. Przypadek zdarzenia poistrukturalny definio-wany jest przez autorow jako cz^sciowo ustruktury-zowana informacja z podzialem na sekcje uzyskane w procesie klasyfikacji. Jego polstrukturalnosc po-lega na tym, ze jest on wyrazony w postaci zdan j^-zyka naturalnego zorganizowanego w sekcje. Orga-nizacja taka okreslona zostala przez autorow jako wiedza, z tego wzgl^du, ze stosuj^c opis informacji wyrazony w postaci np. trojki <opis, zasoby, stra-ty> na temat zagrozenia z ontologii akcji ratowniczo-gasniczych, KDR uzyskuje potrzebne oraz war-tosciowe dane i wskazowki na temat tego, na co na-lezy uwazac i co w przeszlosci sprawialo problemy, jak je likwidowano za pomoc^. dost^pnych sil i srod-kow oraz jakie zostan^. poniesione straty/koszty w wyniku wybranej strategii. Przypadek zdarzenia w pelni ustrukturyzowany definiowany jest przez autorow jako informacja w postaci hierarchii klas
w notacji obiektowej, uzyskana w procesie formal -nej analizy pojçc (ang. formal concept analysis, FCA) przeprowadzonej na sekcji polstrukturalnej. W pewnym sensie jest to prosta odmiana ontologii, przez co moze sluzyc do rozszerzania i uzupelnia-nia obecnie tworzonej ontologii o nowe elementy istotne z punktu widzenia dziedziny, dla ktorej jest tworzona - opisu akcji ratowniczych PSP.
Ogolnie badania nad reprezentacjy wiedzy moz-na podzielic na te, ktore skupiajy siç na tworze-niu modelu opisu pojedynczego przypadku zdarze-nia oraz na te, ktore tworzy calosciowy model opisu zdarzen akcji ratowniczo-gasniczych. Pierwszy model tozsamy jest z przypadkiem zdarzenia lub reprezentacjy przypadku zdarzenia i dotyczy on tworze-nia szablonu (reprezentacji) tego zdarzenia. Drugi model sklada siç z prostego modelu hierarchiczne-go lub ontologicznego Akcje, zawierajycego model pojedynczego przypadku zdarzenia. Zawiera on ko-lekcjç przypadkow, umieszczonych w odpowiednich wçzlach ontologii. Uzycie w tytule artykulu termi-nu polstrukturalny model opisu zdarzen z akcji ra-towniczo-gasniczych wynika z tego, ze do dostçp-nego prostego modelu hierarchicznego interwencji PSP lub bardziej zlozonego wyrazonego w postaci ontologii mozna dolyczyc polstrukturalny przypa-dek zdarzenia. Istotny kwestiy w tak mieszanej reprezentacji staje siç zagadnienie zwiyzane z klasy-fikacjy nowego przypadku zdarzenia oraz wyszuki-waniem informacji na temat podobnych przypad-kow zdarzen.
W niniejszym artykule opisano hybrydowy me-todç opierajycy siç na zastosowaniu klasyfikato-ra Bayesa do klasyfikacji raportow ze zdarzen do odpowiedniego wçzla ontologii oraz zastosowa-niu binarnych miar do wyszukiwania przypadkow zdarzen. W punkcie 2, 2.1 artykulu zostaly przed-stawione i omowione istniejyce i rozwijane hierarchie oraz ontologie dla sluzb ratowniczych PSP jako warstwy nosne wiedzy w systemie CBR. W pod-punkcie 2.2 zaproponowano i zaprezentowano polstrukturalny reprezentacjç opisu przypadku zdarzenia za pomocy rozszerzalnego jçzyka znaczni-kow (ang. extensible markup language - XML). Na-stçpnie w podpunkcie 2.3 pokazano, w jaki sposob
mozna polyczyc ontologiç Akcje, opisujycy akcje ratowniczo-gasnicze PSP, z polstrukturalny repre-zentacjy przypadku zdarzenia oraz pokazano sposob etykietowania przypadkow zdarzen do klas (wç-zlow) ontologii. W punkcie 3. omowiono podsta-wy teoretyczne klasyfikacji. W dalszej kolejnosci w punkcie 4. przedstawiono proces klasyfikacji nowego przypadku zdarzenia do liscia ontologii w po-staci klasy niemajycej wiçcej rozgalçzien. W punkcie 5. ze wzglçdu na zastosowanie binarnej wersji Bayesa oraz binarnego indeksowania przypadkow zdarzen przedstawiono miary binarne sluzyce do wyszukiwania binarnego. W punkcie 6. opisano pro-pozycjç mieszanej metody do klasyfikowania i prze-szukiwania tekstowej bazy przypadkow ze zdarzen (akcji ratowniczo-gasniczych) dolyczonych do ontologii Akcje. Na zakonczenie w punkcie 7. przedstawiono kierunki rozwoju prowadzonych badan oraz wnioski z opisanych w artykule zagadnien.
2. Ontologia oraz przypadki zdarzen - reprezentacja i opis
W podpunkcie 2.1 niniejszego punktu opisano reprezentacjç podzialu akcji ratowniczo gasniczych w postaci ontologii Akcje. W podpunkcie 2.2 przed-stawiono polstrukturalny przypadek zdarzenia. Na-tomiast w ostatnim podpunkcie 2.3 zaprezentowano mozliwosc dolyczania takiego przypadku zdarzenia do wybranej galçzi ontologii Akcje.
2.1. Reprezentacja i opis podzialu akcji ratowniczo-gasniczych - ontologia Akcje
Aktualnie na potrzeby obslugi zdarzen, w postaci akcji ratowniczo-gasniczych przeprowadzanych przez Panstwowy Straz Pozarny powstala koncep-cja, aby opisy zdarzen utrzymywac w rozproszonym systemie CBR, ktory stanowi podsystem do wnio-skowania w HSWD. Warstwa nosna danych i mode-lowanie opisow akcji ratowniczo-gasniczych w sys-temie CBR ma miec prosty postac hierarchiczny lub zlozony ontologiczny [11]. Obie postacie prezentujy kolejno Ryc.1 i Ryc. 2.
Ryc. 1 prezentujyca prosty postac hierarchiczny zawiera jedynie podzial interwencji dokonywa-
Ryc. 1. Fragment podzialu interwencji PSP - prosta postac hierarchiczna [5] Fig. 1. Fragment of the division PSP interventions - simple hierarchical form [5]
Pozary \ Obszary zamieszkafe\. Czas i obszary powi^zane
(Fires) \ (Live area) (Time and related areas)
Zagrozenia lokalne Obszary nie zamieszkate
Sprz^t (Local threats) Fatszywe alarmy (Uninhabited area) (Equipment) (False alarms)
Ryc. 2. Ontologia Akcje [11] Fig. 2. Rescue ontology [11]
nych przez sluzby ratownicze PSP wedlug aktual-nego rozporz^dzenia [1]. Rozszerzon^. jego wersj^. jest reprezentacja ontologiczna Akcje, ktora zawie-ra, rozszerza i modyfikuje ww. reprezentacjç hierar-chiczn^..
Ryc. 2 prezentuje propozycjç ontologii Akcji za-wieraj^c^ w sobie klasç Zagrozenia z dotychcza-sowym podzialem interwencji PSP. Dodatkowymi klasami, ktore pojawiaj^. siç w reprezentacji Akcji, s^: Zasoby PSP, Strefa zagrozenia oraz Abstrakcja. Blizsze szczegoly na temat ontologii i jej tworzenia dla sluzb ratowniczych mozna znalezc w opracowa-niach [11].
2.2. Reprezentacja i opis pojedynczego pôlstrukturalnego przypadku zdarzenia
Pojedynczy polstrukturalny przypadek zdarze-nia z akcji ratowniczo-gasniczej mozna zaprezen-towac za pomoc^. hierarchii, np. wykorzystuj^c do tego rozszerzalny jçzyk znacznikow, a poszczegolne wybrane wçzly hierarchii opisac jçzykiem natural -nym (tekstem). Przyklad szablonu do opisu przypadku zdarzenia z akcji ratowniczo-gasniczej przedsta-wia przypadek zdarzenia 1 zaprezentowany ponizej.
Przypadek zdarzenia 1 Szablon opisu przypadku zdarzenia z akcji ratowniczo-gasniczej The case of event 1 Template description of the rescue events
<?xml version="1.0" encoding="UTF-8"?> <przypadekZdarzenia id="identyfikatorprzypadku"> <sekcja> <opisowa> <ogolna>
<opis>[opis]</opis> <zagrozenia><opis>[opis]</opis></zagrozenia> <utrudnienia><opis>[opis]</opis></utrudnienia> </ogolna> <przyczyny>
<opis>[opis]</opis> </przyczyny> <szkody> <opis>[opis]</opis>
</szkody> <wskazowki> <opis>[opis]</opis> <punktyCzerpaniaWody>
<opis>[opis]</opis> </punktyCzerpaniaWody> </wskazàwki> <dzialania>
<opis>[opis]</opis> </dzialania> <zasoby> <opis>[opis]</opis>
<zuzyte><opis>[opis]</opis></uszkodzone> <uszkodzone><opis>[opis]</opis></uszkodzone> </zasoby>
<warunkiAtmosferyczne> <opis>[opis]</opis> </warunkiAtmosferyczne> </opisowa> </sekcja> </przypadekZdarzenia>
Szablon przypadku zdarzenia z akcji ratowniczo-gasniczej, ktory mozna przechowywac w systemie informacyjnym, powstal na bazie karty Informacji ze zdarzenia, ktorej format regulowany jest przez rozporz^dzenia [1]. Autorzy proponuj^ zmie-nion^. formç oryginalu z rozporz^dzenia [1], a same zmiany polegalyby na tym, ze:
• sekcja opisu przebiegu dzialan ratowniczych (zagrozenia i utrudnienia, zuzyty i uszkodzony sprzçt) z karty zostala zaprezentowana jako sekcja ogolna i dodatkowo rozbita na trzy podsekcje: opis, zagrozenia, utrudnienia;
• sekcja opisu jednostek przybylych na miejsce zdarzenia z karty zostala zaprezentowana jako sekcja zasoby i dodatkowo rozbita na trzy podsekcje: opis, zuzyte i uszkodzone;
• sekcja opisu tego, co uleglo zniszczeniu lub spa-leniu, zostala zaprezentowana jako sekcja szkody;
• sekcja wnioski i uwagi wynikaj^ce z przebiegu dzialan ratowniczych oraz inne uwagi dotycz^-ce danych wypelnianych w formularzu odnosnie zdarzenia z karty zostala zaprezentowana jako
sekcja wskazowki i dodatkowo rozbita na dwie podsekcje opis i punktyCzerpaniaWody.
Sekcja opisu warunkow atmosferycznych z kar-ty Informacja ze zdarzenia pozostala bez zmian i w szablonie reprezentowana jest jako wçzel - wa-runki atmosferyczne. Zabiegi te znacznie poprawiajy czytelnosc reportu i mozliwosc jego przechowywa-nia w postaci cyfrowej w systemie informacyjnym bez utraty informacji o sekcjach, tak jak to jest ak-tualnie w systemie EWID [2, 4]. Jedna dotychcza-sowa sekcja opisowa meldunku ze zdarzenia syste-mu EWID, w ktorej KDR opisywali zdarzenie, za-stçpowana jest przez odpowiednie sekcje. Repre-zentacja meldunku za pomocy tych wydzielonych, powiyzanych sekcji (ryc. 3) do opisu przypadku zdarzenia daje mozliwosc latwego przetwarzania i wy-szukiwania raportow przez system informatyczny w poszukiwaniu konkretnych rozwiyzan na podsta-wie zadanego pytania. Przyjçta reprezentacja logicz-nie oddziela od siebie czçsci raportu, ktore sy zwiy-zane z roznymi aspektami dzialan ratowniczych, przez co latwiej mozna tez tworzyc precyzyjniejsze zapytania i ekstrahowac niezbçdny wiedzç.
2.3. Dol^czanie przypadku zdarzenia do wybranej klasy ontologii Akcje
Przypadki zdarzen opisane za pomocy szablonu zdarzen, mogy zostac dolyczone w ogolnym rozwiy-zaniu do wybranego wçzla hierarchii lub klasy ontologii (kolekcji dokumentow nalezycych do tej samej klasy). W szczegolnych sytuacjach przypadki zda-
rzen mogy byc dolyczane do lisci hierarchii lub klas ontologii, ktore nie posiadajy rozgalçzien. W niniej -szym opracowaniu przedstawiono przypadek szcze-golny dla ontologii Akcje. Do dalszych rozwazan i prezentacji metod klasyfikacji oraz przeszukiwania przyjçto, ze do dyspozycji dana jest galyz ontologii Akcje-Zagrozenia-Pozary i ze bçdy rozpatrywane pozary Lasow oraz Budynkow Mieszkalnych. Wyci-nek rozpatrywanej ontologii przedstawia ryc. 3.
Ryc. 3 prezentuje sposob organizacji przypad-kow zdarzen opisanych za pomocy ogolnego sza-blonu przypadku zdarzenia (przypadek zdarzenia 1) w ontologii Akcje. Do lisci ontologii stanowiycych klasy bez rozgalçzien dolyczane sy konkretne przy-padki zdarzen tj. przypadki zdarzen bçdyce instan-cjy (stanowiyce realizacjç), wypelnionego ogolnego szablonu przypadku zdarzenia. Kazdy z lisci moze zawierac kolekcjç - n takich konkretnych przypad-kow. Przy takiej reprezentacji, etykiety (nazwy klas lisci) stajy siç automatycznie klasami, w metodach klasyfikacji, do ktorych nalezy zaklasyfikowac po-jawiajyce siç, nowe konkretne przypadki zdarzen o nieznanej klasie docelowej.
3. Klasyfikacja tekstowych polstrukturalnych przypadkow zdarzen
Klasyfikacja, nazywana takze kategoryzacjy, do-kumentow tekstowych (ang. text document categorization lub text document classification) [12-16] pole-ga na okresleniu do jakiej grupy dokumentow mozna zaliczyc wybrany tekst lub fragment tekstu (zadany za pomocy tzw. wzorca zapytania Q) w przypadku
Ryc. 3. Organizacja przypadkow zdarzen w lisciach ontologii Akcje [opracowanie wlasne] Fig. 3. The organization of cases in the leaves of the Rescue ontology [own work]
wyszukiwania dokumentow. Celem klasyfikacji jest odnalezienie klasyfikatora, ktory bçdzie dokonywal przyporz^dkowania dokumentow do jednej lub kil-ku z uprzednio zdefiniowanych klas. Klasy te nie s^. definiowane wprost, lecz poprzez zbior trenuj^-cy, ktory stanowi grupa dokumentow juz odpowied-nio zaklasyfikowana rçcznie np. przez ekspertow. W wiçkszosci przypadkow klasy nie s^. zagniezdza-ne, natomiast przyjmuje siç, iz jeden dokument moze nalezec do wiçcej niz jednej klasy. Do kategoryzacji dokumentow tekstowych uzywane s^. takie techniki, jak: drzewa decyzyjne (ang. decission tree), reguly decyzyjne, algorytmy najblizszych s^siadow, klasyfikator bayesowski, sieci neuronowe, metody regresywne czy tez techniki z zakresu maszyn wek-torow wspieraj^cych (ang. suport vector machines - SVM), oraz metody odnajdywania wspolnych pod-grafow w przypadku zastosowania modelu wektoro-wego dokumentow [17]. W niniejszym opracowaniu zostanie przedstawiona koncepcja klasyfikacji mel-dunkow za pomoc^. naiwnego klasyfikatora Baye-sa. Klasyfikator Bayesa zostal zaproponowany do klasyfikacji meldunkow ze wzglçdu na jego prost^ interpretacjç oraz realizacjç aplikacyjn^. Zostal on zaproponowany rowniez dlatego, ze przy wykorzy-staniu reprezentacji przestrzenno-wektorowej doku-mentu i jego kodowaniu Boolowskim, daje on do-bre rezultaty tj. dobrze klasyfikuje nieznane, nowe dokumenty do wydzielonych klas [16]. Klasyfikator ten nadaje siç w szczegolnosci do problemow o bar-dzo wielu wymiarach na wejsciu. Mimo prostoty tej metody, czçsto dziala ona lepiej od innych, bardziej skomplikowanych metod klasyfikuj^cych [18]. Za-daniem klasyfikatora Bayesa jest przyporz^dkowa-nie nowego przypadku do jednej z klas decyzyjnych, przy czym zbior klas decyzyjnych musi byc skon-czony i zdefiniowany a priori. Tak wiçc klasyfikacja polega na wykorzystaniu zbioru dotychczasowych obserwacji w celu ustalenia prawdziwosci nowych hipotez [19] - jest to prawdopodobienstwo a posteriori. Twierdzenie Bayesa wyrazone jest nastçpuj^-cym wzorem [20] :
P( A\B) =
P(B | A)P(A) P( B)
(1)
Gdzie:
- P(A|B) - prawdopodobienstwo warunkowe zajscia zdarzenia A pod warunkiem zajscia zdarzenia B,
- P(B|A) - prawdopodobienstwo warunkowe zajscia zdarzenia B pod warunkiem zajscia zdarzenia A,
- P(A) - prawdopodobienstwo zdarzenia A,
- P(B) - prawdopodobienstwo zdarzenia B,
Na potrzeby niniejszego punktu, rozpatruj^cego uzycie naiwnego klasyfikatora Bayesa do klasyfika-cji dokumentow tekstowych (nowych przypadkow
zdarzen), przyjmowane s^. nastçpuj^ce oznaczenia i zalozenia:
• w.. - wartosc wagi j-tego wyrazenia w i-tym do-kumencie,
• rozpatrywany jest przypadek reprezentacji prze-strzenno-wektorowej tekstu oraz wagi w.. wyra-zen t dla poszczegolnych dokumentow z korpusu dokumentow D, przyjmuje wartosc 0 lub 1 (zostala przyjçta reprezentacja Boolowska dokumentu),
• t1,t2,tj - zbior atrybutow warunkowych, ktore stanowi^ wyrazenia. Wyrazenia tj g T, gdzie Tjest to zbior wszystkich wyrazen opisuj^cych przypa-dek zdarzenia,
• c1,c2,ck - zbior wartosci atrybutow decyzyjnych, nalez^cych do klas decyzyjnych, do ktorych kla-syfikowany jest nowy przypadek opisuj^cy zda-rzenie. Wartosci atrybutow decyzyjnych dla klas ck g C, gdzie C jest to zbior klas decyzyjnych,
• Q - nowy klasyfikowany opis przypadku zda-rzenia, wyrazony w postaci wektora wag wyra-zen. Zapis Q = [t1 = q1 ,...., tj = qj] lub krocej Q = [q1 ,...., qj], oznacza przypisanie wagi qj = 0 lub qj = 1 (reprezentacja Boolowska) dla wyrazen tj wektora Q tj. dane wyrazenie tg T wystçpuje b^dz nie w klasyfikowanym przypadku opisanym za pomoc^. Q.
Posluguj^c siç teori^. Bayesa, mozna wykazac, ze najbardziej prawdopodobn^. klas^, do ktorej zo-stanie zaklasyfikowany nowy przypadek zdarzenia wyrazony w postaci wektora Q, jest klasa ck, kto-ra maksymalizuje prawdopodobienstwo warunkowe P(ck | q1 ,...., qj). Klasa ta oznaczona jest jako aMAP (ang. maximum aposterori) i wyznaczana jest za po-moc^ wzoru 2.
Wzor 2 okresla wybor klasy decyzyjnej ck dla zadanego przypadku okreslonego w postaci wekto-ra wag wyrazen Q. Z ostatniej czçsci wzoru usuniç-to mianownik z tego wzglçdu, iz prawdopodobienstwo q j) ma wartosc stal^, niezalezn^. od klasy decyzyjnej ck, wiçc nie ma ono wplywu na wy-
bor klasy aMAP.
aMAP = arg max P(c k \ q1,...,qj)
ckG_C
a AS/ID
arg max
ctGC
P(q1,...,qj \ ck)P(ck)
P(?1,..., q j )
(2)
aMAP = argmaxP(ql,...,qj \ ck)P(ck)
ckG_C
Maksymalne prawdopodobienstwo a postero-ri (aMAP), ze zbioru tych prawdopodobienstw, sklada siç z iloczynu dwoch czynnikow: • prawdopodobienstwa a priori okreslonego jako P(ck). Prawdopodobienstwo to mozna oszacowac jako iloraz liczby przykladow ucz^cych nk nalez^-cych do klasy ck do liczby wszystkich przykladow ucz^cych n zbioru klas C:
n
P(ck ) = ^
n
(3)
Gdzie:
- nk - liczba przykladow uczycych z k-tej klasy
- n = n cych
• .+nk - liczba wszystkich przykladow uczy-
szansy okreslanej jako P(qi,...,qj | ck) . Szansç mozna oszacowac na dwa sposoby. Pierwszy spo-sob polega na tym, iz P(qi,..., qj | ck ) szacuje siç, dla duzych zbiorow danych treningowych (uczy-cych), jako stosunek liczby przykladow uczycych opisanych wartosciami atrybutow warunkowych [qt ,...., qj] i nalezycych do klasy ck do liczby wszystkich przykladow uczycych z klasy ck. Drugi sposob polega na tym, iz do oszacowania szansy P(qi,..., qj | ck ), w naiwnym klasyfikatorze Bay-esa, wprowadza siç zalozenie o warunkowej nie-zaleznosci wartosci atrybutow przy ustalonej kla-sie decyzyjnej. W kontekscie analizy tekstu zalozenie powyzsze oznacza, ze wystypienie w doku-mencie tekstowym jednego wyrazenia nie dostar-cza zadnych informacji o prawdopodobienstwie wystypienia drugiego. Dla tekstow zazwyczaj na-iwny warunek niezaleznosci nie jest spelniony z tego wzglçdu, ze na podstawie jednego wyrazenia mozna przewidziec nastçpne. Mankament ten mozna minimalizowac za pomocy analizy do wy-dobywania slow kluczowych, opierajyc siç na ba-daniu statystycznej wspolzaleznosci wyrazen [21] lub n-gramowych modeli jçzyka stanowiycych aproksymacjç Markowa [22]. Niemniej zalozenie to w praktyce nie pogarsza i nie obniza skuteczno-sci klasyfikatora. Po przyjçciu naiwnego zaloze-nia o niezaleznosci atrybutow, szansç mozna za-pisac jako:
P(qi,...,qj I Ck) = nP(qj I Ck)
j=i
(4)
Gdzie:
- P(qj | ck ) - prawdopodobienstwo warunkowe, ktore mozna oszacowac jako iloraz liczby przykladow uczycych z klasy ck, dla ktorych wartosc wag d.. atrybutow (wyrazen) t. rowne sy wartosciom wag q. wektora wyrazen Q, do liczby wszystkich przykladow uczycych z klasy ck
Po uwzglçdnieniu wyzej przyjçtego zalozenia, do klasyfikacji nowego przykladu (przypadku zda-rzenia) wybrana zostaje klasa aNB (Naïve Bayes), dla ktorej zachodzi wzor 5.
n
aNB = ar§max P(ck )n p(qj| ck) (5)
Ck eC j=1
Etap estymacji prawdopodobienstw a priori od-powiada w innych metodach uczenia maszynowe-
go etapowi uczenia si^. Naiwny model Bayesa wy-korzystywany jest w praktyce ze wzgl^du na swojy prostot^, zarowno pod wzgl^dem zrozumienia jego dzialania, jak i implementacji algorytmicznej, oraz wydajnosc obliczeniowy Dla zmiennych o warto-sciach dyskretnych oraz dla parametrycznych jed-nowymiarowych modeli g^stosci zmiennych o war-tosciach rzeczywistych wystarczy dokonac jedno-krotnego przeglydu danych, aby zbudowac naiwny klasyfikator Bayesa [23]. Przechodzenie kilkukrot-ne w celu budowy klasyfikatora moze odbywac si^ dla bardziej zlozonych modeli g^stosci, takich jak modele mieszane. Wynika to z ich iteracyjnej natury dopasowania funkcji g^stosci. Wszystkie te elemen-ty odgrywajy kluczowy rol^ w budowie i odswieza-niu indeksu binarnego dokumentow w celu ich wy-szukiwania przedstawionego w punkcie 6. W szcze-golnosci kiedy dodawany jest do klasy nowy dokument i zachodzi potrzeba przebudowy indeksu oraz wyliczenia na nowo wartosci poszczegolnych praw-dopodobienstw dla wszystkich klas.
4. Klasyfikacja polstrukturalnych przypadkow zdarzen przy uzyciu naiwnego klasyfikatora Bayesa - przyklad zastosowania
W podpunkcie tym zostal przyblizony proces klasyfikacji nowego przypadku zdarzenia, zgodnie z teoriy i zalozeniami omowionymi w punkcie 3.
Na podstawie przyj^tych zalozen mozliwe jest zbudowanie ogolnej macierzy lyczycej zbior dokumentow ze zbiorem wyrazen i klasami. Tabela 1 pre-zentuje ogolny, symboliczny zapis takiej macierzy.
Tabela 1.
Symboliczny zapis macierzowy reprezentacji meldunkow [Zrodlo: opracowanie wlasne]
Table 1.
The term matrix representation of the report
[Source: own work]
T - zbior wyrazen Klasa c, k
t ( t, e T ) (Class ck)
(T - set of terms t.) (ck e C)
D - zbior dokumentow d. (dt e D) (D - set of ti t 2 t 3 t 4
di wii W 12 w 13 w 14 ci
d2 w 21 w 22 w 23 w 24 c i
documents d.) _ w 31 w 32 w 33 w 34 c 2
d4 w 41 w 2 w 43 w .. 44 c 2
Do dalszych rozwazan zalozono, ze istniejy dwie klasy decyzyjne, do ktorych mozna zaklasy-fikowac nowy przypadek zdarzenia. Pierwszy kla-sç stanowiy przypadki opisujyce pozary budynkow (PB), drugy klasç stanowiy pozary lasow (PL). Za-tem zbior klas C = {c1 = PB, c2 = PL}. Przykladowy zbior uczycy sklada siç z 4 dokumentow D = {d1, d2,
d3, d4} oraz 4 wyrazen indeksuj^cych te dokumenty T = (tj, t2, t3, t4}. Wyrazenia mog^ zostac pozyskane z przypadkow zdarzen. Do wybranych w sposob ad hoc, przykladowych wyrazen dla celow demonstra-cyjnych nalez^. T = ( t = osmalony, t2 = zadymio-ny, t3 = czad, t4 = wysoki plomien}. W szczegolnosci wyrazenia pozyskuje si^ w procesie wst^pnego prze-twarzania tekstow (ang. pre-processing) i ekstrakcji cech (ang. feature extraction) [12, 22].
Wagi dla poszczegolnych wyrazen w dokumentach przyjmj reprezentaj Boolowsk^. tj. wij = 0 lub wij = 1 (1 < i < 4 oraz 1 < j < 4). Dla tak skon-struowanych zalozen i zbioru danych mozliwe jest zbudowanie macierzy, l^cz^cej zbior dokumentow ze zbiorem wyrazen i klasami. Tabela 2 prezentuje konkretny zapis takiej macierzy.
Tabela 2.
Realizacja zapisu macierzowego dla meldunkow.
Zrodlo: [opracowanie wlasne]
Table 2.
Realization of the term matrix representation of the report. Source: [own work]
T - zbiór wyrazeñ t (tj e T) (T - set of terms t.) Klasa c, k (Class ck) (ct e C)
D - zbiór doku-mentów d¡ (dl e D) (D - set of documents di) q1 = osmalony q2 = za- dymio- ny q3 = czad q4 = wysoki plomien
d1 1 1 1 0 PB
d2 0 1 0 1 PB
d3 0 0 0 1 PL
d4 0 1 1 1 PL
Tabela 2 reprezentuje zapis informacji, który mozna interpretowac w nast^puj^cy sposób: grupa ekspertów zidentyfikowala dwie klasy pozarów (klasy decyzyjne) - pozar budynków i pozar lasów, do których przydzielono a priori na podstawie ana-lizy tresci po dwa dokumenty opisuj^ce zdarzenie (stanowi^ce zbiór ucz^cy).
Nast^pnie w kolejce do klasyfikacji pojawia si^ nowy, tym razem niezaetykietowany opis zdarzenia. Jego klasyfikacja opiera si^ na znajdowaniu odpo-wiednich wyrazen i wnioskowaniu Bayesa w celu okreslenia dla niego odpowiedniej klasy. Zalozono, ze z przykladowego, nowego, niesklasyfikowane-go przypadku zdarzenia wyekstrahowano nast^puj^-ce wyrazenia: zadymiony, czad. Wektor wag wyrazen Q nowo klasyfikowanego przypadku mozna za-pisac w nast^puj^cy sposób Q = [qt= osmalony = 0, q2 = zadymiony = 1, q3 = czad = 1, q4 = wysoki plo-mien = 0]. W celu okreslenia, do jakiej klasy zosta-nie przydzielony nowy przypadek na podstawie jego Q przy wykorzystaniu klasyfikatora Bayesa, nalezy przeprowadzic obliczenia dotycz^ce:
• oszacowania prawdopodobienstwa a priori dla klasy PB i PL (wzór 3). Prawdopodobienstwa te
2 1
wynosz^ p(CpB ) = p(CpL ) = ^ = ^,
• oszacowania szansy, ze dany wektor Q nalezy do klasy PB i klasy PL (wzór 4). Szacowanie tego, ze Q b^dzie nalezec do klasy PB jest równe
P(0,U,0 |CpB) = -•-•-•- = -. Szacowanie
2 2 2 2 o
tego, ze Q b^dzie nalezec do klasy PL jest rów-
2 11 1
ne P(0,1,1,0 | cPL) =------1 = -. Problema-
PLJ 2 2 2 4 tyczne w szacowaniu szansy PL moze byc to, iz skladowa 4 wektora Q przyjmuje wartosc 0 (q4 = 0), zas w zbiorze danych dla klasy PL zaden przypadek nie ma zerowej tej skladowej. Aby unikn^c mnozenia przez zero przyjmuje si^ w takim przypadku wartosc 1 w dalszym mnozeniu,
• wyliczenia prawdopodobienstwa a posteriori tego, ze Q zostanie przydzielone do klasy PB i klasy PL (wzór 5.). Prawdopodobienstwo tego, ze Q b^dzie przydzielone do klasy PB wynosi
a
NB1
111. = — — = — natomiast tego, ze zostanie przydzielony do klasy PL wynosi aNB 2 = — • — = —.
2 4 8
Wzór 5. okresla takze, który rezultat szacowania prawdopodobienstwa a posteriori wybrac. W rozpa-trywanym przypadku najwi^ksz^ wartosc klasyfikatora Bayesa ma argument aNB2 . Tak wi^c rozpatry-wany dokument wyrazony poprzez zbudowany wek-tor wyrazen Q zostanie zaklasyfikowany do grupy dokumentów zawieraj^cych opisy pozarów lasów.
5. Binarne miary podobieñstwa pólstrukturalnych przypadków zdarzeñ
W punkcie 3. zalozono, ze dokumenty s^. indek-sowane binarnie tj. do dyspozycji jest binarny wektor wyrazen, zawieraj^cy wagi wyrazen opisuj^cych dany dokument d. Waga wyrazenia w tej reprezen-tacji przyjmuje wartosc 0 - wyrazenie t nie wyst^-puje w dokumencie d lub 1 - wyrazenie t wyst^puje w dokumencie d. W celu odnalezienia dystansu lub podobienstwa pomi^dzy samymi przypadkami zdarzen, jak równiez pomi^dzy przypadkami zdarzen a zapytaniem Q, nalezy posluzyc si^ jedn^ z 76 do-st^pnych miar binarnych opisanych m.in. w pracach [24-26]. Miara binarna jest to miara podobienstwa lub odleglosci pomi^dzy wektorami binarnymi [24]. Zapytanie Q traktowane jest jako zredukowany opis przypadku do kilku znacz^cych wyrazen t podawa-nych przez KDR w celu wyszukania na ich podstawie najlepiej pasuj^cych przypadków z bazy wiedzy systemu CBR. Miary binarne powstaly na pocz^tku XX wieku, a ich rozwój zacz^l si^ od zaproponowa-
nej w 1901 roku przez Jacarda miary podobienstwa gatunków [24]. Miary te sy szczególnym przypad-kiem miar stosowanych do pomiaru dystansu, podo-bienstwa pomiçdzy wektorami niebinarnymi, czyli takimi, których wagi mogy przybierac wartosci nie tylko 0 lub 1. Przeglyd i zastosowania miar nie bi-narnych mozna odnalezc m.in. w pracach [27, 28].
6. Mieszane przetwarzanie pólstrukturalnego modelu opisu zdarzeй
Majyc do dyspozycji przedstawiony w punkcie 2. pólstrukturalny model opisu zdarzen, na któ-ry sklada siç ontologia Akcja zawierajyca w lisciach pólstrukturalne przypadki zdarzen, autorzy zapropo-nowali i opisali w niniejszym punkcie sposób jego przetwarzania. Przetwarzanie to lyczy w sobie ele-menty klasyfikacji, opisane w punkcie 4. oraz ele-menty binarnych miar podobienstwa, opisanych w punkcie 5. Wszystkie te skladniki po polycze-niu ze soby sluzy jako wyszukiwarka archiwalnych przypadków zdarzen w bazie wiedzy systemu CBR. Schemat ideowy funkcjonowania niniejszej wyszu-kiwarki prezentuje ryc. 4.
Ryc. 4 przedstawia schemat dzialania wyszu-kiwarki archiwalnych przypadków zdarzen zawar-tych w bazie wiedzy systemu CBR, a dokladniej w okreslonych lisciach ontologii Akcje. Proces prze-szukiwania rozpoczyna siç od podania przez KDR zapytania Q zbudowanego z wyrazen (stów, zdan) opisujycego powstale zagrozenie. Zapytanie to jest nastçpnie przetwarzane, usuwane sy z niego zbçd-ne wyrazenia na podstawie stop-listy. Stop-lista de-finiuje wyrazenia nieniosyce zadnej wartosciowej informacji oraz które nalezy odfiltrowac, do takich wyrazen nalezy np. „i", „czy", etc. W kolejnym kro-ku wyrazenia, które przeszly filtrowanie, poddawa-ne sy procesowi lematyzacji, polegajycemu na spro-wadzaniu wyrazen do ich formy podstawowej [22]. Po tym procesie wyrazeniom przypisywana jest waga binarna równa 1. Tak zbudowany i uzupelnio-ny wektor jest nastçpnie klasyfikowany, np. za po-mocy naiwnego klasyfikatora Bayesa opisanego w punkcie 3. oraz 4., do klas - lisci ontologii. Po otrzymaniu wartosci prawdopodobienstwa a posteriori przynaleznosci wektora do wybranych klas, sy one szeregowane od najwiçkszej do najmniej-szej wedlug wartosci otrzymanego prawdopodo-bienstwa. Nastçpnie wybieranych jest n (uzytkow-nik ten parametr moze okreslic sam) najlepiej dopa-sowanych klas. Klasy niespelniajyce kryterium wy-razonego w postaci stopnia przynaleznosci (okres-lonego prawdopodobienstwa a posteriori), mogy zostac odrzucone. Do dalszej analizy wyszukiwania przechodzi n wybranych klas. Kazda wyselekcjono-wana klasa zawiera kolekcjç przypadków zdarzen. W zwiyzku z tym, ze przypadki zostaly zaindeksowa-ne binarnie do procesu klasyfikacji oraz ze wagi za-pytania Q takze sy binarne, nastçpuje dla kazdej kla-
sy z osobna binarny proces wyszukiwania za pomo-cy miar podobienstwa zdefiniowanych w punkcie 5. Wyszukiwanie polega na odnalezieniu przypadku najbardziej podobnego do wektora zapytania Q (al-gorytm k-najblizszych sysiadów). Liczba zwraca-nych przypadków w klasie moze byc ograniczana za pomocy parametru к wspólnego dla wszystkich klas (uzytkownik ten parametr moze okreslic sam). Wy-szukiwanie konczy siç otrzymaniem rankingu za-wierajycego kolekcjç p = n • к przypadków. Utwo-rzony ranking zawierajycy archiwalne przypadki prezentowany jest nastçpnie dla KDR, który wybie-ra najlepiej pasujycy przypadek zdarzenia i adaptuje go w celu rozwiyzania zaistnialego zagrozenia.
Podsumowanie
Opracowany, prezentowany na rycinie 4. sche-mat ideowy wyszukiwarki przypadków zdarzen, jak równiez niniejszy artykul stanowiy opis podjçtych przez autorów badan z zakresu analizy meldunków z systemu EWID. Aktualna propozycja wyszukiwania bçdzie podlegala badaniom. Wyniki natomiast ukazy siç w nastçpnych publikacjach autorów. Za-warte w niniejszym opracowaniu tresci dajy nowy i ciekawy poglyd na mozliwosc lyczenia ontologii z tekstowymi pólstrukturalnymi przypadkami zdarzen oraz ich przetwarzania (klasyfikacji czy tez wyszukiwania). Jak dotychczas autorzy nie spotkali siç z takim podejsciem w systemach dla sluzb ratowni-czych czy tez w warstwie reprezentacji i przetwarza-nia wiedzy systemów CBR. Aktualnie w tych systemach dominujy rozwiyzania polegajyce na reprezentacji wiedzy albo w pelni strukturalnej albo w pel-ni niestrukturalnej [29-32]. Z powyzszych wzglç-dów postanowili zaprezentowac swoje rozwiyzania, z wyprzedzeniem w stosunku do aktualnego harmo-nogramu badan. Aktualnie wysilki badawcze autorów koncentrujy siç na analizie znaczeniowej zdan oraz przywracaniu sekcji z raportów z systemu EWID w celu ich dalszych analiz i strukturalizacji. Podstawy tej analizy jest zaklasyfikowanie calego zdania do wybranej klasy na podstawie analizy znaj -dujycych siç w nim wyrazen.
Do obiecujycych dalszych kierunków rozwoju opisywanego w artykule tematu, nalezy klasyfika-cja przypadku nie tylko do liscia ontologii, ale takze do wçzla. Przypadek ogólny zaklada, ze w wçzlach hierarchii (klasach) mogy znajdowac siç przypadki niesklasyfikowane poprawnie tj. których klasyfi-kator nie jest pewien. W tym przypadku wyznaczo-ny musi zostac stopien pewnosci dla kazdego wçzla z klas, jesli dany przypadek go nie przekracza to klasyfikacja odbywa siç do wçzla rodzica lub wyzej i tak az do korzenia ontologii.
Dalszymi kierunkami rozwoju mogy byc mody-fikacje opisu pólstrukturalnego przypadku zdarzenia polegajyce na dodaniu wiyzan do innej sekcji ontologii, przechowujycej np. oznaczony rejestr zaso-
Sformutowanie
przez KDR zapytania do CBR
Przeszukiwanie bazy wiedzy systemu CBR
Przetwarzanie zapytania
Utworzenie wektora cech zapytania
I
Wektor
cech
zapytani
Klasyfikacja wektora cech zapytania do klas Zagrozeñ ontologii Akcje
I Wyliczenie prawdopodobieñstwa a posteriori przynaleznosci wektora do kazdej z dost^pnych klas
Posortowanie klas ze wzgl$du na wyliczone prawdopodobieñstwo
Wybranie klasy 1
Wybranie n klas
Wybranie klasy n
<§h
Prezentacja przypadków
«centralBuffer» Globalny ranking
wyszukanych przypadków z klas
Kolekcja przypadków
Utworzenie globalnego rankingu klas z dopasowanymi przypadkami
Kolekcja przypadków
«datastore» Klasa 1 zawieraj^ca kolekcje przypadków zdarzeñ
«datastore» Klasa n zawierajqca kolekcje przypadków zdarzeñ
^ Wyszukiwanie kolekcji przypadków z wybranych klas i_
Wyszukiwanie bíname
kolekcji przypadków w klasie n
Wyszukiwanie binarne
kolekcji przypadków w klasie 1
Zwrócenie k najlepiej dopasowanych przypadków
Zwrócenie k najlepiej dopasowanych przypadków
jKolekeja przypadków «centralBuffer» Kolekcja wyszukanych przypadków z klasy 1
Kolekcja przypadków^"
«centralBuffer» Kolekcja wyszukanych przypadków z klasy n
Rye. 4. Schemat ideowy wyszukiwarki przypadkow zdarzen, zawartych w lisciach ontologii Akcje, ktore stanowiq ba/g
wiedzy systemu CBR [Zrodlo: opracowanie wlasne] Fig. 4. Schematic diagram of the CBR cases search engine [Source: own work]
bów. Wi^zania te mog^ odbywac si^ poprzez uzy-cie referencji w opisie lub poprzez dodanie nowej sekcji powiqzania do pólstrukturalnych przypadków zdarzen. W przypadku referencji w opisach, rozwi^-zanie to ideowo zblizone jest do hiperlinków sieci ogólnoswiatowej.
Wazny kierunek rozwoju stanowi tez budowanie bazy aktywnej, dynamicznie uzupelniaj^cej przypa-dek zdarzenia o potrzebne informacje na podstawie np. bazy wiedzy i regul. W celu zobrazowania tego dzialania autorzy posluzyli si^ nast^puj^cym przy-kladem - z systemu pasywnego, jaki stanowi CBR ze wzgl^du na to, ze przechowuje „obraz" przeszlo-sci, pozyskany zostaje przypadek zdarzenia. System odkrywa jednak, ze aktualnie nie dysponuje taki-mi zasobami, wówczas wykorzystuje reguly z bazy wiedzy i rejestru aktualnych zasobów, aby uzupelnic raport o potrzebne parametry. Ogólnie, kierunki takich l^czonych technik aktualnie s^. juz podejmowa-ne, przyklad takiego podejscia mozna odnalezc w li-teraturze [35].
Ostatni^ kwesti^ w proponowanych badaniach pozostaje dobór i badanie klasyfikatorów np. drzew decyzyjnych, regul decyzyjnych oraz miar binar-nych w odniesieniu do tradycyjnych, powszechnie przyj^tych miar stosowanych dla tekstów, w repre-
zentacji przestrzenno-wektorowej, do ktorych nale-¿3. m.in. miary [22]: Jacarda, Dicea, Kosinusow czy tez Euklidesa.
Ontologia, jako warstwa nosna informacji o ak-cjach i dzialaniach ratowniczo-gasniczych w pol^-czeniu z pol-strukturaln^ reprezentaj przypadkow zdarzen dla systemu CBR, daje elastyczny i uzyteczny model reprezentacji wiedzy o dziedzi-nie oraz wnioskowania. Na podstawie tak zaprezen-towanej wiedzy o dziedzinie zawieraj^cej opis archi-walnych zdarzen, istnieje mozliwosc dostarczania najpotrzebniejszych informacji Kieruj^cemu Dzia-laniami Ratowniczymi. Informacja ta wyrazona jest w postaci opisu zagrozen, wskazowek etc., ktore KDR moze wzi^c pod uwag^ podczas przeprowa-dzanej akcji ratowniczo-gasniczej. Ponadto ontologia doskonale nadaje si^ do modelowania zaleznosci pomi^dzy elementami dziedziny np. wyst^puj^cy-mi w opisach zdarzen zasobami uzytymi do likwida-cji zagrozenia a samymi zasobami z gal^zi ontologii Akcje. Taka prosta referencja daje systemowi wiedzy o tym, jakie zasoby s^ alokowane do jakich zdarzen.
Zastosowanie naiwnego klasyfikatora Bayesa moze sluzyc jako element rankinguj^cy klasy w pro-cesie wyszukiwania. Zabieg ten daje mozliwosc zrownoleglenia obliczen dotycz^cych wyszukiwania
grupy binarnie opisanych przypadków, najlepiej pa-sujycych do zadanego przez KDR pytania. Dla kaz-dej z wylosowanych klas mozliwe staje siç utworze-nie oddzielnego procesu, w którym nastçpuje prze-szukanie za pomocy przedstawionych miar binar-nych i dopasowanie wektora zapytania do znajdu-jycych siç w klasie przypadków zdarzen. Na koniec wyszukiwania procesy te sy synchronizowane a re-zultat dostarczany Kierujycemu Dzialaniami Ratow-niczymi.
Literatura
1. Rozporzqdzenie Ministra Spraw Wewnçtrznych i Administracji z dnia 29 grudnia 1999 r. w spra-wie szczegóíowych zasad organizacji krajowe-go systemu ratowniczo-gasniczego. Dz.U. 99. 111.1311 § 34 pkt. 5 i 6.
2. Abakus: System EWID99. [on-line] [dostçp: 1 maja 2009] Dostçpny w Internecie: http:// www.ewid.pl/?set=rozw_ewid&gr=roz.
3. Abakus: System EWIDSTAT. [on-line] [dostçp: 1 maja 2009] Dostçpny w Internecie: http:// www.ewid.pl/?set=ewidstat&gr=prod.
4. Strona firmy abakus. [on-line] [dostçp: 1 marca 2009] Dostçpny w Internecie: http://www.ewid. pl/?set=main&gr=aba.
5. Krasuski A., Maciak T. Wykorzystanie rozpro-szonej bazy danych oraz wnioskowania na podstawie przypadków w procesach decyzyjnych Panstwowej Strazy Pozarnej. „Zeszyty Nauko-we SGSP", No 36, 2008, s. 17-35.
6. Kozlowski J., Neuman L. Wspomaganie wyszukiwania dokumentów mapami samoorganizujq-cymi. [Wroclaw]: III Krajowa Konferencja MIS-SI 2002, 19-20 wrzesnia - „Multimedialne i Sie-ciowe Systemy Informacyjne", 2002. [dostçp: 10 czerwca 2009] Dostçpny w Internecie: http:// www.zsi.pwr.wroc.pl/zsi/missi2002/pdf/s507.pdf.
7. Krasuski A., Krenski K. Building a DSSfor Fire Service using jCOLIBRI. Analele Universitatii Bucuresti, Informatica LVI, 2008.
8. Krasuski A., Maciak T., Krenski K. Decision Support System for Fire Service based on Distributed Database and Case-based Reasoning. Studies of logic grammar and rethoric, No 11, 2008.
9. Mironczuk M., Maciak T. Problematyka projek-towania modelu hybrydowego systemu wspoma-gania decyzji dla Panstwowej Strazy Pozarnej. „Zeszyty Naukowe SGSP", No 39, 2009.
10. Mironczuk M., Karol K. Koncepcja systemu eks-pertowego do wspomagania decyzji w Panstwowej Strazy Pozarnej. In: Grzech A., Juszczyn K., Kwasnicka H. and Nguyen N.T., editors. Inzy-nieria Wiedzy i Systemy Ekspertowe. Warszawa: Akademicka Oficyna Wydawnicza EXIT, 2009.
11. Krenski K., Krasuski A. The fundations for an ontology-based knowladge representation layer for a CBR system in fire service. Analele Univer-sitatii Bucuresti, Informatica LVI 2008.
12. Borycki L., Soldacki P. Automatyczna klasyfi-kacja tekstow. [Wroclaw]: III Krajowa Konferencja MISSI 2002, 19-20 wrzesnia - „Multimedialne i Sieciowe Systemy Informacyjne", 2002. [dostçp: 10 czerwca 2009] Dostçpny w Internecie: http://www.zsi.pwr.wroc.pl/zsi/missi2002/ pdf/s504.pdf.
13. Song F., Liu S., Yang J. A comparative study on text representation schemes in text categorization. Pattern Analysis & Applications, No 8, 2005, s. 199 - 209
14. Weigend A. S., Wiener E. D., Pedersen J. O. Exploiting Hierarchy in Text Categorization. Information Retrieval, No 1, 1999.
15. Yang Y., Liu X. A re-examination of text categorization methods. [New York]: ACM SIGIR Conference of Research and Development in Information Retrieval, 1998.
16. Lazewski L., Pikula M., Siemion A., Szklarzew-ski M. Klasyfikacja dokumentow tekstowych. Warszawa: PJWSTK 2005. Dostçpny w Internecie: http://www.scribd.com/doc/2242106/Klasy-fikacja-dokumentow-tekstowych.
17. Schenker A., Kandel A., Bunke H., Last M. Graph-Theoretic Techniques for Web Content Mining. World Scientific Publishing Co, 2005.
18. StatSoft. Naiwny klasyfikator Bayesa. [dostçp: 10 stycznia 2010] Dostçpny w Internecie: http:// www.statsoft.pl/textbook/stathome_stat.ht-ml?http%3A%2F%2Fwww.statsoft.pl%2Ftext-book%2Fstnaiveb.html.
19. Aas K., Eikvil L. Text Categorisation: A Survey. Technical Report, Norwegian Computing Center, 1999.
20. Yoshimasa, Tsujii T. J. Training a Naive Bayes Classifier via the EM Algorithm with a Class Distribution Constraint. In: Proceedings of the 7th Conference on Natural Language Learning: Morgan Kaufmann, 2003. s. 127-134.
21. Matsuo Y., Ishizuka M. Keyword Extraction From A Single Document Using Word Cooccurrence Statistical Information. International Journal on Artificial Intelligence Tools, No 13, 2004, s. 157-169.
22. Mykowiecka A. Inzynieria lingwistyczna. Komputerowe przetwarzanie tekstow w j^zyku natu-ralnym. Warszawa: PJWSTK, 2007.
23. Hand D., Mannila H., Smith P. Eksploracja danych. Wydanie 1. Warszawa: Wydawnictwo Na-ukowo-Techniczne, 2005.
24. Choi S. S., Cha S. H., Tappert C. C. A Survey of Binary Similarity and Distance Measures Systemics, Cybernetics and Informatics, No 8, 2010, s. 43-48.
25. Veal B. Similarity Coefficients for Binary Data. Department of Mathematics. London: London School of Economics, 2008.
26. Lourenço F., Lobo V., Baçâo F. Binary-based similarity measures for categorical data and their application in Self-Organizing Maps. JOCLAD, 2004. p.1-18.
27. Cha S. H. Comprehensive Survey on Distance/ Similarity Measures between Probability Density Functions. International journal of mathematical models and methods in applied sciences, 2007.
28. Kim M. C., Choi K. S. A comparison of collocation-based similarity measures in query expansion. Information Processing and Management: an International Journal, No 35, 1999, s. 19-30
29. Kempa A. Zastosowanie rozszerzonej metodo-logii wnioskowania na podstawie przypadków - textual cbr w pracy z dokumentami tekstowy-mi. Katowice: Systemy Wspomagania Organiza-cji/, 2005. [dostçp: 1 stycznia 2008] Dostçpny w Internecie: http://www.swo.ae.katowice.pl/ content/view/221/32/.
30. Krupka J., Kasparova M., Jirava P. Case-Based Reasoning Model in Process of Emergency Management. Man-Machine Interactions Advances in Soft Computing, 2009. p. 77-84.
31. Jing L. Case-Based Reasoning Intelligent Decision Approach for Firefighting Tactics. [Tianjin]: Intelligent Networks and Intelligent Systems, 2009 ICINIS '09 Second International Conference on 1-3 Nov 2009, 2009.
32. Bergmann R., Wilke W., Vollrath I., Wess S. Integrating General Knowledge with Object-Oriented Case Representation and Reasoning. 1996.
33. Glinski W. J^zyki i narzçdzia do tworzenia i wyszukiwania ontologii w kontekscie semantycz-nego weba. Instytut Informacji Naukowej i Stu-diów Bibliologicznych UW. [dostçp: 10 sierpnia 2010] Dostçpny w Internecie: http://bbc.uw.edu. pl/Content/20/14.pdf.
34. Glinski W. Ontologie. próba uporzqdkowania terminologicznego chaosu. Instytut Informacji
Naukowej i Studiow Bibliologicznych UW. [do-stçp: 10 sierpnia 2010] Dostçpny w Internecie: http://bbc.uw.edu.pl/Content/20/13.pdf. 35. Shimin D., Shen H., Liu H. Research on Case-Based Reasoning Combined with Rule-Based Reasoning for Emergency. [Philadelphia, PA, USA]: Service Operations and Logistics, and Informatics, 2007 SOLI 2007 IEEE International Conference on 27-29 Aug 2007, 2007.
Praca naukowa wspôlfinan-sowana ze srodkôw Europej-skiego Funduszu Spoleczne-go, srodkôw Budzetu Panstwa oraz ze Srodkôw Budzetu Wojewôdztwa Podlaskiego w ramach projektu „Podlaska ÜNIiE™ Strategia Innowacji - budowa FUNDUSZSPOl=CZNY systemu wdrazania"
mgr inz. Marcin Micha! Mironczuk, absolwent Wydzialu Elektrycznego Politechniki Bialostockiej, na ktorym takze ukonczyl studia doktoranckie. Aktualnie ma wszczçty przewod doktorski na Wydzia-le Informatyki Politechniki Bialostockiej i pracuje w Instytucie Podstaw Informatyki PAN w Warsza-wie.
dr hab. inz. Tadeusz Maciak, profesor Szkoly Glownej Sluzby Pozarniczej oraz kierownik Za-kladu Informatyki i L^cznosci w tej szkole. Obj^l stanowisko adiunkta w Katedrze Mediow Cyfro-wych i Grafiki Komputerowej Wydzialu Informatyki Politechniki Bialostockiej PB.
4
KAPITAt LUDZKI
NARODOWA STRATEGIA SPÓJNOSCI