Методы отображения онтологий. Обзор # 01, январь 2009
авторы: Карпенко А. П., Сухарь Р. С.
Приводится обзор критериев подобия онтологий, а также методов отображения онтологий Ключевые слова: онтология, подобие онтологий
http://technomag.edu.ru/doc/115931.html
УДК 519.6
МГТУ им. Н.Э. Баумана, 105005, Москва, 2-я Бауманская ул., д.5.
Введение
Создание промышленных систем, основанных на онтологиях, требует методов и инструментов, как для построения онтологий, так и для целого ряда задач, связанных с их сопровождением. Для построения онтологий с середины 90-х годов прошлого века начали создаваться среды разработки онтологий. В последующие годы параллельно с развитием средств разработки онтологий появились средства редактирования и сопровождения онтологий, средства отображения, выравнивания и объединения онтологий, а также средства аннотирования онтологий. Таким образом, к настоящему времени сформировалась целая инженерия онтологий [].
Одним из центральных понятий инженерии онтологий является понятие «отображение онтологий» (ontology mapping), под которым понимается деятельность по установлению соответствия между несколькими онтологиями или, другими словами, нахождение семантических связей подобных элементов из разных онтологий. С наиболее общей точки зрения важность задачи отображения онтологий обусловлена тем фактом, что мощность знаний, заключенных в онтологиях, проявляется в полной мере только в том случае, когда удается учесть взаимосвязи независимых онтологий - установление факта подобия сущностей в разных онтологиях означает извлечение из этих онтологий дополнительных знаний.
Близкой к проблеме отображения онтологий является проблема выравнивания онтологий (ontology alignment), которая заключается в том, чтобы установить различные виды соответствия между двумя онтологиями, а затем сохранить исходные онтологии вместе с информацией о найденных соответствиях с тем, чтобы в дальнейшем использовать информацию о взаимосвязях онтологий. Отметим также, что на основе отображения
онтологий решается задача интеграции онтологий (ontology merging) - задача создания новой онтологии или ее фрагментов из двух и более исходных онтологий.
Задача отображения онтологий возникает во многих областях науки и техники, например, при организации понятийного контроля знаний субъекта обучения в интеллектуальной обучающей системе [], при моделировании организаций в задачах организационного проектирования [], при проектировании персонифицированных информационных ресурсов над WEB-сайтами со слабоструктурированными данными [], при построении цифровых (электронных) библиотек [].
В работе рассмотрены критерии и мультикритерии подобия онтологий. На этой основе дан обзор методов автоматического отображения онтологий. Рассматриваемые критерии подобия онтологий построены на основе подобия сущностей соответствующих семантических сетей, дескриптивной логики, ограничений и правил и пр. []. Все критерии являются транзитивными: если А подобно В, и В подобно С, то А подобно С. Таким образом, рассматриваемые критерии можно использовать для установления подобия более, чем двух онтологий.
Для иллюстраций в работе используется язык описания онтологий OWL (Web Ontology Language) [].
1. Термины и определения
Компоненты, из которых состоит онтология, зависят от используемой модели онтологии. Обычно онтология описывается с помощью
• концептов (понятий, классов, сущностей, категорий),
• атрибутов концептов (слотов, свойств, ролей),
• отношений между концептами (связей, зависимостей, функций),
• дополнительных ограничений (аксиом, фасет).
Элементы предметной области (элементы данного концепта) называются экземплярами. Зависимость между концептами, которая включает в себя необходимое условие и следствие выполнения этого условия, называется правилом. Онтология вместе с множеством соответствующих экземпляров составляет базу знаний.
Подобие некоторых сущностей x,y определяется с помощью функции подобия sim(x, y) е [0,1], которая обладает следующими свойствами []:
sim(x, y) = 1 ® x = y (объекты xy идентичны);
sim(x, y) = 0 (объекты x, y совершенно разные и не имеют схожих характеристик);
sim( x, x) = 1 (свойство возвратности функции подобия);
sim(x, y) = sim(y, x) (свойство симметричности функции подобия).
Пусть O1, O2 - рассматриваемые онтологии, ei,j e Oi - некоторая сущность онтологии Oi, i = 1,2 . Подобие сущностей eu, e2,i означает, что sim(e1,k, e2,i) - t, где t - пороговая величина (уровень подобия, уровень отсечения).
Отображение онтологии O1 на онтологию O2 означает попытку найти для каждого из концептов онтологии O1 подобный ему концепт в онтологии O2 [Ошибка: источник перекрестной ссылки не найден]. Другими словами, отобразить онтологию O1 на онтологию O2 означает отобразить каждую из сущностей e1k онтологии O1 на соответствующую сущность e2 l онтологии O2. Несколько иные определения термина «отображение онтологий» даются в работах [, ].
Будем писать map(e\k) = e2,l и говорить, что сущность e2,l е O2 есть отображение сущности e1,k е O1, если сущности eu , e2,l подобны, т.е. если sim(e1,k, e2,i) - t. Здесь map( ) -функция отображения.
Если онтология O2 есть отображение онтологии O1, то этот факт будем записывать в виде map(O1 ) = O2.
2. Критерии подобия онтологий 2.1. Критерии на основе подобия идентификаторов или URI сущностей.
Критерий L1 §. Первым из критериев этого класса является критерий на основе идентификаторов сущностей (меток). Критерий формулируется следующим образом:
если метки двух сущностей подобны, то эти сущности подобны ( L1 §). Здесь и далее L i = simi, i = 1,2,... - обозначение критерия подобия.
Вместо имен сущностей могут сравниваться имена их синонимов (с использованием существующих словарей общей и профессиональной лексики или тезаурусов []).
Отметим, что известно большое количество методов сравнения меток, см., например, метод интервала редактирования (the edit distance) []. Отметим также, что с помощью соответствующего словаря данный критерий подобия может быть использован для сравнения сущностей, заданных на разных языках.
Пример 1. Пусть имеются два концепта с идентификаторами «компьютерная мышка» и «компьютерная мышь»:
<owl:Class rdf:ID="id1">
<rdfs:1аЬе1>компьютерная мышка<1аЬе1/>
</owl:Class>
<owl:Class rdf:ID="id2">
<rdfs:1аЬе1>компьютерная мышь<1аЬе1/>
</owl : Class>
Сравнение этих идентификаторов любым из методов сравнения меток покажет подобие указанных концептов.
Критерий L2 §. Критерий строится на основе идентификаторов сущностей, уникальных для каждой из сущностей, например, URI (Uniform Resource Identifier) и формулируется следующим образом []:
если две сущности имеют подобные URI, то эти сущности подобны (L2).
Пример 2. В онтологии [] определяется концепт «Регион»:
<owl:Class rdf:ID="Pe^oH"/>
В этой же онтологии имеется понятие "РегионЦентральногоПобережья":
<owl:Class rdf:ID="РегионЦентральногоПобережья"/>
В соответствии с критерием L 2 концепт «Регион» и концепт "РегионЦентральногоПобережья " подобны.
2.2. Критерии на основе семантической сети онтологии [].
Критерий L 3 §. Поскольку сущности состоят в отношениях с другими сущностями через свои атрибуты, имеет место следующий критерий подобия:
если атрибуты двух сущностей подобны, то эти сущности подобны ( L3).
Пример 3.
<Регион rdf:ID="Pe^oHropbiCaHTaKpy3">
<locatedIn rdf:resource="#РегионКaлифорния"/> </Регион>
<Винодельня rdf:ID="ВиногрaдникГорaСaнтaКрyз"/> <КабернеСовиньон
rdf:ID="КaбернеСовиньонВинодельняГорaСaнтaКрyз"> <рaсположенВ rdf:resource="#Pe^oHropbiCaHTaKpy3"/> <имеетПроизводителя rdf:resource="#ВиногрaдникГорaСaнтaКрyз"/> </КaбернеСовиньон> <ВиногрaдКaбернеСовиньон
rdf:ID="ВиногрaдКaбернеСовиньонВинодельняГорaСaнтaКрyз"> <рaсположенВ rdf:resource="#Pe^oHropbiCaHTaKpy3"/> <имеетПроизводителя rdf:resource="#ВиногрaдникГорaСaнтaКрyз"/> </ВиногрaдКaбернеСовиньон>
Экземпляры «КабернеСовиньон» и «ВиноградКабернеСовиньон» обладают одинаковыми атрибутами и поэтому подобны.
Критерий L 4 §. Ограничить отношения между сущностями можно путем задания области применения (domain) и диапазона (range) соответствующих атрибутов сущностей. Это обстоятельство позволяет сформировать следующий критерий подобия отношений:
если область применения и диапазон двух отношений подобны, то такие отношения подобны ( L4).
Пример 4.
<owl:ObjectProperty rdf:ID="СделaноИзВиногрaдa"> <rdfs:domain rdf:resource="#Вино"/> <rdfs:range rdf:resource="#Виногрaд"/> </owl:ObjectProperty>
<owl:ObjectProperty rdf:ID="ПолyченоИзВиногрaдa"> <rdfs:domain rdf:resource="#Вино"/> <rdfs:range rdf:resource="#Виногрaд"/> </owl:ObjectProperty>
Отношения «СделаноИзВинограда», «ПолученоИзВинограда» имеют одинаковые области применения и диапазоны и поэтому подобны.
2.3. Критерии на основе дескриптивной логики [].
Критерии данного класса охватывают онтологии, которые обладают сложностью, достаточной для их описания дескриптивными логиками [].
Приведем прежде пример дескриптивной логики.
Здесь «умные люди», «книги» и «умный человек» — концепты; «читают» -отношение; «Сергей» - экземпляр. Экземпляр «Сергей» наследует отношение родительского понятия. Тот же пример на языке OWL имеет вид:
< owl:Class rdf:ID= "литература"/>
< owl:Class М^Ю="книги">
<rdfs:subClassOf rdf:resource="#литература"/>
</owl:Class>
<owl:Class М^Ю="умные люди"> <owl:Restriction>
<owl:onProperty rdf:resource="#читают "/> <owl:hasValue rdf:resource = "#книги"/> </owl:Restriction>
</owl:Class>
<owl:Thing rdf:ID="Сергей">
<rdfs:type rdf:resource="#умные люди"/>
</owl:Thing>
Критерий L 5 формируется, исходя из посыла, что подобные концепты с большой вероятностью имеют подобные родительские понятия:
если родительские понятия двух концептов подобны, то сами концепты также подобны (L5).
Пример 5.
<owl:Class rdf:ID="Нaпиток">
<rdfs:subClassOf rdf:resource="#ПродуктПитaния"/> </owl:Class>
<owl:Class rdf:ID="Пищa">
<rdfs:subClassOf rdf:resource="#ПродуктПитaния"/> </owl:Class>
Родительские понятия концептов «Напиток» и «Пища» совпадают, поэтому указанные концепты подобны.
Критерий L 6 § основан на подобии дочерних понятий []:
если дочерние понятия сравниваемых концептов подобны, то эти концепты также подобны (L6).
Пример 6.
<owl: Class rdf: ID="Едa"/> <owl:Class rdf:ID="Пищa"/> <owl:Class rdf:ID="Хлеб">
<rdfs:subClassOf rdf:resource="#Едa"/> <rdfs:subClassOf rdf:resource="#Пищa"/> </owl:Class>
<owl:Class rdf:ID="Мясо">
<rdfs:subClassOf rdf:resource="#Едa"/> <rdfs:subClassOf rdf:resource="#Пищa"/> </owl: Class>
Концепты «Еда» и «Пища» имеют одно и тоже дочернее понятие «Хлеб» и поэтому подобны.
Критерий L 7 § основан на подобии концептов, относящихся к тому же уровню иерархии понятий:
если концепты имеют подобные концепты того же уровня иерархии, то они также подобны (L7).
<сwl:Class ^:Ю="Автомобиль "/> <сwl:Class М^Ю="Машина"/> <сwl:Class М^Ю="Порш "/>
<rdfs:subClassOf rdf:resсurce="#Автомобиль "/>
</сwl:Class>
<сwl:Class М^Ю="Жигули"/>
<rdfs:subClassOf rdf:resource="#Автомобиль "/> <rdfs:subClassOf rdf:resсurce="#Машина"/>
^тЬ.С^ М^Ю="Мерседес "/>
<rdfs:subClassOf rdf:resсurce="#Машина"/> </owl:Class>
Концепты «Порш» и «Мерседес» подобны, поскольку каждый из этих концептов имеет подобный концепт «Жигули» того же уровня (Рис. 1).
Рис. 1. К примеру 7.
Критерии L8 §, L9 § строятся на основе подобия атрибутов дочерних и родительских сущностей:
если подобны атрибуты дочерних сущностей, то атрибуты родительских сущностей также подобны (L8);
если подобны атрибуты родительских сущностей, то атрибуты дочерних сущностей также подобны ( L9).
Пример 8.
<owl:Class rdf:ID="ХарактеристикаВина"/> <owl:Class rdf:ID="ЦветВина">
<rdfs:subClassOf rdf:resource="#ХарактеристикаВина"/>
</owl:Class>
<owl:ObjectProperty rdf:ID="ОбладаетХарактеристикойВина"> <rdfs:domaín rdf:resource="#Вино"/>
<rdfs:range rdf:resource="#ХарактеристикаВина"/> </owl:ObjectProperty>
<owl:ObjectProperty rdf:ID="ИмеетЦвет">
<rdfs:subPropertyOf rdf:resource="#ОбладаетХарактеристикойВина"/> <rdfs:range rdf:resource="#ЦветВина"/>
</owl:ObjectProperty>
<owl:ObjectProperty rdf:ID="ИмеетОттенок">
<rdfs:subPropertyOf rdf:resource="#ОбладаетХарактеристикойВина"/> <rdfs:range rdf:resource="#ЦветВина"/>
</owl:ObjectProperty>
Атрибуты «ИмеетЦвет» и «ИмеетОттенок» подобны, поскольку подобны их родительские атрибуты.
Критерий L10 §. Поскольку, как отмечалось выше, экземпляр представляет собой элемент соответствующего концепта, он наследует все атрибуты этого концепта. Поэтому имеет место следующий критерий подобия []:
если концепты включают в себя подобные экземпляры, то эти концепты подобны ( L10).
Пример 9.
<owl:Class rdf:ID="Автомобиль"/> <owl:Class rdf:ID="Машина"/> <owl:Thíng rdf:ID="ПоршСергея"> <rdfs:type rdf:resource="#Автомобиль"/> <rdfs:type rdf:resource="#машина"/> </owl:Thíng >
<owl:Thíng rdf:ID="МерседесСергея"> <rdfs:type rdf:resource="#Автомобиль"/> <rdfs:type rdf:resource="#Машина"/> </owl: Thíng>
Концепты «Автомобиль» и «Машина» включают в себя одинаковые экземпляры и поэтому подобны.
Критерий L11 $ является обратным по отношению к критерию L10 и записывается в
виде:
если экземпляры принадлежат подобным концептам, то эти экземпляры подобны ( L11).
Пример 10.
<owl:Class rdf:ID="Автомобиль"/>
<owl:Thíng rdf: ID="ПоршСергея">
<rdfs:type rdf:resource="#Автомобиль"/> </owl:Thíng >
<owl:Thíng rdf:ID="МерседесСергея">
<rdfs:type rdf:resource="#Автомобиль"/> </о^1 : Thíng>
Экземпляры «ПоршСергея» и «МерседесСергея» подобны, поскольку принадлежат одному концепту «Автомобиль».
Критерий L12 близок к критерию подобия L10 и формулируется следующим образом:
если концепты имеют схожую малую/большую часть экземпляров, эти понятия подобны ( L12 §).
В отличие от критерия L10, подобие в данном критерии определяется подобием структуры дочерних элементов, а не уровнем подобия самих элементов.
Пример 11.
<owl:Class rdf:ID="Автомобиль"/> <owl:Class rdf:ID="Машина"/> <owl:Thíng rdf:ID="ПоршСергея"> <rdfs:type rdf:resource="#Автомобиль"/> <rdfs:type rdf:resource="#Машина"/> </owl:Thíng >
<owl:Thíng rdf:ID="МерседесСергея"> <rdfs:type rdf:resource="#Автомобиль"/> <rdfs:type rdf:resource="#Машина"/> </owl:Thíng>
<owl:Thíng rdf:ID="ЖигулиСергея">
<rdfs:type rdf:resource="#Машина"/> </owl:Thíng>
<owl:Thíng rdf:ID="ДжипСергея">
<rdfs:type rdf:resource="#Автомобиль"/> </о^1: Thíng>
Концепты «Автомобиль» и «Машина» включают в себя часть одинаковых экземпляров («ПоршСергея», «МерседесСергея») и поэтому подобны.
Критерий L1з имеет следующую формулировку:
если два экземпляра связаны с некоторым другим экземпляром подобными отношениями,
то эти экземпляры подобны ( L13 §).
Пример 12.
<owl:ObjectProperty rdf:ID="РасположенВ">
<rdf:type rdf:resource="&owl;TransítíveProperty"/>
<rdfs:domaín rdf:resource="&owl;Thíng"/> <rdfs:range rdf:resource="#Регион"/> </owl:ObjectProperty>
<Регион rdf:ID="РегионГорыСантаКруз">
<расположенВ rdf:resource="#РегионCША"/> </Регион>
<Регион rdf:ID="РегионКалифорния">
<расположенВ rdf:resource="#РегионCША"/> </Регион>
Экземпляры «РегионГорыСантаКруз» и «РегионКалифорния» связаны с экземпляром «РегионСША» отношением «РасположенВ» и поэтому подобны.
Критерий L14 является обратным по отношению к критерию L1з и формулируется следующим образом:
если некоторое отношение связывает экземпляры с одним и тем же экземпляром, то сравниваемые отношения могут быть подобны ( L14 §).
Пример 13.
<owl:ObjectProperty rdf:ID="РaсположенВ">
<rdf:type rdf:resource="&owl;TransítíveProperty"/> <rdfs:domaín rdf:resource="&owl;Thíng"/> <rdfs:range rdf:resource="#Регион"/> </owl:ObjectProperty>
<owl:ObjectProperty rdf:ID="НaходитсяВ">
<rdf:type rdf:resource="&owl;TransítíveProperty"/> <rdfs:domaín rdf:resource="&owl;Thíng"/> <rdfs:range rdf:resource="#Регион"/> </owl:ObjectProperty>
<Регион rdf:ID="РегионГорыCaнтaКруз">
<расположенВ rdf:resource="#РегионCША"/> </Регион>
<Регион rdf:ID="РегионКaлифорния">
<находитсяВ rdf:resource="#РегионCША"/> </Регион>
Здесь экземпляры «РегионГорыСантаКруз» и «РегионКалифорния» связаны с одним и тем же экземпляром «РегионСША» отношениямим «РасположенВ» и «НаходитсяВ» соответственно. Поэтому указанные отношения подобны.
2.4. Критерии на основе ограничений.
Критерий L15 основан на использовании отношений вида «SameClassAs» и «SameIndividualAs» []:
если две сущности связаны между собой отношением «sаmeClаssAs» или отношением «sameIndividualAs», то эти сущности подобны (L15 §).
<Вино rdf:ID="ЛюбимоеВиноМихаила">
<owl:sameAs rdf:resource="#StGenevíeveТехасскоеБелое"/> </Вино>
Критерий L16 основан на использовании отношений вида «EqшvalentClass», «^и^акПРшреЛу», «SameAs»:
если две сущности связаны между собой отношениями «EqшvаlentClаss», «EqшvalentPrсperty», «SameAs», то эти сущности подобны (L16 §).
Пример 15.
<owl:Class rdf:ID="БелоеВино">
<owl:íntersectíonOf rdf:parseType="Collectíon"> <owl:Class rdf:about="#Вино" /> <owl:Restríctíon>
<owl:onProperty rdf:resource="#ИмеетЦвет"/> <owl:hasValue rdf:resource="#Белое"/> </owl:Restríctíon> </owl:íntersectíonOf> </owl:Class>
<owl:Class rdf:ID="Шампанское">
<owl:íntersectíonOf rdf:parseType="Collectíon"> <owl:Class rdf:about="#Вино"/> <owl:Restríctíon>
<owl:onProperty rdf:resource="#ИмеетЦвет"/> <owl:hasValue rdf:resource="#Белое"/> </owl:Restríctíon> </owl:íntersectíonOf> </owl:Class>
В этом примере «БелоеВино» и «Шампанское» обладают подобными ограничениями («имеетЦвет» «Белое»):
2.5. Критерии на основе правил.
Подобными называются правила, которые имеют подобные условия, а также подобные следствия выполнения правила.
Критерий L 17 имеет вид:
если две сущности связаны между собой подобными правилами, то эти сущности подобны ( L17 §).
Правило Правило Следствие
а). Если ( х2 - брат х1) и ( х3 - отец х2), то ( х2 - отец x1) б). Если ( x2 - сестра и ( x3 -отец x2), то (x2 - отец ^) в. Из а) и б) следует, что отношения «брат» и «сестра» подобны
Этот же пример на языке OWL имеет вид: <ruleml:imp>
<ruleml:_rlab ruleml:href= "#Пример1"/> <ruleml:_body>
<swrlx:individualPropertyAtom swrlx:property= "ИмеетБрата"> <ruleml:var>x1</ruleml:var> <ruleml:var>x2</ruleml:var> </swrlx:individualPropertyA tom >
<swrlx:individualPropertyAtom swrlx:property= "ИмеетОтца"> <ruleml:var>x2</ruleml:var> <ruleml:var>x3</ruleml:var> </swrlx:individualPropertyAtom> </ruleml:_body> <ruleml:_head>
<swrlx:individualPropertyAtom swrlx:property= "ИмеетОтца"> <ruleml:var>x1</ruleml:var> <ruleml:var>x3</ruleml:var> </swrlx:individualPropertyAtom> </ruleml:_head> </ruleml:imp>
<ruleml:imp>
<ruleml:_rlab ruleml:href= "#Пример2"/> <ruleml:_body>
<swrlx:individualPropertyAtom swrlx:property= "ИмеетСестру"> <ruleml:var>x1</ruleml:var> <ruleml:var>x2</ruleml:var> </swrlx:individualPropertyAtom>
<swrlx:individualPropertyAtom swrlx:property= "ИмеетОтца"> <ruleml:var>x2</ruleml:var> <ruleml:var>x3</ruleml:var> </swrlx:individualPropertyAtom> </ruleml:_body> <ruleml:_head>
<swrlx:individualPropertyAtom swrlx:property="ИмеетОтца "> <ruleml:var>x1</ruleml:var> <ruleml:var>x3</ruleml:var> </swrlx:individualPropertyAtom> </ruleml:_head> </ruleml:imp>
Отношения «ИмеетБрата» и «ИмеетСестру» подобны.
2.6. Критерии, учитывающие специфику словаря приложения.
Рассмотренные выше критерии подобия онтологий используют свойства общего определения онтологий. Кроме этого, возможны онтологии, которые используют особый словарь. Если этот словарь строго определен и общедоступен, то он также может быть использован для формирования критериев подобия онтологий.
В качестве примера рассмотрим SWAP-системы [], в которых каждому файлу присваивается уникальный хэш-код. Для таких систем имеют место
критерии L18, L19:
если хэш-коды двух элементов одинаковы, то и элементы подобны ( L18 §); файлы одинакового MIME-type подобны, как минимум, по формату ( L19 §).
2.7. Сводная таблица критериев подобия.
Все 19 рассмотренных критериев подобия онтологий сведены в Табл. 1.
Отметим, что, например, в работе [] рассматривается иная систематизация критериев подобия онтологий, в соответствии с которой выделяется 4 класса таких критериев:
1) лингвистические (терминологические, лексические) критерии;
2) статистические (экстенсиональные) критерии;
3) структурные критерии;
4) логические (формальные, семантические) критерии.
3. Мультикритерии подобия онтологий
Большое количество мультикритериев, построенных на основе рассмотренных критериев подобия онтологий, предложено в работе []. Чаще всего в качестве мультикритерия подобия используется аддитивная свертка критериев L1 § - L19 § - т.е. их взвешенная сумма
__19
^М.к , ) =Х тр^тр , e2,l )§, (1)
Р= 1
где e1kk е 01, e2,l е °2 - сущности онтологий 01, 02, соответственно; тР ^ 0 - весовой коэффициент критерия ^тР .
Таблица 1. Сводка критериев подобия онтологий
Общая формулировка критерия Критерий Что?
Понятий подобны, если подобны <Что?> ^ § метки
L 2§ Ш!
L з§ свойства
L 5 § родительские понятия
L 6§ понятия того же уровня
L 7§ дочерние понятия
^0 § экземпляры
Lll§ выборка экземпляров
Ll5§ отношение «sameAs»
Ll6§ ограничения
^7§ правила
Атрибуты подобны, если подобны <Что?> Ll § метки
L 2 § Ш!
L 4 § область и вектор
L 8 § родительские атрибуты
L 9 § дочерние атрибуты
^4§ связанные экземпляры
Ll5§ отношение «sameAs»
Ll6§ ограничения
L17§ правила
Экземпляры подобны, если подобны <Что?> Ll § метки
L 2 § Ш!
Lll§ родительское понятие
^3 § свойства и экземпляры
Ll5§ отношение «sameAs»
Ll6§ Ограничения
L17§ правила
L18 § хэш-коды
L19 § МГРЕ^уре
Широко известная модификация аддитивной свертки (1) основана на использовании сигмоидальной функции sig(• ) от критериев подобия L1 § - L19 §:
__19
^т2(е1,к , в2,1 ) = \ WpSiS (^тр (в1,к , в2,1)) . (2)
р=1
Здесь sig(x) = ——— $; а > 0 $ - свободный параметр функции. Использование
сигмоидальной функции в критерии подобия (2) позволяет повысить веса критериев, имеющих большие значения, и практически пренебречь критериями с малыми значениями.
Значительный интерес представляет вариант построения мультикритерия подобия на основе обучаемой нейронной сети. Так в работе [] мультикритерий синтезируется с помощью трехслойной персептронной нейронной сети, в которой в скрытом слое используются нейроны с функцией активации типа гиперболический тангенс, а в выходном слое - типа сигмоида.
4. Методы определения уровня отсечения
Как отмечалось выше, сущности e1,k е °, e2J е °2 подобны, если sim(e1k, e2,l) - *, где t - уровень отсечения. В данном разделе рассматриваются методы выбора величины * [].
Метод константы. В этом методе для критерия подобия в качестве уровня
отсечения принимается некоторая константа ^, Ц е [1:19]. Значение этой константы определяется на основе арифметического среднего для величины критерия подобия или на основе экспертных оценок.
Метод допустимой ошибки. Здесь в качестве уровня отсечения принимается разность между максимальным значением критерия подобия и некоторой константой с, определяющей погрешность подобия
^ = тах( ^, ^ ))- сч; " ^ е 01, " ^ е 02; ц е [1:19].
Метод допустимой погрешности. Метод аналогичен предыдущему методу и отличается от него лишь тем, что в качестве константы сЦ используется величина, равная некоторой фиксированной части РЦ е (0,1) от максимального значения критерия подобия:
((el,k, )); " V е 01, " ^г е 02; Ц е [1:19].
Сц = РЧ таХ(V , e2,г ) ; " V ^ 1, " -2,/
Отметим следующее обстоятельство. До сих пор мы рассматривали использование уровня отсечения для отнесения сравниваемых онтологий к одному из двух классов -подобны, не подобны. Естественным расширением данного подхода является полуавтоматический подход, в котором сравниваемые онтологии относятся к одному из трех следующих классов: онтологии подобны; онтологии не подобны; онтологии должны быть классифицированы экспертом.
5. Последовательность действий при отображении онтологий
В процедуре отображения онтологий можно выделить два этапа []:
1) локальное отображение сущностей - независимое установление соответствий между двумя сущностями, рассматриваемых онтологий;
2) глобальное отображение сущностей - пересмотр (пересчет) локальных отображений с учетом отображений всех остальных элементов.
Поскольку многие из рассмотренных критериев подобия двух сущностей основываются на подобии других пар сущностей, вообще говоря, отображение онтологий является итерационным процессом. При этом на первой итерации должен использоваться критерий подобия, который не основывается на других критериях (например, критерий на основе подобия меток L1 §).
В связи с итерационным характером процедуры отображения онтологий возникает вопрос о выборе требуемого количества итераций. Возможны следующие варианты такого выбора:
• количество итераций заранее фиксировано;
• итерации продолжаются до тех пора, пока не прекратятся изменения в отображении;
• итерации продолжаются до тех пора, пока изменения в отображении не станут ниже некоторого заданного порога отсечения;
• итерации продолжаются до тех пора, пока не будут превышены допустимые ресурсы времени и вычислительной мощности.
Из-за итерационного характера процедуры отображения онтологий возникает еще один вопрос: следует ли производить какую-либо обработку результатов данной итерации перед их переносом в следующую итерацию? Здесь можно выделить два подхода. Во-первых, на следующей итерации можно рассматривать только самые лучшие отображения (отображения с самым большим значением соответствующего критерия подобия). Во-вторых, на данной итерации полученные отображения можно ранжировать - лучшему отображению
назначить вес 1, отображению со следующим по значению критерием подобия - вес ^,
следующему отображению - вес 3. Последний подход позволяет с большой вероятностью
сохранить правильные отображения и, в то же время, в случае необходимости заменить эти отображения следующими по уровню соответствия.
В конечном счете, предлагается следующая последовательность итераций при отображении онтологий:
1) Первая итерация выполняется с использованием одного из критериев подобия L1
2) На второй итерации подобие сущностей оценивается с помощью любого из критериев подобия L1 § - L19 §.
3) Выполняется несколько итераций, указанных в п.п. 1, 2. Количество итераций определяется одним из вышеописанных способов. На последней итерации удаляются повторы и пары сущностей, величина подобия которых меньше порога отсечения.
6. Заключение
Известно значительное количество инструментальных средств инженерии онтологий, которые поддерживают те или иные из рассмотренных методов отображения онтологий. Назовем основные из этих средств []:
• PROMPT - дополнение в виде плагина к системе построения онтологий Protégé;
• интерактивный инструмент Chimaera, основанный на редакторе онтологий Ontolingua;
• OntoMerge транслирует исходные онтологии в общее представление на специальном языке;
• OntoMorph определяет набор операторов преобразования, которые можно применить к онтологии;
• OBSERVER объединяет онтологии с информацией об отображении между ними и находит синонимы в исходных онтологиях;
• ONION базируется на алгебре онтологии и предоставляет инструменты для определения правил артикуляции (соединения) между онтологиями.
Библиография
1. Овдий О.М., Проскудина Г.Ю. Обзор инструментов инженерии онтологий. -http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2004/part4/op
2. Карпенко А.П., Соколов Н.К. Контроль понятийных знаний субъекта обучения с помощью когнитивных карт. // Управление качеством инженерного образования и инновационные образовательные технологии. Сборник докладов Международной научно-методической конференции, 28-30 октября 2008 г. -М.:МГТУ им. Н.Э.Баумана, 2008, Ч.2, с. 55-57.
3. Кудрявцев Д.В., Григорьев Л.П. Организационное моделирование на основе онтологий: от бизнеса к государству. // Труды Х Российской научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями», 17-18 апреля 2007 г., Москва. - с. 151-156.
4. Скворцов Н.А. и др. Проектирование персонализованных информационных ресурсов над WEB-сайтами со слабоструктурированными данными. -
http://synthesis.ipi.ac.ru/sigmod/seminar/s20000127
5. M. Ehrig, Y. Sure. An Ontology Mapping - An Integrated Approach. // The semantic web: Research and applications. - Berlin, Springer, 2004, pp. 3-13.
6. OWL. Web Ontology Language Semantics and Abstract Syntax. P. F. Patel-Schneider. P . Hayes. I. Horrocks. Editors. -Рекомендация W3C, 2004.
7. G. Bisson. Why and how to define a similarity measure for object based representation systems. // Towards Very Large Knowledge Bases. - The Netherlands, IOS Press, 1995, pp. 236-246.
8. X. Su. A text categorization perspective for ontology mapping. - Technical report, Department of Computer and Information Science, Norwegian University of Science and Technology, Norway, 2002.
9. Википедия, http ://en . wikipedia. org/wiki/Edit_distance
10. Википедия, http://ru . wikipedia. org/wiki/URI
11. http://www.w3.org/TR/2004/REC-owl-guide-20040210/wine
12. M. R. Quillan. Word concepts: A theory and simulation of some basic capabilities. // Behavioral Science, 1967, 12, pp.410-430.
13. Википедия, http://en.wikipedia.org/wiki/Description_logic
14. A. Maedche, B. Motik, N. Silva, R. Volz. Mafra - a mapping framework for distributed ontology's. // Proceedings of the EKAW 2002, 2002, pp.2-8.
15. A. H. Doan, Ja. Madhavan, P. Domingos, A. Halevy. Learning to map between ontology's on the semantic web. // Proceedings to the Eleventh International World Wide Web Conference, Honolulu, Hawaii, USA, May 2002, pp.3-9.
16. http://swap.semanticweb.org
17. H. Do, E. Rahm. COMA - a system for flexible combination of schema matching approaches. // Proceedings of the 28th VLDB Conference, Hong Kong, China, 2002, pp. 2-7.