Научная статья на тему 'Создание «Онтологии всего». Проблемы классификации и решения'

Создание «Онтологии всего». Проблемы классификации и решения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1084
384
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Волкова Г. А.

В работе рассматриваются основные проблемы, возникающие при построении онтологий слабо формализуемых предметных областей и онтологий общего назначения. Обобщая мировой опыт создания онтологий общего назначения, можно выделить общие классификационные признаки, по которым должна производиться систематизация знаний о реальном мире. Наряду с ними, предлагается подход к формированию универсальной системы классификации понятий, основанный на анализе результатов синтаксического анализа больших корпусов текстов на естественном языке.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Создание «Онтологии всего». Проблемы классификации и решения»

Создание «онтологии всего».

Проблемы классификации и решения

Г. А. Волкова МИЭМНИУВШЭ, Кафедра ИТАС

Аннотация. В работе рассматриваются основные проблемы, возникающие при построении онтологий слабо формализуемых предметных областей и онтологий общего назначения. Обобщая мировой опыт создания онтологий общего назначения, можно выделить общие классификационные признаки, по которым должна производиться систематизация знаний о реальном мире. Наряду с ними, предлагается подход к формированию универсальной системы классификации понятий, основанный на анализе результатов синтаксического анализа больших корпусов текстов на естественном языке.

«Сложные онтологии»

Согласно общепринятому определению «предметной области» [14], под

термином понимается совокупность всех предметов, свойства которых и отношения между которыми рассматриваются в научной теории. При наличии некой научной теории мы можем получить перечень понятий, которые являются ключевыми для некоторой предметной области. Для этого можно воспользоваться уже существующими терминологическими словарями, глоссариями, тезаурусами и проч. Таким образом, основываясь на существующей терминологии и отношениях, которые определены для рассматриваемой предметной области, при построении онтологии предметных областей задача классификации понятий частично решена еще на начальном этапе ее создания. Иначе дела обстоят с онтологиями верхнего уровня, которые содер ат наиболее общие понятия всего реально мира, не относящиеся к строго ограниченному домену.

Стоит отметь, что термин «предметная область» для онтологии носит весьма условный характер. Существует принципиальная разница, например, ме ду предметными областями «химические элементы» и «государственные закупки». В первом случае мы имеем дело с хорошо формализованной областью знаний: 118 химических элементов по состоянию на 2012 год, расположенных по определенным правилам в таблице Менделеева. Во втором - с совокупностью всех товаров и услуг, за которые платит государство. По сути, предметная область для онтологии - это способ выделения из всего реального мира только тех понятий и отношений, которые необходимы для решения некой задачи. Ограничение «то, что продается» относится скорее к свойству сущности, входящий в некоторый концепт, чем к самостоятельному классификационному признаку, и не мо ет дол ным образом ограничить сущности реального мира. В связи с этим, онтология химических элементов, безусловно, -онтология предметной области с явным ограничением сущностей реального мира. В случае онтологии государственных закупок задача сводится в первую очередь не к созданию обширной таксономии понятий, а к построению онтологии верхнего уровня, которая будет представлять собой систему классификации понятий. И, пожалуй, самую обширную предметную область (домен) описывают «онтологии здравого смысла», целью создания которых служит концептуализация знаний обо всем реальном мире без каких либо ограничений.

Очевидно, что сло ность построения онтологии в зависимости от домена заключается не в том, сколько понятий предметной области следует связать посредством таксономии, а насколько хорошо формализована эта предметная

область, легко ли будет определить, относится ли некоторое понятие к интересующей предметной области и целесообразно ли его внесение в создаваемую онтологию. Границы предметной области «химические элементы» вполне конкретны, и «детские качели» к ней не относятся. В случае государственных закупок вопрос не настолько тривиален, т.к. ясно, что качели мо но купить, но неизвестно, покупает ли их государство в текущий период времени и будет ли покупать в дальнейшем.

Мы подошли к следующей проблеме, возникающей при проектировании онтологий слабо формализованных предметных областей, а именно, необходимой функциональной полноте и минимальности создаваемой онтологии. Для предметной области с четко определенными границами возмо но построение полноценной онтологии верхнего уровня, поскольку у е на этапе создания известно, как будет развиваться данная предметная область, поэтому необходимо предусмотреть только возможность вертикального расширения онтологии, т.е. пополнение ее подчиненными концептами и экземплярами. В случае государственных закупок, или любой другой предметной области, для которой сло но предсказать расширение, целесообразно создание наиболее универсальной онтологии верхнего уровня, которая дала бы возможность помимо вертикального расширения осуществлять также и горизонтальное, т.е. необходимо предусмотреть возможность расширения самой предметной области, а не пополнение существующей новыми сущностями.

Для многих предметных областей актуально создание аппарата автоматического пополнения онтологии из открытых источников информации. В зависимости от условий дальнейшего использования онтологии это мо ет быть Интернет, или е внутренний репозиторий документов предприятия. В случае пополнения из Интернет актуально создание многоязычной онтологии, ориентированной на представление знаний на нескольких языках. Сло ность создания таких онтологий заключается в различии понятийных систем естественных языков, с которыми предполагается работать.[19]

Помимо характеристики предметной области, онтологии могут отличаться по количеству используемых элементов и типов отношений. Так, Э. Хови называет «терминологическими» онтологии, включающие сущности, явления, свойства, связи предметной области и объединяющие их структурные отношения, а «настоящими онтологиями» только онтологии, содер ащие дефиниционные отношения, отношения дополнительной информации, взаимосвязи между отношениями и аксиомы [5]. В зависимости от количества включаемых элементов трудоемкость создания онтологий для одной и той е предметной области мо ет разительно отличатся.

Проблемы построения онтологий общего назначения

Термин «онтология верхнего уровня» мо ет трактоваться по-разному: зачастую под ним понимается некая онтология, содер ащая наиболее общие понятия предметной области и создаваемая на первоначальном этапе для их классификации. Так, в своей методологии построения онтологий Усколд и Кинг указывают на необходимость создания метаонтологии для описания таких фундаментальных концептов, как сущности, отношения и исполнители [12]. Методология создавалась для построения бизнес-онтологий, в связи с чем не может быть универсальной. Так, введение метапонятия «исполнитель» оправдано только для бизнес-онтологий, поскольку связано с теорией активностей [17].

Существует и другой подход, при котором под «онтологией верхнего уровня» понимается систематизация знаний о реальном мире безотносительно к конкретного

домену. Такие онтологии называют «онтологиями общего назначения» или «здравого смысла». Возвращаясь к «онтологии госзакупок», следует отметить, что по сути такая онтология может быть также отнесена к онтологиям общего назначения, поскольку границы предметной области слабо определены.

При построении онтологий общего назначения существует несколько основных проблем, связанных с ее предполагаемой обширностью.

• Не существует очевидного способа классификации понятий реального мира и выделения базисных понятий. К тому же, любая классификация, в силу того, что она определяется только лишь мнением разработчиков онтологии, мо ет быть оспорена. Наиболее распространенным подходом к классификации понятий в онтологиях верхнего уровня является использование философского понятийного аппарата, а именно метафизики [15]. Данный факт обусловлен относительной универсальностью философских категорий и их общепринятостью, что гарантирует онтологии, как минимум, критерий ясности. Но и такой подход ставится под сомнение [10].

• Не существует объективных способов оценки создаваемой онтологии. Поскольку для онтологии общего назначения основным критерием является ее универсальность, классические приемы оценки полноты, такие как формирование «вопросов компетенции» [16], являются задачей соизмеримой по сложности с построением «онтологии всего, что есть на свете».

• Нет общепринятой точки зрения на то, какова мо ет быть глубина создаваемой онтологии, т.е. нет критерия, по которому некоторое понятие мо ет присутствовать в онтологии общего назначения, а некоторое у е дол но быть отнесено к онтологии определенной предметной области. Например, пирамида знаний TOVE [3] состоит из уровня общих знаний (активности, процессы, ресурсы, время, причины) и уровня, специфичного для бизнеса (цена, качество, оргструктура и др.). В этой связи неясно, мо но ли считать всю пирамиду TOVE онтологией общего назначения, или е оправдано называть ею только уровень общих знаний.

• К онтологиям общего назначения не применим экспертный подход (ad hoc), т.к. не существует критериев, по которым мо но было бы выделить «экспертов здравого смысла».

• Существует сложность в корреляции слов естественного языка и интеллектуальных понятий, поскольку зачастую определение смысла слова зависит от контекста, в том числе и социального.

Принципы классификации в онтологиях общего назначения - дорогу осилит идущий

Тем не менее, на данный момент у е создано около полутора десятков онтологий верхнего уровня, которые обширно используются на практике [20]. Одна из них - онтология BFO [1] - создавалась как верхний уровень для доменных онтологий в сфере науки. В ее основе ле ит концепция разделения онтологии на статическую и динамическую части. При этом онтология претендует на спецификацию знаний о самой реальности, а не представлений о реальности. Такой подход позволяет описывать элементы онтологии на разных уровнях детализации и в разных контекстах, т.е. один и тот е объект мо ет рассматриваться как целостный или как совокупность других объектов, и в то е время, он мо ет быть статическим и динамическим в зависимости от выбранного «угла зрения». Универсальность представления знаний подтвер дается и тем фактом, что материальные объекты онтологии не обязательно дол ны иметь четкие физические границы, например,

возмо но существование не только понятия «человек», как целостного объекта социальных отношений и человека как сущности, включающей в себя все органы, но и «ни ней левой части человеческого тела».

Онтология SUMO [11] принадлежит IEEE и преследует цель интеграции существующих онтологий в единую структуру, которая имела бы статус универсального стандарта [9]. Для связи SUMO с отраслевыми онтологиями разработана онтология среднего уровня MILO (Mid-Level Ontology). Как и многие другие онтологии верхнего уровня [15] в онтологии реализована категоризация понятий на основе философского понятийного аппарата: вершиной является понятие «Сущность», сущности разделяются на физические и абстрактные, и так далее. Но как говорилось выше, классификация понятий SUMO мо ет быть легко оспорена: совершено не ясно, почему понятие «еда» находится на столь высоко уровне иерархии, но не введен классификационный признак «съедобное/несъедобное», как это было сделано в случае «мокрое/сухое». Также вызывает сомнение наличие в иерархии физических объектов двух понятий «Группа», одного в ветви «Коллекция», а другого в ветви «Агент». Интересен подход создателей к ограничению количества понятий онтологии верхнего уровня: установлен порог в 1000 понятий, если возникает необходимость введения нового метапонятия, то понятие ни него уровня переносится в соответствующую онтологию предметной области.

В онтологию YAMATO [7] помимо разделения на «физическое» и «абстрактное», введено понятие «полу-абстрактное». Классификация понятий верхнего уровня основана на двух классификационных признаках: «необходимости места существования» и «необходимости времени существования». Так, абстрактным сущностям для существования нет необходимости иметь ни места, ни времени, физические сущности обязаны иметь и то, и другое, а полу-абстрактные только время. Создатели онтологии утвер дают, что не существует таких сущностей, которым необходимо было бы только место [8].

Самый верхний концепт «Сущность» в онтологии DOLCE [13] подразделяется на «Статическое», «Динамическое», «Качество» и «Абстрактное». Интересно, что в онтологии DOLCE не введен наряду с понятием «абстрактное» метаконцепт «физическое», хотя классификационный признак «физическое/абстрактное» в онтологии присутствует явно, поскольку введена пара понятий «Физическое качество» - «Абстрактное статическое». В то е время «Статическое» подразделяется на «Физическое статическое» и «Нефизическое статическое». Можно сделать вывод, что в онтологии DOLCE «Абстрактное» не является явной противополо ностью «Физического», что не характерно для вышеописанных онтологий верхнего уровня. Существуют и другие спорные моменты [21]

Рассмотренные выше онтологии создавались на основе композиционной гипотезы, т.е. вводился минимальный набор базовых понятий, и предполагалось, что все другие понятия мо но рассматривать как композицию понятий, у е присутствующих в онтологии. Очевидно, что при таком подходе онтология удовлетворяет критерию минимальности.

Существует так е другой подход к построению онтологий общего назначения, ориентированный на полноту онтологии, т.е. занесение максимально возможного количества понятий. Такая точка зрения свойственна, например, создателям WordNet [6]. При создании WordNet были использованы следующие принципы: любая компонента естественного языка могла рассматриваться отдельно от всех остальных и быть обособленным предметом исследования, и утвер далось, что существует

такое формальное описание слов, которое мо ет быть применено к большинству слов языка. Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синонимический ряд («синсеты»), объединяющий слова со схо им значением и по сути своей являющимися узлами семантической сети. Существует русскоязычная версия WordNet, где переведено около половины синсетов, но их описания остались на английском [22].

Другим примером может служить ConceptNet [2], представляющий собой в отличие от WordNet, многоязычную онтологию, охватывающую английский, китайский, португальский, японский, датский, венгерский, французский, испанский и другие языки. Примечательно, что ConceptNet содер ит концепты и на русском языке. Аналогичным ресурсом является FREEBASE [4], коллаборативная база знаний, основанная на т.н. фолксономии1. FREEBASE содержит около 23 миллионов сущностей на английском языке, и по классификации понятий ориентирована на Интернет-сообщество, ее пополняющее.

Разница в подходах к построению обусловлена целью создания онтологии. Онтологии BFO, SUMO и др. создавались в первую очередь для систематизации данных, в то время как для WordNet и ConceptNet основополагающей идеей было создание словарей очень большой величины для использования в прило ениях автоматической обработки текстов.

Классификация понятий в слабо формализуемых предметных областях

Одной из основных задач при построении онтологии общего назначения является первичная классификация объектов реального мира, которая слу ит базисом для наполнения онтологии. Поэтому для построения таких онтологий необходимо в первую очередь разработать систему классификационных признаков. Обобщая опыт создания подобных онтологий, мо но выделить наиболее универсальные классификационные признаки:

1. По признаку существования в материальном мире - на «Материальное» и

«Нематериальное»;

2 2 . По степени абстракции - на «Абстрактное» и «Физическое»;

3. По композиционному признаку - на «Единичное» и «Множество»;

4. По возможности декомпозиции - на «Целостное» и «Составное»;

5. По признаку зависимости от других элементов онтологии - на «Обособленное» и «Зависимое»;

6. По возмо ности совершения собственной деятельности - на «Объект» и «Агент» («Субъект»);

7. По признаку нахо дения в покое и равновесии - на «Статическое» и «Динамическое»;

8. По продол ительности - на «Мгновенье» и «Временной интервал».

К наиболее универсальным понятиям мо но отнести «сущность», «роль», «отношение», «процесс», «событие», «качество», «количество», «причина»,

«следствие», «изменение» и др. При этом понятие «Сущность» дол но обозначать все, что представлено в создаваемой онтологии и является вершиной таксономии.

1 Неологизм, обозначающий практику совместной категоризации посредством произвольно выбираемых ключевых слов.

2 Как отмечалось ранее, признак не мо жет считаться универсальным.

Фактически, приведенный выше перечень классификационных признаков определяет свойства самого верхнего концепта «Сущность». Подобный метод построения онтологии на основе многоаспектной классификации понятий подробно описывается в [21]. Согласно данному методу для каждого базового обособленного концепта онтологии формируется перечень свойств с перечислением их возмо ных значений. Свойства в дальнейшем выступают в качестве классификационных признаков, и каждое допустимое значение свойства задает подчиненное понятие. Таким образом, онтология естественным образом пополняется за счет введения новых свойств объектов.

С другой стороны, данный подход имеет существенный недостаток: в иерархию могут быть включены любые наименования признаков, в том числе и числовые, поэтому узлы таксономии не могут рассматриваться как базовые понятия реального мира. Например, для сущности «млекопитающее» может быть введено свойство «количество конечностей, используемых при перемещении». Тогда для присоединения к таксономии понятия «человек» необходимо определить подчиненный класс «млекопитающее, у которого количество конечностей, используемых при перемещении, равно двум». Для онтологии общего назначения введение подобного класса не приемлемо, поскольку он не является универсальным.

Система классификации на основе синтаксического разбора текстов

Первым этапом метода многоаспектной классификации является определение вершины таксономии, для которой выделяются первичные классификационные признаки. Но возмо ен и более абстрактный подход, при котором изначально формируется система классификации, и у е на ее основе выделяются понятия.

Для построения системы классификации предлагается основываться на результатах синтаксического разбора текстов на естественном языке. Поскольку стоит задача построения онтологии общего назначения, в качестве исходных данных целесообразно использовать как мо но больше текстовых материалов, относящихся к как мо но большему количеству предметных областей. В связи с этим для опытной проверки данного подхода были использованы результаты синтаксического анализа корпуса текстов на основе библиотеки Мошкова (более 600 млн. слов) и корпуса новостных текстов различной направленности (Лента.ру, РИА Новости, РБК и другие) общим объемом более 400 млн. слов [18].

Результаты кластеризации представляли собой группы терминов, выделенных автоматически на основе анализа исходных данных: { АВТОМОБИЛИЗАЦИЯ; ХИМИЗАЦИЯ }, { АГРЕССИЯ; ВТОРЖЕНИЕ; НАПАДЕНИЕ; НАСИЛИЕ;

НАСТУПЛЕНИЕ; НАШЕСТВИЕ; СТОЛКНОВЕНИЕ; СТЫЧКА; СХВАТКА; УБИЙСТВО; ШТУРМ } и т.п. При построении системы классификации для каждого кластера определялся один классификационный признак, объединяющий все его термины. Например, для кластера { АВТОМОБИЛИЗАЦИЯ; ХИМИЗАЦИЯ} основным объединяющим свойством мо но считать внедрение новой технологии, { АГРЕССИЯ; ВТОРЖЕНИЕ; НАПАДЕНИЕ; НАСИЛИЕ; НАСТУПЛЕНИЕ; НАШЕСТВИЕ; СТОЛКНОВЕНИЕ; СТЫЧКА; СХВАТКА; УБИЙСТВО; ШТУРМ} представляет собой некий процесс, носящий разрушительный характер.

Для формирования полноценной системы классификации ка дому объединяющему свойству необходимо привести в соответствие свойство-антогонист. Методом обобщения для кластера { АВТОМОБИЛИЗАЦИЯ; ХИМИЗАЦИЯ } мы получаем классификационный признак «Усовершенствование/Застой», для кластера {

АГРЕССИЯ; ВТОРЖЕНИЕ; НАПАДЕНИЕ; НАСИЛИЕ; НАСТУПЛЕНИЕ; НАШЕСТВИЕ; СТОЛКНОВЕНИЕ; СТЫЧКА; СХВАТКА; УБИЙСТВО; ШТУРМ } -«Разрушительное/Созидательное». Таким образом, мы получили достаточно универсальные классификационные признаки для построения онтологии общего назначения, ка дый из которых мо ет рассматриваться как базовое понятие реального мира.

Выводы

Создание системы классификации понятий является приоритетной задачей при построении онтологий для слабо формализуемых предметных областей. При наполнении таких онтологий следует отталкиваться от наиболее общих классификационных признаков, которые сами могут быть рассмотрены как базовые понятия реального мира. Для достижения последовательности представления и полноты онтологии предлагается формировать систему классификации понятий на первом этапе создания онтологии, и наполнять ее понятиями согласно выделенным классификационным признаком.

Система классификации так е как и сама онтология дол на обладать как мо но большей универсальностью. Для того чтобы классификация была более объективной, мо но использовать результаты синтаксического анализа больших корпусов текстов различной тематики.

Список литературы

1. Basic Formal Ontology, BFO [Электронный ресурс]. — Режим доступа: http ://www. ifomi s. org/bfo/

2. ConceptNet [Электронный ресурс]. — Режим доступа:

http://conceptnet5.media.mit.edu/

3. Fox M.S., Chionglo J.C., Fadel F.G. A Common-Sense Model of the Enterprise, in 2nd IE Research Conference Proceedings, May 1993, Los Angeles, CA, 1993.

4. Freebase [Электронный ресурс]. — Режим доступа: http://www.freebase.com/

5. Hovy E. A Standard for Large Ontologies [Электронный ресурс]. — Режим доступа: http://www.isi.edu/nsf/papers/hovy2.htm.

6. Miller G. A., Beckwith R., Fellbaum C., Gross D., Miller K.J. Introduction to WordNet: an on-line lexical database. // International Journal of Lexicography 3 (4), 1990, pp. 235 - 244.

7. Mizoguchi R. YAMATO: Yet Another Advanced Top-level Ontology. Draft as of March 17 2010 [Электронный ресурс]. — Режим доступа: http://www.ei.sanken.osaka-

u.ac .jp/hozo/onto_library/upperOnto.htm.

8. Mizoguchi R. YAMATO: Yet Another More Advanced Top-level Ontology / The Institute of Scientific and Industrial Research Osaka University 8-1 Mihogaoka, Ibaraki, Osaka 567-0047, Japan

9. Niles, I., Pease, A. 2001. Towards a Standard Upper Ontology. // Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001); под ред. Welty C., Smith B - Ogunquit (USA) - 2001

10. Nirenburg S., Raskin V.Ontological Semantics. Cambridge, MA, 2004.

11. Ontology portal [Электронный ресурс]. — Режим доступа:

http://www.ontologyportal.org/.

12. Uschold M., King M., Moralee S., Zorgios Y. The Enterprise Ontology. Enterprise Project Deliverable: MID 3.1, Version 1.1, 1995.

13. WonderWeb project [Электронный ресурс]. — Ре им доступа:

http://www.loa.istc.cnr.it/DOLCE.html.

14. Большой энциклопедический словарь [Электронный ресурс]. — Ре им доступа: http://www.vedu.ru/BigEncDic/.

15. Волкова Г.А. Обзор методологий и методов построения онтологий с чистого листа // Материалы 3-й международной научно-практической конференции «Модель подготовки специалистов новой формации, адаптированных к инновационному развитию отраслей» (Душанбе, РТ, 2-3 ноября 2012 г.).

16. Гурьянова, М. А. Онтологическое моделирование экономики предприятий и отраслей современной России: Часть 2. Мировые исследования и разработки: аналитический обзор: препринт WP7/2011/08 (ч. 2) [Текст] / М.А. Гурьянова, И.В. Ефименко, В.Ф. Хорошевский; Нац. исслед. ун-т «Высшая школа экономики». - М.: Изд. дом Высшей школы экономики, 2011. - 88 с.

17. Ефименко, И. В., Хорошевский, В. Ф. Онтологическое моделирование экономики предприятий и отраслей современной России: Часть 1. Онтологическое моделирование: подходы, модели, методы, средства, решения: препринт WP7/2011/08 (ч. 1) [Текст] / И. В. Ефименко, В. Ф. Хорошевский; Нац. исслед. ун-т «Высшая школа экономики». - М.: Изд. дом Высшей школы экономики, 2011. - 76 с.

18. Клышинский Э.С., Кочеткова Н.А. Метод автоматической генерации модели управления глаголов русского языка / Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия). Том 2 [Электронный ресурс]. — Режим доступа: http://publications.hse.ru/chapters/66264822/

19. Митрофанова О.А., Константинова Н.С. Онтологии как системы хранения

и I т~ч и и \j и

знаний / Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению "Информационно-телекоммуникационные системы”, 2008. - 54 с.

20. Пивоварова Л.М. Онтологии верхнего уровня (обзор) // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 19 - 22 октября 2010 г. / Под ред. В.Ш. Рубашкина. — СПб., 2010. — 94 с.

21. Рубашкин В. Ш., Пивоварова Л. М. Методология наполнения онтологий —

практика без теории? // Труды Второго Симпозиума «Онтологическое

моделирование», г. Казань, 11-12 октября 2010 г. Ред. Калиниченко Л. А. — М: ИПИ РАН, 2011.

22. Русский Wordnet [Электронный ресурс]. — Ре им доступа:

http://www.wordnet.ru/

i Надоели баннеры? Вы всегда можете отключить рекламу.