УДК 004.622
А.А. Сытник, Н.С. Вагарина, Н.И. Мельникова ОНТОЛОГИЧЕСКОЕ ОПИСАНИЕ МУЛЬТИМЕДИЙНЫХ РЕСУРСОВ В КОНТЕКСТЕ ТЕХНОЛОГИЙ СЕМАНТИЧЕСКОГО ВЕБ
Рассматриваются формальные представления некоторых существующих подходов к описанию моделей метаданных мультимедиа информации в контексте технологий семантического Веб. Рассмотрены примеры мультимедийных онтологий всех трех уровней - верхнего уровня (upper), средней зоны (core) и онтологии предметных областей (domain ontology).
Форматы мультимедиа, мультимедийные онтологии, предметные онтологии, семантическое описание мультимедиа
A.A. Sytnik, N.S. Vagarina, N.I. Melnikova ONTOLOGICAL DESCRIPTION OF MULTIMEDIA IN THE CONTEXT OF THE SEMANTIC WEB
The article gives a general overview of the existing approaches to the description of multimedia metadata models in the context of Semantic Web technologies. There are
examples of multimedia ontologies for all the three levels: the upper level (upper), the middle zone (core) and the domain ontologies.
Multimedia formats, multimedia ontology, domain ontologies, semantic description of multimedia
Разработчики различных форматов мультимедиа информации предлагают различные разметки для описания и осуществления поиска медиаинформации по различным критериям. Например, технология MusicDNA использует MPEG-7 и предусматривает наличие у музыкального файла 14 дескрипторов, которые могут хранить атрибуты такого характера, как темп, инструментовка, тональность и даже цвет. Таким образом, существуют независимые методы метаописаний информации одинаковой природы, интеграция которых возможна на базе онтологий, которые предоставляют всеобъемлющее единое описание предметных областей, являясь универсальной платформой реализации принципов семантического веба.
Рассмотрим некоторые формально описанные онтологии.
1. VRA - RDF/OWL
RDF/OWL Representation of VRA [1]. Ассоциация визуальных ресурсов (VRA) является организацией, состоящей из более чем 600 активных членов, включая многие американские университеты, художественные галереи и институты, работающие с большими коллекциями аннотируемых слайдов, изображений и других представлений произведений искусства. VRA работает над созданием стандартов для описания изображений с 1980-х гг. Для описания таких мультимедийных коллекций VRA определила Основные Категории VRA (VRA Core Categories) [2]. Они представляют собой ряд элементов метаданных. Набор элементов VRA содержит две группы элементов: категории описания объекта (Work Description Categories, 19 элементов) и категории описания визуального документа (Visual Document Description Categories, 9 элементов). Объект с точки зрения VRA представляет собой физическую сущность, т.е. то, что существует или существовало какое-то время в прошлом и чье изображение может быть сохранено в физической форме в качестве визуального документа оригинального объекта. Объектами могут быть произведения искусства, архитектуры, любые объекты из любых материалов и пр. Категории описания объекта включают тип, название, измерения, материал, технику, автора, роль, дату, имя репозитория и его местоположение, инвентарный номер, текущее положение, исходное положение, стиль, период, группу, связанные работы, дополнительные замечания и пр. Визуальный документ - это изображение, запечатлевшее объект, оно может существовать в разных форматах, включая фотографию или электронную форму. С одним объектом могут быть ассоциированы несколько визуальных документов. Категории для их описания включают тип, формат, дату, владельца, описание внешнего вида, источник и пр. Использование RDF/OWL представления VRA описано в проекте документа Консорциума Всемирной паутины (World Wide Web Consortium, W3C) -RDF/OWL Representation of VRA [3]. Это попытка описать использование RDF/OWL-представления для Основных Категорий VRA (Core Categories) с целью использования VRA для интеграции коллекций мультимедийных данных (произведений искусства и их изображений) различных учреждений друг с другом.
2. Exif - RDF/OWL
Один из наиболее широко применяемых сегодня форматов для цифровых изображений - Exif. EXIF (Exchangeable Image File Format) позволяет добавлять к изображениям и прочим медиафайлам дополнительную информацию (метаданные), комментирующую этот файл, описывающий условия и способы его получения, авторство и т. П. Получил широкое распространение в связи с появлением цифровых фотокамер. Информация, записанная в этом формате, может использоваться как пользователем, так и различными устройствами, например, принтером. Стандарт EXIF является чрезвычайно гибким (например, позволяет сохранить полученные с приёмника GPS координаты места съёмки) и допускает широкое развитие - как правило, фотоаппараты добавляют к файлу информацию, специфичную только для данной конкретной камеры. Правильно интерпретировать такую информацию могут только программы от изготовителя фотоаппарата. Разработчик формата - Japan Electronics and Information Technology Association (JEITA). EXIF является частью более широкого стандарта DCF.
Относительно недавно были сделаны попытки представить тэги метаданных EXIF в виде RDFS онтологий. Существует два подхода очень близких по сути подхода:
- Kanzaki EXIF RDF-схема, которая была предложена Masahide Kanzaki (http://www.kanzaki.com/), исследователем и разработчиком Семантического Веб, автором нескольких веб-онтологий, таких как Музыкальный Словарь и Словарь Exif. Данный подход обеспечивает преобразование основных тегов метаданных EXIF в RDF-схему. При этом метаданные EXIF извлекаются из изображений и автоматически отображаются в их RDF-представление. Описание представления формата Exif с использованием RDF схемы приведено в документе Exif vocabulary workspace - RDF Schema [4].
- Norm Walsh EXIF RDF-схема предлагает другое кодирование тегов метаданных EXIF в RDF-схему. N. Walsh использует возможности java-приложения JPEGRDF, которое обеспечивает API для чтения и управления метаданными, сохраненными в jpeg формате (http://nwalsh.com/java/jpegrdf/).
3. DIG35 - RDF/OWL
DIG35 [5] - стандарт метаданных для цифровых изображений. Спецификация DIG35 включает стандартный набор метаданных для цифровых изображений, который способствует расширяемости и взаимодействию метаданных между различными цифровыми устройствами отображения. Спецификация DIG35 распространяется за плату ($35). Формальное представление формата - DIG35 OWL Ontology [6].
4. MPEG-7 - RDF/OWL
MPEG-7 - стандарт ISO/IEC, разработанный Moving Picture Experts Group (MPEG) - автором всех известных MPEG - стандартов (MPEG-1, MPEG-2, MPEG-4). MPEG-7 стандартизирует описание различных типов мультимедиа-информации. Описания ассоциированы с мультимедиа-контентом, тем самым позволяя производить удобный ассоциативный поиск. Кроме стандартизации описаний предопределенных типов контента, MPEG-7 стандартизует механизм создания подобных описаний. Мультимедиа-контент может содержать следующие типы информации: изображения (растровые статические изображения, векторную графику), 3D-модели, аудио, речь, видео, а также информацию о комбинации элементов этих типов в едином мультимедиа-потоке или презентации (в виде своеобразных сценариев). Главной областью применения и позиционирования MPEG-7 является сеть Интернет. Одной из структурных составляющих MPEG-7 является схема описания мультимедиа (MDS), которая включает набор дескрипторных средств, работающих с мультимедиа-элементами в целом. Данные средства могут быть разделены на следующие составляющие:
— описание контента: представление воспринимаемой информации;
— управление контентом: информация о свойствах, создании и использовании аудиовизуального контента;
— организация контента: представление анализа и классификации различных аудиовизуальных составляющих контента;
— навигация и доступ: обобщенная спецификация составляющих аудиовизуального контента;
— взаимодействие с пользователем: описание пользовательских настроек и истории использования мультимедиа-материала.
Для MPEG-7 не существует общепризнанного представления в виде RDF/OWL. Однако, начиная с 2001 года, ведутся исследования, и идет разработка методов формализации MPEG-7 на основе онтологий. В настоящее время в Семантическом веб используются четыре основные онтологии, формализующие формат MPEG-7 [7].
4.1. MPEG-7 Upper MDS Ontology Хантер
В 2001 Хантер предложил начальный ручной перевод MPEG-7 в RDFS и обосновал необходимость этого для использования формального описания MPEG-7 в рамках Семантического Веб. Эта онтология была переведена на язык OWL. Текущая версия этой OWL-онтологии содержит классы, определяющие типы медиаинформации (аудио, аудиовизуальная, видео и пр.) и элементы схемы описания мультимедиа (MDS). Кроме того, определены дескрипторы для описания сведений о производстве и создании, использовании, структуре и другой медиаинформации. Просматривать данную онтологию можно средствами редактора Protege (protege.stanford.edu). Онтология Хантер обычно применяется для декомпозиции изображений и их визуальных дескрипторов для использования в больших семантических структурах. Чаще всего онтология Хантер применяется в соединении с моделью метаданных ABC. ABC - концептуальная модель для облегчения интероперабельности между онтологиями метаданных в различных предметных областях [8]. В подходе, предложенном Хантер, онтология ABC используется в качестве основы, ядра для обеспечения интеграции mpeg7 и специфических онтологий предметных областей. Более определенно класс mpeg7:MultimediaContent определяется как подкласс класса abc:Manifestation класса, с которым в свою очередь связаны понятия из онтологии предметной области. Кроме ABC, онтология Хантер может быть согласована с другими онтологиями верхнего уровня, например SUMO [9] или DOLCE [10]. Онтология SUMO претендует на статус стандарта онтологий верхнего уровня. Она содержит наиболее общие и самые абстрактные концепты, имеет исчерпывающую иерархию фундаментальных понятий и большой набор аксиом, определяющих эти понятия. Онтология охватывает следующие области знания: общие виды процессов и объектов, абстракции (теория множеств, атрибуты, отношения), числа и единицы измерения, временные понятия, части и целое, агенты инамерения. Онтология DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) - первая из онтологий в библиотеке базовых онтологий проекта WonderWeb [10].
4.2. MPEG-7 DS-MIRF ontology (онтология Ширанаки)
В 2004 Chrisa Tsiranaki предложил онтологию DS-MIRF, которая полностью заимствовала у OWL семантику MPEG-7 MDS и схемы классификации [11].
Данная онтология может визуализироваться с помощью GraphOnto или Protege и была проверена и классифицирована on-line валидатором WonderWeb OWL, является OWL DL онтологией. Содержит 420 классов и 175 свойств. Онтология DS-MIRF была интегрирована с OWL-онтологиями таких предметных областей как футбол и гонки Формулы 1, что продемонстрировало интеграцию знаний предметной области 204
с конструкциями MPEG-7. Онтология DS-MIRF осмыслялась вручную, согласно методологии, обрисованной в общих чертах в работе «Ontology-Driven Interoperability for MPEG-7» [12].
В онтологии Tsiranaki семантическая часть MPEG-7 переводится в форму онтологии, которая служит ядром для приложения онтологий предметных областей, для получения уже конкретных MPEG-7 аннотаций понятий из соответствующей предметной области. Описания метаданных, полученные на основе этого подхода, не будут совместимы один-в-один с результатами других подходов, которые связывают специфические онтологии предметных областей с MPEG-7. Предложенная Tsiranaki онтология может использоваться в аудиовизуальных цифровых библиотеках и электронном обучении (e-learning).
4.3. MPEG-7 Rhizomik Ontology
Инициатива Rhizomik (Испания) направлена на создание, развитие и исследование инструментов Семантического веб. В 2005 году был представлен подход Rhizomik (Garcia, Celma), который заключался в наложении конструкций схемы XML на конструкции OWL и преобразование в RDF. Цель онтологии Rhizomik - описать весь стандарт MPEG-7. Она является наиболее полной и содержит 2372 класса и 975 свойств. Примеры онтологий, созданных в соответствии с подходом Rhizomik, можно увидеть на http://rhizomik.net/html/ontologies/mpeg7ontos/. Онтологии изначально созданы с использованием OWL Full. Позднее был использован OWL DL, что позволило отображать входные XML элементы на соответствующие OWL - свойства в зависимости от типа контента входного XML-элемента. Созданные онтологии могут быть визуализированы с помощью Protege или Swoop и проверены on-line валидатором WonderWeb OWL.
Главное преимущество этого подхода состоит в том, что он использует информацию из огромного объема уже имеющихся метаданных, произведенных сообществом XML. Кроме того, данный подход реализован в проекте ReDeFer project11, который позволяет автоматически отображать входные XML-схемы в OWL онтологии и затем в метаданные RDF.
4.4. Core Ontology for Multimedia (COMM)
Основная онтология мультимедиа COMM (Core Ontology of MultiMedia) была предложена Arndt и др. в 2007 году [14]. Она основана на стандарте MPEG-7 и онтологии верхнего уровня Dolce. Онтологию DOLCE предполагается применять в Semantic Web для согласования между интеллектуальными агентами, использующими разную терминологию. Основная цель разработчиков - создать модель, помогающую при сравнении и объяснении связей с другими онтологиями библиотеки WFOL (базовой библиотеки онтологий WonderWeb), а также для выявления скрытых допущений, лежащих в основе существующих онтологий и лингвистических ресурсов, таких как WordNet. DOLCE имеет когнитивный уклон в том смысле, что фиксирует онтологические категории с точки зрения естественного языка и здравого смысла человека. COMM является OWL DL онтологией, состоит из мультимедийных паттернов, созданных на основе специализации паттернов DOLCE. Онтология описывает очень большую часть стандарта MPEG-7. Явное представление алгоритмов создания и описания мультимедийных паттернов позволяет описать шаги анализа мультимедиа информации, что невозможно сделать непосредственно в MPEG-7.
Как онтология верхнего уровня онтология COMM очень общая и содержит лишь минимум концептов, необходимых для понимания других понятий из предметной области. Цель данной онтологии - быть основой для создания новых онтологий и связующим звеном между существующими онтологиями рассматриваемой предметной области.
5. Mindswap Image Region Ontology
Mindswap Image Region Ontology [15] - OWL онтология, моделирующая различные понятия и их отношения из предметной области цифрового медиа. Основная цель данной онтологии - представить выразительные средства для описания того, какая информация представлена в тех или иных мультимедийных ресурсах, включая изображение и видео. Онтология определяет как концепты, например, изображение, видео и др., так и различные виды отношений между ними (например «изображает», «является фрагментом» и др.)
6. Audio Онтологии
6.1. Common Music Ontology
Common Music Ontology [18] - спецификация онтологии музыки, предлагает семантические описания основных концептов и их свойств для описания понятий из предметной области музыки (например, исполнители, альбомы, треки и и т.д.). Основана на открытой музыкальной энциклопедии MusicBrainz (http://musicbrainz.org/), которая хранит сведения о когда-либо записанной музыке, а не саму музыку. В основу MusicBrainz был положен запатентованный алгоритм TRM фирмы Relatable, используемый для организации акустических отпечатков. Для описания музыкальных метаданных используется RDF/XML.
Музыкальная Онтология разделена на три уровня выразительности - от самого простого до более сложного. Все понятия разделены на следующие категории:
Уровень 1: обеспечивает словарь для простой редакционной информации (треки / исполнители / релизы и т.д.)
Уровень 2: обеспечивает словарь для описания технологического процесса создания музыкальной продукции (композиция, аранжировка, запись, и т.д.)
Уровень 3: обеспечивает словарь для сложной декомпозиции событий, например что происходит во время конкретного исполнения, выделить из оркестрового исполнения конкретный инструмент, например скрипку.
6.2. Kanzaki
Словарь для описания классической музыки и ее исполнения [19]. Определяет такие классы и свойства музыкальных произведений как жанр, инструмент, исполнитель и др. Позволяет определить семантический смысл того или иного понятия. Например, отделить смысл слова «опера» как жанра от конкретного исполнения оперы (спектакль).
6.3. Music Production
Ряд онтологий OWL DL, разработанных для описания понятий технологического процесса производства музыкальной продукции. Это несколько онтологий, описывающих понятия разных стадий и аспектов цикла музыкального производственного процесса (http://moustaki.xtr3m.org/musicont/).
6.4. Music Recommendation
Простая OWL DL онтология, которая определяет основную информацию об исполнителях музыкального произведения, - музыкантах, певцах и их отношениях, а также включает некоторые описания, автоматически извлеченные из аудиоинформации (ритм, тональность и т.д.) (http://foafing-the-music.iua.upf.edu/ISWC2006).
7. Ontology for Media Resource 1.0
W3C Media Annotations Working Group в марте 2011 года опубликовала проект онтологии медиаресурсов - Ontology for Media Resource [20].
Этот документ определяет базовый набор свойств метаданных для медиаресурсов, а также установление их соответствия элементам различных существующих форматов метаданных. То есть предполагается, что эта представляемая в проекте RDF / OWL онтология создаст основу для обеспечения совместимости между различными видами форматов метаданных, используемых в настоящее время для описания медиаресурсов Интернета. Положения данного документа относятся к медиаресурсам Интернет, а не ресурсам, размещенным в местных архивах, музеях и т.п.
Проанализированные подходы к метаописанию мультимедийной информации показывают наличие множества нерешенных задач, разрешение которых возможно на основе дальнейшего взаимодействия сообществ, занимающихся вопросами описания мультимедиа и семантического веба.
Обычно метаданные мультимедиа поступают из различных источников: создатели мультимедиа, издатели, редакторы, пользователи и др. Автоматически генерируемые или создаваемые вручную метаописания мультимедиа описывают различные уровни представления информации. Другой вопрос - это качество этого метаописания. В решении этого вопроса эффективной является интеграция технологий Семантического веб и существующих методологий создания метаданных для мультимедиа. Она может быть достигнута путем уменьшения сложности мультимедийных метаданных и развития мультимедийных сервисов. Однако здесь существует ряд проблем. Во-первых, большая часть семантически ориентированных вебприложений являются распределенными и неоднородными. То есть должны быть продолжены исследования по разработке средств методов объединения онтологий и «выравнивания» средств спецификации онтологий. Во-вторых, инструменты создания метаданных для мультимедиа должны быть доступны для непрофессиональных пользователей для того, чтобы они могли генерировать качественные метаданные. С технической точки зрения инструменты метаданных должны скрывать детали применения лежащих в их основании стандартов, и особенности хранения метаданных. В-третьих, необходимы инструменты для создания мультимедийных сервисов управления интеллектуальным хранением метаданных. Такая связь метаданных и мультимедиа обеспечит новые области разработки интеллектуальных медиа-сервисов и усилит дальнейшие научные исследования в области Семантического веб.
ЛИТЕРАТУРА
1. RDF/OWL Representation of VRA // URL: http://www.w3.org/2001/sw/BestPractices/MM/vra-conversion.html
2. VRA Core Categories [VRA Data Standards Committee, 2002] //URL: http://php.indiana.edu / ~fryp/vracore3 .htm
3. Exif vocabulary workspace - RDF Schema // URL: http://www.w3.org/2003/12/exif/
4. Cпецификация формата DIG35 // URL: http://www.bgbm.org/tdwg/acc/Documents/DIG35-v1.1WD-010416.pdf
5. DIG35 OWL Ontology v0.2, metadata for digital images // URL: http://multimedialab.elis.ugent.be / us-ers/gmartens/Ontologies/DIG35/v0.2/
6. MPEG-7 based Multimedia Ontologies: Interoperability Support or Interoperability Issue? / R. Troncy, O. Celma, S. Little, C. Tsiranaki //URL: http://rhizomik.net/html/~roberto/papers/mareso-2007.pdf
7. Lagoze C. The ABC Ontology and Model / C. Lagoze, J. Hunter // URL: http://dublincore.org/archives /2001/10/public_html/proceedings/product/paper-26.pdf
8. Standard Upper Ontology Working Group. Suggested Upper Merged Ontology // URL: http://suo.ieee.org/SUO/SUMO/index.html
9. Laboratory for applied ontology. DOLCE: a Descriptive Ontology for Linguistic and Cognitive Engineering // URL: http://www.loa.istc.cnr.it / DOLCE.html
10. The World Wide Web Consortium (W3C). MPEG-7 and the Semantic Web//URL: http://www.w3.org/2005/Incubator/mmsem/XGR-mpeg7/
11. C. Tsinaraki. In the Procedings of DELOS Conference // URL: http: //www.delos.info /files/pdf/DELOS%20Multimatch%202007/Papers/4tsinaraki.pdf-
12. Rizomik initiatives//URL: http: //rhizomik.net/html/
13. Core Ontology for Multimedia (COMM) // URL: http://comm.semanticweb.org/
14. Maryland Information and Network Dynamics Lab Semantic Web Agents Project. The MINDSWAP Group// URL: http://www.mindswap.org/
15. The World Wide Web Consortium (W3C). Multimedia Semantics on the Web: Vocabularies// URL: http://www.w3.org/2005/Incubator/mmsem/wiki/Vocabularies.html
16. A Flexible Approach for Managing Digital Images on the Semantic Web / Halashed-Wiener, A. Schain, J. Golbeck, M. Grove, B. Parsia, J. Hendler // Proc. Of the 5th International Workshop on Knowledge Markup and Semantic Annotation (SemAnnot 2005), Galway, Ireland, 7.
17. Music Ontology Specification // URL: http://pingthesemanticweb.com/ontology/mo/
18. The Web Kanzaki. Kanzaki music vocabulare // URL: http://www.kanzaki.com/ns/music
19. The World Wide Web Consortium (W3C). Ontology for Media Resource 1.0// URL: http://www.w3 .org/TR/mediaont-10/
Сытник Александр Александрович -
доктор технических наук, профессор, заведующий кафедрой «Информационные системы и технологии»
Саратовского государственного технического университета имени Гагарина Ю.А.
Вагарина Наталия Сергеевна -
кандидат физико-математических наук, доцент кафедры «Информационные системы и технологии»
Саратовского государственного технического университета имени Гагарина Ю.А.
Мельникова Нина Ивановна -
доктор социологических наук, профессор кафедры «Информационные системы и технологии»
Саратовского государственного технического университета имени Гагарина Ю.А.
Статья поступила в редакцию 15.11.11, принята к опубликованию 01.12.11
Aleksandr A. Sytnik -
Dr. Sc., Professor
Head: Department of Information Technologies and Systems
Gagarin Saratov State Technical University
Nataliya S. Vagarina -PhD, Associate Professor
Department of Information Technologies and Systems Gagarin Saratov State Technical University
Nina I. Melnikova -
Dr. Sc., Professor
Department of Information Technologies and Systems Gagarin Saratov State Technical University