Липунцов Ю.П.
экономический факультет МГУ им. М.В.Ломоносова, доцент
Технологии организации хранения открытых связанных данных и использование их в образовании
В управлении информационными активами государственного сектора существует ряд проблем, которые не позволяют эффективно использовать имеющиеся оцифрованные ресурсы, в том числе для целей образования. В частности, многие активы, размещенные на веб-сайтах, приложениях и базах данных трудно использовать в машинно-читаемом режиме, поскольку возникают проблемы с получением необходимых схем, справочников или моделей данных, используемых при создании этих ресурсов.
Решение проблемы прозрачного доступа к информационным активам государственных ведомств позволило бы повысить степень используемости и востребованности данных. Значительная часть государственных данных может быть повторно использована путем публикации в форме открытых для научных и образовательных учреждений данных. Разработка модели хранения данных и опыт ее эксплуатации может стать стандартным вариантом описания данных локальных систем для повышения совместимости систем, что позволит организовать эффективный поиск необходимых данных, хранящихся в локальных системах и репозиториях.
Опыта в описании и представлении информационных ресурсов государственного сектора отдельных государств показывает эффективность публикации данных в открытом доступе. Это способствует повышению качества образования, предприятия малого и среднего бизнеса используют эти данные для представления новых продуктов и сервисов. Одной из наиболее динамично развивающейся технологией является вэб. Рассмотрим возможности вэб технологий для реализации публикации связанных открытых данных.
Архитектура RDF приложения
Для интеграции разнородных приложений в среде вэб используется RDF приложения, работающие с ресурсами, описанными в формате RDF. Особенность RDF приложений заключается в том, что в таких приложениях данные представлены в форме триплетов: субъект - предикат - объект. Поэтому данные из обычного (реляционного) формата представления конвертируются в формат триплетов и размещаются в базе данных, доступной для сервера приложения.
В базу данных триплетов данные попадают из двух источников: путем конвертации данных из реляционных и прочих не RDF форматов и
данные поступающие в систему в формате RDF.
Приложение RDF имеет ряд отличий в архитектуре (рис. 1), которые дают возможность выполнять задачи интеллектуального поиска, интеграции данных, управления контентом и т.д. Архитектура RDF приложения, в отличие от традиционной архитектуры, включает такие элементы как хранилище RDF, где хранятся триплеты, образуемые из словарей и источников данных, семантический анализатор, конвертер в RDF, инструмент запросов.
RDF файлы
Источники данных
Рисунок 1. Архитектура RDF приложения
Конвертация данных реляционных схем или табличных данных в формат триплетов происходит путем преобразования названия поля в предикат. Для конвертации данных веб страниц в RDF необходимо чтобы вэб страницы были оформлены в соответствии с правилами, которые позволят воспринимать структуру страницу в машинно-читаемом формате. Существует несколько вариантов таких правил: Микроформат (microformats), RDFa (W3C), OGP (Facebook) т.д.
Формат RDF является универсальным для представления данных, изначально хранящихся в разных информационных системах. С переходом на формат RDF снимается зависимость от необходимости следовать стандартам отдельных поставщиков реляционных баз данных.
Работа с данными, размещенными в хранилище RDF, осуществляется посредством языка запросов. Работа с базой данных триплетов имеет ряд особенностей по сравнению с реляционной базой данных, поэтому для извлечения данных из хранилища используется модификация SQL, предназначенного для работы с реляционной схемой. Консорциум W3C взял инициативу по стандартизации языка запросов и в результате был создан язык SPARQL. Особенностью этого языка состоит в том, что он ориентирован на работу с предикатами. Подобно тому, как в SQL запросах воспроизводятся связи между таблицами, запросах RDF отражается граф данных.
Построение федерации информационных источников и последующее выполнение запросов к данным, полученным из федерации, позволяет отделить процесс интеграции данных от работы с оперативными данными.
Этот метод интеграции в некоторой степени является аналогом метода ETL, поскольку после загрузки данных из источников они размещаются в хранилище RDF и последующие изменения в источнике никак не отражаются на данных хранилища.
Архитектура приложения RDF является технологической основой для реализации гибкого взаимодействия между системами по обмену данными. Для реализации обмена информации необходимо определить правила описания участников взаимодействия и состав обмениваемых данных в форме модели данных предметной области. Рассмотрим опыт, накопленный в области создания моделей структуры и моделей поведения для семантического веба. В качестве примера стандартизации описания структуры рассмотрим словарь, используемый в социальных сетях.
Взаимодействие участников, словари FOAF и SIOC.
Для описания данных участников социальных сетей используется онтологическая модель, фиксирующая данные физических лиц, их активность, взаимоотношения с другими людьми и т.д. Наиболее распространенным стандартом описания профилей пользователей социальных сетей является пространство имен FOAF .
Стандарт описания профиля участника социальной сети представляет собой словарь, который специфицирует наиболее важные характеристики деятельности участника социальных сетей. Этот словарь определяет общие характеристики человека, представленные на персональной странице, а также описание связей между участниками знакомых друг с другом.
Документ формата FOAF представляет собой XML документ, оформленный по синтаксическим правилам RDF и OWL. Словарем FOAF задается ряд категорий, которые являются базовыми, такие как foaf:Person, foaf:Document, foaf:Image foaf:mbox. Между отдельными представителями этих категорий может быть установлены несколько специфичных типов отношений, например отношение foaf:depiction устанавливается между изображением и персонами. Используя связи, документ FOAF может дать ответ на вопрос «Кто изображен на этой фотографии». Помимо этого в FOAF используется связь foaf:knows указывающая на знакомство между отдельными участниками. На рисунке 2 представлены основные термины словаря FOAF и связи между ними.
/
Рисунок 2. Основные классы словаря FOAF и связи между классами Источник: (Weitzner D. Kagal Ь.)
Таким образом, FOAF определяет конструкцию, которая позволяют выполнять ряд задач, характерных для предметной области «социальные сети». Стандартный формат публикации данных позволяет оперировать с распределенными ресурсами как с единой базой данных, выполнять разные категории запросов к имеющимся в интернете ресурсам. Помимо этого проработаны процедуры регулирования прав доступа к информационным ресурсам.
Вторым словарем организации активности в интернет пространстве, ориентированным на расширенное описание участников интернет сообщества с учетом активности в форумах описывает модель Semantically-Interlinked Online Communities (SIOC)22, которая отражает деятельность участников, связанную с публикацией сообщений в форуме, а так же имеет возможность отражать тематическую классификацию отдельных сообщений форума.
Основными классами этой спецификации выступают Форум (Forum), Сообщения форума (Post), Сайт, на котором размещен форум (Site). Тематическая классификация представлена классом Тема (Topic). На рис. 3 приведена схема основных классов SIOC, на которой отражается ролевое управление пользователями, деление пользователей на группы. Форумы и сообщения форумов имеют принадлежность к контейнеру. Помимо контейнеров, все сообщения форума могут быть распределены по тематической классификации (Класс Topic).
,-vSubClassCf-----,---
[ Space j ^-[ Site J fRoleJ
♦ a / i
has space s—\ h 1 has scope has function
| has_parent | has_host ^ |
( Container ^--^f Forum J ( User ^
*--- subClassCf ^--' v---'
^ has_container f ^
has container ^—^ I has member
" | has_repla^ | has_creator y
^ Item ) "* Post ^ ^Usergroup^
subClassOf Г
topic
Jl.
^ Topic )
Рисунок 3. Схема связи между отдельными классами словаря SIOC Модели тезауруса, словарь SKOS
Тематическая классификация получило свое развитие в словаре Система организации элементарных знаний (Simple Knowledge Organisation System, SKOS)23. SKOS ориентирован на отражение тезаурусов. Под тезаурусом понимается список терминов, выделенных из документов, способных отразить концептуальные моменты предметной области посредством описания элементарных единиц, определенных таким
22 http://www.w3.org/Submission/2007/02/
23 http://www.w3.org/TRV2009/REC-skos-reference-20090818/#vocab
образом, чтобы избежать двусмысленности. Термины связаны между собой несколькими типами отношений, отражающих иерархические, ассоциативные и эквивалентные взаимосвязи24. Посредством тезауруса можно обеспечить карту того как организована определенная тема путем классификации отдельных терминов темы, относящихся к конкретной предметной области25.
При описании предметной области посредством тезаурусов применяются два основных варианта. Первый заключается в представлении тезауруса в виде набора взаимосвязанных терминов с совокупностью семантических отношений различных типов. Это вариант представления считается классическим, ему следуют стандарты ISO и ANSI / NISO (ISO , 1986) (ISO , 1985), которые описывают тезаурус как набор терминов, связанных с иерархическими отношениями, ассоциативными связями и отношениями эквивалентности.
Второй вариант представляет тезаурус как совокупность концепций, имеющих семантические отношения. Термины в этом случае отражаются в виде конструкции, в которой концепции связаны с лексическими этикетками (label) с помощью лексических отношений.
Второй вариант моделирования тезауруса с использованием концепций и лексического отражения. Это дает возможность использовать два типа связей: связи между концепциями отражают более важные с содержательной точки зрения связи - иерархические и ассоциативные, а на втором уровне устанавливаются связи между терминами, отражающие использование и обозначение этого термина в конкретной ситуации -сокращения, форма общепонятного использования, термины технического языка и т.д.
Тезаурус на основе терминов позволяет представить сложные понятийные схемы близко к традиционной модели, как это используется в естественном языке. Тезаурус на основе концепции позволяет более точно описать информационную структуру, хотя они изначально не являются интуитивно понятными (рис.4).
Наличие лексического уровня позволяет достаточно просто решить проблему отражения концепции на разных языках, когда в соответствие одной концепции ставится несколько терминов, отражающих это понятие на конкретном языке.
Концепция представляет собой идею, понятие или единицу мысли, которая является абстрактным объектом, не зависящим от терминов,
24 Wersig, G. (1971). Das Krankenhaus-Informationssystem (KIS): Uberlegungen zu Strukturen und Realisierungsmoglichkeiten Integrierter Krankenhaus-Informationssysteme. [Информационные системы здравоохранения: соображения о структуре и возможности реализации интегрированных информационных систем здравоохранения.] Munich-Pullach, Germany: Verlag Dokumentation.
2 5 Francisco lavier Martínez Mendez and losé Vicente Rodríguez-Muñoz Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives luan-Antonio Pastor-Sanchez, . http://informationr.net/ir/14-4/paper422.
которые могут использоваться для его обозначения. Уникальность концепции определяется URI, что позволяет повторно использовать и организовывать ссылки. Концепции могут быть связаны с концептуальными схемами (Concept Scheme) - совокупностью одного или нескольких SKOS понятий. Схема может иметь одну или несколько концепций более высокого порядка, которые возглавляют иерархическую структуру. Концепции являются начальным пунктом для поиска и решения навигационных задач пользователей. Основные термины словаря SKOS приведены на рис.5.
Уровень концепции
Уровень терминологических связей
Лексический уровень
Concept
generic
preferred
non- ¡referred
Concept
preferred
МО J (^Московская область) (Подмосковье) AbbreviationFor
Россия
Рисунок 4. Уровень концепции и лексический уровень в модели
тезауруса SKOS
Названия, представленные в виде выражений естественного языка, отражаются посредством класса Метки (Lexical Labels). В SKOS метки могут быть предпочтительными, альтернативными или скрытыми (preferred, hidden, alt). Метки могут быть связаны между собой, а также иметь связи с ресурсами концепциями, схемами и коллекциями.
Между концепциями устанавливаются семантические отношения, посредством которых передается присущий предметной области смысл. В модели SKOS различается два основных типа отношений: иерархические и ассоциативные. Иерархическое отношение между двумя концепциями указывает, что один является более общим по отношению к другому. Ассоциативные отношения показывают на наличие какой либо связи между двумя понятиями, при этом связь не отражает присутствие более общего или конкретного в смысле понятий.
Полное информационное представление в машинно-читаемое формате предполагает широкий спектр позиций, описывающих концепцию на разных языках, снабженных нотациями. На рис. 6 видно, что концепция с URI http://zbw.eu/beta/external_identifiers/jel#A2 связана набором меток (labels) из двух словарей skos и rdfs: rdfs:label, skos:altLabel, skos:prefLabel. Концепции связаны между собой отношениями, выстраивающими иерархию (skos:narrower), что отражает детализацию следующего уровня.
Нотации дают возможность отобразить термин в более компактном виде, используя систему индексирования, присваивания числовых кодов. Это позволяет более компактно отображать концепцию при кодировании,
например в кодификаторе JEL для обозначения образование в области экономики обозначается А2.
Элементы документирования (Documentation properties) позволяют отразить неформализуемые элементы предметной области. Это реализуется путем описания концепций, отношений, наименований и прочих элементов. Описание может быть выполнено в форме развернутого определения термина, публикации заметок, примеров, редакторских замечаний, описания рамок использования заметок и т.д.
Концепция
Concept Class
skos:Concept
Concept Schemes
skos:ConceptScheme skos:inScheme skos:hasTopConcept skos:topConceptOf
Concept Collections
skos:Collection skos:OrderedColtection skos:member skos:memberList
Отношения
Semantic Relations
skos:broader
skos:broaderTransitive
skos:narrower
skos:narrowerTransitive
skos:related
skos:semanticRelation
Mapping Properties
skos:broadMatch
skos:closeMatch
skos:exactMatch
skos:mappingRelation
skos:narrowMatch
skos:relatedMatch
Название и определения
Lexical Labels
skos:altLabel
skos:hiddenLabel
skos:prefLabel
Documentation Properties
skos:changeNote
skos:definition
skos:editorialNote
skos:example
skos:historyNote
skos:note
skos:scopeNote
Notations
skos:notation
Рисунок 5. Термины словаря модели тезауруса SKOS
Концепции могут быть объедены в коллекции (Concept Collection, рис. 5), что позволяет выстраивать дополнительные семантические связи не только путем иерархии и ассоциаций, но и построением коллекции. У коллекции есть список участников коллекции, может быть определен порядок сортировки в списке участников. Одни и те же концепции могут быть задействованы в различных концептуальных схемах, что позволяет их повторное использование. При повторном использовании концепций у них могут возникать дополнительные функциональные возможности.
SKOS предоставляет возможность сопоставление функциональных возможностей концепций, включенных в различные концептуальные схемы посредством класса Mapping Properties. Это позволяет установить тип соответствия между понятиями, задействованными в разных коллекциях. Вариантами могут быть точное соответствие между этими двумя понятиями (exactMatch). Этот тип соответствия дает основание на детализацию, путем установления иерархической связи (более общее или конкретное представление) или может быть установлено соответствие типа ассоциация.
Таким образом, словарь SKOS представляет набор инструментов для гибкого описания предметной области с помощью тезауруса. Элементы словаря SKOS могут быть использованы в сочетании с другими элементами,
например с элементами Дублинского ядра Dublin Core
Основное применение словари SKOS находят в системах управления тезаурусами или приложениях для индексирования документов. Тезаурус, или любой другая схема классификации не включает утверждения, а перечисляют и описывают идею или смысл предметной области в форме понятиями. Эти понятия могут быть организованы в структуры, которые не имеют формальной семантики и не могут рассматриваться в качестве аксиом или фактов.
A - General Economics and Teaching $
A1 - General Economics if
A10 - General Economics: General if
All - Role of Economics; Role of Economists; Market for
Economists i?
A12 - Relation of Economics to Other Disciplines $ A13 - Relation of Economics to Social Values § A14 - Sociology of Economics $ A19- General Economics: Other if
A2 - Economics Education and Teaching of Economics if
A20 - Economics Education and Teaching of Economics: General if
A21 - Pre-college if A22 - Undergraduate if A23 - Graduate §
A29 - Economics Education and Teaching of Economics: Other if
A3 - Multisubject Collective Works if
A30 - Multisubject Collective Works: General if A31 - Collected Writings of Individuals if A32 - Volumes if A33 - Handbooks if
A39 - Multisubject Collective Works: Other if
B - History of Economic Thought, Methodology, and Heterodox Approaches if
BO - History of Economic Thought, Methodology, and Heterodox Approaches: General if
BOO - History of Economic Thought, Methodology, and Heterodox Approaches: General if
B1 - History of Economic Thought through 192S S
BIO - History of Economic Thought through 192S: General if Bll - Preclassical (Ancient, Medieval, Mercantilist, Physiocratic) if B12 - Classical if
B13 - Neoclassical through 1925 (Austrian, Marshallian, Walrasian, Stockholm School) if
ф Journal of Economic Literature (JEL) Classification System
Рисунок 6. Представление кодификатора JEL в виде иерархии и графа
SKOS
Знания предметной области, описанные в виде формальной онтологии выражается в виде набора аксиом и фактов. Построение онтологии предметной области и применение ее к тезаурусам это непростой процесс, поскольку при разработке тезаурусов ставилась задача создать инструмент для навигации и поиска информации, которая не предполагала создание без формальной семантики. Формат представления данных с использование словаря SKOS позволяет смоделировать тезаурус, а инструментом для формулирования аксиом и обработки данных является язык OWL, т.е. построения онтологии нужно применять язык OWL, который предполагает выполнение операций над данными.
Словарь SKOS использовался для классификации основных направлений деятельности Евросоюза и Европарламента в проекте Евросоюза по формированию тезауруса (Multilingual Thesaurus of the
European Union)26 . Тезаурус содержит термины на 22 языках Евросоюза. Использование стандарта SKOS позволяет представить документы в машинно-читаемом формате, что облегчает публикацию документов и обмен ими через Интернет.
Связанные данные, словарь DCAT
Особую значимость в области государственного управления имеют связанные данные, поскольку разные ведомства оперируют с одними и теми же объектами, совершая с ними разного рода операции. Создание и использование инструмента, который бы позволял организовать связывание наборов транзакций, относящихся к одному и тому же объекту, способно серьезно повысить эффективность информационного обмена.
Если касаться технической стороны вопроса, то связывание данных осуществляется на основе URI: определяется ресурс, на котором будет размещаться информация относительно термина или объекта и присваивается URI (Uniform Resource Identifier). Для каждого термина контролируемого словаря и объекта определяется URI на основе протокола http. Это означает, что когда кто-то встречает объект или термин с таким URI, он может посмотреть описание этого объекта или значение термина, набрав URI в адресной строке своего браузера. Такой формат представления данных позволяет понять значение этих данных как пользователю, так и программному агенту.
Например, присвоив уникальный URI определенной компании можно получить последовательность отдельных этапов жизненного цикла: регистрация, собрания акционеров, получение лицензий, приобретение производственных мощностей, деятельность на отдельных секторах рынка, финансовую отчетность по периодам. Получив эти данные, портал открытых данных представляет их в формате триплетов и дает возможность пользователям формировать запросы с помощью SPARQL.
Для публикации связанных открытых данных W3C Консорциум сертифицировал словарь Data Catalog Vocabulary (DCAT), разработанный для стандартизации взаимодействия между каталогами данных, опубликованных в вэб (http://www.w3.org/ns/dcat#) DCA . При публикации наборов данных с использованием словаря DCAT повышается возможность приложений по нахождению наборов данных и использованию метаданных для множества каталогов. Это позволит задействовать распределенные каталоги данных и реализовать федеративную систему поиска.
Словарь DCAT (рис.8) использует ряд терминов из других словарей в частности Dublin Core (DC) (http://dublincore.org/documents/dcmi-terms/), и FOAF, SKOS (http://xmlns.com/foaf/0.1/). Принципиальным нововведением словаря DCAT является класс Набор данных (dcat:Dataset). Набор данных состоит из записей (Record). Наборы данных категорированы в каталоги,
26 http://eurovoc.europa.eu/drupal/?q=navigation&cl=en
для описания которых используются термины словаря SKOS.
(dctype:Dataset )
Г
(foaf:Organization ^
dc:publisher
dc:publisher
(skos:Concept j skos:inScheme
n
(skos:ConceptScheme )
t
dcat:themeTaxonomy
dcat:Dataset
dc:title
dc:license
dcat:keyword
dcat:granularity
dcat:dataQuality
dcat:dataDictionary
dc:references
dc:ussued
dc:modified
dc:spatial
dc:temporal
dc:acctualPeriodicity
dcat:accessURL
dcatx
dcat:Distribution
dcat:downloadURL
dcat:size
dcat:format
(dcat:Feed ) (dcat:WebService )
foaf:pnmeryTopic
dcat:Catalog
dcat:themeTaxonomy dc:spatial dc: modified dc:created
dcat:CatalogRecord
dc:modified dc:issued
Рисунок 8. Основные классы, их свойства и отношения между классами словаря DCAT
Открытые связанные данные публикуются для предоставления пользователям доступа к данным без получения дополнительных разрешений. Доступ к данным осуществляется посредством класса dcat:Disrtibution. Доступ может быть предоставлен через подписку (dcat:Feed) или через программный интерфейс (dcat:WebService).
Ряд стран ведут активную деятельность по публикации открытых данных: США (http://data.gov), Великобритания (http: / / data.gov.uk), Евросоюз (http://lod2.eu).
Предварительным этапом работы по публикации открытых данных является создание стандартных идентификаторов в формате URI для всех базовых объектов, информация о которых будет размещаться в интернете. Через эти этапы прошли правительства Великобритании, США, выполнив большую работу по созданию стандартных идентификаторов, для таких сущностей, как школы и дороги, государственные органы и их функции и т.д. Эта дает возможность многим государственным организациям публиковать данные не только федерального уровня, но на уровне городов, штатов, провинций, уездов, и т.д.
Ряд неправительственных организаций, в частности, Мировой банк и отдельные департаменты ООН публикуют свои данные в формате RDF. По состоянию на конец 2010 года Соединенные Штаты и Великобритания были единственными, кто публиковал данные в формате RDF.
Литература
1. Cyganiak, R. (12 04 2011 г.). State of play in linked open data . Получено 15 06 2011 г., из http://www.slideshare.net/init_brussels/cyganiakrichardstateofplaylod
data.gov. (10 2011 г.). Semantic Catalog (RDF). Получено 12 2011 г., из http : / / www.data.gov/ s emantic/data/alpha
2. Florian Bauer, & Kaltenbock, M. (2012). Linked Open Data: The Essentials A Quick Start Guide for Decision Makers. Получено из www.semantic-web.at/LOD-TheEssentials.pdf
3. Francisco Javier , Martínez Mendez, & José Vicente . (05 2012 г.). Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives Juan-Antonio Pastor-Sanchez. Получено 05 2012 г., из http://informationr.net/ir/14-4/paper422.
4. ISO . (1985). ISO 5964:1986 Guidelines for the establishment and development of multilingual thesauri.
5. ISO . (1986). ISO 2788:1986 Guidelines for the establishment and development of monolingual thesauri.
6. W3C. (2011). Data Catalog Vocabulary project. Получено из http://www.w3.org/egov/wiki/Data_Catalog_Vocabulary
7. W3C. (2011a). Data Catalog Vocabulary project. Получено из http://www.w3.org/TR/vocab-dcat/
8. Weitzner D. Kagal L., B.-L. T. (б.д.). Promoting Interoperability between Heterogeneous Policy Domains . Получено из DIG: http://dig.csail.mit.edu/2006/Talks/1017-w3cws-rein/#(1)