Парамошкин Д.С. , Шибанов С.В. , Хмелевской Б.Г.
АНАЛИЗ ПРИМЕНЕНИЯ МЕТАДАННЫХ В ЭЛЕКТРОННЫХ БИБЛИОТЕКАХ ИНФОРМАЦИОННЫХ РЕСУРСОВ
Введение. Мы живем во времена «информационного взрыва», обрушившегося на нас, подобно снежной лавине. Термином «информационный взрыв» стали именовать ситуацию сложившуюся в 5 0-7 0-х годах 2 0го века. Суть этого явления заключалась в достижении предельного порога, ограничивающего возможности освоения информационного массива потенциальным потребителем информации. Иными словами, количество изданий, посвященных определенной отрасли знания, стало настолько велико, что превзошло физические возможности отдельного человека в освоении всего объема новых данных даже в пределах сравнительно узких отраслей знания. Неудивительно, что этот период характеризовался господством взглядов, согласно которым легче и дешевле повторить исследование, нежели найти результаты уже проведенных аналогичных разработок. Сейчас ситуация стала еще хуже.
По оценкам исследовательской братии IDC, в этом году объем информации, хранящейся в компьютерных системах мира, достигнет 5444 экзабайт. Для сравнения - 5 лет назад, в 2003 году, этот показатель был в 6,5 раза меньше - 831 петабайт, а объем новой создаваемой информации в 2007 году оценивался в цифру 160 экзабайт. Если ограничится объемами информации приходящейся на книги мы получим гораздо меньшие цифры. Так, за всю свою многотысячелетнюю историю человечество накопило в книжках 200 петабайт, а информация хранящаяся в научно-исследовательских библиотеках в 2 петабайта, и всего в 10 терабайт - информация в Библиотеке конгресса США [1].
Первым, кто столкнулся лицом с проблемой хранения, поиска и обработки информации на компьютерах стало научное сообщество, именно они были одними из первых пользователей новых технологий. Для них было очень важно систематизировать всю накопленную информацию - исследования, научные труды, данные об экспериментах. Только создание системы с помощью которой каждый работник мог найти нужные ему данные хранящиеся в ней могли гарантировать развитие науки, иначе бы стали возникать ситуации постоянного исследования ранее изученных явлений. С распространением персональных компьютеров (ПК) проблема работы с информацией вплотную затронуло и обывателей.
Коллекции информационных ресурсов и электронные библиотеки. Начало созданию электронных каталогизаторов было положено в 60-е годы в Соединенных Штатах Америки. Собрания разнообразных электронных документов формировались в военных, академических и образовательных организациях, а также крупнейших промышленных корпорациях под конкретные задачи.
Гигантский импульс развитию электронных каталогизаторов был придан началом эры глобальных компьютерных сетей. Интернет в неизмеримое число раз увеличил аудиторию потенциальных посетителей электронных каталогизаторов, которыми стали фактически все пользователи Сети. Доступность расположенных в глобальных сетях документов для огромной аудитории повсеместно побудило целые корпорации и отдельных граждан серьезно заняться формированием цифровых собраний, число которых исчисляется ныне десятками тысяч и продолжает стремительно увеличиваться.
Метаданные как основа электронных библиотек. Конкретные функции метаданных коллекций и их содержание могут значительно различаться в зависимости от характера электронной библиотеки и конкретной коллекции. Однако в любом случае метаданные должны определять состав коллекции, обеспечивать корректную интерпретацию и обработку представленных в ней информационных ресурсов механизмами электронной библиотеке. В связи с этим они должны описывать критерии принадлежности информационных ресурсов данной коллекции, структурные (а при использовании объектной парадигмы моделирования предметной области и поведенческие) свойства информационных ресурсов (типы, связи), форматы их представления, место размещения, ограничения целостности, ограничения управления доступом и т.п.
Вместе с тем, метаданные могут описывать и семантические свойства информационных ресурсов (ИР) , например, содержание ресурсов, сведения об их генезисе, авторах, контекстах применения, о классификационной системе коллекции и схеме именования ее ИР, о единицах измерения значений [10].
Внешние метаданные. В большинстве файловых форматах нет средств поддержки метаданных, либо эти средства не удовлетворяют необходимым требованиям при создании коллекций для них. Поэтому зачастую каталоги информационных ресурсов для электронных библиотек строятся на основе баз данных содержащих метаданные. Большинство таких каталогов имеют структуру изображенную на рисунке 1. Имеется сервер на котором находится хранилище метаданных и веб-приложение, отображающее каталог для пользователя. При этом метаданные обычно ссылаются на внешний источник содержащий информационный ресурс. По такому принципу работают как созданные энтузиастами проекты - infanata.org, mirknig.ru, aldebaran.com, так и системы созданные научным сообществом - Библиотечная Подсистема ИСИР РАН [5].
Рисунок 1 - Архитектура каталогизаторов с внешним хранением метаданных
Система ИСИР РАН - это информационная система, относящаяся к классу электронных библиотек [7, 8]. Среди ресурсов, поддержку которых должна обеспечивать ИСИР РАН, значительная доля приходится на информацию, в той или иной мере связанную с публикациями научных результатов, с которой традиционно оперируют библиотеки разного уровня, входящие в состав институтов, отделений или непосредственно подчиняющиеся Президиуму РАН. Научные результаты представляют собой данные о различных монографиях, журналах и трудах конференций. Такие данные постоянно вводятся, а также пакетно загружаются в ИСИР РАН [9].
При таком подходе построения каталогов остро встает вопрос о взаимодействии между различными каталогизаторами, поскольку хранят они метаданные различными способами и в различных форматах. И такие решения есть, например ГНИИ ИТТ «Информика» занимается разработкой стандарта для метаданных информационных образовательных ресурсов [6].
Применение настоящего стандарта обеспечивает, в первую очередь, упорядочение процессов рубрикации и подготовки метаописаний информационных образовательных ресурсов на этапе их разработки. Упорядочение рубрикации обеспечивает также более строгое структурирование контента образователь-
ных порталов, а, следовательно, и более эффективное применение информационных образовательных ресурсов. Единообразие на форматы описания информационных образовательных ресурсов служат основой, на которой базируются поисковые механизмы в массиве образовательной информации, а также сервисы, обеспечивающие обмен описаниями информационных ресурсов.
Метаданные хранятся и передаются в формате XML. Обмен метаданными сводится к пересылке RDF/XML-файлов и полностью автоматизирован. XML-документы выполняют роль универсального формата для обмена информацией между отдельными компонентами распределенной системы и позволяют описывать стандартные коммуникативные форматы данных, принятые в различных областях [6].
Наиболее широко используются следующие стандартные решения на схемы метаданных и общие стандарты на языки разметки документов, которые и легли в основу проекта стандарта в части информационного обмена:
- IEEE LTSC Learning Objects Metadata WG Home, Draft Standard for Learning Object Metadata, http://ltsc.ieee.org/wg12/index.html
- IMS Learning Resource Meta-data Specification Version 1.2.1 Final Release 1.10.2001) http://www.imsglobal.org/metadata.
- Resouroe Description Framework (RDF), стандарт World Wide Web Consortium (w3c) для поддержки метаданных в среде Web
- XML Metadata Interchange (XMI), стандарт консорциума OMG
- XML - extensible Markup Language
- vCard MIME Directory Profile
Преимущества такого подхода:
- возможность построения каталогов, как для оцифрованных информационных ресурсов, так и для альтернативных (книги, видеокассеты и др);
- возможность измения структуры метаданных без изменения формата информационного ресурса;
Недостатки подхода:
- слабая связанность между информационным ресурсом и метаданными;
Внутренние метаданные. Одним из способов интеграции метаданных с информационными ресурсами является их включение их в формат файла. Таким путем например пошли форматы документов doc и pdf, графический формат jpeg и музыкальный формат mp3. Этим же путем пошли и создатели формата Fic-tionBook (fb).
Формат FictionBook разработан инициативной группой, возглавляемой Грибовым Дмитрием и Михаилом Мацневым, специально для художественных текстов. В отличие от OEB, книга хранится в одном файле. Графика, метаданные, текст сносок и аннотация - все хранится в виде единого XML-документа, что существенно упрощает администрирование, распределенную обработку и репликацию. В художественной литературе используется ограниченный набор элементов - стихи, аннотация, жирный/наклонный, иллюстрации, эпиграф, сноски. В результате, FictionBook очень прост (см. схема fb2 [3] и комментарии к схеме [4]), но, как показывает практика, обладает всем необходимым для оформления художественных книг. Развитая структура хранения метаданных (подробно см. схема fb2) позволяет полностью автоматизировать работу библиотеки и легко развернуть ряд уникальных сервисов (например, дифференцированную подписку) [2]/
Преимущества такого подхода:
- Метаданные неразрывно связаны с информационным ресурсом. Неважно сколько раз и куда он перемещался они всегда будут в нем присутствовать;
- В зависимости от задач стоящих перед файловым форматом он может содержать только необходимый набор метаданных.
Недостатки:
- такой подход неприменим к большинству файловых форматов, он потребует их преобразования, что очень трудоемко;
- существует вероятность хранения различных метаданных для одинаковых данных, при этом нет возможности их синхронизировать;
- из-за разницы форматов хранения метаданных работать с ними необходимо различными средствами, это очень трудоемко.
Проблемные стороны каталогизации информационных ресурсов. На сегодняшний день имеется два больших пласта электронных каталогизаторов: одни из них созданы энтузиастами, другие же - научным сообществом. Принципиальные отличия отражены в таблице 1.
Таблица 1. Отличительные особенности электронных каталогов
Каталоги энтузиастов Каталоги научного сообщества
Проработка схемы метаданных информационных ресурсов Слабая Хорошо проработана
Ведение большая группа неквалифицированных пользователей Небольшая группа методистов
Форматы информационных ресурсов Множество форматов Один или несколько специализированных форматов
Доступность каталога общедоступен Ограниченная доступность
При достаточной проработанности принципов построения электронных библиотек научным сообществом, и декларировании использования их для личных целей, это в настоящий момент труднодостижимая задача. Во-первых, существует проблема с их доступностью, а, во-вторых, их наполнение достаточно сложно для неподготовленного пользователя. А для бесплатных электронных каталогизаторов зачастую характерны неполнота и случайность представленных изданий, невысокая эффективность системы навигации и поиска. Цифровые собрания в большинстве своем подготовлены их создателями в свободное от основной деятельности время, чем и объясняются указанные недостатки. Однако любые негативные моменты компенсируются двумя главными достоинствами электронных каталогизаторов - их колоссальными объемами и бесплатностью пользования. Эти факторы обеспечивают открытым электронным коллекциям информационных ресурсов широкую популярность у пользователей сети во всем мире. В них можно найти все что угодно - от детских сказок до армейских уставов, от классических философских трактатов до лирических произведений современных начинающих авторов и кулинарных рецептов, от классической музыки до последних хитов, от фильмов до игр.
К сожалению, все сетевые каталогизаторы имеют существенный недостаток - если информационный ресурс копируется на локальный компьютер и его формат не поддерживает хранение метаданных, то они теряются. А это лишняя работа, на которую не всегда есть время. А постоянно скачивать нужную информацию с сетевого ресурса не всегда возможно, особенно касаемо каталогов энтузиастов, которые могут в определенный момент исчезнуть.
Для того чтобы хранить метаинформацию об информационных ресурсах на персональных компьютерах были разработаны локальные каталогизаторы по образу и подобию сетевых.
Чаще всего они узкоспециализированы - позволяют вести каталоги музыкальных или видео файлов либо электронных книг. Но вот в отличие от сетевых каталогизаторов которые заполняются чаще всего другими людьми, локальный каталог придется вести самому. При этом даже если у вашего знакомого уже есть готовый локальный каталог и вы решите просто перенести его на свой компьютер вы столкнетесь с неприятной особенностью - вам придется заново восстанавливать все связи между метаданными и информационными ресурсами.
Главной проблемой каталогизаторов является привязывание метаданных к информационным ресурсам. Для файлов используются путь к нему, этот путь меняется от компьютера к компьютеру.
Тут на помощь могут прийти технологии, используемые в P2P файловых сетях. К ним относятся тор-ренты, сети eMule, Direct Connect. Их целью является передача файлов между компьютеров. При этом файлы распределены по разным компьютерам и не известно точно, где они. Для поиска необходимо было найти критерий, по которому файлы можно было бы их уникально идентифицировать. В качестве такого критерия был выбран хэш файла.
К сожалению, при создании файловых сетей обмена не было уделено внимание использованию метаданным, поэтому найти нужный файл без знания его хэш-кода достаточно трудно.
Основной тенденцией создания электронных каталогизаторов является разработка новых форматов файлов включающих в себя как данные, так и метаинформацию. Кроме определенных плюсов такой подход имеет множество минусов. Основной положительной чертой является сохранение метаданных при передаче ресурса с сетевого каталога на локальную машину. Обычно при этом в программу, позволяющую просматривать эти файлы, встроены средства по работе с метаданными, в том числе, и поиск по ним. Создание нового формата данных позволяет внедрить в него полезные функции, отсутствующие в ранее созданных форматах. Но подход далек от идеала. Во-первых, практически невозможно создать формат данных удовлетворяющему представлению всех данных. Поэтому, например, для математических журналов используют один формат, а для художественной литературы другой. Создание нового формата предполагает создание инструментов для работы с ним, но создать инструмент уровня MS Word неблагодарное и затратное занятие. Перевод данных из одного формата в другой тоже затратное занятие, которое в редких случаях может обойтись без участия в нем человека. Поэтому данный подход чаще используется в научных сообществах, где возможно выделить необходимые ресурсы. Использование же подхода при создании общедоступных любительских электронных каталогов нецелесообразно. Обычно в них представлен широкий спектр информационных ресурсов, которые трудно подогнать под единый формат. Да и время необходимое на преобразование ресурсов из одного формата в другой способно отпугнуть большинство пользователей желающих им поделится.
Второй проблемный вопрос связан со способом наполнения электронного каталога. Все каталогизаторы в настоящий момент построены по технологии Web 1.0. Фактически это значит сильную централизацию архитектуры каталогизатора а также участие в его наполнении очень ограниченного круга людей. А раз он ограничен, то это сказывается в скорости наполнения электронного каталогизатора информацией, а так же на качестве информации. В технологии Web 2.0, получившим широкое распространение, используется иной подход. В нем важно максимальное привлечение каждого пользователя в наполнения ресурса контентом, а также глубокая совместная работа над одной и той же информацией. Данный подход был удачно применен в свободной энциклопедии - Wikipedia. За 7 лет пользователями было написано несколько миллионов статей на разных языках мира. Хотя возникают некоторые неточности в этих статьях, но на создание энциклопедии научным сообществом потребовалось огромное количество финансовых затрат, а в случае Wikipedia был создан лишь удобный интрумент, а всю остальную работу выполнили интересующиеся пользователи.
Исходя из вышеперечисленных проблем видится направление создания электронных каталогов с использованием двух ключевых технологий:
Создание связки локального и сетевого каталогизаторов работающих с метаданными основанными на открытом стандарте и являющихся внешними по отношению к информационных ресурсов.
Реализация принципов технологии Web 2.0 при создании каталогов.
При использовании первой технологии решается проблема потери метаданных при передаче информации с сетевого каталога на локальную машину без необходимости создания специального формата данных. Это дает возможность не только использовать любые форматы информационных ресурсов, но так же по мере необходимости изменять структуру метаданных не затрагивая сами данные. Связывание метаданных и информационных ресурсов возможно с помощью алгоритмов используемых в p2p сетях. Использование принципов лежащих в Web 2.0 должно помочь в быстрой наполняемости каталога, за счет привлечения как можно большего количества заинтересованных пользователей. Вклад каждого пользователя при таком подходе создания каталога будет минимальна, а его трудом сможет воспользоваться не только он сам, но и множество других пользователей.
Литература
1. Roy Williams "Data Powers of Ten". http://www.cacr.caltech.edu/~roy/
2. Д.П. Грибов FictionBook - библиотека и формат на основе XML. Краткая характеристика формата и обзор библиотеки на его основе. http://www.elbib.ru/index.phtml?page=elbib/rus/journal
/2004/part1/gribov
3. Схема FictionBook2 http://www.gribuser.ru/xml/fictionbook/2.0/xsd/FictionBook2.xsd
4. Комментарии к схеме FictionBook2 http://www.gribuser.ru/xml/fictionbook/abstact2.0.html
5. Архитектура и функциональность Библиотечной Подсистемы ИСИР РАН http://www.elbib.ru/ index.phtml?page=elbib/rus/journal/200 4/part1/KKK
6. О стандарте ГНИИ ИТТ «Информатика» на метаданные информационных образовательных ресурсов
7. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В. А. "Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек", Программирование, том 26, N. 4, 2000, стр. 177-185.
8. Агошков С.В., Бездушный А.Н., Галочкин М.П., Кулагин М.В., Меденников А.М., Серебряков В.А. "Интегрированная система информационных ресурсов РАН - подход к созданию интегрированных цифровых библиотек", Электронные библиотеки: перспективные метода и технологии, электронные коллекции, 1-я всероссийская конференция, Санкт-Петербург, 1999
9. Власова С.А., Калёнов Н.Е., Курив П.М., Серебряков В.А. "Библиотечная составляющая ИСИР РАН", Новые технологии в информационном обеспечении науки, Таруса, 2001.
10. М.Р. Когаловский "Научные коллекции информационных ресурсов в электронных библиотеках",
Труды Первой Всероссийской научной конференции "Электронные библиотеки : перспективные методы и
технологии, коллекции электронных ресурсов", Санкт-Петербург, октябрь 1999