СТАНДАРТИЗАЦИЯ ПРОГРАММНЫХ КОМПЛЕКСОВ СОЗДАНИЯ И УПРАВЛЕНИЯ МАССИВАМИ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
В. В. Косарик, научн. сотр. Тел.: (495) 129-28-55; E-mail: [email protected], [email protected]. Институт проблем информатики Российской академии наук (ИПИ РАН) http://www.ipiran.ru, www.ipi.ac.ru
The Paper deals with the problems that arise during the development and representation of digital document forms that include logic structures. Approaches for folving the problem are discussed.
Введение
С интенсивным развитием информатики как самостоятельной науки расширяется область ее применения совместно с другими научными дисциплинами, в частности, при решении задач представления знаний. Благодаря неоспоримым достижениям информатики как науки набирает силу и практика применения автоматизированных систем и средств сбора, обработки, хранения, передачи и представления информации. Однако по большей части эти средства базируются на разнородных, часто несовместимых стандартах, форматах и подходах, что существенно снижает положительный эффект от их внедрения, особенно при организации взаимодействия этих систем.
Изложенные обстоятельства и определяют актуальность стандартизации программных комплексов сбора, обработки и хранения информации в интересах снижения затрат и издержек на разработку самих информационных систем и при организации их взаимодействия.
1. Определения рассматриваемой темы
Объект - философская категория, если определять ее в пределах познания мира, выражающая существующее в реальной действительности (то есть независимо от сознания) — предмет, явление, или процесс, на которые направлены предметно-практическая и познавательная деятельность
субъекта. В качестве объекта может выступать и сам субъект, в качестве субъекта выступает личность, социальная группа или всё общество.
Понятия объекта в философии и в информатике во многом совпадают, хотя и имеются различия. Так, в информатике под объектом понимается объект или процесс реального или абстрактного мира с присущим ему набором свойств (характеристик), например: рост, вес, цвет глаз, дата рождения. Некоторые свойства (характеристики) выступают как существенные, т.е. первостепенные (первичные) в одной предметной области и несущественные, т.е. второстепенные (вторичные) в другой. Соответственно, от этого зависит их учет или не учет в соответствующей информационной системе.
Субъект - одно из ключевых понятий в логике и в психологии, имеющее в этих дисциплинах разный смысл.
Субъект в современном философском понимании - это активно действующий и познающий, обладающий сознанием и волей индивид или социальная группа. В этом смысле субъект выступает как оператор (абонент) информационной системы. Однако, если в информационной системе необходимо представить сведения о каком-либо субъекте, то тогда он (субъект) уже рассматривается как объект с первичными и вторичными свойствами (характеристиками).
Индукция (лат. т^сйо — наведение) -процесс логического вывода на основе перехода от частного положения к общему.
Дедукция - (от лат. deductio - выведение), - переход от общего к частному; в более специальном смысле термин «дедукция» обозначает процесс логического вывода, т. е. перехода по тем или иным правилам логики от некоторых данных предложений (посы-
лок) к их следствиям (заключениям), причем в некотором смысле следствия всегда можно характеризовать как «частные случаи» («примеры») общих посылок.
2. Постановка задачи
С учетом известных масштабов степени развития информатики и применения автоматизированных информационных систем во всех сферах жизни и деятельности человека представляет научный интерес задача их стандартизации, т.е. разработки таких методов представления данных, которые позволили бы снизить зависимость информационных систем от форматов, применяемых программных средств и среды программирования.
Фактически же в настоящее время применяется достаточно обширный спектр форматов данных, и их номенклатура из года в год неуклонно расширяется, что серьезно усложняет создание сложных информационных комплексов и приводит к излишним расходам ресурсов при передаче данных из одной системы в другую.
Необходимо также отметить, что полным описанием фирменного формата данных чаще всего владеет только соответствующая компания-разработчик, что не гарантирует доступ к информации о формате в случае острой необходимости. Наконец, разработчики программного обеспечения по мере совершенствования и развития своих систем неизбежно изменяют форматы данных, руководствуясь только собственными приоритетами, чаще всего коммерческими. В результате потребитель вынужден иметь дело с серией форматов, которые в лучшем случае совместимы «снизу-вверх», хотя применительно к кириллице этот принцип иногда все же не соблюдается. В результате приходится прибегать к различным конверторам и сложным ресурсоемким преобразованиям.
Поэтому возникает задача, представляющая научный интерес - разработка системы управления данными, которая была бы независима от формата данных и от среды программирования.
Основой в статье является описательный формат данных XML.
XML (англ. extensible Markup Language — расширяемый язык разметки) — рекомендованный Консорциумом Всемирной паутины (W3C) язык разметки, фактически представляющий собой свод общих синтаксических правил. XML — текстовый фор-
мат, предназначенный для хранения структурированных данных, для обмена информацией между программами, а также для создания на его основе более специализированных языков разметки (например, XHTML), иногда называемых словарями. XML является упрощённым подмножеством языка SGML.
Приведем список лишь нескольких специализированных языков на базе XML, которые сегодня находятся в разных стадиях разработки:
MathML — язык математических формул;
SMIL — язык интеграции и синхронизации мультимедийных средств;
SVG — язык двумерной векторной графики;
RDF — язык метаописаний ресурсов;
XHTML — переформулировка HTML в терминах XML.
При рассмотрении работы с XML необходимо помнить, что они:
- является семейством технологий, под которым подразумевается множество функциональных разветвлений (рис. 1);
- прост для переноса между платформами;
- обеспечивает отображение и ввод специальных символов (математических и химических) за счет семейств подъязыков.
При переходе к работе с этим семейством необходимо помнить парадоксы:
1. XML является семейством технологий, под которым подразумевается множество функциональных разветвлений, не каждый программист-пользователь имеет достаточно сил и времени, чтобы изучить их и в дальнейшем успешно применять;
2. При работе с XML происходит увеличение объема, обрабатываемой информации за счет вставки информационного тега перед и после каждой единицы данных.
XL-ink
ХР о inte г XSLT
XPath XSL
SAX XML
DOM DTD
ВЛХ Пространство имен Схема
Рис.1. Семейство XML
Например, запись о человеке может принимать следующие формы:
1. Б БД: Иванов; Иван; Иванович; 05; Об; 1958.
2. Б структурированном XML: <User>
<UserName>HBaHOB Иван Иванович<А1зегНате>
<UserBirthDay>05/06/1958</UserBirthDay>
</User>
3. Б сложно структурированном XML: <User>
<Name Last = "Иванов" First = "Иван" Middle = "Иванович" /> <BirthDay Day = "05." Month = "06.: Year = "1.958: f> </User>
В итоге при использовании XML получаем следующий парадокс: чем больше мы пытаемся уточнить характеристики объектов, т.е. разбить характеристики объекта на структурные составляющие, которыми впоследствии будем оперировать, тем больший объем будет на выходе нашей системы.
3. Статическая система. «Системная энциклопедия»
Задача при создании комплекса инструментальных средств для Интернет-сайта и «Системная энциклопедия» на основе Словника (Словник - перечень слов, расположенных в алфавитном или систематизированном порядке, составляемый в процессе работы над словарём или энциклопедией), выполненного под редакцией Ю. И. Шема-кина, состояла в следующем:
1. Создать инструментальные средства для управления Словником.
Словник составлялся на основе матрицы основных информационных гипертехнологических процессов (рис. 2). Структура матрицы, отражающая системные функциональные процессы, которые концептуально присущи всем видам организации материи -от атома до галактик и внеземных цивилизаций. Однако их конструктивная структура и функции, а следовательно, и семантические модели, безусловно, могут различаться [1].
Рис. 2. Матрица, отражающая основные информационные гипертехнологические процессы.
2. На основе Словника создать систему ввода энциклопедических статей с привязкой статей к Словнику.
3. Создать поисковую систему по статьям, по авторам, а также по систематизированному словарю и алфавитному указателю.
При разработке данной системы использовались:
• индуктивный метод - для структурирования Словника по разделам и для подачи статей;
• дедуктивный метод - для поиска статей и их авторов.
На рис. 3 представлена структурная схема отношений объектов «Системной Энциклопедии».
Рис. 3. Структурная схема отношений объектов в «Системной Энциклопедии»
На рис. 4 структурная схема взаимодействия различных групп пользователей «Системной
энциклопедии».
Автор р. Системной э статей
Web Системной -сайт нштклопедии
V 7
Пользователи Системной эшшклотедии
Редакционный совет Системной энциклоЕРДии
Научно экспертная коллегия Системной ЭНЦИКЮСРДИИ
Администрация Web сайта Системной jmmk.ioipjmt
Рис. 4. Структурная схема взаимодействия различных групп пользователей «Системной Энциклопедии»
Система разрабатывалась на основе языка обработки скриптов PHP, как хранилище данных использовалась MySQL, которая позволяет экспортировать данные в формат XML.
4. Динамическая система. «Основной конкурс РГНФ».
Задача в проекте № 05-03-12328в («Разработка информационно-статистической системы для мониторинга динамики гума-
нитарных исследований в России, финансируемых на конкурсной основе») состояла в подготовке информационного массива для его создания и дальнейшего использования на основе полученных данных системы мониторинга основных этапов выполнения научных проектов, а именно: заявление проекта - экспертиза - выполнение проекта - подготовка отчета о результатах проекта.
На основании имеющихся документов из РГНФ за 2005, 2006 и 2007 годы, которые
содержат описание проектной научной документации, проведен их структурный анализ, и на основе дедуктивного метода приведены следующие структурные составляющие объектов информационного и структурного наполнения проектной документации, разработана система формирования, сбора и представления данных, форм и комплектов форм.
1. Подсистема формирования информационного массива - разработана для ввода новой и продолжения ввода старой информации, а также формирования титульных листов.
2. Подсистема формирования и сбора данных для дальнейшей обработки - разработана для сбора и формирования количественных индикаторов в структурированной форме из информационного массива.
3. Подсистема представления данных в табличном и графическом виде - разработана для вывода на экран количественных индикаторов в удобной для пользователя форме (табличной и графической).
В результате разработки комплектов форм получилась расширенная система заполнения данных, которая содержит следующую проектную документацию Таблица 1, 2, 3, 4, 5.
Рис. 5. Общая структурная схема системы
Таблица 1
Сводная таблица распределения проектной документации по годам
Год проектной Тип комплекта форм «Заявка» Тип комплекта форм «Отчет»
документации
2005 - +
2006 + +
2007 + +
2008 + -
Таблица 2
Сводная таблица распределения видов конкурсов по годам
Годы Вид Конкурса Название конкурса
20052008 А Конкурс научно-исследовательских проектов, осуществляемых научными коллективами (до 10 чел.) или отдельными учеными
20052008 Б Конкурс проектов по развитию научных телекоммуникаций и материальной базы научных исследований в области гуманитарных наук
20052008 В Конкурс проектов создания информационных систем
20052008 Г Конкурс проектов по организации научных мероприятий (конференций, семинаров и т.д.)
20052008 Д Конкурс проектов по изданию научных трудов, подготовленных научными коллективами или отдельными учеными
20052008 Е Конкурс проектов экспедиций, других полевых исследований, экс пер и ментально-лабораторных и науч но-реставрационных работ
20052008 3 Конкурс проектов участия российских ученых в научных мероприятиях за рубежом
Далее приводятся таблицы Комплектов форм для каждого года работы над проектом.
Таблица 3
Сводная таблица комплектов форм РГНФ 2005 года
Заявки Отчеты
Т 1 2 5 6 7 8 9 10 ПЗ
А Т 1а+ 2+ 5+ 6+ 7 8 9+ -
Б Т 16 2 5
Б Данные отсутствуют Т 1в+ 2+ 5+ 6+ 7 8 9+ -
Г Т 1г 2 5
Д Т 1д
Б Т le 2 5 - - - 9 -
3 Т Ъ 2 5
Таблица 4
Сводная таблица комплектов форм РГНФ 2006 года
Заявки Отчеты
Т О 1 2 3 4 8 Т 1 2 5 6 7 8 9 10 ПЗ
А Т - 1а 2 3 4а 8 Т 1а+ 2+ 5+ 6+ S 9+ -
Б Т - 16 2 3 46 8 Т 16 2 5
В Т - 1в 2 3 4в 8 Т 1в+ 2+ 5+ 6+ S 9+ -
Г Т - 1г 2 3 - 8 Т 1г 2 5
Л Т О 1д 2 3 - - Т 1д
Б Т - le 2 3 4е 8 Т le 2 5 - - - 9 -
3 Т - Ъ 2 3 - - Т Ъ 2 5
Таблица 5
Сводная таблица комплектов форм РГНФ 2007 года
Заявки Отчеты
Т О 1 2 3 4 8 Т 1 2 5 6 7 8 9 10 ПЗ
А Т - 1а 2 3 4а 8 Т 1а+ 2+ 5+ 6+ 7 S 9+ -
Б Т - 16 2 3 46 8 Т 16 2 5
В Т - 1в 2 3 4в 8 Т 1в+ 2+ 5+ 6+ 7 S 9+ -
Г Т - 1г 2 3 - 8 Т 1г 2 5
Д Т О 1д 2 3 - - Т 1д
Б Т - le 2 3 4е 8 Т le 2 5 - - - 9 -
3 Т - Ъ 2 3 - - Т Ъ 2 5
Таблица 6
Сводная таблица комплектов форм РГНФ 2008 года
Заявки Отчеты
Т О 1 2 3 4 8
А Т - 1а 2 3 4а 8а
Б Т - 16 2 3 46 86
В Т - 1в 2 3 4в 8в Данные отсутствуют
Г Т - 1г 2 3 - 8г
Д Т О 1д 2 3 - -
Б Т - le 2 3 4е 8е
3 Т - Ъ 2 3 - -
И
К
M
H
1в, 2, 5, 6, 9 Со знаком (+) Отчеты для завершающихся проектов
1в, 2, 5, 6, 7, 8 отчеты для продолжающихся проектов
В 2006 году в формы проектной Отчетной документации были внесены изменения
по сравнению с 2005 годом, рисунки 6 и 5, поэтому разработанная в 2005 году Форма 1 а, не подходит для заполнения информацией для 2006 года. Например, для 2005 года форма 1а имела вид:
Форма 1а
Отчет по научно-исследовательскому проекту
(на дискете помещается в файл FORMl.DOC)
1.1. Номер проекта
1.2. Руководитель проекта
1.3. Название проекта
1.4. Сроки выполнения проекта в соответствии с исходной заявкой
1.5. Коды классификатора1
1.6. Ключевые слова
1.7. Заявленный в проекте план работы на 2005 г.
1.8. Содержание фактически проделанной за год работы
1.9. Краткая аннотация полученных результатов
1.10. Содержание фактически проделанной за год работы каждым из основных исполнителей, получивших выплаты по проекту
Рис.6. Форма 1а для 2005 года
А для 2006 года имеет вид:
Форма 1а
Отчет по научно- ис с je до в ате ль с к о му проекту
(на дискете помещается в файл FORM1 .DOC)
1.1. Номер проекта
1.2. Руководитель проекта
1.3. Название проекта
1.4. Сроки выполнения проекта в соответствии с исходной заявкой
1.5. Коды классификатора*
1.6. Ключевые слова
1.7. Заявленный в проекте план работы на 2006 г.
1.8. Содержание фактически проделанной за год работы
1.9. Краткая аннотация полученных результатов
1.10. Содержание фактически проделанной за год работы каждым из основных исполнителей, получивших выплаты по проекту
Количественньв показатели проделанной работы
1.11. Количество исследователей в возрасте до 39 лет, занятых в проекте: £ — , И —
1.12. Количество аспирантов и студентов, привлеченных к участию в проекте
1.13. Количество диссертаций, подготовленных в процессе реализации проекта: Д (докторских) —^К (кандидатских) —
1.14. Количество опубликованных работ, включая Интернет: книг— статей —
1.15. Количество подготовленных к печати работ: книг —^ статей —
1.16. Количество опубликованных статей о проекте в СМИ, включая Интернет:
1.17. Количество экспертных заключений по теме проекта:
Рис. 7. Форма 1а для 2006 года
Для возможности изменения и управления формами, был предложен следующий процесс.
Информация о конкурсе имеет название и вид, а также для каждого вида имеется два типа проектной документации. Поэтому предлагается объединить все данные с помощью уникального идентификатора, кото-
рый будет увеличивать свое значение по мере перехода «от большего к меньшему» (дедуктивный метод) и даст возможность управлять всем массивом заполняемых форм.
На основании листингов 1, 2 и табл. 1,2,3 строятся структурные единицы для
представлении конкурсов, видов конкурсов, видов проектной документации и форм.
Для каждой составляющей комплекта форм разработана структура, в которой указан уникальный идентификатор, с помощью которого осуществляется связь между составляющими комплекты форм единицами.
Id - уникальный идентификатор;
Name - поле для названия конкурса
RusName 1 - поле для русского названия вида конкурса.
Id
Name
RusName 1
Id
Name
Рис. 9. Структура видов конкурсов
Id - уникальный идентификатор; Name - поле для названия формы; FolderForForm - поле - указатель размещения папки шаблона;
FilesXMLForms - поле - указатель размещения файла шаблона
Рис. 8. Структура для конкурсов
Id - уникальный идентификатор; Name - поле для английского названия вида конкурса;
III Name FolderForForm FilesXMLForms
Рис. 10. Структура проектной документации
В итоге получаем результирующую структуру данных:
Рис.11. Результирующая структурная схема управления формами
Данные, вводимые с помощью выше- ной схемы управления формами (рис. 11),
приведенных комплектов форм, использу- строится интерфейс, позволяющий управ-
ются как объединенный информационный лять составными элементами. Пример тако-
массив. го интерфейса приведен на рис. 12.
На основе результирующей структур-
ГпЛЦПс|Я фор ИЛ Проекта
Год I гоо7 Наименование конкурса | Основной конк^с 2007 гада
Виды конкурсов I а - Научмо-исспедоватепьсгие гч»ек.ты
Юочплвкт форм
3
л
Енд К0ИЛЛ6ИТ4 форм
Далее
Справка
Формирование титульного листа
т I НЬвый С Продолжить работу
Вьиод и закрытие г^жлажения
Отправить Комплект форм на сайт регистрации
Рис. 12. Интерфейса bi
При создании системы использовался язык программирования VBA, все структурные элементы данной системы хранятся в формате XML, а все данные, полученные от пользователей, хранятся в форматах txt, doc, XML, при этом структурная схема электронного документа XML создается программистом, но не программой.
Разработанный метод динамического формирования наборов атрибутов электронных документов построен на основе дедуктивного метода заполнения атрибутов электронных документов.
5. Статико-динамическая система. «Конструктор электронных объектов»
Задача заключается в том, чтобы создать систему ввода, обработки и представления данных не зависимую от выбора пользователя платформы, операционной системы и среды программирования.
Управление данными не может решаться независимо от формата представления информации на электронных носителях, а также без привязки к той или иной программной среде, в которой работает разработчик и соответственно пользователь системы управления данными.
Под управлением информацией подразумеваются задачи:
• заполнение новыми данными;
• обновление данных;
• представление в удобном для пользователя виде, будь то таблицы, строки, графики, и т.д.;
• удаление данных;
• а также переноса данных из одной системы в другую.
При передаче данных из одной системы «Системная энциклопедия» в Систему подачи проектной документации РГНФ требуется:
I форм для заполнения
- перекодировать данные из БД MySQL в формат XML, встроенным модулем MySQL;
- с помощью вышеприведенных структурных схем и конструктора свойств электронного документа добавить тип Публикации «Реферат», обозначить свойства данной единицы, прописать свойства полей, которые соответствуют данному типу Публикации, и передать данные в систему РГНФ.
На основе структурных схем, показанных на рис. 12, 13, 14, теперь можно получить систему стандартизации характеристик свойств полей для двух однородных систем (Системной энциклопедии) и Системы подачи проектной документации для передачи данных о статье.
Рис.13. Схематическая структура построения взаимосвязи форм (представлений, видов)
Рис.14. Схематическая структура построения взаимосвязи полей и свойств полей
Рис. 15. Перенос данных двух однородных систем
Статья
Атрибуты статьи Название
Наименование раздела Слово или словосочетание Текст статьи
Атрибуты автора статьи Фамилия, Имя, Отчество Место работы - учебы Адрес электронной почты
Комплекты форм РГНФ
Комплект форм «Заявка» Форма 1. Данные о проекте Форма 2. Данные о руководителе и основных исполнителях проекта Форма 3. Данные об организации
Комплект форм «Отчет» Форма 1. Отчет по научно-исследовательскому проекту Форма 2. Данные о руководителе и основных исполнителях проекта Форма 6. Библиографический список публикаций по итогам года
Разработанный метод динамического формирования наборов атрибутов научных электронных документов подходит не только для формирования новых электронных документов, но и для управления и передачи данных между двумя однородными системами.
Заключение
С интенсивным развитием информатики как самостоятельной науки расширяется область ее применения совместно с другими научными дисциплинами. В частности, при решении задач представления знаний набирает силу и практика применения автоматизированных систем и средств сбора, обработки, хранения, передачи и представления информации.
Однако по большей части эти средства базируются на разнородных, часто несовместимых стандартах, форматах и подходах, что существенно снижает положительный эффект от их внедрения, особенно при организации взаимодействия этих систем.
В данной статье, при создании двух систем и «моста» между ними мы опирались на независимый формат сбора, обработки, хранения, передачи и представления информации, XML.
Но каждая фирма - изготовитель программного обеспечения диктует свое видение даже независимых форматов, таких как HTML, XML, поэтому возникает задача не только стандартизации, но и создания и сохранения единой формы представления информации.
Литература
1. Шемакин Ю.И. Семантическая аксиоматика идентификации систем Вселенной - концептуальная и реперная основа энциклопедии.
2. Рэй Э. Изучаем XML / Пер. С. Маккавеева. - СПб: Символ-Плюс, 2001.
3. Ульман Дж., Уидом Дж. //Введение в системы баз данных. - М.:Лори М, 2006.
4. Проект ФЗ РФ «Об электронном документе» http://www.akdi.ru/gd/ proekt/ 096779GD. SHTM
5. Сайт Российского гуманитарного научного фонда (РГНФ) www.rfh.ru. (15.05.2005 г.), (15.05.2006 г.), (15.05.2007 г.).
6. Кастаньетто Дж., Рават Х., Шуман С., Сколло К., Велиаф Д. Профессиональное PHP программирование / Пер. С. Маккавеева, Т. Морозовой. - СПб: Символ-Плюс, 2001.
7. Паттерсон Л., Шарльверс С. Корелиус Дж. и др. Использование HTML 4.0 / Пер. А.В. Слепцова, С.Г. Триуб. - СПб: Вильямс, 1998.
8. Дюбуа П. MySQL / Пер. Н.В. Воронина, К. А. Мартусенко. - СПб: Вильямс, 2000.
9. Косарик В.В. Универсальные формы заполнения и представления научных электронных документов // Межотраслевая информационная служба. - М.: ФГУП «ВИМИ». - 2006. - № 4 - С. 23-42.
10. Косарик В.В. Представление форм научных электронных документов // Межотраслевая информационная служба. - М.: ФГУП «ВИМИ». - 2007. - № 1. - С. 46-60.
11. Косарик В.В. Система управления формами научных электронных документов // Межотраслевая информационная служба. - М.: ФГУП «ВИМИ». - 2008. - № 1 - С. 9-25.