БИБЛИОСФЕРА, 2010, № 2, с. 30-32
Информатика
УДК 002.2 : 004 ББК 76.10
СРАВНЕНИЕ УСТАНОВОК ДЛЯ ОЦИФРОВКИ РУССКИХ СТАРОПЕЧАТНЫХ И РУКОПИСНЫХ КНИГ И МЕТОДЫ ОБРАБОТКИ ИЗОБРАЖЕНИЙ
© А. В. Шабанов, 2010
Государственная публичная научно-техническая библиотека Сибирского отделения Российской академии наук 630200, г. Новосибирск, ул. Восход, 15
Рассматриваются аппаратный и программный аспекты технологии создания цифровых копий русских старопечатных и рукописных книг. Подводятся итоги развития цифровой библиотеки «Книжные памятники Сибири» за 2009 г.
Ключевые слова: редкие книги и рукописи, технологии оцифровки, обработка изображений, цифровые библиотеки.
Hardware and software aspects of the technology for making digital copies of the Russian early printed books and manuscripts are considered. The results of the development of the digital library «Book Monuments of Siberia» in 2009 are summarized.
Key words: rare books and manuscripts, digitization technologies, image processing, digital libraries.
Настоящая статья является продолжением публикации, посвященной факторам, влияющим на выбор технологии оцифровки русских старопечатных и рукописных книг [1]. В ней проанализирован комплекс вопросов, связанных с выбором аппаратного и программного обеспечения, необходимого для создания цифровых копий русских старопечатных и рукописных книг.
1. Аппаратное обеспечение
Для создания цифровой копии редкой книги или рукописи необходимо выбрать аппаратуру, состоящую из двух частей: компьютерного оборудования и установки для оцифровки источника. В зависимости от целей, для которых нужна такая копия (подробнее см.: [1]), набор компьютерного оборудования различается, но ключевыми служат три компонента: хранилище данных, компьютер для обработки первичных изображений, система цветокалибровки.
При современных объемах и надежности жестких дисков (HDD) начинать успешную работу по оцифровке можно если отдельное хранилище данных и система резервирования первичного архива изображений не предусматриваются на первой стадии. Правда в этом случае резко повышаются требования к качеству обработки изображений, поскольку в случае утраты части архива повтор невозможен. Отметим впрочем, что в связи с ши-
роким распространением цифровой фотографии появилось много предложений программного обеспечения по «пакетной» обработке изображений обеспечивающих весьма неплохое качество конечного результата. Однако, если задачи оцифровки ставятся перед организацией на длительную перспективу, то без современных систем хранения данных с резервированием не обойтись.
Требования к компьютеру для обработки первичных изображений (фильтрации данных) зависят только от объема архива. Для большинства задач более чем достаточно 4-процессорной системы на основе, например, Intel Core i5 750 с 4 Gb оперативной памяти.
Безусловно, аппаратная система цветокалибровки крайне желательна при получении электронных копий редких книг и рукописей, но, к сожалению, пока в российских условиях этим часто приходится пренебрегать. Отметим лишь тот факт, что в большинстве случаев перед создаваемой цифровой библиотекой не ставится задача возможного получения высококачественной «твердой», бумажной копии и потому этот вопрос не выходит на первый план.
Выбор установки для оцифровки - наиболее ответственный этап при планировании работ. На российском рынке специализированного оборудования превалируют предложения от фирм, предлагающих решения по переводу в электронную форму «офисных» бумажных архивов [2-4].
А. В. Шабанов, 2010, № 2, с. 30-32
Главной проблемой при этом считается скорость оцифровки и возможности автоматического индексирования массива электронных документов. Однако для редких книг и рукописей требования другие. С учетом реального состояния источников в наших хранилищах скоростная оцифровка, как правило, неприемлема, «автоматизация» описаний невозможна. Поэтому здесь можно рекомендовать следующую двухэтапную последовательность действий.
Вначале создается система оцифровки на базе цифрового фотоаппарата с обязательной «постановкой» освещения первоисточника (например, на базе предложений от ЛТК [5]). Только после отработки комплекса возникающих проблем при реальной работе с коллекцией можно определить требования к узкоспециализированному оборудованию и помещению. Следует учесть, что техника стоит довольно дорого, покупается на длительный период и ошибки этого этапа практически невозможно исправить. Повторимся (см.: [1]) - главным при выборе являются опыт и значительное количество проб на самых разных книжных памятниках.
2. Программное обеспечение
Комплекс программных средств должен обеспечить решение следующих задач:
• получение пользовательского изображения из первичного;
• сборка электронной копии;
• ведение цифровой библиотеки.
Основное для первой задачи - цветокоррекция
и повышение резкости удовлетворительно обеспечивается комплексами программ по пакетной обработке цифровых изображений, например, предлагаемых фирмой Ра81Б1;опе [6].
Современные сценарные языки программирования вполне пригодны при создании электронных копий редких книг и рукописей.
При ведении цифровой библиотеки важны система резервирования первичных архивов изображений и поддержка различных электронных версий для разных категорий пользователей.
3. Развитие цифровой библиотеки «Книжные памятники Сибири» в 2009 г.
В работах 2007-2008 гг. [7, 8] детально описано развитие цифровой библиотеки «Книжные памятники Сибири» за 10 лет. Охарактеризуем теперь новые тенденции и возможности, связанные с расширением круга первоисточников и модернизацией оборудования.
Виртуальное расширение фонда редких книг и рукописей. Совершенно новое направление, возникшее в 2009 г., связано с созданием элек-
тронных копий источников, владельцы которых пока не соглашаются передать их в фонд ГПНТБ СО РАН, но дают разрешение на оцифровку, что позволяет «виртуально» расширять наш фонд.
Здесь возможны два варианта: генерация копии на месте ее «обитания» с помощью передвижной лаборатории или временная передача книги в ГПНТБ СО РАН и оцифровка в стационарных условиях. Пока первый, потенциально более перспективный вариант, нам недоступен и мы можем проводить оцифровку только в ГПНТБ СО РАН.
В 2009 г. были созданы 14 электронных копий источников из различных сибирских регионов -Красноярский край, Алтай, Тюмень.
Их полные версии доступны в локальной сети ГПНТБ СО РАН и по запросу специалистов. В 2010 г. часть из них (при получении согласия владельцев) будет размещена в Интернете по адресу: http://www.spsl.nsc.ru/rbook.
Первичная оцифровка, обработка изображений. Ранее в [1] достаточно подробно рассмотрена технология оцифровки и весь комплекс связанных с этим проблем. Здесь мы приведем только детали, более точно характеризующие рассматриваемые 14 источников.
Для оцифровки использовалась следующая аппаратура: планарный сканер ЭЛАР Планскан формата А2, цифровой фотоаппарат Canon 350D, два источника рассеянного света FalconEyes Softbox SBQ-7575.
Первичный архив содержит 3507 файлов, объемом и 60,9 Gb.
14 цифровых копий состоят из 10 554 файлов, объемом и 14,2 Gb.
Создание цифровых копий пяти изданий Ивана Федорова. Завершена многолетняя работа по оцифровке всех изданий Ивана Федорова, хранящихся в фонде ГПНТБ СО РАН. Это московское и львовское издания Апостола, Острожская Библия, Заблудовское Евангелие и Новый завет с Псалтырью - все хранятся в фонде отдела редких книг и рукописей ГПНТБ СО РАН.
Из них первые четыре источника оцифрованы на установке ПланСкан фирмы ЭЛАР [2], пятый -с использованием цифрового фотоаппарата Canon 350D и двух источников рассеянного света Falcon-Eyes Softbox SBQ-7575. Выбор аппаратных средств диктовался только состоянием переплета каждого конкретного экземпляра - это определяет возможности фиксирования листов при оцифровке и степень геометрических искажений.
Первичный архив содержит 2126 файлов объемом и 114,5 Gb. Пять цифровых копий состоят из 8779 файлов объемом и 14,1 Gb.
Программная обработка первичных изображений проведена средствами FastStone Viewer [6] и, для отдельных листов, Adobe Photoshop CS3.
ИНФОРМАТИКА
Для создания электронной копии использованы средства JavaScript.
Полученные результаты удовлетворяют требованиям, поставленным перед цифровой библиотекой «Книжные памятники Сибири». Подробно изучить их можно по адресу: http://www.spsl.nsc.ru/ rbook, где доступны полные версии всех указанных пяти изданий Ивана Федорова.
Модернизация оборудования. Для проведения оцифровки редких книг и рукописей в ГПНТБ СО РАН используются две установки - ПланСкан серии «Репро» фирмы ЭЛАР и на основе цифрового фотоаппарата фирмы Canon и двух источников рассеянного света фирмы FalconEyes Softbox SBQ-7575.
Для первой установки была проведена доработка условий освещения - создан режим «темной комнаты», что позволило существенно улучшить цветопередачу и несколько повысить резкость, получаемые для первичных архивов изображений.
С учетом опыта работ с использованием цифровых фотоаппаратов различных моделей в качестве основного на следующий период был выбран фотоаппарат фирмы Canon 500D с объективами EF 24mm f/1.4L II USM и EF-S 18-55 f/3.5-5.6 IS.
Основная нерешенная проблема - отсутствие специализированной системы для фиксации ветхих рукописных и старопечатных книг, что значительно ограничивает круг источников, которые можно оцифровывать.
В целом (после модернизации) оцифровка возможна для ~ 60% фонда ГПНТБ СО РАН и внешних источников.
В ГПНТБ СО РАН в рамках работ по созданию цифровой библиотеки «Книжные памятники Сибири» созданы цифровые копии 14 источников из «личных» старообрядческих собраний.
Созданы цифровые копии всех изданий Ивана Федорова, хранящихся в нашем фонде. Их полные версии доступны по адресу: http://www.spsl.nsc. ru/rbook.
Перспективы на ближайшие годы - использование передвижной лаборатории оцифровки, что позволит предоставить в научный оборот значительные, пока почти недоступные, «личные» старообрядческие собрания, библиотеки и развертывание специализированной системы для фиксации
ветхих рукописных и старопечатных книг при оцифровке.
В 2010 г. будет проводиться «массовая» оцифровка собрания М. Н. Тихомирова и наиболее интересных экземпляров из текущих поступлений, полученных в результате археографических экспедиций отдела редких книг и рукописей ГПНТБ СО РАН и Новосибирского государственного университета.
Список литературы
1. Шабанов А. В. Факторы, влияющие на выбор технологии оцифровки русских старопечатных и рукописных книг // Библиосфера. - 2008. - № 4. - С. 46-48.
2. Книжные сканеры ЭЛАР ПланСкан [Электронный ресурс]. - URL: http://www.planscan.ru/
3. KIRTAS [Электронный ресурс]. - URL: http://www. rtas.com/
4. ScanRobot [Электронный ресурс]. - URL: http:// treventus.com
5. ATIZ BookDrive [Электронный ресурс]. - URL: http://ww.atiz.ru
6. FastStone [Электронный ресурс]. - URL: http://www. aststone.org
7. Перспективы развития цифровой библиотеки русских старопечатных и рукописных книг в ГПНТБ СО РАН / В. Н. Алексеев и [др.] // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса : материалы 14 междунар. конф. «Крым 2007» (г. Судак, 9-17 июня 2007 г.) [Электронный ресурс]. - URL: http://www. gpntb.ru/win/inter-events/crimea2007/cd/64.pdf
8. Создание и развитие цифровой библиотеки «Книжные памятники Сибири» / В. Н. Алексеев и [др.] // Библиосфера. - 2008. - № 4. - С. 43-45.
Материал поступил в редакцию 26.01.2010 г.
Сведения об авторе: Шабанов Андрей Васильевич - кандидат технических наук, старший научный сотрудник отдела редких книг и рукописей, тел.: (383) 266-10-91, e-mail: shabanov@spsl.nsc.ru