Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2014. № 11. С. 623-634.
Б01: 10.7463/1114.0734752
Представлена в редакцию: 04.11.2014
© МГТУ им. Н.Э. Баумана УДК 004.4
Аппаратно - программный комплекс обработки и создания неформатных электронных документов на основе технологии автоадаптивных шрифтов
Андрианова Е. Г.1', Сотников А. Н.2, 'andrianova-amirea.ru
2
Чередниченко И. Н.
1МГТУ МИРЭА, Москва, Россия Межведомственный Суперкомпьютерный Центр РАН, Москва,
Россия
Насущная потребность перевода в электронный вид документов на бумажных носителях выдвинуло в число актуальных проблему разработки методов и алгоритмов для автоматических комплексов обработки и веб-публикаций неформатных графических документов он-лайн библиотек. В статье представлены методы, алгоритмы и программные средства построения автоадаптивных шрифтов для создания аппаратно-программных комплексов обработки неформатных графических документов. Для получения векторов признаков графических объектов использован контурный метод и Фурье-преобразование. Выделение контуров на исходном изображении достигается применением метода «маркированных квадратов». Приведена структура аппаратно-программного комплекса.
Ключевые слова: неформатные графические документы, автоадаптивный шрифт, технология автоадаптивного шрифта, обработка неформатных документов, аппаратно-программный комплекс (АПК)
Введение
Насущная потребность перевода в электронный вид документов на бумажных носителях выдвинуло в число актуальных проблему разработки методов и алгоритмов для автоматических комплексов обработки и веб-публикаций неформатных графических документов он-лайн библиотек.
В настоящее время основным методом перевода документов с бумажных носителей в электронный вид является сканирование. При сканировании документов используются специальные аппаратно-программные комплексы, с развитым программным обеспечением, требуемым для подготовки документа. Немаловажное значение в этом процессе имеют распознавание, обработка и интеграция графических образов в электронный документ. При сканировании любого бумажного документа генерируется его
Наука и Образование
МГТУ им. Н.Э. Баумана
Сетевое научное издание
образ, сохраняемый в одном из графических форматов. Из этих сканированных электронных документов строится электронная библиотека - информационная система, позволяющая сохранять, эффективно использовать разнообразные коллекции электронных документов, локализованных в самой системе, а также обеспечивать доступ к этим коллекциям через телекоммуникационные сети.
Если ситуация с новыми изданиями и публикациями компьютерного периода выглядит достаточно хорошо (в последние годы публикации в большинстве случаев готовятся в цифровом виде), то в работе с неформатными графическими документами, по сути, являющимися сканами, приходится сталкиваться с множеством задач, требующих своего решения. Объем изданий, публикаций и документов, выпущенных в бумажном виде еще до внедрения компьютерных технологий обработки, исчисляется сотнями миллионов страниц. Проблема усугубляется еще и тем, что все эти документы продолжают стареть и ветшать и если их не перевести в цифровой формат, многие из них могут быть безвозвратно утрачены.
Попытки перевести отсканированные изображения в современные форматы электронных документов при помощи программ оптического распознавания текста сталкиваются с серьезными трудностями, причина которых состоит в том, что докомпьютерную эпоху не придавалось особого значения стандартизации набора шрифтов и оформления печатных документов. В результате неформатные бумажные документы часто использовали нерегулярные и нестандартные наборы шрифтов. В дополнение ко всему, существует насущная необходимость сохранения в электронном формате первоначального вида таких документов, их особенностей и стилей. Тем более, что для многих полу-рукописных, старинных печатных и руко-печатных текстов, а также уникальных изданий необходимо сохранять не только сам текст исторического документа, но и всю графическую и цветовую гамму первоисточника. Специальные подходы, методы обработки и принципы хранения и представления данных в неформатных электронных документов разработаны недостаточно, а проблемы их разработки остаются крайне актуальны.
История вопроса
Начало работ по созданию электронных версий бумажных документов было положено проектом Gutenberg в 1971 году [1]. Перевод в электронный вид первой тысячи книг в электронный вид занял 10 лет, но сейчас темпы стремительно выросли.
Современные проекты электронных библиотек уже насчитывают миллионы единиц в коллекции и еще больше необработанных неформатных документов, требующих перевода в электронный вид [2].
К сожалению, большая часть этих оцифрованных неформатных электронных документов публикуется почти в том виде, в каком они получены из под сканера. И объясняется это, в первую очередь, трудностями, связанными с распознаванием (современные ОСР системы дают очень большой процент ошибок) и последующей
обработкой и отображением (многие символы давно вышли из употребления или вообще уникальны), поскольку шрифты и стиль оформления таких документов сильно отличаются от современных стандартов в весьма широких пределах. Исправить эту ситуацию предлагается с помощью предложенной в данной работе технологии формирования автоадаптивных шрифтов для неформатных графических документов.
40000 30000 20000 10000 0
1971 2001 2003 2006 2008 2010 Рис.1. Рост количества книг, переведенных в электронный вид в проекте Gutenberg по годам.
В 1977 году Абрахам Лемпель и Якоб Зив предложили алгоритм сжатия данных, названный позднее «LZ77». Этот алгоритм используется в программах архивирования compress, lha, pkzip и arj. Алгоритм предполагает кодирование последовательности бит путем разбивки ее на фразы с последующим кодированием этих фраз. Системы кодирования по методу Лемпеля-Зива используют технологию кодирования с применением т.н. «адаптивного словаря», содержание которого состоит из набора произвольных фрагментов данных, не связанных с содержанием документа и может изменяться в зависимости от обрабатываемых данных в процессе словарного кодирования. Поскольку в словарь включены лишь разнородные фрагменты данных, длинной от пары до сотен бит, он неплохо себя показывает в случаях универсального применения, но не совсем удобен для текстовых графических документов. Реализация такого словарного подхода на низком фрагментарном уровне, заложенная в стандарте JPEG2000, ни к каким преимуществам не привела и стандарт так и не получил широкого распространения. На наш взгляд, продуктивная идея не сработала в полной мере из-за выбора слишком «низкого» уровня разбиения и детализации минимальных объектов, подлежащих обработке.
Точка зрения авторов данной работы состоит в том, что разбиение графического документа на объекты, мельче, чем буквы - далеко не всегда эффективно при решении задачи обработки неформатных графических документов. Действительно, если смотреть на любой графический документ с позиции пользователя, то изначальными и основными «кирпичиками», определяющими восприятие текстового материала будут, прежде всего, изображения букв и их сочетаний. В связи с этим, в работе гипнотизируется возможность
построения расширяемого адаптивного словаря, но уже на более высоком уровне -выделения графических объектов, максимально приближенным к соответствующим буквам, а, по сути, к их шрифтам, составляющих графический документ. Поэтому, проведя предварительную обработку графического документа и выделив в нем все отдельные объекты, соответствующие уровню букв и шрифтов, можно построить уникальный расширяемый словарь графических объектов, адаптированный к данному графическому документу. Словарь автоматически корректируется по мере обработки графических объектов и накопления статистической информации для каждого нового документа. Именно этот адаптивный расширяемый словарь графических букв, шрифтов и других объектов автоматизированной обработки конкретного документа условно назван нами «автоадаптивным шрифтом», а совокупность методов его применения -«технологией построения автоадаптивного шрифта» [3].
Создание неформатных электронных документов на основе технологии
автоадаптивных шрифтов
В работе предпринята попытка на основе математического аппарата модели алгоритма вычисления оценок (АВО), впервые предложенной в работах Ю.И. Журавлева [4], построить модифицированные методы и алгоритмы, позволяющие эффективно обрабатывать неформатные графические документы в аппаратно-программных комплексах (АПК) с конвертацией бумажных документов в электронные. На пути реализации этой попытки необходимо восполнить целый ряд пробелов в технических решениях, применяемых в настоящее время при решении аналогичных задач. К таким пробелам следует отнести отсутствие адекватных алгоритмов и программных средств автоматической обработки неформатных графических документов с целью формирования их уникальных автоадаптивных шрифтов; отсутствие алгоритмов обратного восстановления исходного вида графических документов, построенных на основе информации автоадаптивного шрифта, позволяющего обеспечить достижение наилучшего качества восстановления документа; отсутствие математических моделей, представляющих единым образом все виды объектов неформатных графических документов, с построением для каждого объекта вектора признаков и с использованием выбранной метрики для оценки похожести этих объектов; неопределенная процедура выбора необходимого количества членов разложения в ряд Фурье для решения поставленной задачи и др. [5].
Для получения векторов признаков графических объектов используется контурный подход. Контур графического объекта рассматривается как вектор-функция, заданная параметрически:
К (() = х(t), ( = 1,2,..., т
К (0 = У t = ^^ т (1)
Очевидно, что подобное описание объекта не может обойтись без дополнительных преобразований, чтобы использоваться в качестве вектора признаков. Во-первых, необходимо чтобы описание графического объекта было инвариантно по отношению к положению объекта. Во-вторых, представление объекта не должно зависеть от его размеров (масштаба объекта), хотя и может содержать масштаб объекта как дополнительный параметр. Некоторые специальные приложения накладывают и дополнительные требования. Например, может потребоваться инвариантность описания объекта к углу поворота в случае, когда разрешается ввод графической информации с произвольной ориентацией по отношению к устройству ввода и т.д. Выбор в пользу преобразования Фурье сделан, главным образом, в силу равномерной сходимости ряда Фурье при приближении кусочно-линейной функции, ортогональности его компонент и ряда других особенностей этого метода. Коэффициенты разложения Фурье bk для кусочно-линейной функции вычисляются по формуле [6]:
, (-1)k 2f (ж) 2m . , .
К = 2 +-2mZai(sinktM - sinktt)
k ж k ж i=0 (2)
Из равномерной сходимости компонент Фурье-преобразования как 1/х, следует необходимый для практических расчетов вывод о том, что если эти коэффициенты bk для кусочно-линейной функции вычисляются точно, и если использовать их в качестве компонент вектора признаков, то их количество определяется точностью поставленной задачи и однозначно определяется процедурой выбора необходимого количества членов ряда Фурье для получения необходимой точности решения задачи обратного восстановления вида графических объектов. При этом, восстанавливать объекты обратным Фурье преобразованием необходимо не точнее шага сетки сканирования. В связи с этим доказывается теорема об оценке необходимого количества m членов разложения в ряд Фурье [7]:
2 ж 2 ns m2 <-
8d (3)
где е - требуемая точность, d - линейный размер графического объекта, n - количество точек в контуре и m - количество компонент, обеспечивающих требуемую точность приближения. Задавшись нужной точностью е, количеством компонент преобразования Фурье и линейным размером графического объекта d, получаем необходимое количество компонент m, которые обеспечивают требуемую точность приближения. На практике n и требуемая точность е - заданные величины. При работе с графическим объектом, необходимо оценивать количество точек, при котором соблюдается необходимая точность приближения. Рассматривается выбор метрики расстояния в пространстве признаков описания объектов графического документа. Разработан метод построения автоадаптивного шрифта на основе процедуры кластеризации графических объектов. Поскольку процедура построения автоадаптивного шрифта - это объединение нескольких близких графических объектов в один образец (элемент автоадаптивного шрифта), то метод, объединяющий похожие графические объекты в один элемент, предполагает
последовательную обработку объектов неформатного графического документа и их сравнение с уже существующими элементами автоадаптивного шрифта. Для решения этой задачи необходимо: осуществить выбор и выполнить корректировку порога принадлежности рассматриваемого входного графического объекта уже существующим элементам автоадаптивного шрифта, выполнить коррекцию элемента автоадаптивного шрифта и включить в него информацию об обработанном объекте.
Входные объекты графического документа, как правило, зашумлены дефектами сканирования. Вполне правомерно считать, что шум от дефектов сканирования имеет нормальное распределение. Поэтому в работе был выбран статистический подход к формированию центра кластера и его границ, который, при достаточном количестве исследуемых образцов, позволяет минимизировать шумы. Предполагается, что на реальные координаты кластера накладываются случайные искажения. Координаты центра кластера рассчитываются как математическое ожидание:
1 т
м (» я=т I * (')
т 1=1 (4)
Соответственно, для формирования и корректировки границ кластера, вычисляется и хранится дисперсия отклонений всех входящих в кластер образцов:
(')] =м[(И (г ))2 ]-(м [ук (г)])2 (5)
Такой подход помимо минимизации помех от дефектов сканирования, позволяет максимально точно восстановить первоначальный вид графических объектов. Адаптивный алгоритм обратной коррекции состоит из следующих шагов:
Шаг 1: Пересчет центра кластера при добавлении в него нового объекта:
1 ^ т 1 т 1
ик (т + 1) = 4 (т +1) = — К (г ) = — • - 1ук (г ) +—ук (т +1) = ^ ' ' т +11 т +1 т зК) т +1 ;V '
—— 4к (т) + ук (т +1) = \тик (т) + ук (т +1)], 1 = 1, п. т +V1 ( ) т +1 ; ( ) т +1[ ; ( ) ; ( )], 1 , (6)
2
Шаг 2: Пересчет значения дисперсии ° после добавления нового члена кластера:
1 т+1
^2 (т +0 = ^ 1Ь (' К, (т ■1)]
1 Г т 2
-— ГI [у, (') - 4 (т ■1)] ■ [у; (т ■1) - (т ■1)
т ■ 1 I г=1
-Ь {т Ь2 (т) ■+ 42 (т)] + У2 (т +1)-(т +1) 42 (т +1)}.
т ■1 (7)
Данный алгоритм позволяет пересчитывать уточненные параметры кластера после добавления нового его представителя [8].
Для построения АПК были разработаны методы предварительной обработки исходных данных неформатных графических документов. Один из них это метод
выделения графических объектов и получение их контуров из бинаризованного электронного документа методом маркированных квадратов [9].
Алгоритм выделения графических объектов и получение их контуров предполагает рассмотрение и анализ четырех ближайших точек сетки. Узлы сетки раскрашиваются (маркируются) в зависимости от значения исследуемой функции в данном узле. Для бинарных изображений такая раскраска есть просто наличие или отсутствие черного пикселя. В результате возникает 16 различных вариантов построения фрагмента контура для данной ячейки:
Рис. 2. Метод «маркированных квадратов» для выделения контуров на исходном изображении.
Разработанный вариант модифицированного метода маркированных квадратов позволяет получать замкнутые внутренние и внешние контура всех графических объектов документа за один проход. После завершения обхода внешнего контура, делается дополнительный поиск и если в поле были еще не обработанные точки, процедура повторялась и в описание объекта вносится следующий контур. Алгоритм построения вектора признаков графических объектов из контурной информации строился на том, что контур рассматривался как вектор-функция (1). Поскольку компоненты Жх и Жу ортогональны, их преобразование в компоненты вектор признаков можно производить независимо используя (2).
Последовательность шагов, необходимых для решения задачи построения автоадаптивного шрифта документа, представляет следующий алгоритм (рис. 3).
Рис.3. Схема работы алгоритма формирования автоадаптивного шрифта графического документа.
Рис.4. Структура АПК обработки неформатных графических документов.
Для оценки правильности подхода к процессу обработки неформатных электронных документов, содержащих графические символы, и решения проблем, связанных с безопасностью, размерами электронных публикаций, а также построения системы поиска в графических файлах в процессе работы реализован и запущен в эксплуатацию программный комплекс Л-ЫЫю, построенный как макет типового АПК. Использование различных программных средств и технологии при реализации комплекса, связано с разнородной средой работы подсистем АПК.
Заключение
Программная реализация комплекса включает в себя развитые подсистемы, прежде всего это станция подготовки документов, выполняющая первоначальный ввод, обработку неформатного графического документа и построение его уникального автоадаптивного шрифта. Восстановление документа и его подготовка для веб-публикации выполняются другим компьютером комплекса, на котором работает веб-сервер и находится база электронных документов, выставленных для просмотра. Конечная сборка и просмотр восстановленного электронного документа производится в третьей подсистеме комплекса. Окончательная сборка документа происходит на компьютере клиента либо при помощи средств HTML-5 либо Flash-модулем. При этом клиентом может быть, в том числе, и планшетный компьютер - необходимо лишь, чтоб его браузер поддерживал стандарт HTML-5.
Список литературы
1. Gutenberg: website. Available at: http://www.gutenberg.org , accessed 01.10.2014.
2. Библиотека Конгресса [The Library of Congress]: сайт. Режим доступа: http://memory.loc.gov/ammem/index.html (дата обращения 01.10.2014) .
3. Сотников А.Н., Чередниченко И.Н. Построение автоадаптивного фонта в документах электронных библиотек // Программные продукты и системы. 2008. № 2. С. 16-20.
4. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания и классификации // Проблемы кибернетики. 1978. Вып. 33. С. 5-68.
5. Сотников А.Н., Чередниченко И.Н. Построение словаря авто-адаптивного фонта // XVII Международная конференция по вычислительной механике и современным прикладным программным системам (ВМСППС'2011) (Алушта, Крым, 25-31 мая 2011 г.): матер. М.: Изд-во МАИ-ПРИНТ, 2011. С. 218-220.
6. Березнев В.А., Волков А.Ю., Чередниченко И.Н. Об использовании преобразования Фурье в задаче распознавания рукописного текста // Вопросы моделирования и анализа в задачах принятия решений: сб. М.: ВЦ РАН, 2003. С. 153-159.
7. Березнев В.А., Волков А.Ю., Чередниченко И.Н. О выборе параметров в алгоритме распознавания раздельного рукописного текста // Вопросы моделирования и анализа в задачах принятия решений: сб. М.: ВЦ РАН, 2004. С. 136-143.
8. Чередниченко И.Н. Система публикаций документов в электронных библиотеках с использованием автоадаптивного шрифта // Приложение к журналу «Открытое образование». 2012. С. 186-189.
9. Lorensen W.E., Cline H.E. Marching Cubes: A high resolution 3D surface construction algorithm // ACM SIGGRAPH Computer Graphics. 1987. Vol. 21, no. 4. P. 163-169. DOI: 10.1145/37402.37422
Science and Education of the Bauman MSTU, 2014, no. 11, pp. 623-634.
DOI: 10.7463/1114.0734752
Received:
04.11.2014
Science ^Education
of the Bauman MSTU
ISSN 1994-0448 © Bauman Moscow State Technical Unversity
Apparatus-Program Complexes Processing and Creation of Essentially non-Format Documents on the Basis of Technology Auto-Adaptive Fonts
E.G. Andrianova1'*, A.N. Sotnikov2, >:andiianova-amiea.ru
I.N. Cherednychenko
1 Moscow State Technical University of Radio Engineering, Electronics and
Automation, Moscow, Russia Joint Supercomputer Center of the Russian Academy of Sciences, Moscow,
Russia
Keywords: non-format documents, auto-adaptive print, auto-adaptive print technology, non-format
document processing, apparatus-program complex (APC)
The need to translate paper documents into electronic form demanded a development of methods and algorithms for automatic processing systems and web publishing unformatted graphic documents of on-line libraries. Translation of scanned images into modern formats of electronic documents using OCR programmes faces serious difficulties. These difficulties are connected with the standardization set of fonts and design of printed documents. There is also a need to maintain the original form of electronic format of such documents. The article discusses the possibility for building an extensible adaptive dictionary of graphic objects, which constitute unformatted graphics documents. Dictionary automatically adjusted as graphics processing and accumulation of statistical information for each new document. This adaptive extensible dictionary of graphic letters, fonts, and other objects of automated particular document processing is called "auto-adaptive font", and a set of its application methods is named "auto-adaptive font technology."
Based on the theory of estimation algorithms, a mathematical model is designed. It allows us to represent all objects of unformatted graphic document in a unified manner to build a feature vector for each object, and evaluate a similarity of these objects in the selected metric. The algorithm of the adaptive models of graphic images is developed and a criterion for combining similar properties in one element to build an auto-adaptive font is offered thus allowing us to build a software core of hardware-software complex for processing the unformatted graphic documents. A standard block diagram of hardware-software complex is developed to process the unformatted graphic documents. The article presents a description of all the blocks of this complex, including document processing station and its interaction with the web server of publishing electronic documents.
References
1. Gutenberg: website. Available at: http://www.gutenberg.org , accessed 01.10.2014.
2. The Library of Congress: website. Available at: http://memory.loc.gov/ammem/index.html , accessed 01.10.2014 .
3. Sotnikov A.N., Cherednichenko I.N. Construction of auto-adaptive font in the documents of digital libraries. Programmnye produkty i sistemy = Software and Systems, 2008, no. 2, pp. 16-20. (in Russian).
4. Zhuravlev Yu.I. Algebraic approach to solving the problems of recognition and classification. Problemy kibernetiki, 1978, iss. 33, pp. 5-68. (in Russian).
5. Sotnikov A.N., Cherednichenko I.N. Build vocabulary of auto-adaptive font. 17 Mezhdunarodnaya konferentsiya po vychislitel'noy mekhanike i sovremennym prikladnym programmnym sistemam (VMSPPS'2011): mater. [Proc. of the 17 International Conference on Computational Mechanics and Modern Applied Software Systems], Alushta, Krym, 25-31 May 2011. Moscow, MAI-PRINT Publ., 2011, pp. 218-220. (in Russian).
6. Bereznev V.A., Volkov A.Yu., Cherednichenko I.N. Use of the Fourier transform in the problem of handwritten text recognition Voprosy modelirovaniya i analiza v zadachakh prinyatiya resheniy: sb. [Questions of modeling and analysis in decision-making problems: collected papers]. Moscow, CCAS Publ., 2003, pp. 153-159. (in Russian).
7. Bereznev V.A., Volkov A.Yu., Cherednichenko I.N. Choice of parameters in the algorithm of recognition of separated handwritten text. Voprosy modelirovaniya i analiza v zadachakh prinyatiya resheniy: sb. [Questions of modeling and analysis in decision-making problems: collected papers]. Moscow, CCAS Publ., 2004, pp. 136-143. (in Russian).
8. Cherednichenko I.N. System of publication of documents in digital libraries using auto-adaptive font. Suppl. to "Otkrytoe obrazovanie", 2012, pp. 186-189. (in Russian).
9. Lorensen W.E., Cline H.E. Marching Cubes: A high resolution 3D surface construction algorithm. ACM SIGGRAPH Computer Graphics, 1987, vol. 21, no. 4, pp. 163-169. DOI: 10.1145/37402.37422