Параллельно-конвейерная обработка документов в сканцентре

Вишняков Ю.М.; Хашковский В.В.

2

1,5

0,5

■ Предыдущая версия

I Разработанная система

5 заказов 10 15 20

заказов заказов заказов

Рис.10. Время автомашины в пути

Из диаграммы видно, что, учитывая коэффициенты загруженности улиц в

разное время суток, мы получаем лучший результат, чем в предыдущей системе.

Отсюда следует необходимость использования этих коэффициентов в работе нашей системы и главной задачей становится их наиболее точное определение.

ЛИТЕРАТУРА

1. [Вагнер, 1973] Вагн ер Г. Основы исследования операций. В 3 томах. М.: Мир, 1973.

2. [Моудер, 1981] Исследование операций: В 2-х томах / Пер. с англ.; Под ред. Дж. Моуде-ра, С. Элмаграби. М.: Мир, 1981.

3. [Нильсон, 1985] Нильсон Н. Принципы искусственного интеллекта / Пер. с англ. Радио и связь, 1985.

4. [Ясиновский, 1994] Ясиновский СМ. Логический вывод в гибридных системах // Вестник МГТУ. Приборостроение, №1, 1994. С.88-95

5. [Ballow, 1987] Ballow R.H. Product storage and warehousing // Basic Business Logistics. Transportation,Materials, Management, Physical Distribution / 2-d edition. -NY, Prentice-Hall International Edition, 1987. P.192-272.

6. [Емельянов и др., 1998] Емельянов В.В., Ясиновский СМ. Введение в интеллектуальное имитационное моделирование сложных дискретных систем и процессов. Язык РДО. М.:

, 1998.

7. [Artiba et al., 1998] Artiba A., Emelyanov V.V., Iassinovski S.I. Introduction to Intelligent Simulation: The RAO Language. Kluwer Academic Publishers. Boston/Dordrecht/London, 1998.

УДК 681.3.01

Ю.М. Вишняков, B.B. Хашковский

ПАРАЛЛЕЛЬНО-КОНВЕЙЕРНАЯ ОБРАБОТКА ДОКУМЕНТОВ В

СКАНЦЕНТРЕ

1

0

Задачи новой информационной эры в большей степени ориентированы на активное использование средств вычислительной техники в различных областях. В связи с этим особую актуальность приобрел вопрос об использовании соответст-- ,

обеспечения доступа к информации в электронном виде, а также о переводе информации с твердых носителей в компьютерные форматы. Такие форматы обладают многими преимуществами по сравнению с традиционными способами хранения информации, например:

1. Электронные документы не стареют и могут быть востребованы в первоначальном виде по прошествии длительного срока.

2. В базах данных электронных документов значительно легче организовать процедуры интеллектуального поиска, чем в бумажных.

3. Для электронных документов более гибко и оперативно может быть организован доступ и разграничение прав доступа.

Для перевода существующих документов в компьютерные форматы проводится комплекс мероприятий, позволяющий получить полный аналог традиционного документа в компьютерном виде. Основными этапами этого комплекса явля-, -костью. Таким образом, для эффективной работы требуется специальная организация программно-аппаратных ресурсов, людей, технологий, которая объединяется общим понятием «Сканцентр».

Сканцентр включает быстрый документный сканер, станции сканирования, , , , обеспечение, специально подготовленный персонал. На рис. 1 изображена схема обработки документов в сканцентре.

Рис.1. Схема обработки документов в сканцентре

Обработка документов в сканцентре происходит параллельно-конвейерным , : сканирование, сегментация, распознавание, верификация, экспорт. Их информативная характеристика приведена в табл. 1.

І

Название Режимы Описание

Авто Ручной

Кр. Об. Кр. Об.

Сканирова- ние ДА ScA ДА ScM После сканирования получают изображения, идентичные оригинальным. Изображения хранятся в графических файлах в виде последовательных точек (пикселей). Могут обрабатываться графическими ре, .

Предобра- ботка ДА Qa ДА QM Для повышения качества распознавания можно проводить интеллектуальную предварительную обработку изображений, реставрировать старые и/или некачественные документы

- ция ДА SA ДА SM На этом этапе производится анализ изобра-, , содержащие информацию различного характера (изображение, текст, таблица и др.), и соответствующим образом маркируются. Этот этап может быть проведен в автоматическом или ручном (человеком-оператором) режиме и не может быть пропущен при об.

- ние ДА ra НЕТ RM На этом этапе производится обработка выделенных сегментов изображения по различным алгоритмам. Так, например, текст распознается в соответствии с установками о выбранном языке распознавания, изображения остаются в исходном , -ки/столбцы и распознается информация, . происходит автоматически и не может , процесса обработки заявки.

- ция НЕТ Vа ДА VM На этом этапе производится проверка пра- , . или неправильно распознанные символы - -вильные. Этот этап не может быть прове, - .

Экспорт ДА Ea НЕТ EM На этом этапе производится конвертирование результатов предыдущих этапов в целевые форматы, например rtf, doc, html и др.

Из табл. 1 видно, что некоторые могут быть проведены только в автоматическом или только в ручном режимах. Также допускается пропуск некоторых этапов , , . -ми заказчика и определяется заранее, до начала обработки во время составления путевого листа заявки.

Путевым листом заявки, или маршрутной картой заявки будем называть описание пути прохода заявки по этапам обработки в сканцентре. Она содержит информацию о том, на каких этапах и каким именно образом должна быть обработа-. . -ром путевого листа может служить следующий:

Файл 7а]аука1.]Ж

РЫОК:9 {0-10; 0-тах, 10-тт}

БСАКАИТО {МА^АИТО}

ОИАЫТУ^ОКЕ {МА^АИТО^О^}

БЕОМЕОТАТЮ^АИТО {МА^АИТО}

КЕСОО№ТЮ№АИТО {АИТО|ШКЕ}

УЕШБУ^ОКЕ {МА^ШКЕ}

ЕХРОЯТ:БОС {ТЕХТ|БОС|ХЬБрБР}

В этом примере обработка заявки будет происходить следующим образом: документы будут отсканированы на быстром документном сканере, повышения качества изображения производится не будет, сегментирование документа будет

, -зультаты распознавания будут сохранены в формате MSWord. Обработка документов будет производиться с небольшим приоритетом.

На рис.1 в виде графа представлены возможные пути обработки заявок в сканцентре. Интересной особенностью является то, что заявка может пропустить этап распознавания, и следовать БсА(М) ЕА - такой способ обработки заявок об-

ладает наименьшими задержками при обработке в сканцентре и подходит в тех случаях, когда требуется создание электронного архива документов, без реализа-, , , -тивного доступа к изображениям оригинальных документов.

, -

.

исходя из требований заказчика к результатам обработки документов. Путевой лист должен быть составлен до помещения заявки в очередь см. рис. 2.

Организация вычислительного процесса. Для реализации вычислительного процесса используется специальное программное обеспечение, поскольку стандартные средства способны обеспечить только совместную работу нескольких рабочих станции над одним пакетом распознавания. При этом автоматизация становится крайне ограниченной и существенная часть потенциально возможной функциональности может быть потеряна.

Кроме реализации приоритетного обслуживания, необходимо использовать конвейерную обработку и оптимизацию обслуживания заявок таким образом, чтобы уменьшить общее время распознавания группы заявок (например, от одного ).

рассмотрим следующий случай.

Рис.2. Граф прохождения заявкой этапов обработки

В качестве исходных условий положим, что имеются отсканированные изображения, сегментация производится автоматически, верификация не производится. Экспорт осуществляется полистно в текстовый формат, т.е. каждому входному изображению после обработки будет соответствовать текстовый файл с распознанной информацией, заявка состоит из 4-х листов, имеются две станции распознавания с различной производительностью (случай станций распознавания с одинако-

). -

. 2.

Таблица 2

Этапы обработки Станция 1 Станция 2

Сегментирование 5 сек. 5 сек.

Распознавание 100 сек. 50 сек.

, -

тельно производит все этапы обработки, переходя к следующему необработанному листу в заявке. Временем окончания обработки является момент завершения обработки последнего листа заявки. На рис. 3 представлена временная диаграмма, на которой ясно видно преимущество использования простой оптимизации.

X ГО

х ю и го

X х

ГО ет

неопти авизированная заявка

ш

оптимизированная

ІЧЧЧЧЧЧЧЧЧЧЧЧЧЧЧЧЧЧУЧЧЧЧЧЧЧЧЧЧЧЧЧЧЧІЧЧЧЧЧЧЧЧЧЧЧЧЧ^

10 20 30 30 40 50 60 70 80 90 100 110 120 130 140 150160 170 180 190 2С0 210 220

сегментация

распознавание

Рис.3. Временная диаграмма обработки заявок

Приведенные выше результаты свидетельствуют о необходимости не только использовать методы распараллеливания обработки заявок на различные станции , -шения времени обработки. Здесь необходимо отметить следующую особенность обработки заявок. Представленные в табл. 1 параметры производительности станции распознавания необходимо рассматривать как условные, поскольку в реальном режиме заранее невозможно определить время прохождения этапов обработки каждым из листов. То есть станция распознавания затрачивает разное время на обработку разных листов заявки. Статистические данные позволяют исходить из предположения о том, что для листов одной заявки времена обработки на этапах будут достаточно близкими по значению, но не равными. Это соотношение выражается :

V/, 7 е Ж,

где Ж - множество, содержащее все листы данной заявки,

/, ] - некоторые листы заявки,

- время обработки /'-го листа.

, -вок имеют существенный недостаток, который выражается в том, что заявка, поступившая на обработку, не может быть снята до окончания обработки. Этот факт приводит к невозможности удовлетворительной организации приоритетного обслуживания. То есть при наличии приоритетных заявок, все заявки с более низким уровнем приоритета будут ожидать в очереди, а при наличии нескольких заявок с одинаковым приоритетом, обрабатываться будет только одна из них, хотя зачастую предъявляются требования к непрерывной выдаче результатов обработки. Так, , -ной обработки значительного объема литературы. Желательно начинать размещение информации вскоре после сканирования

, -ся время обработки заявки, зависящее от многих факторов, некоторые из которых устанавливаются при поступлении заявки в систему, (например, приоритетность) или зависят от производительности операторов сканцентра (требования к верификации, ручному сегментированию, и т.д.). Другие определяются по мере обработки - , , -ность станции сканирования и др.

Для реализации параллельной сетевой обработки на нескольких станциях распознавания и определения очередности выбора листов на распознавание вво-. -ности обработки листов заявок, с тем, чтобы обеспечить равномерное продвижение заявок с равным приоритетом, и более быструю обработку высокоприоритетных заявок. Известные методы построения диспетчеров [1] предлагают использовать алгоритмы с абсолютными приоритетами, относительными приоритетами и др. Как показано в [2], такого рода алгоритмы могут приводить к случаям, когда при наличии в очереди высокоприоритетных заявок, заявки с более низкими при-

- О

<з.

(1)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

оритетами не обслуживаются. Таких ситуаций можно избегать, используя вероятностную диспетчеризацию, т.е. поставив в соответствие каждой заявке вероятность обслуживания. Однако вследствие того, что приоритеты обслуживания, количество станций распознавания и их производительность могут изменяться по ходу обслу-, , -, -вания. Для компенсации воздействия динамических факторов, то есть факторов, действие которых изменяется во время обслуживания, вводится монитор статистических характеристик выходного потока, в задачи которого входит слежение за статистическим составом потока листов заявок и формирование корректирующих ,

. ,

осуществляется одним диспетчером, будем называть кластером распознавания. Поскольку станции распознавания могут добавляться в кластер и удаляться из него в произвольные моменты времени (например, после получения задания, по техни-

), -дой из станций реализуется синхронизационный канал. Данные по этому каналу передаются периодически и позволяют уведомлять диспетчер о состоянии станции .

Рассмотрим кратко работу вероятностного диспетчера. При появлении свободной станции распознавания диспетчер выбирает по случайному закону (в соответствии с распределением на входящих заявках Рь Р2, ..., Рп) очередной лист из заявки и передает его на распознавание. Одновременно передается ссылка на соответствующий шаблон для распознавания и признак операции, определяющий действия станции распознавания. Станция распознавания по окончании работы передает результат диспетчеру, который отмечает время окончания работы и фиксирует приблизительную производительность станции для данной заявки.

Для реализации такого диспетчера интервал [Ь...И] разбивается на участки, пропорциональные значениям (Рь Р2, ..., Рп), реализуется равномерно распределенная на интервале [Ь...И] случайная величина и выбирается заявка, соответствующая номеру интервала, куда попала случайная величина. Мониторинг характеристик выходного потока дает возможность отследить задания, не попавшие на , , изменить вероятностные характеристики диспетчера.

При реализации такого диспетчера не возникает ситуаций, в которых некоторые низкоприоритетные заявки не обслуживаются из-за наличия высокоприоритетных. Для них только уменьшается скорость обработки, т.е. они получают меньшую долю общей производительности сканцентра. Однако обработка для них не , . угрозы «мертвых» очередей.

Реализация функций конвейерной обработки позволяет с максимальной эффективностью использовать маломощные рабочие станции, освобождая более быстрые для автоматических процессов обработки.

Кроме вопросов организации вычислительного процесса, непосредственный интерес представляет проблема качества распознавания. Практические исследования показывают сильную зависимость между качеством сканирования, качеством

носителя исходного документа и качеством распознавания. И если качество сканирования можно изменять, например, с помощью аппаратных настроек сканера, то , -бой достаточно сложную проблему, решение которой в сильной степени влияет на эффективность работы сканцентра. При этом практика показала, что частое корректирование аппаратных характеристик сканера приводит к быстрому износу , , -вания. Таким образом, возникает проблема «мягкой» настройки сканера, когда вместо физического вмешательства в работу оборудования используются математические методы компенсирования.

ЛИТЕРАТУРА

1. КлейнрокЛ. Вычислительные системы с очередями. Мир, М. 1979.

2. Маматов Ю.А. Организация работы мультипроцессорных СЦВМ с многоуровневой памятью //Дис. па соискание ученой степени д-ра техн. наук.

УДК 658.155:53.072

О.Н. Пьявченко, С.И. Клевцов

ИНФОРМАЦИОННО-СОВЕТУЮЩАЯ СИСТЕМА МОНИТОРИНГА И УПРАВЛЕНИЯ СЛОЖНЫМИ ПРОМЫШЛЕННЫМИ ОБЪЕКТАМИ

Повышение качества функционирования сложных промышленных объектов во многом связано с тем, насколько эффективно удается использовать ресурсы управления при возникновении нештатных и аварийных ситуаций. Быстрота и своевременность действий диспетчера и соответствующих служб, реализующих , -щейся информации о его состоянии. Получаемая диспетчером информация должна обеспечивать возможность с достаточной точностью классифицировать и иденти-,

оптимальную в складывающихся условиях схему действий.

Современное развитие информационных технологий и технических средств автоматизации и компьютеризации позволяет решить проблемы, связанные с обеспечением эффективной и безотказной эксплуатации промышленных объектов, своевременным реагированием на опасные ситуации, контролем за расходом ресурсов. При этом учитываются параметрические, функциональные, топологические и иные характеристики контролируемого объекта во взаимодействии и взаи-, , в сочетании с моделированием процессов осуществлять текущие и прогнозные оценки состояния объекта с недостижимой иными средствами точностью и досто-.

Целью настоящей работы является определение основных функциональных особенностей и структуры информационно-сове^ющей системы диспетчерского контроля и управления состоянием промышленных объектов.

Параллельно-конвейерная обработка документов в сканцентре Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вишняков Ю. М., Хашковский В. В.

Текст научной работы на тему «Параллельно-конвейерная обработка документов в сканцентре»