НЕЙРО1НФОРМАТИКА ТА 1НТЕЛЕКТУАЛЬН1 СИСТЕМИ
НЕЙРОИНФОРМАТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
NEUROINFORMATICS AND INTELLIGENT SYSTEMS
УДК 004.932 12; 004.932; 004.932.75
Жихаревич В. В.1, Мирожв I. В.2, Остапов С. Е.3
1Канд. фiз.-мат. наук, доцент, доцент кафедри програмного забезпечення комп'ютерних систем Чернвецького
нацонального унiверситету iменi Юря Федьковича, Чернвц, Украна
2Асистент кафедри програмного забезпечення комп'ютерних систем Чернвецького нацонального унiверситету iменi
Юря Федьковича, Чернвц, Украна
3Д-р фiз.-мат. наук, професор, завдуючий кафедри програмного забезпечення комп'ютерних систем Чернвецького
нацонального унверситету iменi Юря Федьковича, Чернвц, Украна
АЛГОРИТМ РОЗП1ЗНАВАННЯ СИМВОЛ1В ТЕКСТУ НА ОСНОВ1 _КОНКУРУЮЧИХ КЛ1ТИННИХ АВТОМАТ1В_
В po6oTi запропоновано новий метод розшзнавання символiв тексту, який Грунтуеться на концепци конкуруючих клгтинних автомапв. Розроблено новий тип клгтинних автомапв, траектори руху яких сшвпадають з формою символу, що його представляе автомат. Перевагами такого методу е нечутливють до розмГру символГв, товщини !х лшш та пропорцш фрагментГв, до частково! деформаци та перекриття символГв за винятком утворення сшльних лшш. Для оптимГзаци ефективност та швидкост розшзнавання запропоновано процес конкуренци клгтинних автомапв, розроблено и алгоритми та методи !х взаемоди. Для реалГзаци запропонованих алгоритмГв створено моделюючу програму, яка дозволила оцшити ефектившсть клгтинно-автоматних методГв та провести експерименти з розшзнавання символГв англшського алфавГту. Продемонстровано устшне розшзнавання частково деформованих символГв та таких, що накладаються, не утворюючи сшльних лшш. На основГ проведених дослщжень авторами робиться висновок про перспектившсть використання запропонованих методГв в системах розшзнавання рукописного тексту. Для створення реально! системи необидно розробити шдсистеми взаемоди зГ сканувальним обладнанням, принципи сегментаци тексту, очищення його вщ шумГв, створення клгтинно-автоматного поля та виведення результата розшзнавання.
Ключовi слова: розшзнавання тексту, розшзнавання символГв, клГтинний автомат, ймовГршсний автомат Мура.
НОМЕНКЛАТУРА
А - скгнченний автомат; КА - клгтинний автомат;
OCR - optical Character Recognition (Оптичне розшзнавання символгв);
S - множина стангв автомата Мура;
SI - стани автомата Мура (1= 1 7 для автомата типу
«С»);
X - вхгдний алфавгт автомата Мура; Y - вихгдний алфавгт автомата Мура; 5 - функцгя переходгв автомата Мура; Ц - функцгя виходгв автомата Мура; ^ - напрям руху автомату А вправо; ^ - напрям руху автомату А влгво; 4 - напрям руху автомату А вниз; Т - напрям руху автомату А вгору. ВСТУП
Роботи з розробки та впровадженню у повсякденне життя систем розшзнавання символгв провадяться вже
© Жихаревич В. В., Мирошв I. В., Остапов С. Е., 2015 DOI 10.15588/1607-3274-2015-4-6
досить давно. Як правило, такг системи розбивають процес переводу на окремг частини: отримання графгчного зображення тексту, його очищення вгд шумгв, сегмента-цгю зображення, власне, розшзнавання символгв та збе-реження отриманих результатгв. Вважаеться, що на цьо-му шляху досягнуто значних успгхгв, оскгльки дгючг ко-мерцгйнг системи розпгзнавання дають досить точнг результати [1, 2]. Такг системи використовують для розп-гзнавання ргзнг алгоритми. Це й патентован перетворен-ня, деталг яких досг не оприлюднено, й штучнг нейроннг мережг, ргзнг методи видглення ознак символгв тощо. Тим не менше, бгльшгсть гснуючих алгоритмгв розшзнавання недостатньо впевнено працюють в умовах ргзних транс-формацгй символгв, зокрема, при !х деформаци, накла-даннг, не кажучи вже про розшзнавання рукописного тексту. Тому дослгдники продовжують пошук альтерна-тивних алгоритмгв розшзнавання тексту, позбавлених вказаних недолгкгв.
Метою цге! роботи е розробка та дослгдження ефек-тивностг нового методу розшзнавання символгв тексту
на основi клiтинних автоматав, яю, як це показано, наприклад, в [3], мають беззаперечнi переваги. Це i мож-ливiсть паралельного обчислення, легюсть i простота правил, на яких вони побудованi, проста реалiзацiя, в тому чи^ й багатьох складних алгоритмiв обробки зображень. Поширення цих переваг на методи розпiзнавання сим-волiв дозволить розробити систему, яка ефективно пра-цюе у складних випадках, в тому чи^ й при робота з рукописним текстом.
1 ПОСТАНОВКА ЗАДАЧ1
Розглянемо рис. 1, на якому зображено деяю латинськi символи. Тут ми бачимо деформованi символи ЕР, вкла-денi символи N та О, накладет символи VI. Людина легко щентиф^е щ символи, тодi як системи розтзнаван-ня в цьому випадку будуть зазнавати значних проблем. Безперечно, аналогiчнi проблеми будуть виникати й при розтзнавант рукописного тексту.
Задача полягае в тому, щоби з використанням клиин-них автоматав розробити алгоритм розпiзнавання сим-волiв, який ефективно працював би як в простих, так i у складних випадках розтзнавання [4].
Вимоги, що ставляться до розробки такого методу, наступт:
- необхiдно використати КА та !х основнi переваги (проста правила опису примiтивiв та взаемодп, легкiсть розпаралелювання);
- метод повинен тдвищувати ймовiрнiсть розтзна-вання деформованих або накладених символiв;
- метод повинен легко розширюватися на випадок розтзнавання рукописних символiв.
Для того, щоби задовольнити вказат вимоги, нами було запропоновано новий тип рухомих КА, яю отрима-ли назву конкуруючих клiтинних автоматiв.
Рисунок 1 - Деформоваш символи англшського алфавпу
2 ОГЛЯД Л1ТЕРАТУРИ
Вперше iдею про автомати, що виршують задачу логiчного нетривiального самовiдтворення висловив у сво!х працях Джон фон Нейман [5]. Вш використовував математичний пристрiй, що складався з множини взае-мопов'язаних паралельно працюючих однакових сюнченних автоматiв. Сьогоднi таю пристро! називають, як правило, клиинними автоматами. Вони можуть розг-лядатися як однорщш структурованi моделi масових па-ралельних обчислювальних систем. Глобальна поведш-ка КА досягаеться лише локальними правилами взаемодп, якi, як правило, досить проста. При цьому глобальна по-ведiнка таких автоматав може бути досить складною. Детальнее принципи теорп КА описано в роботах С.Вольфрама (див., наприклад, [2]). Складна глобальна поведш-ка дозволяе моделювати за допомогою КА комплекст динамiчнi об'екти, фiзичнi та технологiчнi явища, проце-си самооргатзацп та iнше (див., наприклад, [6-7]).
Були спроби застосувати КА для цшей розтзнавання. Наприклад, в роботах [8-9] було дослужено мож-
ливють розв'язання формальноï задачi розпiзнавання за допомогою одновимiрних клиинних автоматав, а також доведено, що використання детермшованих КА у фор-мaлiзовaних задачах розпiзнaвaння в режимi реального часу приводять до експоненщального зростання швид-костi роботи таких систем.
В робота [10] клиинт автомати з мигами використо-вуються для видiлення структурних ознак зображення лиер з подальшою побудовою алгоритму розтзнавання символiв тексту, причому КА використовуються лише на етaпi попередньоï обробки тексту.
Дослiдження [11] присвячене використанню КА у задачах обробки та розтзнавання зображень у реальному чаи. Тут розв'язуються зaдaчi видшення iнформaцiйних елементiв при розтзнавант зображень фiгур, обробцi лазерних трас та щентифжацп особи за рукописним текстом. В цьому випадку використовуеться багатоканаль-на клiтиннa система, яка значно розширюе можливостi систем розтзнавання.
В робота [12] розглянуто тдхщ до побудови сiмейств базимв ортогональних перетворень за допомогою дина-мiки клiтинних aвтомaтiв. Автор пропонуе для побудови таких бaзисiв застосовувати КА з алфавитам внутрiшнiх статв довiльноï потужностi. Для формaлiзaцiï запропо-нованого пiдходу вводиться удосконалення моделi КА -клiтинний автомат з кодовою множиною. Вiдмiннiстю цього тдходу е також побудова сiмейств ортогональних базимв з подальшим вибором найкращих з них в контекста зaдaчi, що розв'язуеться.
Тим не менше, реaльнi застосування та розробки робочих систем розпiзнaвaння символiв на основi КА авторам невiдомi. Однак, можливоста, якi обiцяють КА, ïх природний пaрaлелiзм та перспективи, що вщкрива-ються перед розробниками систем розтзнавання, спо-нукають нaуковцiв звертатися до цiеï теми дослiджень.
Що стосуеться комерцшних OCR-систем, тут безсум-нiвним лiдером е Fine Reader, який вже став стандартом ^eï галузг Однак, висока вaртiсть лщензування, зaкритiсть алгоритму розпiзнaвaння та вимогливють до апаратних ресурсiв призводять до того, що розвиваються альтерна-тивт проекти, метою яких е розробка простих, швидкод-iючих систем розтзнавання з вщкритим кодом. До таких проектав можна вiднести Image Text Editor [13], OpenOCR (TesserAct) [14], Kognition - OCR-системи для KDE-Linux [15] та деяких iнших альтернативних Open Source проектах розтзнавання символiв. Жоден з цих проектав не ви-користовуе КА для реaлiзaцiï процесу розпiзнaвaння.
3 МАТЕР1АЛИ I МЕТОДИ
Для реaлiзaцiï поставлених в попереднiх роздiлaх зав-дань нами було запропоновано використати рухм КА, траекторп руху яких ствпадають з символами, що ними описуються. Разом з тим, задаються таю правила функ-цiонувaння та взаемодп КА, яю переводять систему до стацюнарного стану, коли на кожному символi накопи-чуються автомати певного типу. Отже, задача розтзнавання зводиться до aнaлiзу типiв множин автоматав в тш чи шшш облaстi клiтинно-aвтомaтного поля. Досить зруч-но це виконувати спiвстaвленням певного кольору тому чи шшому типу КА. Тодi окремi символи в процем роз-пiзнaвaння набуватимуть характерного кольору.
Розглянемо алгоритми функцюнування КА у виглядi графу переходiв ймовiрнiсного автомата Мура (рис. 2).
Формально такий автомат можна описати звичайною мовою абстрактних автоматiв: сюнченний автомат А опи-суеться кортежем А={5, X, 7, 5, М-}, причому вщобра-ження описуе функцiю переходiв автомата 5: Х^Я, а вiдображення ц - традицiйну функцiю виходiв автомата Мура М: 5^7.
Тут вхiдним сигналом (умовою переходу до шшого стану автомата) е або досягнення ним кiнця лшп символу (наприклад, станiв 81 та 87 на рис. 2), або перебування КА в точщ розгалуження, яке мае мiсце в символах: А, В, Е, Р та iн. При цьому автомат переходить в один з набору рiвноймовiрних сташв (згiдно графу переходiв).
Вихiдною реакцiею КА е сигнал про напрямок руху в даний момент часу (зображено стршками бшя станiв на графi переходiв: ^ - рух вправо, ^ - рух влiво, 4 - рух вниз, Т - рух вгору), та перевiрки кута мiж станами переходу КА. При цьому пересуватися вони можуть лише в межах, що вщповщають символам.
Цшком очевидно, що КА, заданий графом, зображе-ним на рис. 2, буде описувати символ «С». Аналопчним чином можна побудувати графи переходiв КА, якi будуть описувати iншi символи. При такому описаннi неважли-вими стають нi розмiри символiв, нi !х розмiщення, оск-шьки iнварiантним залишаеться взаемне розташування одних частин символу вщносно iнших.
З шшого боку, задача розтзнавання не передбачае апрюрних вiдомостей щодо в^ношення тих чи iнших символiв до вщповщного класу. Тому, як вже було зазна-чено, слiд забезпечити такий алгоритм функцюнування та взаемодп КА, щоб в процесi роботи алгоритму авто-мати конкретного типу накопичувалися на тих символах, яким цi типи найбшьш вiдповiдають.
Процес розпiзнавання починаеться з того, що на клгганно-автоматному полi з символами, якi необхщно розпiзнати (див. рис. 3), у випадковому порядку розмю-ються КА умх можливих типiв, тобто яю вiдповiдають рiзним символам. КА, яю не потрапили на жоден символ, одразу вилучаються з поля. Решта КА залишаються на лггерах (див. рис. 4).
Рисунок 2 - Приклади граф1в переход1в ймов1ршсних автомата Мура для символу «С»
Власне процес розтзнавання складаеться з двох етатв: руху КА по символах, на яю вони потрапили, та процесу так звано! «конкуренцп» КА, суть яко! буде пояснено нижче.
Алгоритм руху КА передбачае статистичний аналiз сташв, в яких вш перебувае. У випадку, якщо е недосяжнi стани, вщповщний автомат вилучаеться з поля, осюльки рухаеться не на «своему» символг Ця ситуацiя мае мiсце у випадках, коли КА описуе фрагмент символу, який не вщноситься до його типу. Наприклад, якщо автомат типу «С» перебувае у верхнш лiвiй частит символу «Н», вш нiколи не зможе реалiзувати ум сво! стани, наприклад, нiколи не досягне сташв S6 та S7 (див. рис. 2). Крiм того, якщо автомат перебувае у початковому сташ, який вщпо-вiдае напрямку руху, перпендикулярному до фрагменту символу, вш також не зрушить з мюця (наприклад, автомат типу «С» на перетинщ символу «Н»), отже всi стани, окрiм початкового, будуть недосяжнi, i такий автомат буде також вилучений з поля.
Плсля певно! кiлькостi взаемодiй, автомати з недосяж-ними станами будуть вилучеш з клiтинно-автоматного поля, але юнуе ймовiрнiсть, коли КА одного символу зможе реалiзувати усi сво! стани, перебуваючи на клгган-но-автоматному жил, яке належить iншому символу Наприклад, КА типу «С» будуть реалiзовувати вш сво! стани, перебуваючи на лп^и «G», а отже не будуть вилу-чатися. Таким чином, на лп^и «G» зможуть реалiзувати усi сво! стани два типи КА: «С» та «G». Аналопчна ситу-ацiя може реалiзуватися з символами «I» та «D», «а» та «е» тощо.
Для виходу з тако! ситуацi! нами запропоновано но-вий принцип взаемодп КА, який ми назвали «конкурен-щею». Суть цього процесу полягае в тому, що тд час зустрiчi двох автоматiв, якi реалiзують при русi по певнiй лпе^ усi сво! стани, той з них, який мае бшьшу юльюсть станiв (тобто повнiстю описуе даний символ) переносить сво! властивосп на автомат з меншою юльюстю станiв. Наприклад, КА типу «С», який рухаеться по лпе^ «G», перетвориться в КА типу «G», КА типу «I» перетвориться в КА типу «D», якщо вони дшсно рухаються по лпе^ «D» i так далi.
Алгоритмом також передбачаеться своерщне «розм-ноження» КА , якi вдало описують вiдповiдний символ. «Розмноження» тривае доти, поки символ повшстю не заповнюеться КА цього типу. На цьому процес розтз-навання завершуеться. Тепер нам залишаеться зчитати з властивостей кожного КА його тип (який на рис. 5 позна-чаеться певним кольором) та щентиф^вати розпiзна-ний символ.
4ЕКСПЕРИМЕНТИ
Для реалiзацi! запропонованого алгоритму нами було розроблено моделюючу програму. Використовувалася мова програмування Java, середовище розробки - InelliJ IDEA. На клггинно-автоматному полi сформовано обра-зи лггер англiйського алфавiту, як це показано на рис. 3.
Поле заповнюеться КА у випадковому порядку. Автомати, що вщповщають рiзним символам, позначають-ся рiзними кольорами, наприклад, КА типу «а» мае чер-воний колiр; «Ь» - синш; «с» - зелений i так далi.
З рис. 4 видно, що на кожному символi знаходяться автомати рiзного кольору. Шсля запуску механiзму розшзнавання, вони починають рухатися по зображеннях символiв, намагаючись поступово реалiзувати ум сво! дозволенi стани. В разi неможливостi тако! реалiзацп, КА вилучаються з клiтинно-автоматного поля. Одночасно шдключаються механiзми «конкуренцп» та «розмножен-ня», якi призводять до того, що на кожному символi на-копичуються автомати певного кольору. Коли вони по-вшстю заповнюють символ i не здатш продовжувати рух, процес розпiзнавання завершуеться, а символи розрiз-няються сво!ми кольорами, як це показано на рис. 5.
Тепер лишаеться замшити графiчнi зображення сим-волiв !х текстовими еквiвалентами, тобто сформувати текстовий файл.
Розроблена програма повшстю реалiзуе алгоритм розпiзнавання символiв тексту на основi конкуруючих клiтинних автоматiв.
Для дослщження розпiзнавання спотворених та на-кладених символiв було застосовано вщповщш вхiднi зображення (див. рис. 6-7).
* ! •
■ \ !
: : :«••• Л.. : : I !:
* н"
Рисунок 3 - Образи символ1в на клггинно-автоматному пол1
Рисунок 4 - Стартовий стан клгтинно-автоматного поля, заповненого клгтинами у випадковому порядку
Рисунок 5 - Процес розшзнавання завершено
5 РЕЗУЛЬТАТИ
Результати роботи моделюючо! програми дозволили стверджувати, що розроблений алгоритм розшзнавання символiв тексту на основi конкуруючих клiтинних авто-матiв працюе досить ефективно. Було проведено устшне розшзнавання набору символiв англiйського алфавпу.
Аналогiчнi результати продемонстровано при розт-знаваннi символiв, що накладаються без утворення сшльних лшш або мають деяю спотвореш елементи.
Скрiншоти з розшзнавання символiв, що перекрива-ються, подано на рис. 6. .Шворуч подано стартовий стан системи, праворуч - розшзнаш символи. Видно, що розшзнавання виконано усшшно.
На рис. 7 показано результати розшзнавання частково деформованих символiв.
Як бачимо, i в цьому випадку розпiзнавання пройш-ло успiшно, деформоваш символи були нормально розшзнаш.
Рисунок 6 - Приклад розшзнавання символ1в, яга частково накладаються. .¡воруч - стартовий стан системи, праворуч -розшзнаш символи
* 11*
Рисунок 7 - Приклад розшзнавання символ1в, яга мають певний стушнь деформаци .¡воруч - стартовий стан системи, праворуч - результат розшзнавання
6 ОБГОВОРЕННЯ
Устшне розшзнавання символiв моделюючою про-грамою, демонструе ефективнiсть запропонованого алгоритму на основi рухомих конкуруючих кл^инних ав-томатiв. Особливiсть його полягае в тому, що КА мо-жуть рухатися лише по траекторiях, яю визначаються сукупнiстю !х сташв та переходiв. За межами вказаних траекторiй КА пересуватися не можуть (в деякш мiрi, звичайно, яка визначаеться можливими в^иленнями, що задаються налаштуваннями). З одного боку, це може призводити до хибного розшзнавання близьких за конф -^ращею символiв, з другого, надае можливють розпiз-навати символи, що накладаються без утворення сшльних лшш. Що стосуеться символiв зi спiльними лшями, то, як вiдомо, iз завданням !хнього розпiзнавання iнодi не може впоратися навпъ людина. Тим не менше, виршен-ня такого завдання не вважаеться зовсiм нездiйсненним iз використанням саме запропонованого алгоритму.
Розшзнавання спотворених символiв вже не стано-вить велико! проблеми для розробленого алгоритму в разi невеликих змш у профiль символу (див. рис. 7). Саме такий тип спотворень, а саме, зсуви та нахили найчасть ше зустрiчаються у вщскановних документах. Як бачимо, таю типи спотворень усшшно долае моделююча програма. Метод конкуруючих клгтинних автомапв, запро-понований нами, може бути розвинений i на рукописш тести. Проблема полягае лише у правильно розробле-них правилах переходiв та !х налаштуваннi.
Подальшi задачi авторiв полягають у використаннi запропонованого алгоритму для створення реально! конкурентно! системи розшзнавання символiв. Для цього жт^бно вирiшити такi завдання:
- взаемодж> з пристроями сканування (стацюнарний сканер, смартфон або фотоапарат);
- сегментащю отриманих зображень, видiлення ок-ремих рядкiв та символiв;
- створення клгтинно-автоматного поля на базi сег-ментованого зображення;
- розпiзнавання символiв тексту в текстових полях та збереження результатiв у текстовий файл.
Без сумшву, бiльшiсть цих завдань е окремими науко-во-технiчними задачами, однак, запропонований метод розшзнавання мае складати основу усього проекту, ос-
кшьки вiн виршуе основну, принципово важливу задачу, -видшення потрiбних ознак символiв з !х зображення, без яко! взагалi неможливе iснування систем розпiзнавання.
ВИСНОВКИ
Таким чином, поставленi перед авторами завдання виконано повшстю. З проведених дослiджень можна зро-бити наступш висновки.
Розроблено новий метод розтзнавання символiв тексту на осжда конкуруючих клiтинних автоматiв та доведено його дiевiсть та адекватшсть. Особливiстю цього метода е нечутливють до розмiру символiв, товщини !х лiнiй та пропорцiй фрагментiв.
Для реалiзацi! переваг методу розпiзнавання запро-поновано процес конкуренцi! клiтинних автомапв, який збiльшуе його ефективнiсть та швидюсть.
Запропонованi методи реалiзовано у програмному кодi та продемонстровано !х ефективнiсть при роботi зi спотвореними символами та символами, що частково перекриваються. Усе це робить перспективними по-дальшi роботи для створення системи розтзнавання ру-кописних символiв. Для цього слщ розробити тдсисте-му роботи зi сканувальним обладнанням, принципи сег-ментацi! зображення, допомiжнi засоби редагування та виведення розпiзнаного тексту. ПОДЯКИ
Це дослiдження проводиться в рамках науково-досль дно! тематики кафедри програмного забезпечення ком-п'ютерних систем Чертвецького нацiонального утвер-ситету iменi Юрiя Федьковича: «Динамiчнi системи: ма-тематичне моделювання та розробка програмних засобiв» (номер державно! реестрацi!: 0110U005858). СПИСОК ЛГТЕРАТУРИ
1. Шапиро Л. Компьютерное зрение / Л. Шапиро, Дж. Стокман. -М. : Бином. Лаборатория знаний, 2006. - 752 с.
2. Forsyth D. A. Computer Vision: A Modern Approach / D. A. Forsyth, J. Ponce. - Pearson Education, Inc., 2011. - 792 p.
3. Wolfram S. A New Kind of Science / S. Wolfram. - Wolfram Media, Inc., 2002. - 1197 p.
4. Zhikharevich V. V. Development and research of algorithm of characters recognition of text on the basis of competitive cellular automats // V. V. Zhikharevich, I. V. Myroniv, S. E. Ostapov //
Collection of Scientific papers of IInd Int. Conf. «Cluster Computing - 2013», Lviv, 2013, June 3-5. - Р. 149-156.
5. von Neumann J. Theory of Self Reproducing Automata / J. von Neumann. - University of Illinois Press, Champaign, 1966. -388 р.
6. Жихаревич В. В. Моделирование процессов самоорганизации и эволюции систем методом непрерывных асинхронних клеточных автоматов / В. В. Жихаревич, С. Э. Остапов // Компьютинг. - 2009. - Т. 8, № 3. - С. 61-71.
7. Жихаревич В. В. Построение и исследование непрерывной кле-точно-автоматной модели процессов теплопроводности с фазо-вими переходами первого рода / [В. В. Жихаревич, Л. М. Шумиляк, Л. Т. Струтинская и др.] // Компьютерные исследования и моделирование, 2013. - Т. 5, № 2. - С. 141-152.
8. Smith R. A. Real-Time Language Recognition by One-Dimensional Cellular Automata / R.A. Smith // Journal of Computer and System Sciences, 1972 - V.6, No 3. - Р. 233-253.
9. Buchholz T. Real-Time Language Recognition by Alternating Cellular Automata [Electronic resource] / T. Buchholz, A. Klein, M. Kutrib // Theoretical Computer Science, 2000. - Vol. 1872. -P. 213-225. - Access mode: http://cage.ugent.be/~klein/ papers/ ACA.pdf
10. Суясов Д. И. Выделение структурных признаков изображений символов на основе клеточных автоматов с метками [Электронный ресурс] / Д. И. Суясов // Информационно-управляющие системы, 2010. - № 4. - С. 39-45. - Режим доступа: http://cyberleninka.ru/article/n/vydelenie-strukturnyh-priznakov-izobrazheniy-simvolov-na-osnove-kletochnyh-avtomatov-s-metkami
11. Белан С. Н. Использование клеточных технологий в системах обработки и распознавания зображений [Электронный ресурс] / С. Н. Белан // Штучний штелект, 2008. - № 3. - С. 244253. - Режим доступа: http://dspace.nbuv.gov.ua/handle/ 123456789/6952.
12. Евсютин О. О. Исследование дискретных ортогональных преобразований, получаемых с помощью динамики клеточных автоматов [Электронный ресурс] / О. О. Евсютин // Компьютерная оптика, 2014. - Т. 38, № 2. - С. 314-321. - Режим доступа: http://www.computeroptics.smr.ru/KO/PDF/KO38-2/ 380221.pdf
13. ImageTextEditor [Electronic resource]. - Access mode: http:// imated.sourceforge.net
14. Tesseract OCR [Electronic resource]. - Access mode: http:// sourceforge.net/projects/tesseract-ocr/
15. Kognition [Electronic resource]. - Access mode: http:// sourceforge.net/projects/kognition/
Стаття надшшла до редакци 27.07.2015.
Шсля доробки 02.08.2015.
Жихаревич В. В.1, Миронив И. В.2, Остапов С. Э.3
'Канд. физ.-мат. наук, доцент, доцент кафедры программного обеспечения компьютерных систем Черновицкого национального университета имени Юрия Федьковича, Черновцы, Украина
2Ассистент кафедры программного обеспечения компьютерных систем Черновицкого национального университета имени Юрия Федьковича, Черновцы, Украина
3Д-р физ.-мат. наук, профессор, заведующий кафедры программного обеспечения компьютерных систем Черновицкого национального университета имени Юрия Федьковича, Черновцы, Украина
АЛГОРИТМ РАСПОЗНАВАНИЯ СИМВОЛОВ ТЕКСТА НА ОСНОВЕ КОНКУРИРУЮЩИХ КЛЕТОЧНЫХ АВТОМАТОВ В данной работе предложен новый метод распознавания символов текста, основанный на концепции конкурирующих клеточных автоматов. Разработан новый тип клеточных автоматов, траектории движения которых совпадают с формой представляемого символа. Преимуществами такого метода является его нечувствительность к размерам символов, толщине линий и пропорциям их фрагментов, к частичной деформации и наложениям символов без образования общих линий. Для оптимизации эффективности и скорости распознавания предложен процесс конкуренции клеточных автоматов, разработаны его алгоритмы и методы взаимодействия клеток. В качестве реализации предложенных алгоритмов создана моделирующая программа, позволяющая оценить эффективность клеточно-автоматных методов и провести эксперименты по распознаванию символов английского алфавита. Продемонстрировано успешное распознавание частично деформированшх, а также перекрывающихся символов без образования общих линий. На основании проведенных исследований сделан вывод о перспективности использования данных методов в системах распознавания рукописного текста.
Для создания реальной системы на основе данных методов необходимо разработать подсистемы взаимодействия со сканирующим оборудованием, принципы сегментации текста, очистки его от шумов, создания клеточно-автоматного поля и вывода результатов распознавания.
Ключевые слова: распознавание текста, распознавание символов, клеточный автомат; вероятностный автомат Мура. Zhikharevich V. V.1, Myroniv I. V.2, Ostapov S. E.3
'PhD, Associate Professor, software department, Chernivtsi Yu. Fed'kovych National University, Chernivtsi, Ukraine 2Assistant Professor, software department, Chernivtsi Yu. Fed'kovych National University, Chernivtsi, Ukraine 3Dr. of Science, Professor, Head of the software department, Chernivtsi Yu. Fed'kovych National University, Chernivtsi, Ukraine CHARACTER RECOGNITION ALGORITHM ON THE BASE OF COMPETITIVE CELLULAR AUTOMATA This paper presents a new method for character recognition that is based on the concept of competing cellular automata. A new type of cellular automata, which move trajectory coincides with the character shape is represents. The advantage of this method is the insensitivity to the character size, lines thickness and proportion of fragments, distortion and partial overlapping symbols except the formation of joint lines. To optimize the recognition efficiency and speed offered the cellular automata competitive process; developed its algorithms and methods of interaction. To implement the proposed algorithms the modeling program was created. This software allowed to evaluate the effectiveness of cellular automata techniques and conduct experiments on English alphabet character recognition. It was demonstrated the successful recognition partly distorted characters and such imposed without forming joint lines. On the basis of these experiments authors concluded the prospects of using the proposed method in handwriting recognition. To create a real system it's need to develop subsystem of interaction with scanning equipment, text segmentation principles, clearing it from the noise and automatic creation of cellular fields and output the recognition results.
Keywords: text recognition, character recognition, cellular automaton, Moore probabilistic automaton.
REFERENCES
1. Shapiro L., Stokman Dzh. Komp'juternoe zrenie. Moscow, Binom, Laboratorija znanij, 2006, 752 p.
2. Forsyth D. A., Ponce J. Computer Vision: A Modern Approach. Pearson Education, Inc., 2011, 792 p.
3. Wolfram S. A New Kind of Science. Wolfram Media, Inc., 2002, 1197 p.
4. Zhikharevich V. V., Myroniv I. V., Ostapov S. E. Development and research of algorithm of characters recognition of text on the basis of competitive cellular automats, Collection of Scientific papers of IIndInt. Conf. «Cluster Computing-2013». Lviv, 2013, June 3-5, pp. 149-156.
5. von Neumann J. Theory of Self Reproducing Automata. University of Illinois Press, Champaign, 1966, 388 p.
6. Zhikharevich V. V., Ostapov S. Je. Modelirovanie processov samoorganizacii i jevoljucii sistem metodom nepreryvnyh asinhronnih kletochnyh avtomatov. Komp'juting, 2009, vol. 8, No. 3, pp. 61-71.
7. Zhikharevich V. V., Shumiljak L. M., Strutinskaja L. T. i dr. Postroenie i issledovanie nepreryvnoj kletochno-avtomatnoj modeli processov teploprovodnosti s fazovimi perehodami pervogo roda, Komp'juternye issledovanija i modelirovanie, 2013, vol. 5, No. 2, pp. 141-152.
8. Smith R. A. Real-Time Language Recognition by One-Dimensional Cellular Automata, J. of Computer and System Sciences, 1972, Vol. 6, No. 3, pp. 233-253.
9. Buchholz T., Klein A., Kutrib M. Real-Time Language Recognition by Alternating Cellular Automata [Electronic resource], Theoretical Computer Science, 2000, Vol. 1872, pp. 213-225. Access mode: http://cage.ugent.be/~klein/ papers/ACA.pdf
10. Sujasov D. I. Vydelenie strukturnyh priznakov izobrazhenij simvolov na osnove kletochnyh avtomatov s metkami [Jelektronnyj resurs], Informacionno-upravljajushhie sistemy, 2010, No. 4, pp. 39-45. Rezhim dostupa: http://cyberleninka.ru/ article/n/vydelenie-strukturnyh-priznakov-izobrazheniy-simvolov-na-osnove-kletochnyh-avtomatov-s-metkami
11. Belan S. N. Ispol'zovanie kletochnyh tehnologij v sistemah obrabotki i raspoznavanija zobrazhenij [Jelektronnyj resurs], Shtuchnij intelekt, 2008, No. 3, pp. 244-253. Rezhim dostupa: http://dspace.nbuv.gov.ua/handle/123456789/6952.
12.Evsjutin O. O. Issledovanie diskretnyh ortogonal'nyh preobrazovanij, poluchaemyh s pomoshh'ju dinamiki kletochnyh avtomatov [Jelektronnyj resurs], Komp 'juternaja optika, 2014, vol. 38, No. 2, pp. 314-321. Rezhim dostupa: http:// www.computeroptics.smr.ru/K0/PDF/K038-2/380221.pdf
13. ImageTextEditor [Electronic resource]. Access mode: http:// imated.sourceforge.net
14. Tesseract OCR [Electronic resource]. Access mode: http:// sourceforge.net/projects/tesseract-ocr/
15. Kognition [Electronic resource]. Access mode: http:// sourceforge.net/projects/kognition/