Компьютерная коррекция таджикского текста, набранного без использования специфических букв

Усманов З.Д.; Эвазов Х.А.

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2011, том 54, №1___________________________________

ИНФОРМАТИКА

УДК 811.222.8 + 81’322

Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Эвазов*

КОМПЬЮТЕРНАЯ КОРРЕКЦИЯ ТАДЖИКСКОГО ТЕКСТА, НАБРАННОГО БЕЗ ИСПОЛЬЗОВАНИЯ СПЕЦИФИЧЕСКИХ БУКВ

Институт математики АН Республики Таджикистан,

*Технологический университет Таджикистана

Статья посвящена описанию алгоритма автоматического исправления ошибок, допускаемых в таджикском тексте при наборе на компьютерной клавиатуре с русским алфавитом.

Ключевые слова: таджикский язык - кириллица - специфические буквы - коррекция ошибок - словоформа - статистика - частота встречаемости - меню пользователя.

Несмотря на то, что стандарт таджикской компьютерной графики на основе и№СОББ, утвержденный Постановлением Правительства Республики Таджикистан № 330 от 02.08.2004 г., рекомендован к применению на территории республики, многие пользователи персонального компьютера по разным причинам игнорируют его, набирая таджикские тексты на нестандартной графике или же просто на клавиатуре с русским алфавитом. В последнем случае, довольно распространенном, в тех или иных словах набираемого текста сознательно вносится систематическая ошибка правописания, обусловленная замещением специфических таджикских букв г, й, к, у, х, ч ( Т|-буквы) их аналогами г, и, к, у, х, ч по правилу, которое обозначим через А = Т] ^ Яц;

г ^ г, й ^ и, К ^ К, у ^ у, X ^ X , Ч ^ ч,

то есть буква г заменяется буквой г, й - буквой и, к - буквой к и т.д. В результате преобразований возникают цепочки букв, по которым не так уж просто восстановить исходные слова, послужившие прообразами таких цепочек, и тем самым устранить допущенные ошибки. Причина в том, что цепочке букв при обратном отображении А-1 = Яц ^ Т];

г ^ г, и ^ й, к ^ К, у ^ у, X ^ X, Ч ^ ч,

может соответствовать не один, а несколько прообразов. Приводимые далее примеры наглядно демонстрируют отмеченную неоднозначность отображения и одновременно дают представление о том, какого рода задачи приходится решать для реализации с помощью компьютера автоматического исправления допущенных ошибок.

Пример 1. Т -словоформа ХУКУК после замены специфических таджикских букв записывается в виде буквенной цепочки хукук, которая не является таджикской словоформой.

Пример 2. Т|-словоформа чой (место) преобразуется в цепочку чой (чай), которая является таджикской словоформой.

Адрес для корреспонденции: Эвазов Хисрав Азизович. 734061, Республика Таджикистан, г. Душанбе, ул.Н.Карабаева, 63/3, Технологический университет Таджикистана. E-mail: [email protected]

Пример 3. Таджикской словоформе рухи, не содержащей специфических букв, соответствует Т)-словоформы рухи, рухи, рухи и рухй.

В настоящей статье предлагается алгоритм коррекции таджикского текста с использованием данных о частотах встречаемости словоформ.

1. База данных, используемая в алгоритме, сформирована в результате статистической обработки таджикских текстов объемом в 5000 страниц, заключивших в себе 9 419 634 словоформ. В [1] установлено, что соответствующий этим данным частотный словарь с 106 684 словоформами содержит 47 351 словоформ со специфическими таджикскими буквами (Т)-словоформы), то есть 44.38% от объема частотного словаря, и 59 333 словоформ без Т)-букв, то есть 55.62%.

Воспользовавшись А = Т ^ Яц отображением, сопоставим каждой Т)-словоформе Т)*-цепочку, образовав тем самым пары, которые рассматриваются в качестве элементов вспомогательного множества В’. Исключив из В’ все те пары, в которых Т)*-цепочки не являются словоформами таджикского языка, получаем множество В’’. Присоединив к каждому элементу пары в качестве атрибута её частоту встречаемости в частотном словаре, получим искомую базу данных В, используемую в работе алгоритма коррекции таджикского текста. Отметим, что в В каждой Т)-словоформе соответствует единственная Т)*-цепочка букв - таджикская словоформа, не содержащая ни одну из специфических таджикских букв, в то время как конкретной Т)*-цепочке букв могут отвечать несколько Т)-словоформ. Добавим к сказанному, что в базе данных В содержатся 1572 Т)*-цепочек и 1650 Т)-словоформ.

Определённое представление о структуре множества В можно получить из таблицы, в которой приводятся сведения о Т)-словоформах, содержащих всего лишь одну специфическую таджикскую букву.

Таблица

Определённое представление о структуре множества В

Т) -буква Число Т) -словоформ с одной Т)-буквой

г 11

й 1369

К 64

У 0

* 78

Ч 34

X 1556

Из таблицы видно, что среди общего числа 1650 Т|-словоформ, содержащихся в базе данных В, подавляющая часть (1556) состоит из словоформ с одной специфической таджикской буквой, причем наибольшие проблемы связаны с присутствием в слове буквы й.

2. Алгоритм коррекции текста описан далее в концептуальной форме.

1. Начало.

2. Ввод текста.

3. Ввод первого слова.

4. Проверка слова на наличие в нем букв г, и, к, у, х, ч.

5. Если нет ни одной из таких букв, то перейти к пункту 11.

6. Поиск слова в базе данных В.

7. Искомого слова в базе В нет. Перейти к пункту 11.

8. Выбрать Т)-словоформы, которые послужили прообразами анализируемого слова.

9. Сравнить частоты встречаемости Т)-словоформ и анализируемого слова.

10. Заменить анализируемое слово тем из элементов, который имеет максимальную частоту. Другие варианты предложить пользователю в виде меню со списком словоформ по убыванию их частотности.

11. Перейти к следующему слову.

12. Если следующее слово отсутствует, то перейти к пункту 14.

13. Вернуться к пункту 4.

14. Конец.

Обратим внимание на п. 10. В нем не исключается возможность того, что анализируемое слово не подвергнется исправлению. Согласно алгоритму, это происходит в том случае, когда частота встречаемости слова окажется больше частотности словоформ-претендентов. Если же пользователь не приемлет коррекцию, выполненную алгоритмом, то он может обратиться к иным вариантам, предлагаемым в меню.

По данному алгоритму создана компьютерная программа, реализующая автоматическую коррекцию текста удовлетворительного качества.

ЛИТЕРАТУРА 1. Эвазов Х.А. - ДАН РТ, 2010, т. 53, № 12, с.903-906.

З.Ч,.Усмонов, Х.А.Эвазов*

ТАХ,РИРИ КОМПЮТЕРИИ МАТНИ ТОЧ,ИКЙ БЕ ИСТИФОДАИ Х,АРФХ,ОИ МАХСУС ВОРИДШУДА

Институти математикаи Академияи илмх;ои Цум^урии Тоцикистон,

Донишго^и технологии Тоцикистон

Макола ба тасвири алгоритми дуруст намудани автоматии хатогих,ое, ки хднгоми ворид намудани матни точикй тарики тугмадони компютер бо хдрфх,ои алифбои русй ба вучуд мео-янд, бахшида шудааст.

Калима^ои калиди: забони тоцикй - кирилли - уарфуои махсус - таурири хатогиуо - калима -омор - басомади вохури - руйхати истифодабаранда.

Z.D.Usmanov, Kh.A.Evazov*

COMPUTER EMENDATION OF TAJIK TEXT TYPED WITHOUT USING SPECIFIC LETTERS

Institute of Mathematics, Academy of Sciences of Republic of Tajikistan,

*Technological University of Tajikistan

The article is devoted to description of an algorithm of emendation Tajik text typed on a computer keyboard with Russian alphabet.

Key words: Tajik language - Cyrillic alphabet - specific letters - errors correction - wordforms - statistics - frequency of occurrence - user menu.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Усманов З. Д., Эвазов Х. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Усманов З. Д., Эвазов Х. А.

Текст научной работы на тему «Компьютерная коррекция таджикского текста, набранного без использования специфических букв»