ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2011, том 54, №1___________________________________
ИНФОРМАТИКА
УДК 811.222.8 + 81’322
Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Эвазов*
КОМПЬЮТЕРНАЯ КОРРЕКЦИЯ ТАДЖИКСКОГО ТЕКСТА, НАБРАННОГО БЕЗ ИСПОЛЬЗОВАНИЯ СПЕЦИФИЧЕСКИХ БУКВ
Институт математики АН Республики Таджикистан,
*Технологический университет Таджикистана
Статья посвящена описанию алгоритма автоматического исправления ошибок, допускаемых в таджикском тексте при наборе на компьютерной клавиатуре с русским алфавитом.
Ключевые слова: таджикский язык - кириллица - специфические буквы - коррекция ошибок - словоформа - статистика - частота встречаемости - меню пользователя.
Несмотря на то, что стандарт таджикской компьютерной графики на основе и№СОББ, утвержденный Постановлением Правительства Республики Таджикистан № 330 от 02.08.2004 г., рекомендован к применению на территории республики, многие пользователи персонального компьютера по разным причинам игнорируют его, набирая таджикские тексты на нестандартной графике или же просто на клавиатуре с русским алфавитом. В последнем случае, довольно распространенном, в тех или иных словах набираемого текста сознательно вносится систематическая ошибка правописания, обусловленная замещением специфических таджикских букв г, й, к, у, х, ч ( Т|-буквы) их аналогами г, и, к, у, х, ч по правилу, которое обозначим через А = Т] ^ Яц;
г ^ г, й ^ и, К ^ К, у ^ у, X ^ X , Ч ^ ч,
то есть буква г заменяется буквой г, й - буквой и, к - буквой к и т.д. В результате преобразований возникают цепочки букв, по которым не так уж просто восстановить исходные слова, послужившие прообразами таких цепочек, и тем самым устранить допущенные ошибки. Причина в том, что цепочке букв при обратном отображении А-1 = Яц ^ Т];
г ^ г, и ^ й, к ^ К, у ^ у, X ^ X, Ч ^ ч,
может соответствовать не один, а несколько прообразов. Приводимые далее примеры наглядно демонстрируют отмеченную неоднозначность отображения и одновременно дают представление о том, какого рода задачи приходится решать для реализации с помощью компьютера автоматического исправления допущенных ошибок.
Пример 1. Т -словоформа ХУКУК после замены специфических таджикских букв записывается в виде буквенной цепочки хукук, которая не является таджикской словоформой.
Пример 2. Т|-словоформа чой (место) преобразуется в цепочку чой (чай), которая является таджикской словоформой.
Адрес для корреспонденции: Эвазов Хисрав Азизович. 734061, Республика Таджикистан, г. Душанбе, ул.Н.Карабаева, 63/3, Технологический университет Таджикистана. E-mail: [email protected]
Пример 3. Таджикской словоформе рухи, не содержащей специфических букв, соответствует Т)-словоформы рухи, рухи, рухи и рухй.
В настоящей статье предлагается алгоритм коррекции таджикского текста с использованием данных о частотах встречаемости словоформ.
1. База данных, используемая в алгоритме, сформирована в результате статистической обработки таджикских текстов объемом в 5000 страниц, заключивших в себе 9 419 634 словоформ. В [1] установлено, что соответствующий этим данным частотный словарь с 106 684 словоформами содержит 47 351 словоформ со специфическими таджикскими буквами (Т)-словоформы), то есть 44.38% от объема частотного словаря, и 59 333 словоформ без Т)-букв, то есть 55.62%.
Воспользовавшись А = Т ^ Яц отображением, сопоставим каждой Т)-словоформе Т)*-цепочку, образовав тем самым пары, которые рассматриваются в качестве элементов вспомогательного множества В’. Исключив из В’ все те пары, в которых Т)*-цепочки не являются словоформами таджикского языка, получаем множество В’’. Присоединив к каждому элементу пары в качестве атрибута её частоту встречаемости в частотном словаре, получим искомую базу данных В, используемую в работе алгоритма коррекции таджикского текста. Отметим, что в В каждой Т)-словоформе соответствует единственная Т)*-цепочка букв - таджикская словоформа, не содержащая ни одну из специфических таджикских букв, в то время как конкретной Т)*-цепочке букв могут отвечать несколько Т)-словоформ. Добавим к сказанному, что в базе данных В содержатся 1572 Т)*-цепочек и 1650 Т)-словоформ.
Определённое представление о структуре множества В можно получить из таблицы, в которой приводятся сведения о Т)-словоформах, содержащих всего лишь одну специфическую таджикскую букву.
Таблица
Определённое представление о структуре множества В
Т) -буква Число Т) -словоформ с одной Т)-буквой
г 11
й 1369
К 64
У 0
* 78
Ч 34
X 1556
Из таблицы видно, что среди общего числа 1650 Т|-словоформ, содержащихся в базе данных В, подавляющая часть (1556) состоит из словоформ с одной специфической таджикской буквой, причем наибольшие проблемы связаны с присутствием в слове буквы й.
2. Алгоритм коррекции текста описан далее в концептуальной форме.
1. Начало.
2. Ввод текста.
3. Ввод первого слова.
4. Проверка слова на наличие в нем букв г, и, к, у, х, ч.
5. Если нет ни одной из таких букв, то перейти к пункту 11.
6. Поиск слова в базе данных В.
7. Искомого слова в базе В нет. Перейти к пункту 11.
8. Выбрать Т)-словоформы, которые послужили прообразами анализируемого слова.
9. Сравнить частоты встречаемости Т)-словоформ и анализируемого слова.
10. Заменить анализируемое слово тем из элементов, который имеет максимальную частоту. Другие варианты предложить пользователю в виде меню со списком словоформ по убыванию их частотности.
11. Перейти к следующему слову.
12. Если следующее слово отсутствует, то перейти к пункту 14.
13. Вернуться к пункту 4.
14. Конец.
Обратим внимание на п. 10. В нем не исключается возможность того, что анализируемое слово не подвергнется исправлению. Согласно алгоритму, это происходит в том случае, когда частота встречаемости слова окажется больше частотности словоформ-претендентов. Если же пользователь не приемлет коррекцию, выполненную алгоритмом, то он может обратиться к иным вариантам, предлагаемым в меню.
По данному алгоритму создана компьютерная программа, реализующая автоматическую коррекцию текста удовлетворительного качества.
ЛИТЕРАТУРА 1. Эвазов Х.А. - ДАН РТ, 2010, т. 53, № 12, с.903-906.
З.Ч,.Усмонов, Х.А.Эвазов*
ТАХ,РИРИ КОМПЮТЕРИИ МАТНИ ТОЧ,ИКЙ БЕ ИСТИФОДАИ Х,АРФХ,ОИ МАХСУС ВОРИДШУДА
Институти математикаи Академияи илмх;ои Цум^урии Тоцикистон,
Донишго^и технологии Тоцикистон
Макола ба тасвири алгоритми дуруст намудани автоматии хатогих,ое, ки хднгоми ворид намудани матни точикй тарики тугмадони компютер бо хдрфх,ои алифбои русй ба вучуд мео-янд, бахшида шудааст.
Калима^ои калиди: забони тоцикй - кирилли - уарфуои махсус - таурири хатогиуо - калима -омор - басомади вохури - руйхати истифодабаранда.
Z.D.Usmanov, Kh.A.Evazov*
COMPUTER EMENDATION OF TAJIK TEXT TYPED WITHOUT USING SPECIFIC LETTERS
Institute of Mathematics, Academy of Sciences of Republic of Tajikistan,
*Technological University of Tajikistan
The article is devoted to description of an algorithm of emendation Tajik text typed on a computer keyboard with Russian alphabet.
Key words: Tajik language - Cyrillic alphabet - specific letters - errors correction - wordforms - statistics - frequency of occurrence - user menu.