ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2012, том 55, №7_
ИНФОРМАТИКА
УДК 004.912; 81'322.2
Академик АН Республики Таджикистан З.Д.Усманов
ОБ УПОРЯДОЧЕННОМ АЛФАВИТНОМ КОДИРОВАНИИ СЛОВ
ЕСТЕСТВЕННЫХ ЯЗЫКОВ
Институт математики АН Республики Таджикистан
В статье дается определение упорядоченного алфавитного кодирования, согласно которому слову ставится в соответствие его же набор букв, расположенных в алфавитном порядке. Отмечаются свойства прямого и обратного отображения множества слов на множество их кодов-образов. Формулируются задачи статистического исследования предложенного отображения на примере естественных языков.
Ключевые слова: естественный язык - слово - кодирование - образ - отображение.
1. Пусть L - какой-либо естественный язык с алфавитом A и W = "а^г •••аи" - некоторое его слово длины п, состоящее из букв аке А, k = 1, 2,..., п. Рассмотрим цепочку CW = "а а 2 - • -аот ", составленную из тех же самых букв, что и в W, но упорядоченных по алфавиту.
Определение. Отображение Р: W ^ CW назовём упорядоченным алфавитным кодированием (а/- кодированием) слова W, а цепочку букв CW - его а/3 -кодом.
Для пояснения определения укажем, что а/3 -кодирование, например, слова W = "реферат " приводит к цепочке CW = "аеерртф", а слова W = "агент" - к той же самой цепочке CW = "агент", поскольку в этом слове буквы уже расположены в алфавитном порядке.
Слово W и его образ CW можно интерпретировать как две фиксированные алгебраические перестановки из множества п! возможных перестановок п букв, составляющих слово W [1]. Необходимо отметить, что в случае, когда все буквы различные, такая интерпретация очевидна. Если же в слове какая-либо буква встречается более одного раза, то её вместе со своими повторами следует различать по порядку их расположения в слове.
2. Вполне понятно, что Р -отображение каждому слову W ставит в соответствие единственный образ CW, однако обратное отображение (декодирование) является, вообще говоря, не однозначным. Действительно, нарушение однозначности порождается анаграммами, которые присутствуют во многих языках (см., например, [2]) . Согласно определению, анаграмма - это, по крайней мере, пара слов естественного языка, составленных из одного и того же набора букв (например, для
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, ул. Айни, 299/1, Институт математики АНРТ. E-mail: [email protected]
русского языка: весна — навес, рост -сорт -трос -торс, равновесие — своенравие и т.п). Всякой анаграмме соответствует единственный образ, аР-код. В связи со сказанным возникает
Задача 1. Оценить на основе статистических данных относительные частоты встречаемости анаграмм в естественных языках.
Получаемые оценки дадут представления о том, какова мощность множества анаграмм и в какой мере их наличие нарушает взаимную однозначность предложенного отображения в естественных языках.
3. Помимо рассмотренного ¥ -отображения представляют интерес четыре его модификации, обозначаемые через ¥¥), ¥) и ¥1). Так же, как и ¥ , они определены на множестве [Ж] слов естественного языка Ь .
Модифицированное отображение ¥ * наделим следующими свойствами:
• ¥ * определено на множестве {Ж ], Ж е Ь ;
• ¥ : Ж ^ СЖ, то есть отображает слова на их аР - коды;
• обратное отображение ¥ * 1 на множестве однозначно декодируемых кодов совпадает с ¥ 1, а на множестве анаграмм каждому образу СЖ ставит в соответствие единственное слово Ж , которое имеет максимальную частоту встречаемости в текстах в сравнении с другими словами из набора слов рассматриваемой анаграммы.
4. В случае ¥() слову Ж ставится в соответствие пара (СЖ, ), в которой СЖ, так же
как и в п.1, является аР - кодом слова Ж, а - число транспозиций, с помощью которых осуществляется переход от цепочки Ж к цепочке СЖ (или же наоборот от СЖ к Ж). Здесь предполагается, что п! всевозможных перестановок букв слова Ж расположены в таком порядке, что каждая следующая перестановка получается из предыдущей одной транспозицией [1].
Представляется очевидным, что отображение ¥' : Ж ^ (СЖ, ), уж если и не является взаимно однозначным, то, во всяком случае, осуществляет более "успешное" декодирование, нежели
СЖ ^ Ж.
5. В случае ¥ ^)- отображения слову Ж ставится в соответствие цепочка ах С (Ж ¡а ), в которой а - первая буква в слове Ж и С (Ж ¡а) есть аР - код цепочки Ж ¡а , то есть слова Ж без первой буквы.
Так же, как и отображение предыдущего пункта, декодирование а1С(Ж / а1) ^ Ж в определенном смысле обладает лучшими свойствами, чем СЖ ^ Ж.
6. Ещё один способ кодирования представляется следующим образом ¥1) : Ж ^ а С (Ж ¡{а ,ап ])ап. В нём первая ах и последняя ап буквы слова Ж остаются неподвижными, а цепочка букв между ними, то есть Ж / [аг ,ап ] , подвергается аР - кодированию.
Информатика
З.Д.Усманов
Очевидно, что данное отображение несколько сложнее, чем предыдущее, зато наверняка успешнее в вопросах декодирования.
7. Подводя итоги, отметим, что все рассмотренные отображения произвольному слову Ж ставят в соответствие единственный образ. В свою очередь, их обратные отображения (декодирования) не являются, вообще говоря, однозначными. Как отмечалось в п.1, для обратного ¥ -отображения нарушение однозначности происходит за счёт анаграмм: образу всякой анаграммы соответствует не менее двух прообразов на множестве {Ж}.
Обращение к модифицированным отображениям ¥( ), ¥, ¥(^) и ¥1) - это, по существу, попытка устранения неоднозначности при декодировании анаграмм и распознавания порождающих их прообразов за счёт использования дополнительных атрибутов, присоединяемых к а/ - кодированию.
Эффективность введённых отображений для тех или иных естественных языков может быть оценена лишь экспериментально, путем статистической обработки репрезентативной информации. По этой причине заслуживает внимание
Задача 2. Изучить статистические свойства ¥¥^ , ¥^) и ¥1) отображений, в частности оценить эффективность декодирования образов анаграмм.
Интерес к ¥ -отображению, равно как и сопутствующим отображениям ¥¥), ¥^) и ¥1), объясняется тем, что на множестве их цепочек-образов в сравнении с исходным множеством слов {Ж} решение ряда задач обработки текстовой информации заметно упрощается.
В качестве примера рассмотрим использование ¥ -отображения для автоматического исправления ошибки, возникшей вследствие перестановки букв в написании некоторого слова Ж . Этот процесс происходит следующим образом. Вначале слову Ж сопоставляется его код СЖ. Затем по коду СЖ происходит поиск его прообраза в базе "Ж ^ СЖ ". Если Ж не является элементом анаграммы, то Ж будет единственным прообразом СЖ . И следовательно, ошибка, связанная с перестановкой букв (причём не обязательно рядом стоящих), исправляется.
Если же СЖ оказалась а/ - кодом анаграммы (например, СЖ = "аворт" является кодом
анаграммы автор - отвар - рвота - тавро - товар), то выбор прообраза может быть произведён,
например, по его максимальной частоте (как при отображении ¥( )). Однако в этом случае не исключается ошибка в принятии решения.
Поступило 22.07.2012 г.
ЛИТЕРАТУРА
1. Курош А.Г. — Курс высшей алгебры. - М.: Наука, Главная редакция физико-математической литературы, 1968, 431 с.
2. Анаграмма — Википедия: Шр^/гц.'шЫре&а.ощ/'шЫ/Анаграмма
3.Ч,.Усмонов
ОИДИ БА ТАРТИБОРИИ АЛФАВИТЙ БА КОД ДАРОВАРДАРДАНИ КАЛИМАХО ДАР ЗАБОНИ ТАБИЙ
Институти математикаи Академияи илм^ои Цум^урии Тоцикистон
Дар макола таърифи ба тартибории алфавита ба код даровардардани калимахо дода шудаанд, ки тибки он ба калима дастаи харфхои аз руи алфавит чойгиршудаи он мувофик гу-зошта мешавад. Хосиятхои инъикосх,ои рост ва баръакси мачъмуи калимахо ба кодх,о-образх,ои онхо оварда шудаанд. Масъалахои тадкики омории инъикоси пешниходшуда дар мисоли забо-ни табий баён карда шудаанд.
Калима^ои калиди: забони табий - калима - ба код даровардан - тасвир - инъикос.
Z.D.Usmanov
ABOUT A SPECIAL ALPHABETICAL CODING TO WORDS OF A NATURAL LANGUAGE
Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan In the paper a definition of a special alphabetical coding in which a word is transformed onto a chain of the same letters as in the word, but arranged in the alphabetical order, is introduced. Properties of the direct and reverse mapping of a set of words on the set of their code-images are noted. Two problems of the statistical study of proposed mappings for natural languages are formulated. Key words: natural language - the word - coding - image - map.