ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2013, том 56, №5_
ИНФОРМАТИКА
УДК 4:51::81'322
Академик АН Республики Таджикистан З.Д.Усманов
КОДИРОВАНИЕ ПРЕДЛОЖЕНИЙ
Институт математики им.А.Джураева АН Республики Таджикистан
Предлагается специальный способ упорядоченного алфавитного кодирования буквенных цепочек, позволяющий упорядочивать предложения в пределах текста, а также определять, являются ли любые два предложения, извлечённые из коллекции текстов, анаграммами друг друга или нет.
Ключевые слова: естественный язык - цепочка - кодирование - упорядочение - анаграмма.
Кодирование цепочек. Для естественного языка L с буквенным алфавитом A обозначим через W = "аа " некоторую цепочку букв длины п (а: е A , k = 1, п). Введём в рассмотрение цепочку CW = "а81ах2 •••аш ", составленную из тех же самых букв, что и в W, но упорядоченных по алфавиту А (пример: если W = "вертикаль ", тогда СЖ = "авеиклрть").
Определение 1. Отображение Е : W ^ CW назовём упорядоченным алфавитным (а/-) кодированием цепочки W, в свою очередь CW назовём а/- кодом цепочки W .
Отображение Е и ряд "сопутствующих" отображений предложены в [1] для кодирования словоформ и автоматизации процесса обнаружения анаграмм в текстовых коллекциях. В [2] и [3] для английского, литовского, русского и таджикского языков, а также искусственного языка эсперанто выполнен статистический анализ эффективности а/3 - кодирования (в смысле возможности осуществления взаимно однозначного соответствия между словоформами и их а/ - кодами). В [4] и [5] для текстовых корпусов таджикского, английского и русского языков получены статистические данные о количестве различных анаграмм с заданными мощностями (числом элементов). Анонсирован ряд анаграмм с наибольшим количеством элементов.
Во всех статьях обработка данных основывается на двух процедурах:
- построении списка различных словоформ с частотами их встречаемости в базе данных;
- кодировании полученных словоформ и формировании списка различных кодов с частотами их встречаемости.
Словоформа является частным случаем понятия цепочки букв, однако это не препятствует автоматическому распространению описанных процедур на множество {W}, элементами которых являются цепочки W. Итогом выполнения первой процедуры будет список цепочек с их частотами на множестве {W}, а итогом второй - список различных а/- кодов множества цепочек.
Эти процедуры, формальные по отношению к абстрактным цепочкам, приобретают определённый смысл в следующем пункте.
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: [email protected].
Доклады Академии наук Республики Таджикистан
2013, том 56, №5
Кодирование предложений. Пусть S - некоторое предложение на языке L, состоящее из p словоупотреблений. Удалив из S все знаки препинаний и пробелы между словоупотреблениями, получим цепочку W(S) букв предложения S.
Определение 2. Цепочку CW(S), получаемую отображением F : W(S) ^ CW(S), назовём а/3 -кодом предложения S.
Из этого определения следует
Утверждение. Пусть S0 и S - два различных предложения таких1, что CW(S0 ) = CW(S ). Тогда S0 и S - суть элементы одной анаграммы, то есть получаются один из другого перестановками соответствующих букв.
ПРИМЕР 1 (En). Пусть S0 = "еleven plus two" и S = "twelve plus one". Так как оба предложения имеют один и тот же а/3 - код, а именно CW(S0 ) = CW(S ) = "eeellnopstvuw", то в соответствии с высказанным утверждением рассмотренные предложения являются элементами одной анаграммы, поскольку состоят из одного и того же набора букв.
ПРИМЕР 2 (Ru). S0 = "сижу в области" и S = "вижу слабости". И у этих предложений один
и тот же а/- код CW(S0 ) = CW(S ) ="абвжиилоссту".
ПРИМЕР 3 (Ru). S = "Леонардо да Винчи" и S = "На вид родич идола". И здесь CW(S ) = CW(S ) ="аавддеиилнноорч".
Эти примеры подсказывают, что если S0 и S заданы, причём оба извлечены из коллекции текстов, то сравнение их а/ - кодов позволяет ответить на вопрос, являются ли они анаграммами друг друга или нет. На этом фоне более интересной представляется
Задача А. По заданному S0 определить, существует ли в пределах заданной текстовой коллекции такое S , что CW(S0 ) = CW(S ) .
Вполне понятно, что в качестве области значений S и S следует рассматривать множество, элементами которого являются предложения и их фрагменты. Если для конкретного S0 задача оказывается разрешимой, то естественно ожидать получение S в явном виде. Сложность решения данной задачи заключается, по-видимому, в разработке модели системного перебора в пределах заданной коллекции текстов всех претендентов на роль S .
Индексирование элементов. а/ -кодирование может быть использовано для формального (без определённых целей) упорядочения словоформ в пределах предложения, а также самих предложений - в пределах текста. В самом деле, из двух элементов, будь то словоформы или предложения, предшествующим будем считать тот, который состоит из меньшего числа букв, а в случае равенства - элемент, предшествующий по алфавиту языка L. Перенося алфавитный порядок расположения це-
1 Предложения рассматриваются с точностью до знаков препинания.
Информатика
З.Д.Усманов
почек на их прообразы (словоформы и предложения), получим соответствующее упорядочение элементов.
Поступило 15.04.2013 г.
ЛИТЕРАТУРА
1. Усманов З.Д. - ДАН РТ, 2012, т.55, № 7, с. 545-548.
2. Усманов З.Д., Нормантас В. - ДАН РТ, 2012, т.55, № 8, с. 622-625.
3. Усманов З.Д., Нормантас В. - Материалы 16 научно-практ. семинара "Новые информационные технологии в автоматизированных системах".- М., 2013, с. 287-292.
4. Усманов З.Д., Довудов Г.М., Холматова С.Д. - Известия АН РТ. Отделение физ.-мат., хим., геол. и техн. наук, 2013, № 1 (150), с. 32-39.
5. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2013, т.56, №3, с. 196-200.
3.4,-Усмонов
КОДИРОНИИ ЧУМЛА^О
Институтиматематикаи ба номи А.Цураеви Академияи илмх;ои Цум^урии Тоцикистон
Дар макола кодиронии махсуси алифбоии пайдарпайии харфхо пешниход карда меша-вад, ки имконияти ба тартибоварии чумлахоро дар худуди матн медихад, инчунин кодиронии мазкур муайян менамояд, ки оё ду чумлаи дилхохи аз мачмуи матнхо гирифташуда анаграммаи якдигаранд.
Калима^ои калиди: забони табии - пайдарпайи - кодирони - ба тартибовари - анаграмма
Z.D.Usmanov CODING OF SENTENCES
A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan A special method of alphabetical coding to letter strings is used for arranging sentences in texts and recognizing sentence anagrams.
Key words: natural language - letter string - coding - arrangement - sentence - anagram