Научная статья на тему 'Частотный метод устранения омонимии таджикских словоформ'

Частотный метод устранения омонимии таджикских словоформ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
279
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / ОМОНИМИЯ / ЧАСТОТНЫЙ МЕТОД / TAJIK LANGUAGE / AMBIGUITY / FREQUENCY METHOD

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З. Д., Довудов Г. М.

На основе статистической обработки коллекции текстов установлены типы омонимии таджикских словоформ, охарактеризована их морфологическая многозначность, сформулировано правило снятия омонимии, подтверждена эффективность применения частотного метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The frequency method to disambiguation of tajik word forms

On the basis of a statistical processing of the text collection, we determine the ambiguity types of Tajik word forms, describe their morphological multiformity, formulate the disambiguation rule, confirm the effectiveness of the frequency method.

Текст научной работы на тему «Частотный метод устранения омонимии таджикских словоформ»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2017, том 60, №1-2_

ИНФОРМАТИКА

УДК 519.25::81'322::811.222.8

Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов

ЧАСТОТНЫЙ МЕТОД УСТРАНЕНИЯ ОМОНИМИИ ТАДЖИКСКИХ СЛОВОФОРМ

Институт математики им. А.Джураева АН Республики Таджикистан

На основе статистической обработки коллекции текстов установлены типы омонимии таджикских словоформ, охарактеризована их морфологическая многозначность, сформулировано

Ключевые слова: таджикский язык, омонимия, частотный метод

Предметом исследования настоящей статьи являются словоформы-омонимы таджикского

оформы-ом

языка. В соответствии с определением такие объекты, идентичные по ряду признаков, различаются по своим значениям. Для словоформ источником неоднозначного толкования их смысла помимо одинакового написания могут быть принадлежность единой части речи, одинаковость основ и кодов граммем. При совпадении всех четырех признаков принято говорить о полной омонимии словоформ.

При исследовании статистических закономерностей таджикского предложения обнаружены факты омонимии: 1.24 и 10% соответственно на множествах словоформ и словоупотреблений (см. [1], табл. 4). Наличие омонимов осложняет процесс автоматической обработки текстовой информации, в связи с чем данная работа посвящается формированию правил снятия омонимии для таких пар словоформ, которые различаются хотя бы по одному из признаков, то есть не являются полностью омонимичными.

ком языке. Для решен----

1. Типы омонимии в таджикском языке. Для решения поставленной задачи мы обращаемся к коллекции текстов, использованной в статье [1], и с помощью автоматических морфораспознавате-ля [2] и морфоанализ ¡атора [3] каждой словоформе, обрабатываемой вне связи с контекстом, приписываем разметку - набор присущих ей возможных вариантов частей речи, основ и позиционных кодов п— Затем к°ллекцию р^ем „а две чж™, °6озна,аемь,е „ие™ 1-8 и 9-Ш (п° длине предложений, включенных в их состав). Первая часть предназначается для проведения экспертного анализа на предмет устранения морфологической неоднозначности словоформ-омонимов, исследования статистических закономерностей, свойственных множеству словоформ-омонимов, и разработки методов устранения омонимии, основанных на правилах. Часть 9-121 используется для оценки эффективности разработанных методов.

Таблица 1 представляет количественные характеристики коллекции и двух её составных частей, причём первые три столбца относятся к описанию исходных данных, а три последующих столбца - к статистическим показателям омонимичности, полученным на основе морфологического анали-

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: [email protected]

за словоформ. По причине того, что в обеих частях коллекции встречаются одни и те же словоформы-омонимы, их общее количество превосходит 946 - число таковых в самой коллекции.

Таблица 1

Информация о текстовой коллекции и её частях

Число предложений Число словоформ Число словоупотреблений Число словоформ-омонимов Суммарная частота словоформ-омонимов Число предложений с омонимами

Коллекция 88793 76100 1092482 946 109216 54610

Часть 1-8 37029 28517 195975 673 20687 14525

Часть 9-121 51764 68273 896507 941 88529 40085

ч

Систематизация словоформ-омонимов по их признак типах омонимии в таджикском языке (см. табл.2).

Типы омонимии в текстово

знакам позволили получить представления о

Т

аблица 2

1.Тип омонимии 2.Форма слова З.Часть речи 4.Код граммемы 5.Основа

по форме слова чах,онй Прилагательное 0200000 Ч,ах,онй

чах,онй Глагол 050011 Ч,ах,он

по форме слова и части речи девонам Существительное 010000 Девон

девонам Существительное 011000 Дев

по форме слова и основе чуям Глагол 050001 чу(и)

чуям Существительное 010000 Чу(и)

по форме слова, части речи и кодировке бадам Прилагательное 0200000 Бад

бадам Прилагательное 0200000 Бадам

полная омонимия майдон Существительное ^ 010000 Майдон

майдон Существительное 010000 Майдон

В первом столбце этой таблицы даётся перечень лексических единиц, по которым могут совпадать пары словоформ. Соответствующие примеры приводятся во втором столбце. В третьем, четвертом и пятом столбцах для примерных словоформ указываются их части речи, коды граммем и основы. Относительно данных столбца 4 отметим, что в них выписываются так называемые позиционные коды граммем, смысл которых объясняется в [4]. Следует также подчеркнуть, что словоформы различных частей речи в общем случае характеризуются кодами различной длины, при этом первые две цифры кода определяют часть речи, которой принадлежит словоформа.

2. Морфологическая многозначность словоформ. Вошедшие в состав первой подколлекции 673 словоформ-омонимов подверглись экспертному анализу на предмет устранения в них морфологической неоднозначности, после чего были изучены статистические закономерности, свойственные множеству словоформ-омонимов. Результаты проделанной работы представлены в табл. 3 не для всех, а только для 22 самых высокочастотных словоформ-омонимов, покрывающих 50.46% множества словоупотреблений-омонимов из подколлекции 1-8.

Таблица 3

Высокочастотные словоформы-омонимы в подколлекции 1-8

№ Словоформы-омонимы Частота в % Варианты позиционных кодов Частота кодов в % Высокочастотные коды

1 дар 14.7 010000/050001/1000 1.6/0.1/98.3 1000

2 буд 7.61 010000/051032 0.67/99.33 051032

3 боз 3.12 010000/050001/1300 6.23/1.37/92.4 1300

4 кор 2.49 010000/050001 99.9/0.1 010000

5 дод 2.34 010000/051032 10.66/89.34 051032

6 худ 2.15 010000/0400 2.57/97.43 0400

7 то 2.02 1000/1200 77.52/22.48 1000

8 бар 1.94 010000/050001/1000 11.56/1.61/86.83 1000

9 чаро 1.86 010000/0400 0.8/99.2 0400

10 худро 1.23 010001/0401 0/100 0401

11 магар 1.17 0400/1300 0.25/99.75 Ч 1300

12 на 1.15 1200/1300 70.39/29.61 1200

13 пеш 1.02 090000/1000 94.39/5.61 090000

14 кун 0.98 010000/050001 0.74/99.26 050001

15 зан 0.97 010000/050001 83.99/16.01 010000

16 чун 0.95 0400/1000/1200 1.47/61.03/37.5 1000

17 тащо 0.94 011000/0200000/1300 0.56/42.42/57.02 1300

18 хеле 0.87 010100/090000 0.28/99.72 090000

19 будам 0.78 010000/051030 0/100 051030

20 чавон 0.73 010000/0200000 75.44/24.56 010000

21 даркор 0.72 0200000/1300 10.8/89.2 1300

22 аввал 0.72 03000/090000 35.07/64.93 090000

50.46 %

В этой таблице в столбце 3 указывается выраженное в процентах отношение частоты встречаемости словоформ-омонимов из столбца 2 к общему числу словоупотреблений-омонимов в подколлекции 1-8. В 4-м столбце выписаны все те варианты позиционных кодов, которые присваивались элементам из столбца 2. В 5-м столбце приводятся выраженные в процентах отношения частоты встречаемости тех или иных кодов из столбца 4 к частоте встречаемости соответствующей словоформы-омонима в подколлекции 1-8. В 6-м столбце выделен код словоформы-омонима с максималь-

ной частото

монима в подколлекции 1 -8 . Устранение многозначно

3. Устранение многозначности на основе статистики. Данные таблицы 3, в особенности столбцы 4 и 5, подсказывают естественное правило принятия решений по устранению морфологической многозначности словоформы: вероятность ошибки при автоматическом снятии неоднозначности будет наименьшей, если словоформе-омониму присвоить значение самого высокочастотного тега (позиционного кода).

Для примера обратимся к словоформе "дар". Как свидетельствуют данные столбца 4 таблицы 3, в предложениях подколлекции 1-8 из 100 случаев с кодом 010000 (то есть в роли существительного) она встречается 1.6 раз, с кодом 050001 (то есть в роли глагола) - 0.1 раз и с кодом 1000 (то есть в роли предлога) - 98.3 раз. Поскольку словоформа "дар" чаще всего употребляется с кодом 1000, то согласно упомянутому правилу при автоматическом устранении омонимии она будет ис-

пользоваться в качестве предлога. Правильное решение будет приниматься с вероятностью 0.983, а ошибочное - с вероятностью 0.17.

Таким образом, 6-й столбец таблицы 3 - суть правило принятия решения по отношению к 673 словоформам-омонимам из подколлекции 1-8.

4. Эффективность правила тестировалась на подколлекции 9-13, содержащей предложения длиной от 9 до 13 слов. Эффективность проверялась поэтапно: вначале на предложениях длиной 9, затем 10 и т.д. На каждом этапе, с одной стороны, определялось количество верно принятых решений по отношению к тем словоформам-омонимам, на которые уже распростра

частотного тега и, с другой стороны, выявлялись новые слово

устранялись правила высоко-рмы-омонимы, не встречавшиеся на предыдущем этапе. Для таких объектов экспертным путем формулировались дополнительные правила, которые вместе с уже имевшимися вновь использовались для уточнения пол зультатов. Далее осуществлялся переход к следующему этапу.

лученных

ых ранее Таблица 4

В табл. 4 каждая строка по существу характеризует очередной шаг подсчёта эффективности предлагаемых правил снятия омонимии. В столбцах 2-7 приводится информация об исходных данных очередной подколлекции текстов, поступающей для анализа. В столбце 8 отмечается количество вновь выявленных словоформ-омонимов (в сравнении с 673 уже известными ранее), а в столбце 9 -их частота встречаемости на множестве словоупотреблений.

В столбце 10 указывается абсолютное, а в 11-м столбце выраженное в процентах числа однозначно распознанных словоупотреблений на основе правил, сформулированных для 673 словоформ-омонимов.

Результаты 12 и 13-го столбцов отличаются от двух предыдущих тем, что в процедурах снятия омонимии наряду с 673 словоформами-омонимами принимаются во внимание дополнительные 36 (см. столбец 8), со своими правилами принятия решений.

При переходе к следующему этапу (рассмотрению эффективности применения правил для подколлекции 10) в качестве предыдущего этапа используется уже подколлекция 1-9 с набором правил для 709 (= 673 + 36) словоформ-омонимов и т.д.

Заключение. Данные столбца 11 показывают достаточно высокую эффективность предложенных правил устранения омонимии. Присоединение к ним новых правил, обусловленных необходимостью учета не встречавшихся ранее словоформ-омонимов, повышает эффективность до 95%, см. столбец 13. Вероятно, этот уровень является близким к пороговому значению, который можно достичь частотным 1-граммным методом.

Дополнительные ресурсы в повышении точности сняти зовании словоформных п - грамм, которые могли бы, в частности, отвергать ситуации, в которых словоформы с изафетом предшествуют нумеративу, глаголу, а также вспомогательным частям реч

роговому зн роговому з

монимии следует искать

т.п.

ЛИ

1. Усманов З.Д., Довудов Г.М. О статистическом пор Республики Таджикистан. Отделение физико-мате

вспомогат

л > V"

Поступило 11.01.2017 г.

ТУРА

ге таджикского предложения. - Известия АН гических, химических, геологических и тех-

базы морфов таджикского языка. - Душанбе:Дониш, из словоформ таджикского языка. - Душанбе: вание тадж

анализ

нических наук, 2017, №1(160), с.58-66.

2. Усманов З.Д., Довудов Г.М. Формирование 2014, 110 с.

3. Усманов З.Д., Довудов Г.М. Морфолог Дониш, 2015, 132 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Усманов З.Д., Довудов Г.М. Позиционное кодирование таджикских словоформ. Известия АН Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2015, №1(158), .

АЗ БАЙН ]

, с.58-66.

/О' л4

З.Ч,.Усмонов, Г.М.Довудов

БУРДАНИ ХАМГУНАГИИ МОРФОЛОГИИ КАЛИМАХОИ ЗАБОНИ ТОНИКИ ДАР АСОСИ УСУЛИ БАСОМАДЙ

Институти математика ба номи А. Чураеви Академияи илм^ои Цумхурии Тоцикистон

Дар асоси коркарди омории мачмуи матндо намуддои дамгунагии морфологии калимадои забони точикй муайян карда шудаанд, хусусияти бисёрмаъноии морфологии ондо шард дода шудааст, коидаи аз байн бурдани дамгунагии морфологй муайян карда шуда, самаранокии татбики усули басомадй тасдик шудааст. Калимадои калиди: забони тоцикй, дамгунагии морфологи, усули басомадй.

Z.D.Usmanov, G.M.Dovudov THE FREQUENCY METHOD TO DISAMBIGUATION OF TAJIK WORD FORMS

A.Juraev Institute of Mathematics, Academy of Sciencesf the Republic of Tajikistan

On the basis of a statistical processing of the text collection , we determine the ambiguity types of Tajik word forms, describe their morphological multiformity, formulate the disambiguation rule, confirm the effectiveness of the frequency method. Key words: Tajik language, ambiguity, frequency method.

A ¿V V £

i Надоели баннеры? Вы всегда можете отключить рекламу.