Научная статья на тему 'Алгоритмы генерации и стемматизации словоформ казахского языка'

Алгоритмы генерации и стемматизации словоформ казахского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
770
140
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КАЗАХСКИЙ ЯЗЫК / ГЕНЕРАЦИЯ / СТЕММАТИЗАЦИЯ / МОРФОЛОГИЧЕСКИЙ АНАЛИЗ / АФФИКС / ФЛЕКТИВНЫЙ КЛАСС

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Барахнин В. Б., Федотов А. М., Бакиева А. М., Бакиев М. Н., Тажибаева С. Ж.

В статье предложены алгоритмы синтеза и анализа словоформ казахского языка, основанные на принципах разбиения слов на флективные классы. Поскольку казахский язык является агглютинативным, подключать словарь словоформ для автоматизации морфологического анализа нецелесообразно. Значительно эффективнее пользоваться словарями аффиксов и наборами правил. В процессе исследования была построена морфологическая модель казахского языка и созданы словари, включающие в себя около 3500 аффиксов и их комбинаций (вариантов окончаний) для 14 флективных классов существительных и около 2000 глагольных аффиксов и их комбинаций для 17 флективных классов (некоторые сочетания аффиксов повторяются). Такой объем словарей является достаточным для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Предлагаемые алгоритмы могут применяться на этапе морфологического анализа в поисковых системах, системах автореферирования и вопросно-ответных системах, системах автоматического анализа поэтических текстов, при построении тезаурусов и онтологий, а также для изучения морфологии казахского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Барахнин В. Б., Федотов А. М., Бакиева А. М., Бакиев М. Н., Тажибаева С. Ж.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The algorithms of the generation and of the stemming of the word forms of the kazakh language

In this article the algorithms of synthesis and analysis of word forms of the Kazakh language, based on the principles of division of the words into inflexional classes, are proposed. As the Kazakh language is an agglutinative language, it is inexpedient to connect to the analysis the dictionary of the word forms to automate the morphological analysis. It is much more effective to use the dictionaries of affixes and the sets of rules. In the process of research the morphological model of the Kazakh language and the dictionaries, which include about 3.500 of affixes and their combinations for nouns and adjectives and about 2000 verbal affixes and their combinations for 17 inflexional classes (some combinations of affixes are repeated) were created. Such a volume of dictionaries is sufficient to analyze the texts of any thematic affiliation. The proposed algorithms can be applied at the stage of morphological analysis in search engines, in the systems of the autosummarization and in question-answering systems, in the systems of automatic analysis of poetic texts, in the creation of thesauruses and ontologies, and also in the process of study of the morphology of the Kazakh language.

Текст научной работы на тему «Алгоритмы генерации и стемматизации словоформ казахского языка»

Cloud of Science. 2017. T. 4. № 3 http:/ / cloudofscience.ru

Алгоритмы генерации и стемматизации словоформ казахского языка1

В. Б. Барахнин***, А. М. Федотов***, А. М. Бакаева *, М. Н. Бакаев***, С. Ж. Тажибаева***, Т. В. Баш ура**'****, О. Ю. Кожемякина*, Д. А. Тусупов***, М. А. Самбешбаева***, Л. X. Лукпанова******

*Институт вычислительных технологий СО РАН 630090, Новосибирск, пр. Лаврентьева, 6

**Новосибирский государственный университет 630090, Новосибирск, ул. Пирогова, 2

***Евразийский национальный университет имени Я. Н. Гумилева 010000, Казахстан, Астана, ул. Сатпаева, 2

****Институт систем информатики имени А. П. Ершова СО РАН 630090, Новосибирск, пр. Лаврентьева, 6

*****¥лзахский национальный исследовательский технический университет

имени К. И. Сатпаева 050040, Казахстан, Алматы, ул. Сатпаева, 22

e-mail: [email protected]

Аннотация. В статье предложены алгоритмы синтеза и анализа словоформ казахского языка, основанные на принципах разбиения слов на флективные классы. Поскольку казахский язык является агглютинативным, подключать словарь словоформ для автоматизации морфологического анализа нецелесообразно. Значительно эффективнее пользоваться словарями аффиксов и наборами правил. В процессе исследования была построена морфологическая модель казахского языка и созданы словари, включаюгцие в себя около 3500 аффиксов и их комбинаций (вариантов окончаний) для 14 флективных классов существительных и около 2000 глагольных аффиксов и их комбинаций для 17 флективных классов (некоторые сочетания аффиксов повторяются). Такой объем словарей является достаточным для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Предлагаемые алгоритмы могут применяться на этапе морфологического анализа в поисковых системах, системах автореферирования и вопросно-ответных системах, системах автоматического анализа поэтических текстов, при построении тезаурусов и онтологий, а также для изучения морфологии казахского языка.

1 Работа выполнена при частичной поддержке Президиума РАН (проект 2016-РРА8-0015) и Президентской программы «Ведущие научные школы РФ» (грант 7214.2016.9).

Ключевые слова: казахский язык, генерация, стемматизация, морфологический анализ, аффикс, флективный класс.

1. Введение

В связи с расширением информационного пространства появляется необходимость автоматической обработки текстов на различных языках, в частности, на казахском. Казахский язык — тюркский язык кыпчакской группы, который относится к типу синтетических агглютинативных языков, обладает богатой и сложной морфологией. Как и в других тюркских языках, слово состоит из основы, к которой присоединяются аффиксы, выражающие различные грамматические характеристики. К основе слова могут присоединяться несколько формообразующих аффиксов (иногда называемых окончаниями), при этом каждый такой аффикс выполняет присущую только для него грамматическую функцию, порядок расположения аффиксов строго определен.

В процессе тематического индексирования документа для определения его принадлежности какой-либо предметной области обычно используется некоторый набор ключевых терминов, каждый из которых обозначает какое-либо понятие из данной предметной области, притом термины встречаются в различных словоформах. Поэтому при расширенном поиске документов правильнее учитывать не словоформы, а основы слов, следовательно, необходимо создание качественного алгоритма стемматизации.

Индексация является необходимой стадией обработки текста в системах автореферирования. Такие системы позволяют получать краткое изложение содержания одного или нескольких документов. Важно, чтобы автоматически составленный реферат содержал наиболее существенные термины. Многие из существующих систем автореферирования [1-6] не имеют поддержки для казахского языка. Описанный в данной работе алгоритм стемматизации может быть использован для индексации документов в системах автореферирования текстов на казахском языке.

Использование модуля морфологического анализа позволяет увеличить не только полноту, но и точность результата информационного поиска. Это можно объяснить тем, что в случае отсутствия процедуры стемматизации встречаются ситуации, когда в выборку попадают документы, не релевантные запросу, но содержащие совпадающие формы, в то время как в релевантных документах данные слова употребляются в другой форме. Использование частот основ вместо частот слов может позволить получить больший вес для релевантных документов и тем самым поместить их во множество отобранных. Таким образом, предлагаемый в данной статье алгоритм стемматизации может применяться в модуле морфологического

анализа при поиске документов. А так как одним из способов улучшения качества поиска является использование тезаурусов [7], то очевидна важность нахождения основы для правильной работы с тезаурусом.

Морфологический анализатор также играет важную роль в вопросно-ответных системах. При поступлении вопроса в систему осуществляется его обработка, в том числе стемматизация. Согласно определенным правилам вопрос перефразируется в утвердительную форму части предложения, в котором содержится ответ. Например, вопрос «А^тау ^айда орналас^ан? — Где находится Актау» переформулируется в часть предложения-ответа так: «А^тау батыста орналас^ан — Актау находится на западе». При формировании ответа необходима возможность получения различных форм слов, чтобы добиться согласования слов в генерируемом предложении [6].

В работе [8] упоминается система синтеза словоформ для русского языка, использующая словарь. Подаваемая на вход словоформа подвергается ряду преобразований на основе заложенных в систему правил, в результате чего получаются все возможные варианты исходной формы данного слова. Далее для каждого построенного таким образом варианта производится поиск его в словаре. Поскольку казахский язык является агглютинативным, использовать словарь словоформ нецелесообразно, удобнее пользоваться словарем аффиксов и наборами правил как для стемматизации, так и для генерации.

Проблемам морфологического анализа казахского языка посвящено много исследований [9-14]. Морфологические анализаторы используются в поисковых машинах для обобщения поискового запроса пользователя. Многие алгоритмы реферирования используют частоту слов как признак, этот признак дает более точные результаты, если учитывать все словоформы слова как одно слово. Однако существующие системы автореферирования не поддерживают казахский язык, поэтому создание стемматизатора и генератора казахских словоформ является актуальной задачей. Об актуальности создания алгоритмов обработки семантической информации на казахском языке свидетельствует большое количество публикаций на эту тему (см., например, [12-14]).

В [12] описано разработанное на основе формализации морфологических правил с помощью семантических сетей программное обеспечение, названное авторами как «интеллектуальный морфологический анализатор казахского языка», в [13] тем же авторским коллективом представлена аппаратная реализация синтеза словоформ казахского языка с помощью ассоциативного запоминающего устройства, наконец, в [14] для морфологического анализа и генерации словоформ казахского языка использован подход на основе конечных автоматов.

Перечисленные работы отличает, с одной стороны, детальное изложение особенностей реализации алгоритмов (вплоть до заполнения конкретных регистров ассоциативного запоминающего устройства в [13] и фрагментов программного кода в [14]), а с другой стороны — почти полное отсутствие описания лежащей в основе алгоритмов теоретической базы, относящейся к области компьютерной лингвистики. В итоге алгоритмы, описываемые в перечисленных работах, трудновоспроизво-димы, поскольку за деталями их реализации практически не видна их суть, хотя выполнение требования воспроизводимости алгоритмов генерации словоформ весьма важно, поскольку создатели информационных систем (прежде всего, научной тематики) постоянно вынуждены пополнять лексические словари этих систем словоформами новых терминов.

Что касается задачи стемматизации, то для ее решения нами используется известный алгоритм Портера, который был опубликован в 1980 г. для английского языка [15]. В нем была описана последовательность шагов, в каждом из которых при определенных правилах может происходить одно из определенных преобразований окончаний. Это правило имеет следующую структуру: <условие> <окончание > —>■ <новое окончание>.

Основная идея алгоритма Портера заключается в том, что существует ограниченное количество формо- и словообразующих суффиксов, и основа слова преобразуется без использования каких-либо баз (словарей) основ: только множество существующих суффиксов (при этом сложные составные суффиксы разбиваются на простые) и вручную заданные правила.

То, что алгоритм Портера не использует никаких словарей и баз основ, является плюсом для быстродействия и спектра применения (он неплохо справляется с несуществующими словами) и одновременно минусом с точки зрения точности выделения основы. Кроме того, к минусам алгоритма Портера часто относят человеческий фактор: правила для проверки задаются вручную и иногда связаны с грамматическими особенностями языка, что увеличивает вероятность ошибки [16]. Впрочем, эта вероятность может быть уменьшена посредством составления словаря, содержащего слова-исключения (так, для русского языка в этот словарь будет входить слово «прибой», в котором буквосочетание -ой — часть основы, а не окончание, характерное для творительного падежа существительных или именительного падежа прилагательных).

Настоящая работа является обобщением результатов в области стемматизации и генерации словоформ казахского языка, полученных авторами в работах [9-11]. Изложена морфологическая модель казахского языка и представлены алгоритмы генерации и стемматизации словоформ. Отличительной особенностью предложенных алгоритмов генерации является использование принципа разбиения слов на

флективные классы в соответствии с идеями работы [8]. Для реализации этих алгоритмов для всех изменяемых частей речи (существительное, прилагательное, глагол) описаны наборы правил сочетания аффиксов.

2. Морфологическая модель казахского языка

В казахском языке словоформы образуются путем конкатенации корня и аффиксов (суффиксов и окончаний). При этом каждый аффикс связан с наборами морфологических признаков, и порядок добавления аффиксов строго определен. Например, для имен существительных к основе слова сначала добавляется суффикс и далее окончание множественного числа, затем притяжательное окончание, далее следует падежное окончание и только после него — личное окончание [17]. Морфологические признаки прилагательных, употребляющихся в роли существительных (в ином случае прилагательные не изменяются), аналогичны морфологическим признакам существительных. Наконец, для глаголов к основе слова сначала добавляется окончание отрицания, далее окончание времени, а затем личное окончание (при этом окончание отрицания и/или личное окончание могут отсутствовать).

Новые словоформы образуются с учетом морфологических и семантических признаков начальных форм следующим образом: сначала к начальной форме слова добавляются суффиксы; затем, двигаясь слева направо, определяется категория (глухие, звонкие и т. п.) последней буквы (последнего звука) начальной формы слова для добавления того или иного окончания [18].

Общая морфологическая форма определения состава выглядит так [12]: туб1р (корень) +ж^рнак (суффикс) + жалгау (окончание).

Принципиальным отличием морфологии казахского языка от морфологии, например, русского является наличие в казахском языке (как и в других тюркских языках) закона сингармонизма, в соответствии с которым аффиксы слова полностью определяются звуковым составом его основы. На основании анализа и грамматики казахского языка можно выделить следующие основные правила казахского языка [19]:

- В казахском языке слово не может оканчиваться на звонкие согласные: б, в, г, г, д. ж. При этом имеют место исключения, в которых удаляется суффикс, начинающийся на гласную, а стоящие в конце б, г, г преобразуются соответственно в буквы п, к, ц.

- Мягкость и твердость слов в казахском языке определяются наличием определенной гласной в последнем слоге слова. Например, слово является твердым, если присутствуют гласные а, о, у, ы, я; а мягким оно становится, если присутствуют гласные э, в, у, /, е. Твердость или мягкость слов коррелирует также с наличием некоторых согласных: слово

твердое, если в нем присутствуют согласные ц и г, и мягкое, если присутствуют к иг.

- После твердого слога следует твердое окончание, после мягкого слога — мягкое окончание (для каждого морфологического признака имеется две формы окончания — твердая и мягкая).

- Каждое следующее окончание зависит от предыдущего по твердости: если последний слог слова твердый, то каждое следующее окончание будет твердым, так как твердость очередного окончания зависит от предыдущего. Таким образом, если слово твердое, то все окончания твердые, если мягкое, то мягкие.

Формально для существительных строится следующая модель образования словоформ. Обозначим через Р1 следующие виды окончаний (аффиксов) для / = 1,2,3,4:

1. Р1 — окончание множественного числа.

2. Р,—притяжательное окончание.

3. Р3 — падежное окончание.

4. Р4 — личное окончание.

Возможны следующие комбинации окончаний существительных:

1) окончание множественного числа + притяжательное окончание (/] Р,),

2) окончание множественного числа + падежное окончание (Р] Р,);

3) окончание множественного числа + личное окончание (Р1 Р4),

4) окончание множественного числа + притяжательное окончание + падежное окончание (/, Р Р3);

5) окончание множественного числа + притяжательное окончание + личное окончание (/, Р, Р4);

6) притяжательное окончание + падежное окончание (Р, Р,);

7) притяжательное окончание + личное окончание (Р, Р4)\

8) падежное окончание + личное окончание (Р3 Р4).

Для глаголов имеются следующие виды окончаний:

1. Рх — окончание отрицания.

2. Р, — окончание времени.

3. Р3 — личное окончание.

Возможны следующие комбинации окончаний глаголов:

1) окончание времени (Р-.);

2) окончание времени + личное окончание (/] Р3);

3) окончание отрицания + окончание времени (Р1 Р );

4) окончание отрицания + окончание времени + личное окончание (Р1 Р Р3).

3. Флективные классы существительных и глаголов казахского языка

В основу построения алгоритмов морфологического анализа и синтеза положено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слов. Эти классы условно названы морфологическими. Изменения форм слов могут носить различный характер. Они могут быть связаны как с изменением формообразующих аффиксов слова, так и его основы (что в казахском языке бывает крайне редко: так, для существительных имеется 18 исключений, для глаголов — 352).

Морфологические классы слов делятся на два вида [8]: основоизменительные классы, характеризующие систему изменения слов, и флективные классы слов. Флективные классы изменяемых слов выделялись на основе анализа их синтаксической функции и систем падежных, личных и родовых окончаний. Классы неизменяемых слов выделялись только по синтаксическому принципу.

Исследуя структурированные правила присоединения окончаний, приведенные в [18, 19], мы установили для существительных казахского языка 14 флективных классов:

1) твердое слово, основа оканчивается на гласный (кроме у);

2) мягкое слово, основа оканчивается на гласный (кроме у);

3) твердое слово, основа оканчивается на б, в, г, д;

4) мягкое слово, основа оканчивается на б, в, г, д;

5) твердое слово, основа оканчивается на ж, з;

6) мягкое слово, основа оканчивается на ж, з;

7) твердое слово, основа оканчивается на л;

8) мягкое слово, основа оканчивается на л;

9) твердое слово, основа оканчивается на м, н, ц;

10) мягкое слово, основа оканчивается нал/, н, //:

11) твердое слово, основа оканчивается нар, у, г/;

12) мягкое слово, основа оканчивается нар, у, и;

13) твердое слово, основа оканчивается на глухой согласный;

14) мягкое слово, основа оканчивается на глухой согласный. Для глаголов мы установили 17 флективных классов:

1) твердое слово, основа оканчивается на гласный (кроме ю):

2) мягкое слово, основа оканчивается на гласный (кроме ю);

3) твердое слово, основа оканчивается на б, г;

4) мягкое слово, основа оканчивается на б, г;

5) твердое слово, основа оканчивается на з;

6) мягкое слово, основа оканчивается на з;

7) твердое слово, основа оканчивается на р. л;

8) мягкое слово, основа оканчивается нар, л;

9) твердое слово, основа оканчивается на м, н, //:

10) мягкое слово, основа оканчивается нал/, н, //:

11) твердое слово, основа оканчивается на д. лс:

12) мягкое слово, основа оканчивается на д. лс:

13) твердое слово, основа оканчивается на глухой согласный;

14) мягкое слово, основа оканчивается на глухой согласный;

15) твердое слово, основа оканчивается на ю;

16) мягкое слово, основа оканчивается на ю;

17) твердое слово, основа оканчивается на у.

Перечисленное разбиение слов на флективные классы полностью и без пересечений покрывает все возможные варианты слов казахского языка, что означает полное корректное решение поставленной задачи (можно отметить, что некоторые подварианты не реализуются: например, твердые слова не могут оканчиваться на букву г, однако мы указали и это сочетание, чтобы не нарушалась формальная полнота покрытия).

Были созданы словари, включающие в себя около 3500 аффиксов и их комбинаций (вариантов окончаний) для 14 флективных классов существительных и прилагательных, а также около 2000 глагольных аффиксов и их комбинаций для 17 флективных классов (некоторые сочетания аффиксов повторяются). Эти словари используются в программном приложении для генерации словоформ, которое будет описано ниже.

Таблицы с конкретными примерами наборов окончаний для флективных классов существительных (прилагательных) и глаголов приведены соответственно в работах [9] и [11].

4. Алгоритм стемматизации словоформ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Как уже отмечалось, в основе реализованного нами алгоритма стемматизации слов казахского языке лежит алгоритм Портера. В зависимости от выполнения условий принимается решение, получена ли основа слова или требуется отсечение аффикса. Алгоритм получения основ состоит из следующих этапов.

1. На вход поступает любая словоформа (глагол, существительное, прилагательное).

2. Начиная с последней буквы слова, происходит поиск по списку аффиксов.

3. Если данный аффикс найден, то он отсекается. Оставшаяся часть слова после отсечения всех аффиксов считается основой.

Основная проблема описываемого алгоритма — наличие в казахском языке слов, в которых последние буквы основы совпадают с одним из аффиксов. В этом случае алгоритм может отсечь больше, чем нужно. Единственный возможный механизм предотвращения таких ошибок — составление словаря основ, последние буквы которых совпадают с одним из аффиксов.

Следует отметить, что предложенный алгоритм стемматизации (как, впрочем, и генерации) применим лишь к простым формам глаголов. Более сложные формы глаголов, состоящие из 2-4 слов, планируется рассмотреть в дальнейшем. Однако в научно-технических текстах сложные глаголы практически не используются.

5. Реализация и тестирование предложенных алгоритмов

На основе изложенных алгоритмов было разработано веб-приложение генерации и стемматизации словоформ существительных, прилагательных и глаголов казахского языка, которое находится в открытом доступе в сети Интернет [20]. Рекомендуемые браузеры Google Chrome, Mozilla FireFox. Веб-приложение демонстрирует принципиальные возможности системы. Хотя веб-интерфейс несколько замедляет работу (словоформы заданного слова генерируются примерно за 25 секунд), однако реальное применение разработанного нами программного обеспечения в непосредственной интеграции с лингвистическими программными системами позволяет получать результаты быстрее: время генерации всех словоформ конкретного слова 1 секунда. Предполагается обращаться к настоящей версии, а не к веб-приложению. Модуль генерации и модуль стемматизации реализованы на языке Python с использованием библиотек: psycopg2, collections. Словари хранятся в базе данных PostgreSQL. На рис. 1 приведена архитектура программного обеспечения.

Генерация

Парадигма слова Конфигурация. Форма

Конф1 Словообразов.

Конф2 Словообразов.

Рисунок 1. Примеры архитектуры системы генерации форм слова

При тестировании на словах, принадлежащих различным частям речи, не было обнаружено ошибок, что позволяет судить о корректности предложенных алгоритмов.

На рис. 2 показан результат работы созданного стемматизатора, на рис. 3 — список словоформ, полученных с помощью созданного алгоритма генерации.

Рисунок 2. Пример стемматизатора словоформ глаголов

Конфигурация словообразования

Отрицание Вопрос

Результативно прош.вр

Конкретное наст, вр

Переходное время

Прошедшее время

Будущее продолжительное время

Будущее время намерения

Переходное прошедшее время

Давнопрошедшее время

Результативно прош.вр + Личное окон. 1л ед.ч

Результативно прош.вр. + Личное окон. 2л ед.ч.

Результативно прош.вр + Личное окон. 2ув.л ед.ч.

Результативно прош.вр. + Личное окон. 1л мн.ч.

Результативно прош.вр + Личное окон 2л мн.ч

Форма

кетпеу

кегп ме

кеткен

кетт туру

кетед1

кегп

кетер

кетпек

кететЫ

кетит

кеткен М1Н

кеткенсщ

кеткенс1з

кеткенб1з

кеткенсщдер

Рисунок 3. Пример генерации словоформ глаголов

6. Заключение

Изложены алгоритмы стемматизации и генерации существительных, прилагательных и глаголов казахского языка, что полностью решает задачу анализа и синтеза словоформ для научно-технических текстов. В процессе исследования для существительных и прилагательных было выделено 14 флективных классов, а для глаголов — 17. Созданы словари, включающие в себя более 5500 аффиксов и их комбинаций (с учетом повторений комбинаций для различных грамматических форм). Количественный объем созданных словарей является достаточным для того, чтобы осуществлять анализ текстов любой тематической принадлежности. Система дополнена словарем исключений, включающим 18 существительных и 352 глагола, в которых при словоизменении изменяется основа. При тестировании на словах, принадлежащих различным частям речи, не было обнаружено ошибок, что позволяет судить о корректности предложенных алгоритмов.

Разработанные алгоритмы могут применяться на этапе морфологического анализа в поисковых системах, системах автореферирования и вопросно-ответных системах, при построении тезаурусов и онтологий, а также в системах автоматизированного анализа поэтических текстов, в обучающих системах при изучении грамматических категорий лексем и т. п.

Литература

[1] Тревгода С. А. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений: автореф. дисс. ... канд. техн. наук. СПб, 2009. С. 15.

[2] Гридина Е.А. Анализ алгоритмов автоматического реферирования текста // ВосточноЕвропейский журнал передовых технологий. 2011. № 3/2 (51). С. 36-38.

[3] Хан У., Мани II. Системы автоматического реферирования. 2000 [Электронный ресурс]. URL: http://www.osp.ru/os/2000/12/067_print.htm

[4] Гинкул А. С. Сравнительный анализ существующих систем автоматического реферирования текста / Полгг. сучасш проблеми науки. — Киев, 2012. С. 255.

[5] Анно Е. Н. Система морфологического анализа с синтезом словоформ // Семиотика и информатика. 1978. Вып. 10. С. 168-187.

[6] Мот С. Document retrieval in the context of question answering. Proc. of the 25th European Conference on Information Retrieval Research (ECIR-03). Lecture Notes in Computer Science 2633. InF. Sebastiani, ed. — Springer, 2003. p. 571-579.

[7] Шокин Ю. II, Федотов A. M, Барахнин В. Б. Проблемы поиска информации. — Новосибирск : Наука, 2010. С. 125-129.

[8] Белоногое Г. Г., Зеленков Ю. Г. Алгоритм автоматического анализа русских слов // Вопросы информационной теории и практики. 1985. № 53. С. 62-93.

[9] Барахнин В. Б., Лукпанова Л. X., Соловьев А. А. Алгоритм построения словоформ с использованием флективных классов для систем морфологического анализа казахского языка//ВестникНГУ. 2014. Т. 12. Вып. 2. С. 25-31.

[10] Федотов А. М, Тусупое Д. А., Самбетбаева М. А., Еримбетова А. С., Бакиева A.M., Пдрисова А. II. Модель определения нормальной формы слова для казахского языка // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2015. Т. 13, Вып. 1. С. 107-116.

[11]Барахнин В. Б., Бакиева A.M., Бакиева M К, Тажибаева С. Ж., Батура Т. В. Лукпанова Л. X. Стемматизация и генерация словоформ в казахском языке для систем автоматической обработки текстов // Вычислительные технологии. 2017. Т. 22. № 4. С. 11-21.

[12] Шарипбаев А. А., Бекманова Г. Т., Ергеш Б. Ж., Бурибаева А. К., Карабалаева M. X. Интеллектуальный морфологический анализатор, основанный на семантических сетях // Материалы международной научно-технической конф. «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2012). Минск, БГУИР, 1618 февраля 2012 г. С. 397-400.

[13] Бурибаева А. К, Шарипбаев А. А., Бекманова Г. Т., Ергеш Б. Ж., Карабалаева M. X. Аппаратная реализация синтеза словоформ казахского языка с помощью ассоциативной памяти /'/ Вестник Евразийского национального университета им. Л. Н. Гумилева. 2012. Специальный выпуск. С. 180-183.

[14] Заурбеков Д. Л., Кайракбай Б. M Построение конечного преобразователя для морфологического анализа и генерации словоформ казахского языка // Materialy VIII Miçdzynarodowej naukowi-praktycznej konferencji «Wschodnie partnerstwo — 2012». Przemysl, 07-15 wrzesnia 2012 r. Vol. 8. Filologiczne nauki. — Przemysl : Nauka i studia, 2012. S. 30-39.

1151 Porter M.F. An algorithm for suffix stripping // Program: Electronic Library and Information Systems. 1980. Vol. 14. № 3. P. 130-137.

[16] Willett P. The Porter stemming algorithm: then and now // Program: Electronic Library and Information Systems. 2006. Vol. 40. P. 219-223.

[17]Кдзак грамматикасы. Фонетика, сезжасам, морфология, синтаксис. — Астана : Астана полиграфия, 2002.

[1Щ Бектаев К. Большой казахско-русский, русско-казахский словарь. — Алматы, 1995.

[19]Валяева Т. Грамматика казахского языка [Электронный ресурс]. URL: http://kaz-tili.kz/

[20]Бакиева A.M. Программа генерации и стемматизации словоформ казахского языка [Электронный ресурс]. URL: http://db4.sbras.ru/morpher

Авторы:

Владимир Борисович Барахнин — доктор технических наук, доцент, ведущий научный сотрудник лаборатории информационных ресурсов, Институт вычислительных технологий СО РАН, профессор кафедры общей информатики факультета информационных технологий, Новосибирский национальный исследовательский государственный университет Анатолий Михайлович Федотов — член-корреспондент РАН, доктор физико-математических наук, профессор, главный научный сотрудник лаборатории информационных ресурсов, Институт вычислительных технологий СО РАН, профессор кафедры систем информатики факультета информационных технологий, Новосибирский национальный исследовательский государственный университет

Айгерим Муратовна Бакиева — аспирант факультета информационных технологий, Новосибирский национальный исследовательский государственный университет Мурат Наурызбаевич Бакиев — кандидат физико-математических наук, и. о. доцента кафедры информационных систем, Евразийский национальный университет им. Л. Н. Гумилева (Астана, Казахстан)

Сауле Жаксылыкбаевна Тажибаева — доктор филологических наук, профессор, профессор кафедры тюркологии, Евразийский национальный университет им. Л. Н. Гумилева (Астана, Казахстан)

Татьяна Викторовна Батура — кандидат физико-математических наук, старший научный сотрудник лаборатории моделирования сложных систем, Институт систем информатики им. А. П. Ершова СО РАН, доцент кафедры систем информатики факультета информационных технологий, Новосибирский национальный исследовательский государственный университет

Ольга Юрьевна Кожемякина — кандидат филологических наук, научный сотрудник лаборатории информационных ресурсов, Институт вычислительных технологий СО РАН Джамалбек Алиаскарович Тусупов — доктор физико-математических наук, профессор, заведующий кафедрой информационных систем, Евразийский национальный университет им. Л. Н. Гумилева (Астана, Казахстан)

Мадина Аралбаевна Самбетбаева — аспирант факультета информационных технологий, Новосибирский национальный исследовательский государственный университет Ляззат Хамитовна Лукпанова — лектор кафедры математики, Казахский национальный исследовательский технический университет имени К. И. Сатпаева (Алматы, Казахстан), аспирант, Институт вычислительных технологий СО РАН

The algorithms of the generation and of the stemming of the word forms of the kazakh language

V. B. Bnrnklmiii \ A. M. Fedotov***, A. M. Bakiyeva*, M. N. Bakiyev***, S. Zh. Tazhibayeva**, T. V. Batura****, O. Yu. Kozhemyakina, D. A. Tussupov***, M. A. Sambetbaiyeva**,

L. Kh. Lukpnnova ****

*Institute of Computational Technologies SB RAS 6, Academician M. A. Lavrentiev avenue, Novosibirsk, Russia, 630090

**Novosibirsk State University 2, Pirogova street, Novosibirsk, Russia, 630090

***L. N. Gumilyov Eurasian National University 2, Satpaev street, Astana, Kazakhstan, 010000

****A. P. Ershov Institute of Informatics Systems SB RAS 6, Academician M. A. Lavrentiev avenue, Novosibirsk, Russia, 630090

*****The Kazakh National Research Technical University after K. I. Satpaev

22a, Satpaev street, Almaty, Kazakhstan, 050013

e-mail: [email protected]

Abstract. In this article the algorithms of synthesis and analysis of word forms of the Kazakh language, based on the principles of division of the words into inflexional classes, are proposed. As the Kazakh language is an agglutinative language, it is inexpedient to connect to the analysis the dictionary of the word forms to automate the morphological analysis. It is much more effective to use the dictionaries of affixes and the sets of rules. In the process of research the morphological model of the Kazakh language and the dictionaries, which include about 3.500 of affixes and their combinations for nouns and adjectives and about 2000 verbal affixes and their combinations for 17 inflexional classes (some combinations of affixes are repeated) were created. Such a volume of dictionaries is sufficient to analyze the texts of any thematic affiliation. The proposed algorithms can be applied at the stage of morphological analysis in search engines, in the systems of the autosummarization and in question-answering systems, in the systems of automatic analysis of poetic texts, in the creation of thesauruses and ontologies, and also in the process of study of the morphology of the Kazakh language.

Key words: Kazakh language, generation, stemming, morphological analysis, affix, inflexional class.

References

[1] Trevgoda S. A. (2009) Metody i algoritmy avtomaticheskogo referirovaniya teksta na osnove analiza funktsional'nyh otnosheniy. Thesis. Sankt-Peterburg. P. 15. [In Rus]

[2] Gridina E. A. (2011) Vostochno-Evropeyskiy zhurnal peredovyh tekhnologiy. 3/2(51):36-38 [In Rus]

[3] Khan U, Mani I. (2000) Sistemy avtomaticheskogo referirovaniya. http://www.osp.ru/ os/2000/12/067_print.htm [In Rus]

[4] Ginkul A. S. (2012) Sravnitel'niy analiz suschectvuyuschih sistem avtomaticheskogo referiro-vaniya teksta. Inbook Polit. Suchasni problemi nauki. Kiev, p. 255 [In Rus]

[5] Anno E. N. (1978) Semiotika i informatika. 10:168-187. [In Rus]

[6] Monz C. (2003) Document retrieval in the context of question answering. In Proc. of the 25th European Conference on Information Retrieval Research (ECIR-03). Lecture Notes in Computer Science 2633. F. Sebastiani (ed.). Springer. pp. 571-579.

[7] Shokin Yu. I., Fedotov A. M, Barakhnin V. B. (2010) Problemy poiska informatsii. Novosibirsk, Nauka, pp. 125-129. [In Rus]

[8] Belonogov G. G, Zelenkov Yu. G. (1985) Voprosy informatsionnoy teorii ipraktiki. 53:62-93. [In Rus]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[9] Barakhnin V. B, Lukpanova L. Kh., Solov'yov A. A. (2014) Vestnik Novosib. gos. universiteta. Seriya: Informatsionnye tekhnologii. 12(2):25-31. [In Rus]

[10] Fedotov A. M, Tusupov D. A., Sambetbaeva M. A., Erimbetova A. S, Bakieva A. M, Idrisova A. I. (2015) Vestnik Novosib. gos. universiteta. Seriya: Informatsionnye tekhnologii. 13(1): 107-116. [In Rus]

[11] Barakhnin V. B, Bakieva A. M, Bakieva M. N, Tazhibaeva S. Zh, Batura T. V, Lukpanova L. Kh. (2017) Vychislitel'nye tekhnologii. 22(4):11-21. [In Rus]

[12] Sharipbaev A. A., Bekmanova G. T., Ergesh B. Zh, Buribaeva A. K, Karabalaeva M. Kh. (2012) Intellektual'nyi morfologicheskiy analizator, osnovannyi na semanticheskih setyah. In book Materialy mezhdunarodnoy nauchno-tekhnicheskoy konferentsi "Otkrytye semantiches-kie tekhnologii proektirovaniya intellektual'nyh system" (0STIS-2012). Minsk, BGUIR, 1618 fev. 2012, pp. 397-400. [In Rus]

[13] Buribaeva A. K, Sharipbaev A. A., Bekmanova G. T, Ergesh B. Zh, Karabalaeva M. H. (2012) Vestnik Evraziiskogo natsional'nogo universiteta im. L. N. Gumilyova. Spetsial'nyi vypusk, pp. 180-183. [In Rus]

[14] Zaurbekov D. L, Kayrakbay B. M. (2012) Postroenie konechnogo preobrazovatelya dlya mor-fologicheskogo analiza i generatsii slovoform kazakhskogo yazyka. In book Materialy VIII Miçdzynarodowej naukowi-praktycznej konferencji «Wschodnie partnerstwo — 2012». Przemysl, 07-15 wrzesnia 2012 r. Vol. 8. Filologiczne nauki. Przemysl: Nauka i studia. pp. 30-39. [In Rus]

[15] Porter M. F. (1980) Program :Electronic Library and Information Systems. 14(3): 130-137.

[16] Willett P. (2006) Program: Electronic Library ancl Information Systems. 40:219-223.

117| Казак грамматикасы. Фонетика, сезжасам, морфология, синтаксис (2002) Astana, Astana poligrafiya.

[18]Bektaev К. (1995) Bol'shoy kazakhsko-rasskiy, russko-kazakhskiy slovar'. Almaty. [In Rus]

[19] http://kaz-tili.kz/

[20] http://db4.sbras.ru/morphcr

i Надоели баннеры? Вы всегда можете отключить рекламу.