Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка

Леонтьев Ньургун Анатольевич

Jm 7universum.com

V UNIVERSUM:

Л ТЕХНИЧЕСКИЕ НАУКИ

ИДЕНТИФИКАЦИЯ ЯЗЫКА ТЕКСТОВОГО СООБЩЕНИЯ С ПОМОЩЬЮ ГАЗЕТНОГО КОРПУСА ЯКУТСКОГО ЯЗЫКА

Леонтьев Ньургун Анатольевич

канд. техн. наук, доцент, Северо-Восточный федеральный университет им. М.К. Аммосова,

РФ, г. Якутск E-mail: [email protected]

TEXTESE IDENTIFICATION BY MEANS OF NEWSPAPER CORPUS

OF THE YAKUT LANGUAGE

Leontiev Nurgun

candidate of Technical Sciences, Associate professor, North-Eastern Federal University named after M.K. Ammosov,

Russia, Yakutsk

АННОТАЦИЯ

В данной работе описывается вопрос идентификации якутского языка в текстовом сообщении. Для идентификации языка используется газетный корпус на якутском языке. В статье описывается газетный корпус на якутском языке. Показаны вероятности определения языка для газетной статьи и для текстового сообщения из интернет-форумов.

ABSTRACT

The article deals with the question of the Yakut language identification in textese. For the language identification newspaper corpus in Yakut is used. This corpus is described in the article. Probabilities of language detection for a newspaper article and text message from Internet forums are shown.

Леонтьев Н.А. Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка // Universum: Технические науки : электрон. научн. журн. 2014. № 8 (9) . URL: http://7universum.com/en/tech/archive/item/1539

Ключевые слова: идентификация языка; газетный корпус; якутский язык; интернет- форумы.

Keywords: language identification; newspaper corpus; the Yakut language; Internet forums.

Задача определения языка текстового сообщения в системах обработки данных обычно стоит не очень остро, так, существуют стандартные разметки текста, указывающие на язык сообщения, или же указывается язык сообщения в метаданных. Проблемы начинаются при обработке текстов на языках народов России, использующих кириллический алфавит и не имеющих стандартов их разметки с указанием языка.

Для автоматической компьютерной обработки текстов необходимо правильно определить язык текста, что иногда может являться нетривиальной задачей. В большинстве национальных алфавитов народов России используются отдельные национальные буквы согласно стандарту Unicode. Дополнительные символы кириллического алфавита содержатся в странице 0400-04FF стандарта The Unicode Standard, версия 6.3 (документ в формате pdf с сайта http://www.unicode.org). Разные языки могут использовать одинаковые графические представления национальных букв, но они могут не совпадать фонетически.

Положение с идентификацией и определением языка текста за рубежом лучше, особенно в европейских и азиатских странах, так как у них существуют мультиязычные документы и, соответственно, проблемы определения языка документа или текстового фрагмента. В иностранной литературе показаны методы определяющие язык, на котором написано слово с точностью более чем 80%, а достаточно длинный текст с точностью, близкой к 100 % [7]. Также разрабатываются средства определения языков в мультиязычных документах [8].

Точность определения языка зависит от размера текстового фрагмента, количества данных для сравнения, классификационных признаков,

совершенства алгоритма и сходства языка [6]. Часто вместо корпуса словоформ используют корпус из биграмм и триграмм для быстрой идентификации языка.

Автором были созданы автоматические определители языка текстового сообщения для задач определения якутского языка, с помощью словаря [4] и с помощью биграмм [5]. Программные скрипты были написаны на языке PHP, и в качестве базы данных использовали систему управления базами данных MySQL. В качестве словаря был использован словарь якутского языка объемом 2 тыс. слов. Данные определители могут правильно определить от 30 до 90 процентов текста как текст на якутском языке, но на коротких предложениях их точность падает до 20 процентов, что является недостаточным.

Якутский язык относится к тюркским языкам и имеет агглютинативный строй, при котором образование грамматических форм происходить с помощью аффиксов. Это образует множество словоформ, что увеличивает количество формируемых слов. Для автоматического распознавания слов по правилам языка необходимы алгоритм и программа, которая бы позволяла произвести стемминг (поиск основы слова), для дальнейшего сравнения корневой формы с базой словаря языка. К сожалению, такой программы для задач определения языка отсутствует.

Национальный корпус якутского языка разрабатывается группой под руководством Л.С. Заморщиковой [2], группой создан ассоциативный словарь якутского языка [1]. На сайте http://www.corplingran.ru/ приводятся работы по национальным корпусам языков народов России, в том числе и якутского языка, в рамках программы фундаментальных исследований Президиума РАН «Корпусная лингвистика». По данной программе был создан корпус якутского языка на 30 тыс. словоупотреблений.

Национальный газетный корпус якутского языка был создан для создания автоматической компьютерной обработки якутского языка [3], корпус содержит более 1 млн. слов собранных из Интернета источников, сайтов газет Республики Саха (Якутия) на якутском языке. Также в рамках проекта

создается база данных сообщений из интернет-форумов на якутском языке для работ по автоматической корректировке текстов.

В ходе анализа из корпуса был выделен словарь содержащий более 105 тыс. словоформ. Эти словоформы включает слова на якутском языке и слова на русском языке, которые были преобразованы по правилам якутского языка. Например, взнос — e3Hoha, взноска, взностара (як. яз.); делегация — делегацията, делегацияны (як. яз.).

Для идентификации языка используется предположение, что языковой словарь в газетных статьях имеет какие-то часто используемые обороты и слова, что позволит правильно идентифицировать язык с достаточной точностью.

Программа была написана на языке PHP с использованием библиотеки Multibyte Strings для обработки строк в формате UTF-8 стандарта Unicode. Словари сохранены в базе данных MySQL, это позволяет провести поиск слова с помощью запроса SQL.

Проверка осуществляется на совпадение со словарем на якутском из газетного корпуса и словарем на русском языке из русско-якутского словаря.

Для проверки работы программы были взяты свежие статьи из газеты на якутском языке «Саха Сирэ». Объем статьей от 120 до 700 слов, процент распознавания якутских слов составил от 80 % и выше. В таблице 1 приведен пример анализа газетной статьи. По результатам видно, что 11 % слов не были идентифицированы, т. е. являются либо имена собственными, числительными или же отсутствуют в базе данных.

Таблица 1.

Результат работы программы для идентификации языка

Всего слов: 481

Якутских: 423, процент: 88 %

русских: 3, процент: 1 %_________________________________________

В таблице 2 приведен подробный разбор фрагмента короткого сообщения из интернет-форума на якутском языке.

Таблица 2.

Пример подробной обработки текстового сообщения из интернет-форума

1 кэпсэтэргитин=кэпсэтэргитин

2 теье=теье

3 себулуугут?=себулуугут

4 группа=[группа]

5 арыйаары=[арыйаары]

6 гынабын=[гынабын]

7 ватсапка=ватсапка

8 куруук=[куруук]

9 ону-маны=[ону-маны]

10 керееччубун=керееччубун

Для сообщений из интернет-форумов характерно использование транслитерационных замен национальных букв (только в 6 % текстовых сообщений используют буквы национального алфавита, а в остальных случаях транслитерационную замену), большое количество опечаток, внедрение сленговых слов и использование русских и иностранных слов взамен якутских.

При разборе предложение разбивается на отдельные слова, потом происходит поиск в базе данных на полное совпадение слова. Слово, которое не найдено, остается в неизменяемом виде после знака равенства, слово, найденное в базе данных якутского словаря, отмечается в квадратных скобках, жирным выделяется слово, найденное в русском словаре.

Из таблицы 2 только слово на позиции 1 является словом на якутском языке, написанным грамматически правильно, но отсутствующим в базе данных, слова 2, 3, 10 являются словами на якутском языке, написанными с помощью транслитерационных замен. Пользователь заменил букву «е» на «е», «у» на «у», «h» на «ь».

Слово 7 является адаптацией английского слова “WhatsApp” на якутский язык. Слово 4 является словом на русском языке, выделяется жирным шрифтом, но то же время такое слово используется на якутском языке.

По результатам работы выявлено, что идентификация текстового сообщения из газеты составляет от 80 % до 93 %. Для сообщений из интернет-

форумов точность определения составляет от 40 до 100 %, в зависимости от длины, так как такие сообщения очень часто имеют большое количество опечаток и транслитерационной замены национальных букв якутского языка. Для коротких сообщений, составленных грамматически правильно, точность может составить и 100 %.

Для повышения точности определения языка с помощью газетного корпуса необходимо разработать систему автоматической коррекции опечаток и транслитерационной замены, а также разработать систему стемминга (поиска корня слова и его аффиксов) якутского языка.

Список литературы:

1. Заморщикова Л.С. Ассоциативно-вербальная сеть и системность образа

мира // Гуманитарные научные исследования. Март, 2014. — № 3 / [Электронный ресурс]. — Режим доступа. — URL:

http://human.snauka.ru/2014/03/6130 (дата обращения: 25.05.2014).

2. Заморщикова Л.С. Ассоциативный тезаурус якутского языка // Гуманитарные научные исследования. Февраль, 2014. — № 2 /

[Электронный ресурс]. — Режим доступа. — URL:

http://human.snauka.ru/2014/02/6027 (дата обращения: 26.05.2014).

3. Леонтьев Н.А. Национальный корпус интернет-сайтов газет на якутском языке / Журнал научных и прикладных исследований. Инфинити. — 2014. — № 4. — С. 35—36.

4. Леонтьев Н.А. Словарное определение якутского языка в текстовом сообщении // Научная перспектива. — 2014. — № 2(48). — С. 97—98.

5. Леонтьев Н.А. Распознавание языка текстовых сообщений с помощью биграмм на материалах якутского языка // Современное состояние естественных и технических наук. М: "Спутник+", 2014. — XIV. — С. 88—91.

6. Botha G.R., Barnard E. Factors that affect the accuracy of text-based language identification / [Электронный ресурс] — Режим доступа. — URL: http: //www.researchgate. net/publication/30510468_Factors_that_affect_the_acc uracy_of_text-based_language_identification (дата обращения: 13.07.14).

7. Gottron T., Lipka N.A Comparison of Language Identification Approaches on

Short, Query-Style Texts / [Электронный ресурс] — Режим доступа. — URL: http: //link.springer.com/chapter/10.1007/978-3-642-12275-0_5 9 (дата

обращения: 13.07.14).

8. Mandl T., Shramko M., Tartakovski O. et al. Language Identification in Multi-

lingual Web-Documents / [Электронный ресурс] — Режим доступа. —URL: http://link.springer.com/chapter/10.1007/11765448_14 (дата обращения:

13.07.14).

Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Леонтьев Ньургун Анатольевич

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Леонтьев Ньургун Анатольевич

TEXTESE IDENTIFICATION BY MEANS OF NEWSPAPER CORPUS OF THE YAKUT LANGUAGE

Текст научной работы на тему «Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка»