Научная статья на тему 'Основные факторы улучшения машинного перевода'

Основные факторы улучшения машинного перевода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1389
229
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОД / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / ДВУЯЗЫЧНЫЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС / ЕBMT / РBMT / ВЫРАВНИВАНИЕ / НОРМАЛИЗАЦИЯ СЛОВА / RBMT / SMT / STEMMING / STATISTICAL MACHINE TRANSLATION / NATURAL LANGUAGE PROCESSING / PARALLEL CORPUS / ALIGNMENT / WORD NORMALIZATION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Мифтахова Р. Г.

В статье показана необоснованность разделения современных систем машинного перевода на SMT (Statistical Machine Translation), RBMT (Rule-Based Machine Translation), представлены доказательства, что только гибридные системы машинного перевода способны обеспечить адекватный перевод фраз и предложений. В статье изучены и проанализированы возможности машинного перевода, исследованы такие подходы, как SMT (Statistical Machine Translation), RBMT (Rule-Based Machine Translation), PBMT (Phrase-Based Machine Translation), EBMT (Example-Based Machine Translation), рассмотрены модели машинного перевода, их использование, с описанием принципа, функциональности, лингвистических характеристик, а также преимуществ и недостатков их использования. Для анализа использовались инструменты Mosestoolkit, TextStat, AntConc, современный корпус американского английского СОСА, русский национальный корпус и другие средства обработки текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MAIN FACTORS OF IMPROVING MACHINE TRANSLATION

Considering machine translation, many authors treat separately Statistical Machine Translation and Rule-Based Machine Translation. The aim of the article is to prove the baselessness of such approaches. Machine Translation systems based on either of them can hardly cope with the translation of long, specific and complex strings. We consider that using the hybrid methods can lead to an adequate translation of sentences and phrases. The article aims to prove the inconsistence of treating Statistical Machine Translation and Rule-Based Machine Translation separately in machine translation systems, to analyze and study the possibilities of machine translation, different methods of text processing, models of machine translation, such as SMT (Statistical Machine Translation), RBMT (Rule-Based Machine Translation), PBMT (Phrase-Based Machine Translation), EBMT (Example-Based Machine Translation). Also the description their principle, functionality, linguistic performance, including their advantages and disadvantages are investigated. The following toolkits were used for the analysis: Moses toolkit, TextStat, AntConc, Contemporary American English Corpus СОСА, Russian National Corpus, The SRI language modeling toolkit and other tools for text processing. The article contains the principles of word normalization, alignment and sentence segmentation.

Текст научной работы на тему «Основные факторы улучшения машинного перевода»

УДК 81.25

ОСНОВНЫЕ ФАКТОРЫ УЛУЧШЕНИЯ МАШИННОГО ПЕРЕВОДА

© Р. Г. Мифтахова

Башкирский государственный университет Россия, Республика Башкортостан, 450076 г. Уфа, ул. Заки Валиди, 32.

Тел.: +7 (347) 251 59 07.

Email: miftahovar@yandex.ru

В статье показана необоснованность разделения современных систем машинного перевода на SMT (Statistical Machine Translation), RBMT (Rule-Based Machine Translation), представлены доказательства, что только гибридные системы машинного перевода способны обеспечить адекватный перевод фраз и предложений. В статье изучены и проанализированы возможности машинного перевода, исследованы такие подходы, как SMT (Statistical Machine Translation), RBMT (Rule-Based Machine Translation), PBMT (Phrase-Based Machine Translation), EBMT (Example-Based Machine Translation), рассмотрены модели машинного перевода, их использование, с описанием принципа, функциональности, лингвистических характеристик, а также преимуществ и недостатков их использования. Для анализа использовались инструменты Mosestoolkit, TextStat, AntConc, современный корпус американского английского СОСА, русский национальный корпус и другие средства обработки текста.

Ключевые слова: статистический машинный перевод, обработка естественного языка, двуязычный параллельный корпус, RBMT, SMT, ЕBMT, РBMT, выравнивание, stemming, нормализация слова.

Большинство ученых в области моделирования перевода рассматривают независимо друг от друга такие методы машинного перевода, как SMT (статистический машинный перевод) и RBMT (машинный перевод, основанный на правилах). Есть все основания полагать, что такое грубое разделение этих подходов в современных системах машинного перевода не обосновано на современном этапе.

Признан тот факт, что машинный перевод (МП) не может обеспечить высокую точность перевода. Естественные языки невероятно сложны для обработки. При обработке на уровне слова система сталкивается с проблемой синонимов, на синтаксическом уровне не всегда определяется соотношение между лексическими единицами в предложении. Для адекватного машинного перевода системе может не доставать общих познаний о мире. Соответственно довольно сложно научить систему машинного перевода учитывать все эти взаимодействия.

До конца 1980-х гг. основной акцент исследования в машинном переводе делался на создание лингвистических правил — лексических, морфологических; синтаксического анализа, правил передачи лексических единиц, правил генерирования синтаксических единиц и др. Для интерлингвистических систем применялся подход, основаннный на правилах RBMT (Rule-Based Machine Translation). Большую роль в развитии систем машинного перевода сыграло создание высокопроизводительных компьютеров, новых языков программирования, известные работы американского лингвиста Н. Хомского и ряда других ученых по разработке формальных грамматик для синтаксического анализа. В дальнейшем это привело к формированию новых методов моделирования ма-

шинного перевода, основанным на лингвистических корпусах. Объем параллельных корпусов рос вместе с исследованиями в области обработки естественного языка. Корпус — совокупность текстов, собранных в соответствии с определенными принципами. Эти принципы могут быть как лингвистического, так и экстралингвистического характера. Корпус может ограничиваться определенными типами текстов, одной или несколькими разновидностями какого-либо языка, определенным временным промежутком либо комбинацией этих параметров. Информация о составе корпуса обычно доступна исследователю через интерфейс корпуса (включая количество слов в каждой категории текстов и в корпусе в целом, информацию о способах подбора текстов, грамматические характеристики и т.д.).

Естественность языка поддерживается тем, что тексты, собранные в том или ином корпусе, написаны без научной интенции, авторы составляющих корпус текстов заранее не осведомлены о том, что их работы будут собраны воедино и в дальнейшем анализированы. С появлением параллельных корпусов возобновились работы по разработке моделей статистического перевода. Их основа заключается в следующем:

- выравнивании (alignment) текстов, предложений, фраз и слов, являющихся их взаимными эквивалентами;

- построении моделей перевода, которые методами статистики формализуют процесс перехода слов, фраз, синтаксических и семантических единиц из одного языка в другой;

- построении моделей языка, дающих описание структуры статистической модели, насколько та или иная последовательность слов или грамматических конструкций имеет место быть в языке.

C развитием технологии статистического машинного перевода заметно улучшилось качество машинного перевода и появились новые возможности для проведения более точных лингвистических исследований (TextStat, ETAP-3, WordSmith, DialingConcordance, AntConc, Corsis и др.).

Помимо объема корпусных данных, важным фактором улучшения качества машинного перевода является разработка статистических моделей пере-вода.Большую роль сыграли модели IBM 1, IBM 2, IBM 3, IBM 4, IBM 5.

Функциональной основой IBM 1 является выравнивание (параметр a), модель IBM 2 дополняется параметром d (distortion) и способна выполнить правильную перестановку слов в предложении после выравнивания, модель IBM3 добавляет параметр фертильности n, который позволяет определить, сколько слов на языке перевода будет соответствовать одному слову на языке источника. Модели IBM 4 и IBM 5 направлены на усовершенствование предыдущих моделей.

Машинный перевод MT — это перевод одного естественного языка на другой с использованием вычислительных машин и на основе вычислительных машин. Статистический машинный перевод, являясь одним из видов машинного перевода, характеризуется использованием методов, направленных на «обучение» системы (machine learning) [1]. Качество перевода таких моделей прямо пропорционально объему корпусных данных и может применяться для любых языковых пар. Модели же RBMT делают более глубокий лингвистический анализ, однако при таком методе разработка и применение правил для новых языковых пар оказываются более трудоемкими и затратными. Для обеспечения адекватного перевода RBMT должен учитывать не только все лингвистические правила, характерные для отдельного языка, но и все исключения из этих правил. Тогда как метод SMT не привязан к определенной языковой паре и применение новых моделей может быть реализовано довольно быстро.

Что касается моделей машинного перевода, основанных на правилах (EBMT Example-based Machine translation), их возможности довольно

ограничены. Впервые они были предложены Х. Сомерсом и Нагао Хитоши для использования совместно с технологией ТМ [2]. Основная идея этого метода заключается в выполнении перевода путем имитации примеров перевода предложений с подобной структурой. Несмотря на большие объемы корпусов, учесть все примеры перевода не представляется возможным. Кроме того, предложения могут иметь одинаковую синтаксическую структуру, но на его основе не всегда можно построить адекватный перевод. Как видно из примера, значение одного из компонентов способно менять всю структуру на целевом языке.

I took rice with fish - Я заказал рис с рыбой.

I took rice with a spoon - Я ложкой зачерпнул рис.

Itookricewithafriend — Мы с другом взяли рис.

Результат EBMT:

Itookricewithfish— Я заказал рис с рыбой.

Itookricewithaspoon — Я заказал рис с ложкой.

Itookricewithafriend — Я заказал рис с другом.

Как видно, версия EBMT не учитывает лексическую и семантическую многозначность английского слова "to take". Таким образом, при методе EBMT существуют риски неадекватного перевода определенных текстовых структур.

Более удачной, по сравнению с EBMT, является предложенная Ф. Ок модель перевода, основанная на выравнивании (alignment) фраз (PBMT) [3]. Позднее она была дополнена моделью Syntax-based (SBMT), предложенной К. Ямадаи моделью совместной вероятности P(e,f)=P(e)*P(f) [4]. Современные системы SMT широко используют метод PBMT.

Системы статистического машинного перевода (SMT) основаны на выравнивании (alignment) данных двуязычных параллельных корпусов. Статистическая модель перевода вычисляет частоту выровненных (aligned) сегментов в параллельном корпусе. Модель перевода, основанная на структуре двух языков и отношений между ними, реализуется после выравнивания текста на уровне слов и фраз.

Показательным является метод выравнивания на примере параллельного миникорпуса двух несуществующих языков, предложенный известным американским ученым-лингвистом К. Найтом:

1a. ok-voonororoksprok . Словарь, полученный на основе этих данных:

1b. at-voonbichatdat .

2a. ok-drubel ok-voonanokploksprok . anok - pippatmok - gat

2b. at-drubel at-voonpippatrratdat . brok - latnok - nnat

3 a. eroksprokizokhihokghirok . clok - bat ok-drubel - at-drubel

3b. totatdatarrat vat hilat . crrrok - (none?) ok-voon - at-voon

4a. ok-voonanokdrokbrokjok . drok - sat ok-yurp - at-yurp

4b. at-voonkratpippat sat lat . enemok - eneatororok - bichat

5a. wiwokfarokizokstok . erok - totatplok - rrat

5b. totatjjatquatcat . farok - jjatrarok - forat

6a. laloksprokizokjokstok . ghirok - hilatsprok - dat

6b. watdatkratquatcat . hihok - arratstok - cat

7a. lalok farok ororok lalok sprok izok enemok izok - vat/quatwiwok - totat

7b. watjjatbichatwatdat vat eneat . jok - kratyorok - mat

8a. lalokbrokanokploknok . kantok - oloatzanzanok - zanzanat

8b. iatlatpippatrratnnat . lalok - wat/iat

9a. wiwoknokizokkantok ok-yurp . mok - gat

9b. totatnnatquatoloat at-yurp . nok - nnat

10a. lalokmoknokyorokghirokclok 10b. watnnat gat mat okdrubel - at drub el

bat hilat. ororok - bichat

11a. lalok nok crrrok hihok yorok zanzanok . plok - rrat

11b. watnnatarrat mat zanzanat . wiwok - totat

12a. lalokraroknokizokhihokmok .

12b. watnnatforatarrat vat gat .

Такое выравнивание (alignment) позволяет выявить даже неоднозначные и синонимичные слова (izok, totat, wat, iat).

В параллельном корпусе словообразовательная модель машинного перевода выравнивает (ищет соотвествия) слова одного языка со словами другого языка.

12 3 4 This is my house.

I I I

Это мой дом

1 2 3

Позиции слов нумеруются, и составляется карта соответствий с функцией а : i ^ j, где i — позиция слова в переводе, а j — позиция слова в источнике. Таким образом, получаем а : (1^1, 2^3, 3^4}.

Слова в переводе не всегда располагаются в одинаковом порядке, а некоторые вовсе опускаются.

1

This

Это 1

2

house

мой 2

3 is

4

mine.

дом 3

а: {1^1, 2^4, 3^2).

Однако некоторые слова могут добавляться во время перевода. Для примера поменяем язык источника и цели перевода между собой. 0 12 3

NULL Это мой дом

12 3 4

This house is mine.

а: {1^1, 2^3, 3^0, 4^2). Как видим, «is» добавляем в процессе перевода, в русском языке нет слов, ему соответствующих. При переводе методом SMT одному предложению на языке источника SL не всегда соответствует одно предложение на целевом языке TL. Проблему перевода русского предложения r на английское предложение е можно выразить, применив теорему Т. Байеса:

argmax P(p|r) = P(e) * P(r|e), где P(e) -вероятность модели языка, а P(r|e) — вероятность модели перевода.

К самым простым методам выравнивания можно отнести модели лексические, тогда как для многозначных лексических единиц или фраз

применяются сложные модели и дополнительные ресурсы, такие как двуязычные словари и методы RBMT. Большинство ученых в области моделирования перевода подразделяют машинный перевод на SMT (статистический машинный перевод) и RBMT (машинный перевод, основанный на правилах). Есть все основания полагать, что обособленное рассмотрение этих подходов не обосновано на современном этапе. Для обеспечения качественного перевода системам SMT необходим глубокий лингвистический анализ текста на уровне лексики, морфологии, синтаксиса, семантики и прагматики. Для выравнивания лексических единиц используются двуязычные параллельные корпуса. Но если их объем не достаточен, без применения метода RBMT и обработки грамматических категорий языка, невозможно получить адекватный перевод на выходе. Сложная процедура RBMT состоит из множества шагов, но часто начинается с нормализации слова, выделения основы слова и сегментации предложений.

Нормализация слов.

В большистве случаев система заменяет все прописные буквы строчными. Однако есть исключения, особенно если прописные буквы встречаются в середине предложения: GeneralMotors, US — us. Рассмотрим как будет выравниваться (aligned) слово window:window — window, windows; windows— windows, window, Windows; Windows — Windows.

• Выделение леммы: am, are, is ^ be; car, cars, car's, cars' ^ car.

• Выделение основы слова: automate(s), automat, automation ^ automat. Для выделения основы не всегда достаточно удаление окончания. Самым широко распространенным стеммером для агнглийского языка является алгоритм Портера [5]:

Правило Пример

sses ^ ss caresses ^ caress

ies ^ i ponies ^ poni

ss ^ ss caress ^ caress

(*v*)ed ^ 0 plastered ^ plaster

ational ^ ate relational ^ relate

izer ^ ize digitizer ^ digitize

ator ^ ate operator ^ operate

(*v*)ing ^ 0 walking ^ walk

Обратим внимание на последний пример. Чтобы исключить такие слова, как sing ^ sing, применим дополнительные правила: если в слове есть

гласные, которые предшествуют окончанию —ing, окончание не удалять. Таким образом, у слов nothing something ring sing сохранится окончание -ing.

Сегментация предложений.

Эффективным методом разделения предложений являются знаки. Такие знаки, как «?» и «!» не очень многозначны, чего нельзя утверждать относительно знака точка «.»: Ltd., Inc.; 0.2 и др., который служит не только символом завершения предложения, но и применяется в аббревиатурах,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

акронимах, дробных числах. Поэтому для сегментации предложений более эффективными можно считать модели-классификаторы — написанные вручную правила или вычисленные на основе вероятности: а) наличие комбинации "пробел «слово с прописной буквы»"; длина слова, заканчивающегося на точку; вычисление вероятности появления фразы с точкой в конце предложения (на основе п-grams). На рис. показан один из алгоритмов сегментации предложений.

Сегментация предложения позволяет полноценно решить задачу извлечения информации из текстов, автоматической кластеризации информационного потока и машинного перевода [6]. Одно из достоинств статистического машинного перевода в том, что он развивается вместе с языком. Но для обеспечения качественного перевода только статистической обработки не всегда достаточно. При появлении в языке неологизмов или изменении формы написания отдельных слов система не сможет распознать нововведение, пока оно не распространится достаточно широко в языке, и только затем оно появится в моделях перевода и языка. При этом метод RBMT способен более оперативно реагировать на модификации в естественном языке. Таким образом, машинные переводчики, способные сочетать в себе обе модели (гибридные), обеспечивают более качественный перевод [4]. Качество перевода оценивается алгоритмом BLEU (Bilingual Evaluation Understudy), основанном на сравнении

специально подобранных текстов, полученных

системой, и сравнении их с эталонным текстом на

основе n-gram.

ЛИТЕРАТУРА

1. Мельчук И. А. Опыт теории лингвистических моделей «Смысл о Текст». М., 1999.

2. Somers H. L., Jones D. Machine Translation Seen as Interactive Multilingual Text Generation // Translating and the Computer 13: The Theory and Practice of Machine Translation. London: Aslib, 1992. Pp. 153-165.

3. Marcu D and Wong A. A phrase-based joint probability model for statistical machine translation // In conference on Empirical Methods in Natural Language Processing, ACL. Morris-town, NJ, 2002. Vol. 19.

4. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы, построение и анализ. М.: МЦНМО, 2001.

5. URL: http://people.ischool.berkeley.edu/~hearst/irbook/porter.html

6. Sleator D., Temperley D. Parsing English with a Link Grammar. CMU-CS-91-196. School of Computer Science. Carnegie Mellon University. Pittsburg, 1991.

Поступила в редакцию 01.12.2014 г.

THE MAIN FACTORS OF IMPROVING MACHINE TRANSLATION

© R. G. Miftakhova

Bashkir State University 32 Zaki Validi St., 450076 Ufa, Republic of Bashkortostan, Russia.

Phone: +7 (347) 251 59 07.

Email: miftahovar@yandex.ru

Considering machine translation, many authors treat separately Statistical Machine Translation and Rule-Based Machine Translation. The aim of the article is to prove the baselessness of such approaches. Machine Translation systems based on either of them can hardly cope with the translation of long, specific and complex strings. We consider that using the hybrid methods can lead to an adequate translation of sentences and phrases. The article aims to prove the inconsistence of treating Statistical Machine Translation and Rule-Based Machine Translation separately in machine translation systems, to analyze and study the possibilities of machine translation, different methods of text processing, models of machine translation, such as SMT (Statistical Machine Translation), RBMT (Rule-Based Machine Translation), PBMT (Phrase-Based Machine Translation), EBMT (Example-Based Machine Translation). Also the description their principle, functionality, linguistic performance, including their advantages and disadvantages are investigated. The following toolkits were used for the analysis: Moses toolkit, TextStat, AntConc, Contemporary American English Corpus COCA, Russian National Corpus, The SRI language modeling toolkit and other tools for text processing. The article contains the principles of word normalization, alignment and sentence segmentation.

Keywords: Statistical Machine Translation, natural language processing, parallel corpus, RBMT, SMT, ЕBMT, РBMT, alignment, stemming, word normalization.

Published in Russian. Do not hesitate to contact us at bulletin_bsu@mail.ru if you need translation of the article.

REFERENCES

1. Mel'chuk I. A. Opyt teorii lingvisticheskikh modelei «Smysl o Tekst» [The experience of the theory of linguistic models "Meaning o Text"]. Moscow, 1999.

2. Somers H. L., Jones D. Translating and the Computer 13: The Theory and Practice of Machine Translation. London: Aslib, 1992. Pp. 153-165.

3. Marcu D and Wong A. In conference on Empirical Methods in Natural Language Processing, ACL. Morristown, NJ, 2002. Vol. 19.

4. Kormen T., Leizerson Ch., Rivest R. Algoritmy, postroenie i analiz [Algorithms, design and analysis]. Moscow: MTsNMO, 2001.

5. URL: http://people.ischool.berkeley.edu/~hearst/irbook/porterhtml

6. Sleator D., Temperley D. Parsing English with a Link Grammar. CMU-CS-91-196. School of Computer Science. Carnegie Mellon University. Pittsburg, 1991.

Received 01.12.2014.

i Надоели баннеры? Вы всегда можете отключить рекламу.