Научная статья на тему 'Статистический способ выделения слов и словосочетаний из вьетнамских печатных текстов'

Статистический способ выделения слов и словосочетаний из вьетнамских печатных текстов Текст научной статьи по специальности «Математика»

CC BY
109
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ СЛОВ И СЛОВОСОЧЕТАНИЙ НА ВЬЕТНАМСКОМ ЯЗЫКЕ / МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ / IDENTIFICATION WORDS IN VIETNAMESE DOCUMENTS / METHOD STATISTICS

Аннотация научной статьи по математике, автор научной работы — Хьеу Лe Чунг, Граничин Олег Николаевич

За последние 20 лет область автоматической обработки текстов (Natural Language Processing, NLP) достигла значительных успехов в сфере разнообразного лексико-грамматического анализа, выявления темы или поиска информации. Тем не менее большинство работ было проведено для западных языков индоевропейской группы и не может применяться к другим языковым группам. Таким образом, сегодня возникает необходимость в разработке инструментов для остальных языковых групп. Вьетнамские ученые только недавно начали заниматься областью NLP. Авторам неизвестны публикации ни по формальной лингвистике, ни по распознаванию формальных правил для определения границ вьетнамских слов и словосочетаний. Основные задачи обработки текстов на вьетнамском языке, такие как лексико-грамматический анализ, синтаксический анализ и т. п., очень сложны для вычислительной лингвистики. В работе рассматриваются способы применения методов статистической обработки для построения списка вьетнамских слов и словосочетаний. Целью нашего проекта является построение общей лингвистической базы данных, которая могла бы свободно и легко использоваться для автоматической обработки вьетнамского языка. В данной статье предлагается новая система для построения списка вьетнамских слов, основанная на статистическом методе и информационной энтропии, а также двух новых алгоритмах. Первый алгоритм разделения фраз, использующий статистические значения. Он разделяет фразы, упрощая их дальнейшую обработку. Второй алгоритм адаптации. Он выполняет циклический процесс статистической обработки и разделения фраз для получения статистических значений исходных данных. Разработанная система может быть применена при решении задач распознавания образов или классификации. Она в состоянии обучиться разделять на классы элементы предъявляемой ей последовательности векторов, представляющих некоторые объекты, в условиях, когда информация о том, к какому классу принадлежит каждый из используемых в процессе обучения векторов, отсутствует. Система сама «собирает» выборочные векторы в некоторые компактные группы. Библиогр. 13 назв. Табл. 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Using application of statistics for word extraction from vietnamese documents

For last 20 years, the field of Natural Language Processing (NLP) has seen numerous achievement in domains as diverse as part-of-speech (POS) tagging, topic detection, or information retrieval. However, most of those works were carried out for occidental languages. Thus, there clearly exists today a need to develop tools and resources for those other languages. Just recently, Vietnamese researchers have been starting being involved in NLP. Since it seems that no common methods for vietnamese word definition and word categories have been found by experts, fundamental tasks for automatic vietnamese language processing such as POS tagging, parsing, etc. become rather complicated. In the framework of this paper, we would like to implement the application of statistics to make a Vietnamese list of words and phrases. Our project, thus, aims at building a common linguistic database exploited freely and easily during the automatic vietnamese language processing. This article proposes a new system to build a collection of vietnamese words, based on statistical methods and information entropy, as well as two new algorithms. The first an algorithm for separation of phrases, using statistical significance, segment the phrase to smooth and simplify their further processing. The second an algorithm adaptation, performs a cyclical process of statistical processing and separating phrases in order to obtain statistical values from the original data. This system can be used to resovle some problems of recognition and classification. In the process of training, the system classifies the elements into classes characteristic vectors while the information of these classes haven't known yet. The system itself "collects" random vectors in some compact group.

Текст научной работы на тему «Статистический способ выделения слов и словосочетаний из вьетнамских печатных текстов»

Сер. 10. 2009. Вып. 3

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

УДК 519.246.5

Л. Ч. Хьеу, О. Н. Граничим

СТАТИСТИЧЕСКИЙ СПОСОБ ВЫДЕЛЕНИЯ СЛОВ И СЛОВОСОЧЕТАНИЙ ИЗ ВЬЕТНАМСКИХ ПЕЧАТНЫХ ТЕКСТОВ

1. Введение. За последние 20 лет область автоматической обработки текстов (Natural Language Processing, NLP) достигла значительных успехов в сфере разнообразного лексико-грамматического анализа, выявления темы, или поиска информации [1—4]. Тем не менее большинство работ было проведено для западных языков индоевропейской группы и их нельзя применять к другим языковым группам. Таким образом, в настоящее время возникает необходимость в разработке инструментов для остальных языковых групп.

Вьетнамские ученые только недавно начали заниматься NLP [5-7]. Авторам неизвестны публикации ни по формальной лингвистике, ни по распознаванию формальных правил для определения границ вьетнамских слов и словосочетаний. Основные задачи обработки текстов на вьетнамском языке, такие как лексико-грамматический анализ, синтаксический анализ и т. п., очень сложны для вычислительной лингвистики.

Построение списка вьетнамских слов и разделение фраз по словам важны не только для лингвистики, но и для автоматической обработки текстов на естественном вьетнамском языке. Эти проблемы достаточно трудны из-за отсутствия конкретных определений и не могут быть решены до конца. Раньше вьетнамские специалисты решали данные проблемы, только пользуясь словарями [8-10].

Цель нашего проекта - построение общей лингвистической базы данных, которая могла бы свободно и легко использоваться для автоматической обработки вьетнамского языка.

В европейских языках слова в предложении разделяются пробелами. Поэтому начало и конец слова довольно просто определяются как человеком, так и компьютером. Во вьетнамском языке слова не разделяются пробелами. Слово может быть одним слогом либо комбинацией слогов, расположенных вместе в предложении. К сожалению, нет определенных правил, как данные комбинации строятся. Потому проблема определения границ вьетнамских слов в печатных текстах не проста. Более того, структура и смысл одного вьетнамского слова в одном конкретном предложении зависят не только от способов связи между слогами, но и от слогов, которые расположены рядом.

Хьеу Ле Чунг — аспирант кафедры системного программирования математико-механического факультета Санкт-Петербургского государственного университета. Научный руководитель: проф. О. Н. Граничин. Количество опубликованных работ: 1. Научные направления: рандомизированные алгоритмы оптимизации и оценивания, системный анализ, адаптивное и оптимальное управление. E-mail: [email protected].

Граничин Олег Николаевич — доктор физико-математических наук, профессор кафедры системного программирования математико-механического факультета Санкт-Петербургского государственного университета. Количество опубликованных работ: 70. Научные направления: рандомизированные алгоритмы оптимизации и оценивания, системный анализ, адаптивное и оптимальное управление. E-mail: [email protected].

© Л. Ч. Хьеу, О. Н. Граничин, 2009

Эти трудности восприятия иллюстрируются следующим примером. В предложении «hoc sinh hoc sinh hoc», которое по-русски означает «школьник учит биологию», все комбинации «hoc sinh», «sinh hoc», «sinh», «hoc» являются вьетнамскими словами: hoc sinh - школьник, sinh hoc - биология, hoc - учиться, sinh - родиться.

Для разделения предложения на слова важно его содержание. Исходя из смысла предложения, определяется, какие комбинации слогов являются словами. Поэтому в рассматриваемом примере, учитывая его основную мысль, правильная расстановка границ такова: «hoc sinh|hoc|sinh hoc».

Разделить фразы по словам во вьетнамском языке так же трудно, как и построить вьетнамские слова и словосочетания.

На протяжении долгого времени вьетнамские, а также иностранные специалисты разрешали данную проблему вручную. Однако построение списка слов вручную требует колоссальных усилий и все же не обеспечивает полноту словаря вьетнамских слов. Одна из причин этого - широкое применение вьетнамского языка в различных сферах со специальными словами, которые редко используются. Другая - в различных регионах могут применяться разные диалекты и словосочетания. Кроме того, условия жизни быстро меняются. С развитием новых технологий и увеличением объемов информации постоянно расширяется лексикон вьетнамского языка. Например, новые слова internet, iphone и т. п. требуется включать в словари как новые понятия. Указанные причины делают процесс построения списка вьетнамских слов вручную трудновыполнимым. По последним данным самый полный вьетнамский словарь содержит только 75 000 слов, но в реальности, по оценке специалистов, количество вьетнамских слов насчитывает уже более 200 000. Это означает, что более половины вьетнамских слов нигде не сохранены.

В настоящей статье предлагается новая система для построения списка вьетнамских слов, основанная на статистическом методе и информационной энтропии [11, 12], а также на двух новых алгоритмах, предложенных в [13]. Первый - алгоритм разделения фраз, использующий статистические значения. Он разделяет фразы, упрощая их дальнейшую обработку. Второй - алгоритм адаптации. Он выполняет циклический процесс статистической обработки и разделения фраз для получения статистических значений исходных данных.

Предлагаемая система может быть применена при решении задач распознавания образов или классификации. Она в состоянии обучиться разделять на классы элементы предъявляемой ей последовательности векторов, представляющих некоторые объекты, в условиях, когда информация о том, к какому классу принадлежит каждый из используемых в процессе обучения векторов, отсутствует. Система сама «собирает» выборочные векторы в некоторые компактные группы.

Статья построена следующим образом. В п. 2 дается краткое описание характеристик вьетнамского языка и определяются используемые в дальнейшем основные статистические функции. В п. 3 предлагаются две функции: связи и сравнения, характеризующие способности связи между слогами. В п. 4 обсуждается модель системы, включающая алгоритм разделения фраз и алгоритм адаптации и его обоснование сходимости. В п. 5 описывается применение предлагаемой системы к обработке набора текстовых данных, состоящего из 41 414 008 вьетнамских фраз. В п. 6 подводятся итоги и формулируются некоторые задачи для дальнейших исследований.

2. Известные подходы.

Вьетнамские буквы.

Буква является мельчайшей единицей слова. Определенный набор букв языка называется алфавитом. Вьетнамский алфавит состоит из 29 букв.

Вьетнамский слог.

Слог - специальная единица, которая соответствует в одно и то же время слогу в фонологии, морфеме в морфологии, а также слову с точки зрения синтаксиса. Слог является последовательностью букв. Слоги разделяются друг от друга пробелами и знаками в текстах.

Пусть С - множество всех вьетнамских букв. Обозначим

множество вьетнамских слогов, Б С С*. Для всех в = ..Ли ^ Б, по определению,

положим 1(в) = к - длина слога в.

Вьетнамское слово и словосочетание.

Вьетнамское слово и словосочетание - это либо слог, либо комбинация слогов. Обозначим

множество вьетнамских слов, ^СБ*. Для всех и = ... вь определим 1(и) = к

длину слова и.

Вьетнамская фраза.

Фраза является последовательностью слогов. Пусть

множество вьетнамских фраз в исследуемом наборе данных, С С Б*. Для всех с = в1в2 •.. вк ЄС определим 1(с) = к - длину фразы с.

Перечислим некоторые свойства вьетнамских слогов.

Частота появления.

Для всех слогов в Є Б обозначим N (в) частоту появления слога в во вьетнамских текстах.

Для всех слогов г, в Є Б обозначим N (г, в) частоту появления во вьетнамских текстах слога г перед слогом в.

Распределение вероятности.

Для всех слогов в ЄБ определим

где N (в) - частота появления слога в; N 1 = ^2 8 N (в) - сумма частот появления всех слогов во вьетнамских текстах.

Для всех слогов г, в ЄБ определим

здесь N (г, в) - частота появления слога г, расположенного перед слогом в в текстах, N 2 = ^2 г 3 N (г, в) - сумма частот появления всех пар слогов, расположенных вместе

Б { в 1112 • • • 1к \l1,l2, • • • ,1к Є

W = {ш = в1в2 • • • вк\в1, в2, • • ,вк ЄБ}

С = {с = в1в2 • • • вк\в1, в2, • • ,вк ЄБ}

во вьетнамских текстах.

Энтропия.

Будем считать, что набор вьетнамских текстов расчленен на т частей: Б\, В2,..., Вт. Для всех слогов в єБ считаем, что Мі (в) - частота появления в в подмножестве Д. Распределение вероятности в в Ві задается следующим образом:

Пусть для всех слогов г, в еБ ^(т, в) - частота появления слога г, расположенного перед в в В{. Вероятность данного слога г задается так:

Известно, что Р(г, в) = Р(в, г) и Н(г, в) = Н(в, г). Значение Р(-) характеризует частоту повторения элементов, Н(-) - дисперсию.

Посл- и пред-энтропия.

Для слога в еБ определим

3. Функции связи и сравнения. Как отмечалось в п. 2, вьетнамские слова являются либо одним слогом, либо комбинацией слогов, которые связаны между собой. К сожалению, эти комбинации строятся не по определенным правилам. Для того чтобы разрешить проблему выделения вьетнамских слов в тексте, необходимо ответить на два вопроса: «Где граница слова?» и «Какая комбинация слогов является словом?».

Энтропия слога в определяется таким образом:

П

Н(в) = -^2Р(в є Ві) ^|Р(в є Ві)].

Энтропия пары слогов (г, в) определяется формулой

П

Н(г, в) = —^2Р(г, в є Ві) 1с^[Р(г, в є Ві)].

і=1

г

г

Посл-энтропия слога в

И„ = — £ РП} (г) 1оё[РП" }(г)].

г

Пред-энтропия слога в

= — £ Р^г )к^рР<в)(г)].

г

Ниже будут рассмотрены два статистических свойства, характеризующие распознаваемое слово. Первое предназначено для оценивания связи между слогами в данном слове, а второе - для оценивания отношения между ним и другими словами в одной фразе.

3.1. Функция связи. Она характеризует способность связи между слогами, основана только на статистике и строится по следующим функциям: появления, комбинации и условной вероятности. Функция Р(в) определена для всех слогов в еБ, Р(г, в) для пар слогов г, в еБ. Вычисляется по частоте появления N(■), распределению вероятности Р(-) и посл- и пред-энтропиями Н„(-), Нр(-) слогов.

Функция появления характеризует частоту появления элементов:

где N (г, в) - частота появления слога г, расположенного перед слогом в в С.

Функция условной вероятности характеризует способность комбинации между элементами:

где Р(-) и Р(-, ■) - распределение вероятности.

Функция комбинации характеризует способность комбинироваться с другими слогами:

где Рар(-) и Рар(■, ■) - функция появления; РсЬ(■) и Рсь(■, ■) - функция комбинации; Рса() и Рса(^, ■) - функция условной вероятности.

Функцию связи по формулам (1), (2) построить просто. В процессе выполнения алгоритма она сходится устойчиво, но медленно. По формулам (3), (4) ее построить сложнее, но она выводит слова точнее. Сходится быстро, но не устойчиво (см. п. 4).

Рар(в ) = (в )),

где N (в) - частота появления слога в в С,

Рар(г, в ) = (г, в )),

где Н„(в) и Нр(в) - посл- и пред-энтропия слога в в С,

где Н„(г) и Нр(в) - посл- и пред-энтропия слогов г и в соответственно. Функция связи.

Определение 1:

Р(в) = РсЛв),

Р(г, в) = Рса(г, в),

(1)

(2)

где Рса() и Рса(^, ■) - функция условной вероятности. Определение 2:

(3)

(4)

3.2. Функция сравнения. В предложении слоги образуют слова, некоторые комбинации рядом стоящих слогов могут встречаться чаще, чем другие. Функция сравнения служит для сравнения строгости связи между слогами в предложении.

Функция сравнения использует функцию связи для сравнения каждой пары стоящих рядом слогов. Она строится с помощью пяти функций: логической, сравнения-1, сравнения-2, сравнения-3, сравнения-4. Определим ее для фразы с = вв ... в1 еС. Логическая функция:

В (с, 0) = 1, В (с,1) = 1,

{1, если между вк и вк+1 разделитель,

0 < к < I.

0, иначе,

Функция сравнения-1:

С1(с, 0,6) = 0, С1 (с,1 — 1,9) =0, С1(с,1,9)=0,

Г 1, если В(с,к — 1) = 0 и Д >9,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С\(с,к,9) = < 0 <к<1 — 1,

0, иначе,

где 9 > ° Д Р (вк-1, вк ) + Р (^к + Ъ вк+2) 2Р (вk, в&+1).

Функция сравнения-2:

С2(с, 0,9) = 0, С2(с,1,6)=0,

Г 1, если В(с,к — 1) = 0 и Д >9,

С2(с,к,6) = < 0 < к < I,

0, иначе,

где 9 > ^ Д = Р (вk-1, вк ) + Р ^к + 0 — Р (вк-1) — Р ( вк, в к + 1).

Функция сравнения-3:

С3(с, 0,9) = 0, С3(с,1 — 1,9) =0, Сз(с,1,9)=0,

{1, если Д >9,

0 < к < I — 1,

0, иначе,

где 9 > ^ Д = Р (вк ) + Р (вk+1, вк+2) — Р (вk, вк+1) — Р (вк+2 ).

Функция сравнения-4: для 9 > 0

С4(с, 0,9) = 0, С4(с,1,9)=0,

{1, если Р(вк, вк+1) <9,

0 < к < I.

0, иначе,

Функция сравнения: для 91 > 0, 92 > 0

{1, если (*),

0 ^ к ^ I, (5)

0, иначе,

где (*) — С\(с,к,91) = 1; С2(с,к,91) = 1; Сз(с,к,91) = 1; СА(с,к,92) = 1.

4. Алгоритм. Рассмотрим систему построения списка слов из большого объема данных, состоящего из вьетнамских предложений, в которой применяются алгоритм адаптации, представляющий собой циклический процесс статистической обработки для построения функции связи и функции сравнения на текущих данных, и алгоритм разделения фраз. В результате каждой итерации получаются новые данные, более близкие к списку реальных вьетнамских слов и словосочетаний. Используя их, далее можно построить функцию связи, более приближенную к реальным значениям связи между слогами.

Алгоритм разделения фраз. Пусть задана фраза с = в1в2 ... в1 Е С. Выберем некоторые коэффициенты 91 > 0, 92 > 0.

1. Положим к = 1.

2. На к-м такте вычислим значение функции сравнения

С (с, к, 91, 92);

если С(с,к,91,92) = 1, то разделяем фразу в месте вк и вк+1 и устанавливаем В (с, к) = 1.

3. Увеличиваем номер такта к = к + 1. С 4. Если к < I, то переход к п. 2. Иначе — выход.

В результате получились новые фразы, которые являются частями фразы с.

Определение 3. Пусть заданы наборы фраз С1, С2, Р — функция связи и выбраны параметры 91 > 0,92 > 0.

Говорят, что С2 родится из С1 по Р,91,92, обозначая С1Р’(>^е2С2, если С2 получится из процесса разделения всех фраз в С1 по Р, 91, 92.

Обозначим N (С) - число фраз в С.

В силу алгоритма разделения фраз, если С2 родится из С1, то N(С1) < N(С2).

Алгоритм адаптации.

Пусть задан набор начальных фраз Со. Выберем е ^ 0 и значения 91 > 0, 92 > 0.

1. Положим к = 0.

2. В начале каждого к-го такта рассчитываем статистические характеристики на С к. Далее на их основе рассчитываем значения функции связи Рк (■) для всех элементов в Ск и выполняем алгоритм разделения. В результате получаем СкРк=1’в2Ск+1.

3. Если N (Ск+1) — N (Ск) < е — выход.

4. Увеличиваем номер такта к = к + 1.

5. Переход к п. 2.

В результате получаем последовательность наборов фраз {Сп}, для которой Ук N(Ск+1) > N(Ск) + е. В силу конечности набора возможных фраз, алгоритм завершит работу, выполнив конечное число итераций. Теоретическое обоснование сходимости последовательности {Сп} к набору С*, в котором все фразы являются вьетнамскими словами или словосочетаниями, достаточно затруднительно. На качество работы алгоритма существенно влияет выбор конкретных значений параметров е, 91 и 92, зависящий как от общих характеристик вьетнамского языка, так и от выбранного набора начальных фраз С0.

5. Реализация. Для эксперимента были взяты 8808 вьетнамских литературных произведений, разделенных на 40 000 файлов, данные по которым были получены с вебсайта www.vnthuquan.net. Для удобства и повышения эффективности статистической обработки начальные данные были отнормированы так, чтобы в каждом из файлов было примерно равное количество предложений.

Начальные данные состояли из целых вьетнамских предложений, в которых имеется много знаков, чисел и имен (в том числе иностранных). В лингвистике такие знаки, как числа и имена, помогают разделять предложения на фразы по структуре и содержанию. Наряду с этим в предложениях некоторые слоги были написаны с неправильной орфографией. Такие предложения нужно было удалить из входных данных. Таким образом, обработка исходных данных включала в себя: разделение предложений по знакам и числам, определение вьетнамских слогов, удаление предложений, в которых присутствуют невьетнамские слоги. В результате был получен начальный набор фраз С0, содержащий 41 414 008 фраз.

В эксперименте использовалась первая функция связи и были выбраны: е = 10 000 и 91 = 3,92 = 1. В таблице представлены полученные алгоритмом адаптации N (Ск) и значения разрыва на каждой итерации.

Величины N (Ск) и значения разрыва

Итерация N(Ck) Значение разрыва

0 41 414 008

1 48 974 445 7 560 437

2 74 052 238 25 077 793

3 74 616 702 564 464

4 74 697 959 81 257

5 74 737 321 39 362

6 74 741 812 3491

В результате применения алгоритма был получен список из 143 616 слов и словосочетаний. В сравнении с некоторыми словарями (LacViet dictionary, Vietnamese on-line dictionary,...) этот набор можно считать хорошим, так как 65% выделенных слов действительно относятся к словам или словосочетаниям, которые можно найти в словарях. В то же время полученная выборка составляет 85-90% всех слов в словарях, остальные 10-15% в которых представляют специальные слова. Наряду с этим 26% среди сформированного набора слов являются правильными вьетнамскими словами или словосочетаниями, которые не встречаются в словарях. Многие из них - это идиомы, поговорки, словосочетания. Кроме того, 4% были написаны с неправильной орфографией. Оставшиеся 5% не были вьетнамскими словами или словосочетаниями.

В ходе реализации алгоритма разделения фраз был получен результат, качество которого можно проверить на сайте URL: http://edmpc.inf.elte.hu/ vu/index.php.

6. Заключение. Были предложены два алгоритма: алгоритм разделения фраз и алгоритм адаптации, которые используются для построения словарной основы системы автоматической обработки вьетнамских текстов. Большинство полученных слов были найдены в существующих словарях. Также было выделено много существующих вьетнамских слов, отсутствующих в каких-либо словарях.

В дальнейшем авторами планируется продолжить исследование эффективности системы с другими данными с тем, чтобы выделить более полный список слов и словосочетаний. Предполагается удаление неправильных слов и словосочетаний и включение новых правильных. Планируется запуск системы на специальных данных, состоящих из трудов по научным дисциплинам, например математике, информатике, экономике, биологии и т. п. Авторы надеются, что с помощью объемного набора данных и использования методов машинного обучения (например, Reinforcement Learning) можно будет добиться того, что функция связи будет сходиться к реальным значениям связи между вьетнамскими слогами.

При общей постановке задачи об автоматической обработке текстов на вьетнамском языке выделяются следующие подзадачи:

1. Построение списка вьетнамских слов.

2. Построение метода анализа вьетнамских предложений по словам.

3. Поиск ключевых слов и классификация документов.

4. Анализ текста - процесс получения высококачественной информации из текста на естественном языке.

Решения первой и второй подзадач рассмотрены в этой статье. С их помощью становится возможным решить и две оставшиеся. Полученный результат может использоваться в качестве исходных данных для третьей и четвертой подзадач. Третья подзадача может решаться алгоритмами DATA MINING для общих языков, четвертая - за счет анализа структур текстов. Она является очень трудной, решение ее даст возможность автоматически понимать тексты.

Литература

1. Erjavec T., Ide N., Tufis D. Development and assessment of common lexical specifications for six central and eastern European languages // Proc. of the First Intern. Conference on Language Resources and Evaluation. Granada, Spain, 1998. P. 233—240.

2. Brill E. Transformation-based error-driven learning and natural language processing: a case study in part of speech tagging // Computat. Linguistics. 1995. Vol. 21. P. 543—565.

3. Berger A., Pietra S. D., Ptetra V. D. A maximum entropy approach to natural language processing // Computat. Linguistics. 1996. Vol. 22. P. 39-71.

4. Covington M. A. A fundamental algorithm for dependency parsing // Proc. of the 39th Annual ACM Southeast Conference. New York, 2001. P. 95-102.

5. Dien D., Kiem H. POS-tagger for English-Vietnamese bilingual corpus // Workshop on Parallel Texts at HTL-NAACL-03. Edmonton, Canada, 2003. Vol. 3. P. 88-95.

6. Huyen N. T. M., Romary L., Rossignol M., Vu X. L. A lexicon for Vietnamese language processing // Language Resources and Evaluation, Special Issue: Asian Language Processing: State-of-the-Art Resources and Processing. Springer Netherland, 2006. Vol. 40. P. 291-309.

7. Dang V. B., Ho B. Q. Automatic construction of English-Vietnamese parallel corpus through web mining // RIVF 2007 - International Conferense on Research, Innovation and Vision for the Future. March 05-09, 2007. Hanoi, Vietnam, 2007. P. 261-266.

8. Vietnamese on-line dictionary. URL: http://www.saigon.com/ vietdict/.

9. Vietnamese on-line dictionary. URL: http://vdict.com/.

10. Vietnamese on-line dictionary. URL: http://dict.vietfun.com/.

11. Shannon C. E. A mathematical theory of communication // Bell System Technical Journal. 1948. Vol. 27. P. 379-423.

12. Abramson N. M. Information Theory and Coding. New York: McGraw-Hill, 1963. 201 p.

13. Ле Ч. Х., Ле А. В., Ле Ч. К. Автоматическое выделение слов и словосочетаний из вьетнамских печатных текстов // Стохастическая оптимизация в информатике: межвуз. сб. СПб.: Изд-во С.-Петерб. ун-та. 2009. Вып. 4. C. 171-186.

Статья рекомендована к печати член-кор. РАН, проф. Г. А. Леоновым.

Статья принята к печати 5 марта 2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.