Автоматизированное пополнение морфологического словаря на массиве текстовых документов

Черненьков Д.М.

Черненьков Д.М.

МГТУ им. Н.Э. Баумана

Системы морфологического анализа работают по различным принципам. Наиболее простые системы используют для работы только морфологический словарь (наиболее популярным является словарь А. А. Зализняка). Такие анализаторы могут предоставлять полную грамматическую информацию о словоформе и слове, к которому она относится (часть речи, падеж, число, род и т.д.), а также полную парадигму слова, т.е. весь набор его словоформ. Главный недостаток таких систем -неспособность к анализу несловарных форм. Пополнение морфологического словаря вручную - весьма трудоемкий процесс

Другой вид морфологических анализаторов основан на стемминге. Такой подход успешно используется в поисковых системах. Основная задача стеммера - генерация стема по словоформе, чтобы стемы форм одного слова совпадали. Стем в общем случае не совпадает с морфологической основой слова. Более того, в некоторых случаях одинаковые стемы генерируются для разных, но родственных слов, например глагола и отглагольного существительного. Обычно стеммеры не выдают никакой грамматической информации о словах. Большинство стеммеров используют существующие парадигмы словоизменения для анализа как словарных, так и несловарных форм. Существуют также обучаемые стеммеры, которые, используя в качестве базы материал из морфологического словаря, в дальнейшем обучаются на текстах, содержащих несловарные формы.

Для системы машинного перевода требуется морфологический анализатор, обладающий преимуществами обоих перечисленных выше подходов: выдавать по словоформе грамматическую информацию (для дальнейшего синтаксического анализа) и полную парадигму слова (для синтеза) и иметь механизм автоматического или автоматизированного пополнения словаря.

Морфологический анализатор разбивает словоформу на псевдооснову (неизменяемую часть) и псевдоокончание (изменяемую часть). Это разбиение может не совпадать с настоящим разбиением слова на марфемы, по причине существования

флексии в суффиксе («замочек» -«замочки») и в корне («ухо» - «уши»). Псевдооснова фиксирована для каждого слова, а набор псевдоокончаний и их соответствие грамматическим формам определяется парадигмой изменения.

Простейший метод анализа несловарной формы - поиск всех парадигм с псевдоокончаниями, совпадающими с концом данной словоформы. Такой анализ может выдает несколько десятков парадигм для одной словарной формы. Это неприемлемо не только для автоматического анализа, но и для автоматизированного, поскольку процесс выбора из такого количества вариантов слишком трудоемок. Необходим способ отбросить как можно больше заведомо неверных вариантов морфологического разбора.

При обучении морфологического анализатора на существующем тексте получается двудольный граф словоформы-леммы. Логично предположить, что в достаточно большом тексте большинство слов встречается несколько раз и в различных формах (если речь идет об изменяемых словах). В таком случае, если граф разделить на связные компоненты (Рис. 1), то в большинстве случаев все формы в компоненте будут относиться к одному слову, и только одна из входящих в нее предполагаемых лемм будет верной.

Для определения верного варианта угадывания предлагается ввести систему оценок предполагаемых лемм. Тогда можно будет выбирать из каждой компоненты лемму с самой высокой оценкой и считать этот вариант верным, либо предлагать пользователю на выбор небольшое количество вариантов с самыми высокими оценками.

валентностей

[ валентностям )

( валентностями )

)

норм, форма валентность

псевдоосн. валентност-

сущ. ж.р.

Г

норм, форма веба

псевдоосн. веб-

сущ. ж.р.

\ веба ) ( вебе )

норм, форма веб

псевдоосн. веб-

сущ. м.р.

( конституенты )

норм, форма конституентый

псевдоосн. конституент-

сущ. ж.р.

норм, форма конституент

псевдоосн. конституент-

сущ. м.р.

-( конституентами ) —( конституентов )

Для составления оценочной функции можно воспользоваться различными эвристиками, например.

Чем больше уникальных слоформ, встреченных в тексте, относятся к данной лемме, тем вероятнее, что она угадана верно.

Чем чаще словоформы, относящиеся к данной лемме, встречаются в тексте, тем вероятнее, что она угадана верно. Это связано с орфографическими ошибками как в словарных, так и в несловарных формах.

Для некоторых парадигм существуют типичные окончания псевдоосновы. Во многих словах суффикс определяет парадигму изменения. То же самое касается заимствованных из одного языка слов, которые в исходном языке имели одинаковые постфиксы. Данные о связи парадигм и псевдооснов можно получить из анализа существующего морфологического словаря.

Для каждой части речи можно определить относительную частотность употребления в различных формах. Такую статистику можно собрать на большом

корпусе текстов. Если для угаданной леммы эта частотность отличается от собранной статистики, то скорее всего, лемма угадана неверно.

Из синтаксического окружения, в котором употреблена словоформа, можно извлечь информацию о ее грамматических параметрах, которая позволит отбросить некоторые варианты морфологического анализа.

Встает вопрос о том, как именно составить оценочную функцию, чтобы наиболее точно выбирать верные варианты морфологического анализа. Для этого можно было бы провести ряд экспериментов с различными видами оценочных функций и на различных текстах содержащих несловарные формы. Но для этого потребовалось бы либо каждый раз вручную анализировать выходные данные достаточно большого объема, либо вручную размечать данные о морфологии несловарных форм, встречающихся в текстах. Оба эти метода весьма трудоемки; более того, цель данной работы как раз автоматизировать выполнение подобных задач.

Предлагается другой способ. Те же методы, которые выше рассматривались для анализа несловарной лексики, можно применить к лексемам, имеющимся в морфологическом словаре. Т.е. можно анализировать словарные формы, операясь только на данные о парадигмах и эвристики, игнорируя информацию о конкретных словах. Преимущество же в том, что в данном случае правильный вариант анализа заранее известен. Таким образом возможно получить оценочную функцию методами машинного обучения, такими как деревья решений или нейронные сети.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Черненьков Д. М.

Текст научной работы на тему «Автоматизированное пополнение морфологического словаря на массиве текстовых документов»