Научная статья на тему 'Метод формирования модели глагольного управления для русского языка'

Метод формирования модели глагольного управления для русского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1007
154
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кочеткова Н. А.

В статье рассмотрены вопросы автоматического формирования словаря глагольного управления (глагол + предлог + возможные падежи существительного) на основе анализа корпуса синтаксической сочетаемости слов русского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод формирования модели глагольного управления для русского языка»

Метод формирования модели глагольного управления

для русского языка

Кочеткова Н. А.

МИЭМ, каф. ИТАС

В статье рассмотрены вопросы автоматического формирования словаря глагольного управления (глагол + предлог + возможные падежи существительного) на основе анализа корпуса синтаксической сочетаемости слов русского языка.

Все существующие задачи анализа текстов на естественном языке непременно сталкиваются с трудностями толкования и неоднозначностями, которые необходимо решать или как-то обходить. Например с такими как, морфологическая омонимия, синтаксическая и семантическая неоднозначности. Существует множество методов, позволяющих частично разрешать подобные неоднозначности, но ни один из них не дает 100% правильный результат, потому поиски продолжаются [1]. Так словари глагольного управления могут, например, существенно повысить качество и скорость синтаксического анализа, частично снять омонимию и тому подобное.

Однако, существующие на данный момент словари глагольного управления не достаточны по объему для их использования в машинной лингвистике. Существующие же способы выявления синтаксических связей такого рода страдают неполнотой, громоздки и ненадежны. Например, ранее уже предпринимались попытки извлечения информации о глагольном управлении и глагольном примыкании из больших корпусов, а также других видов сочетаемости слов, путем их просмотра, что потребовало огромного количества времени. Так работы, проводимые Большаковым И.А. в течение 20 лет, позволили ему получить базу сочетаемости для 185 тысяч слов и выражений, в том числе около 38 тыс. титулов для глаголов (раздельно для инфинитива и личных форм). Общее количество сочетаний превышает 6 млн. В книге Розенталя Д.Э. «Управление в русском языке» приведено всего 2500 статей. Схожие объемы имеют и другие существующие на сегодняшний день словари: Словарь сочетаемости слов русского языка под ред. Денисова — 2500 статей, а Словарь глагольной сочетаемости непредметных имен русского языка (Бирюк и др.) - 10 000 статей. Очевидно, что временные затраты на создание подобных словарей велики, кроме того, для их применения в машинной лингвистике необходимо приведение словарей к представлению, удобному для машинной обработки. На данный момент существует несколько сайтов, решающих задачи, связанные с сочетаемостью слов русского языка - это сайты Грамота.ру (http://gramota.ru/) и Национального корпуса текстов русского языка (НКРЯ) (http://ruscorpora.ru/). Однако, на данных сайтах отсутствует информация о глагольном управлении словами. Так, на сайте НКРЯ можно получить информацию о словах, находящихся в непосредственной близости или на некотором расстоянии, но информации о связанности этих слов нет, и пользователь должен извлекать ее сам. В связи с высокой сложностью извлечения информации о глагольном управлении на данный момент не существует ресурсов для ее изучения. Более того, в таких языках, как английский или французский, глагольное управление с использованием падежей отсутствует, в связи с чем его изучение не ведется.

В связи с перечисленными выше трудностями встает вопрос автоматизации процесса создания словарей глагольного управления.

Глагольное управление - это такая подчинительная связь, при которой зависящее от глагола имя существительное стоит в форме косвенного падежа. Управление глагола может быть беспредложным или предложным [3]. Иначе говоря каждый глагол в каждой своей форме допускает лишь определенный набор падежей зависимого существительного. Более того каждый предлог, через который осуществляется это управление, еще более сужает набор падежей. Зачастую в существующих на данный момент словарях приводят не набор возможных падежей, а формы местоимений соотносимых с существительными. Например словарь Розенталя имеет вид: получить

$что-л. @от кого, у кого и с кого.@ $ 1. @от кого.@

*Получил книги от брата (брат дал, прислал). $2. @у кого.@

*Получил книги у брата (взял у брата). $3. @от кого и у кого.@

*Получить нужные сведения от эксперта (у эксперта). Получить задание от руководителя (у руководителя). %% от - у. $4. "с кого.@

*Получить деньги с заказчика. Описание метода

Для выделения глагольного управления из неразмеченного корпуса текстов на русском языке нужно выполнить следующие этапы:

1. выделить глагол+зависимое существительное (с предлогом, если он есть)

2. определить падеж существительного

При этом мы сталкиваемся с двумя большими задачами:

1. неполный синтаксический анализ (на первом этапе)

2. разрешение омонимии (частеречной на первом этапе, и падежной на втором) Первый этап совпадает с действиями предпринятыми нами для выделения

синтаксической сочетаемости слов (описан в статьях [4,5]). А именно:

На вход поступает текст на естественном языке. В каждом предложении ищутся группы, описываемые следующим шаблоном:

Группа существительного = {Предлог (б.)} + {Порядковое числительное (п.)} + {притяжательное местоимение (п.)}+ {наречие (п.)}+ {прилагательное (п.)} + {сочинительный союз (п.)} + {прилагательное (п.)}+ существительное (б.).

Группа глагола = {группа существительного (б. если встретится в начале предложения)} + {наречие (п.)} + глагол/причастие/деепричастие (б.) + {наречие (п.)} + группа существительного (б.).

Где б. обозначает, что данное слово попадет в базу, п. - пропускается. {}- обозначает не обязательное присутствие.

Если в ходе выполнения алгоритма встречается слово не ожидаемой части речи или слово, часть речи которого не удается однозначно определить (морфологически неоднозначное), то разбор данного сочетания прекратится. Полученные словосочетания хранятся в списках двух типов:

• Для каждого типа сочетаний: гл. +сущ., деепр.+ сущ., прич. + сущ., гл. + наречие, деепр. + наречие, прич. + наречие, сущ. + прил, - в них слова приведены к НФ и подсчитана встречаемость.

• Список в котором хранятся выделенные словосочетания в том виде, в котором они встретились в тексте.

Исходными данными для задачи выявления глагольного управления послужили списки второго типа.

Списки были получены на основе корпуса, содержащего в себе тексты: Название Количество

словоупотреблений

Библиотека Мошкова

lib.rus.ec

РИА Новости

Независимая газета

Лента. Ру

Итого

688642107

6 010 124 132 186 809 472 97 217 983 40 959 449

7 261 801 368

Второй этап

Ниже представлен алгоритм автоматического извлечения глагольного управления. Этот алгоритм в некоторой мере является реализацией подхода, инспирированного корпусом (согрш-дпуеп аргоасИ), при котором в идеале все извлеченные данные должны быть адекватными, а качество алгоритма оценивается по параметрам полноты и точности извлеченной информации.

Для выделения нужных пар был использован следующий алгоритм:

1. найти глагол (У1),

2. найти его существительное (п1) и (если есть) предлог (РЯЕР1),

3. определить все возможные падежи существительного (NounCase1).

4. если У2=У1 и РЯЕЯ1 = РЯЕЯ2, то соответствующая строка падежей от п1 дополняется падежами от п2.

Из-за падежной омонимии было принято решение, проводить работу в 2 этапа:

На первом отбирались падежнонеомонимичные словоформы существительных, и по ним составлялся первый предварительный словарь вида предлог + набор разрешенных падежей.

На втором же этапе, из списка словосочетаний выбирались триграммы, состоящие из глагола, существительного и предлога, как с прямым (гл.+сущ.), так и с инверсным (сущ.+гл.) порядком слов. Глагол приводился к нормальной форме. Наборы падежей падежноомонимичных существительных, фильтровались по шаблону предлог+разрешенные падежи, полученному на первом этапе.

В результате был получен словарь, содержащий в себе строки вида:

ПРИГЛАША ТЬ;К; 0 *0 *8950 *0 *0 *0

ПРИГЛАША ТЬ;КО;0 *0 *489 *0 *0 *0

ПРИГЛАША ТЬ;НА; 0*0*0*30707*0*0

В каждой строке содержится показатели встречаемости в корпусе для каждого из падежей. Низкочастотные показатели были отсеяны.

Всего было получено более 240 000 сочетаний подобного вида (глагол+предлог+список разрешенных падежей). Стоит учесть, что всего в морфологическом словаре представлено 26400 глаголов.

Анализ показал высокий уровень корректности полученных данных: по предварительным оценкам не ниже 95%.

Здесь стоит отметить, что большое количество предлогов является омонимичными, например, «при» (повелительное наклонение единственного числа от «переть»), «для» (деепричастие от «длить») и так далее. На этапе формирования списков сочетаемости было решено автоматически брать все слова, которые могут быть предлогами, как предлоги. И хотя это не всегда корректно, например, слово «сверху» может выступать как в роли предлога, так и наречия, причем примерно равновероятно, языковые конструкции, в которых данное слово встречается, существенно отличаются в зависимости от того, применяется в них наречие или предлог.

Часть ошибок объясняется не совсем корректной обработкой некоторых видов конструкций. Так, например, в предложении «Хочу от лица коллектива поздравить юбиляра» конструкция «от лица» ошибочно относилась к глаголу «хотеть». Отдельную проблему представляют ассоциации, гиперболы и другие выразительные средства литературного языка.

В скором времени планируется расширить словарь за счет обработки словосочетаний с составными предлогами.

Результаты работы планируется использовать для решения практических задач, таких как: разрешения омонимии, фильтрации и проверки корректности результатов автоматического анализа/синтеза текстов, и проведения синтаксического анализа. Кроме того, полученные результаты могут быть использованы в теоритических исследованиях и для обучения русскому языку, в том числе, как иностранному и прочих.

Список литературы

1. Большаков И. А., Гельбух А.Ф. Большой электронный словарь как политематический справочник и формирователь запросов к Интернету // Материалы международной конференции «Диалог 2011», 2011 г. сс. 124-134

2. Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php

3. Академия наук СССР институт русского языка «Русская грамматика» М.: Наука, 1980.

4. Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. с. 181

5. Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Метод автоматического извлечения базы сочетаемости слов // Сб. трудов тринадцатого научно-практического семинара «Новые информационные технологии», М., 2010, сс. 113-116

6. Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с.

7. Розенталь Д.Э. Управление в русском языке //Москва, 1986 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.