Примечания
1 Morris, Ch. W. Writings on the General Theory of Signs. The Hague / Berlin, 1971. P. 218-219.
2 Власян, Г. Р. Прагматический подход к изучению диалогической речи // Вопр. когнитив. лингвистики. Тамбов, 2010. № 2.
3 Грайс, П. Логика и речевое общение // Новое в зарубеж. лингвистике. Вып. 16. Лингвистическая прагматика. М., 1985.
4 Кожухова, И. В. Интеррогативные речевые акты: реализация коммуникативной неимпози-
тивности (на материале английского и русского языков). Челябинск, 2012. С. 37.
5 Нефедова, Л. А. Когнитивно-деятельностный аспект импликативной коммуникации. Челябинск, 2001. С. 19.
6 Лайонз, Дж. Лингвистическая семантика: введение. М., 2003. С. 289.
7 Кожухова, И. В. Интеррогативные речевые акты...
Вестник Челябинского государственного университета. 2014. № 7 (336). Филология. Искусствоведение. Вып. 89. С. 20-23.
А. В. Гашков
ПОВЫШЕНИЕ ТОЧНОСТИ ОПРЕДЕЛЕНИЯ МОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ НЕИЗВЕСТНЫХ СЛОВ МЕТОДОМ АНАЛОГИЙ С ПОМОЩЬЮ НЕЧЕТКИХ МНОЖЕСТВ
Проблема определения морфологических признаков неизвестных слов, то есть таких, которые не содержатся в словаре автоматической системы, пока не имеет удовлетворительного решения. Известные системы определяют морфологические признаки неизвестных слов с точностью менее 30 %, что недостаточно для использования таких систем в полностью автоматическом режиме. Предполагается, что использование метода аналогий в сочетании с нечеткими множествами может улучшить качество анализа. Проведенные эксперименты показали, что точность определения признаков неизвестных слов возросла до 50 %, что автор полагает удовлетворительным результатом.
Ключевые слова: метод аналогий, морфология, неизвестное слово, нечеткое множество, автоматический анализ текста.
Определение признаков слов, которые отсутствуют в словаре автоматической системы анализа текста на естественном языке (неизвестные слова) остается одной из проблем, все еще не имеющих удовлетворительного решения. В настоящее время как в России, так и за рубежом на рынке существуют много коммерческих программ и бесплатных модулей, которые, на наш взгляд, успешно справляются именно с задачами морфологического анализа: определяют начальную форму слова, выдают морфологическую информацию о слове. Все известные нам отечественные системы работают на основе словаря основ, большая часть изученных нами программ (Starling, mystem, RuMor, КМиморфологический анализ, Cir_ morph, Semantarus Morpho/ Семантарус Морфо и др.) работает на основе классической модели
А. А. Зализняка и его грамматического словаря. Программы RuMor, КМиморфологический анализ, Morphology и др. анализируют только известные слова. Неизвестные системе слова анализируют следующие программы: mystem, Starling, RSO Morphology, ThesaurusBrowser и морфологические модули АОТ.
Чтобы оценить существующие программы, мы провели эксперимент. Работа программ расценивалась нами по следующим критериям:
1. Работа с неизвестными словами.
2. Оценка анализа по критерию схожести и полноты.
Отметим, что под схожестью (коэффициент схожести Жаккара) мы понимаем соотношение количества верно определенных словоформ, ложноположительных и ложноотрицательных результатов, а под точностью - соотношение
Повышение точности определения морфологических признаков.
21
количества верно определенных словоформ и ложноположительных результатов.
В ходе подготовки к эксперименту выяснилось, что программа Pymorphy работает на основе алгоритмов АОТ, поэтому их результаты полностью совпадают. Кроме того, мы не смогли найти в публичном доступе следующие программы: Cir_morph, Libmorphrus, RCO Morphology, RDMA_IAI, Semantarus Morpho. Поэтому в нашем эксперименте участвовали следующие программы: АОТ (Pymorphy), Mystem и Polymorph/Полиморф.
В качестве экспериментального материала нами были отобраны 50 словоформ, не входящих в словарь А. А. Зализняка, то есть потенциально неизвестные слова: ухаживанье, капитанша, увлеченья, сожаленье, рисованья, стрелянием, снурке, тюрбо, почтенье, ухаживаньем, автотрофы, актуализма, Антарктиде, аборигенки, аватар, алкаши, анальгетики, андроид, аэроглиссера, аэрофотоснимок, ба-бульки, бандюг, барыге, берегинь, биоэнергетика, близняшками, бутсах, видеодатчик, видеокассетами, выгородка, выгородки, выживание, выщербинами, гидрокостюм, грузовоз, девятиэтажке, диаспор, дизайнера, дизайнеров, дубликаторов, заклятьях, засоней, зауряды, золотинка, именья, кадавр, каталка, каталке, котопес, котопса. Слова отбирались следующим методом: предлагалось случайное слово, которое затем проверялось программой по словарю метода аналогий. Если слово отсутствовало в словаре, то оно добавлялось в тестовый набор. Для определения точности анализа все словоформы анализировались всеми программами, а схожесть и полнота анализа оценивались человеком. Затем для каждого модуля вычислялись схожесть и полнота для анализа неизвестных слов, отраженная в таблице:
Таблица 1
Схожесть и полнота автоматического морфологического анализа неизвестных слов тремя анализаторами
Модуль Схожесть, % Полнота, %
АОТ 19,87 60,00
Mystem 26,69 69,23
Полиморф 18,87 66,37
Ранее нами были получены данные о том, что метод аналогий является более эффективным, чем рассмотренные выше [2]. Метод аналогий базируется на следующем наблюдении:
если в обратном словаре словоформ приписать каждой словоформе ее грамматические признаки (например, признаки части речи, типа словоизменения, рода, числа, падежа, лица и др.), то обнаружится, что многие участки словаря (иногда довольно значительного размера) имеют совершенно одинаковые наборы признаков [1. С. 44]. Поэтому можно предположить, что если для неизвестного слова найти его место в обратном словаре, то его грамматические признаки будут с высокой вероятностью совпадать с признаками слов, находящихся рядом. Специальный словарь, необходимый для работы алгоритма, основанного на методе аналогий, подготавливается следующим образом.
1. Составляется словарь словоформ.
Каждой словоформе приписываются грамматические признаки.
Словарь преобразуется в обратный.
Из словаря исключаются записи о всех идущих подряд словоформах, имеющих одинаковые грамматические признаки, кроме первой и последней.
2. У оставшихся словоформ исключаются начальные совпадающие части, не оказывающие влияния на результаты анализа [1. С. 4445].
Фактически после выполнения последнего шага мы получаем словарь окончаний, в котором, в редких случаях, могут появляться целые слова.
Алгоритм анализа, по Г. Г. Белоногову, следующий.
1. Проверяется, что слово не входит в дополнительный словарь служебных слов (если входит, то морфологическая информация извлекается из этого словаря).
Ищется место слова в сокращенном обратном словаре, слову назначается морфологическая информация той позиции в словаре, которая наиболее полно совпадает с конечными буквами слова.
Очевидно, что при таком поиске неизвестные слова анализируются точно так же, как и известные. Г. Г. Белоногов утверждает, что система анализа, построенная на основе метода аналогий, демонстрирует вероятность правильного анализа (включая известные слова) 99 % [1].
Для проверки качества анализа неизвестных слов методом аналогий мы провели эксперимент. Был подготовлен обратный словарь словоформ, основанный на известном словаре А. А. Зализняка, в который были включены
только словоформы самостоятельных частей речи. Затем из произведения А. Ф. Достоевского «Идиот» были выбраны слова, отсутствующие в обратном словаре и отвечающие следующим требованиям: имена нарицательные, состоящие целиком из кириллических символов (то есть без тире, апострофа и т. п.), в количестве одной тысячи. После определения морфологических признаков методом аналогий полученные признаки были проверены экспертом-человеком. Эксперимент показал следующие результаты для метода аналогий на реальном художественном тексте:
Точность распознавания части речи -71,6 %.
Точность распознавания морфологических признаков - 36,4 %.
Как видим, точность метода недостаточна для того, чтобы использовать его в полностью автоматизированных системах. Тем не менее, по нашим данным, это один из самых точных существующих методов.
Кроме неудовлетворительной для целей автоматического анализа точности, алгоритм имеет следующие недостатки:
- невозможно добавить новые слова в словарь без полной перестройки;
- одиночные слова, имеющие морфологическая признаки, отличающиеся от признаков слов, находящихся рядом, вызывают проблемы с определением признаков новых слов используется медленный дихотомический поиск.
В связи с вышеизложенным существует необходимость совершенствования описанного алгоритма определения морфологических признаков неизвестных слов.
Для повышения точности, а также упрощения дальнейшего использования результатов работы метода аналогий мы используем нечеткие множества. Понятие нечеткое множество («пушистое множество» в буквальном переводе) было введено Л. А. Заде в его работе «Fuzzy Sets» в журнале Information and Control [4. С. 338-353]. Л. А. Заде расширил канторов-ское понятие множества, допустив, что функция принадлежности элемента множеству может принимать не только значения 0 или 1, но и любое значение из интервала [0, 1].
Нечеткое множество определяется следующим способом. Пусть задано множество e], тогда нечетким подмножеством a множества е называется множество пар {(щ, xi)}, где x о e - степень принадлежности элемента xi к множеству a [3. С. 22].
Нечеткие множества позволяют моделировать широкий круг явлений: омонимию, размытость семантического поля и так далее, и сгладить противоречие между естественным языком и его моделью при автоматическом анализе.
Измененный метод работает следующим образом. По заданной графической форме алгоритм ищет в обратном словаре запись, ей соответствующую. Если запись найдена, алгоритм выдает морфологические признаки, ассоциированные с ней, и завершает работу. Если словоформа не найдена в словаре, то алгоритм находит место, в которое должна быть вставлена данная словоформа. Затем алгоритм находит пять ближайших предыдущих и пять последующих записей и сводит информацию о морфологических признаках из найденных десяти записей в одно нечеткое множество. Чем дальше запись от предполагаемого места вставки новой словоформы, тем меньший вклад она вносит в результирующее множество.
Например, пусть нам нужно определить морфологические признаки графемы липосо-мы (человек-эксперт укажет следующие признаки: ед. род., мн. вин. и мн. им. от жен., неод. от липосома). Данная словоформа отсутствует в обратном словаре, поэтому алгоритм помещает ее в обратный словарь таким образом, что соседними записями в обратном словаре окажутся следующие:
сомы; сущ.. муж., им., мн., одуш.; сущ., жен., им., мн., неодуш.; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш. весомы; прил., кратк., полож., мн. невесомы; прил., кратк., полож., мн. идиосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.
хромосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.
[предполагаемое место вставки новой словоформы]
АТОМЫ; СУЩ., МУЖ., ИМ., МН., НЕОД.; СУЩ., МУЖ., ВИН., МН., НЕОД.;
гематомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.
анатомы; сущ., муж., им., мн., од. патологоанатомы; сущ., муж., им., мн., од. тератомы; сущ., жен., им., мн., неод.; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неод.
В результате объединения информации из всех записей мы получаем следующее нечет-
Особенности употребления эмоциональной частицы.
23
кое множество, отсортированное по функции принадлежности:
{сущ., жен., род., ед., неод. / 0,93, сущ., жен., им., мн., неод. / 0,93, сущ., жен., вин., мн., неод. / 0,93, сущ., муж., им., мн., од. / 0,73, прил., кратк., полож., мн. / 0,61, сущ., муж., им., мн., неод. / 0,50, сущ., муж., вин., мн., неод. / 0,50} Как можно видеть, правильные комбинации граммем получили наибольший вес, несмотря на то, что в рассматриваемый участок словаря попали не только существительные мужского рода, но и краткие прилагательные.
Проверка качества анализа неизвестных слов предлагаемым алгоритмом была произведена на тексте Н. В. Гоголя «Мертвые души». Проверка проводилась экспертом-человеком путем случайной выборки двухсот словоупотреблений, не входящих в обратный словарь словоформ. в результате предпринятых изменений схожесть определения Морфологических признаков неизвестных слов возросла с 36 % до 52 %, что можно признать удовлетворительным результатом. Кроме того, выбран-
ный метод записи информации о неизвестном слове позволяет в дальнейшем анализе учесть новую информацию о слове - например, контекст.
Таким образом, метод аналогий является одним из самых точных методов определения морфологических признаков неизвестных слов и имеет потенциал для улучшения, что показано в данной работе.
Список литературы
1. Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии. М., 2004. 248 с.
2. Гашков, А. В. Оценка эффективности метода аналогий при автоматическом определении морфологических свойств неизвестных слов // Вестн. Челяб. гос. ун-та. 2010. № 7. Филология. Искусствоведение. Вып. 41. С. 27-31.
3. Кофман, А. Введение в теорию нечетких множеств. М., 1982. 432 с.
4. Zadeh, L. A. Fuzzy sets // Information and control. 1965. Vol. 8, n. 3. Р. 338-353.
Вестник Челябинского государственного университета. 2014. № 7 (336). Филология. Искусствоведение. Вып. 89. С. 23-26.
Л. В. Гушкова
ОСОБЕННОСТИ УПОТРЕБЛЕНИЯ ЭМОЦИОНАЛЬНОЙ ЧАСТИЦЫ ЧТО ЗА В ТЕКСТАХ Н. В. ГОГОЛЯ
Рассматривается эмоциональная частица что за и ее значение в произведениях Н. В. Гоголя. Наблюдение и анализ языкового материала позволяет говорить о частице что за как о средстве эмоционально-оценочной интенсификации повествования. Эмоциональность высказывания усиливается благодаря употреблению дополнительных средств акцентирования: интенсива, междометий, восклицательной интонации.
Ключевые слова: категория экспрессивности, эмоциональность, акцентирование, интенсификация.
Давая определение частицам, В. В. Виноградов подчеркивал, что это слова, которые «не имеют вполне самостоятельного реального или материального значения, а вносят главным образом дополнительные оттенки в значения других слов»1. Таким образом, на синтаксическом уровне частицы могут служить средством формального выражения эмоциональности и экспрессивности. По словам В. И. Шахов-
ского, «эмотивность служит для выражения чувств человека, его отношения, его оценки (одобрение, неодобрение)»2. Экспрессивность высказывания обусловлена интенсивностью проявления признака и эмоционально-оценочным отношением говорящего.
Эмоциональное отношение говорящего в высказывании является проявлением «личной пристрастности человека к миру, имеющей