УДК 004.93
СМЫСЛОВЫЕ ЭТАЛОНЫ В МОДЕЛЯХ РАСПОЗНАВАНИЯ И КОМПРЕССИИ ТЕКСТОВ
Д.В.Михайлов
Институт электронных и информационных систем НовГУ, [email protected]
Предложен метод выделения смыслового эталона на множестве эквивалентных по смыслу фраз предметноограниченного естественного языка как основа компрессии текстовой базы знаний.
Ключевые слова: естественный язык, анализ семантической эквивалентности высказываний, ситуация синонимической замены, смысловой эталон, компрессия текстовой базы знаний
The method for revealing the semantic standard on a set of semantically equivalent phrases for subject-oriented natural language is offered. The method is considered as the basis for compression of textual knowledgebase.
Keywords: natural language, the statements’s semantic equivalence analysis, situation of synonymic replacement, semantic standard, compression of textual knowledgebase
Важнейшей составляющей компьютерного анализа смысла текста является выделение класса семантической эквивалентности (СЭ). Для поисковых и вопросно-ответных систем это разделение знаний о языке на уровни, упрощение семантического анализа запроса и тем самым уменьшение времени поиска информации. Для систем машинного перевода это сокращение числа трансформационных правил и возможность выбора варианта перевода, наиболее адекватного исходному тексту. В комплексах программ обучения языку классы СЭ есть основа знаний о формах выражения нужной мысли в изучаемом языке. В системах тестирования знаний интерпретация ответа на тестовое задание открытой формы есть анализ принадлежности классу СЭ правильного ответа. В настоящей работе рассматривается вариант формирования знаний о синонимии в виде классов СЭ, представляемых классами формальных понятий (ФП) в решетке [1].
Поставим в соответствие множеству неизменных частей слов, составляющих СЭ-фразы из Ts, множество целочисленных индексов -. При этом синтаксической связи внутри пары слов отдельной фразы ставится в соответствие некоторая пара индексов
1/р Л}с -
Определение 1. Последовательность индексов неизменных частей слов некоторой фразы Та\ е Тз' назовем моделью ее линейной структуры
ь?(т,?1).
Пусть LS есть множество моделей линейных структур фраз из Тз на -.
Лемма 1. Пара индексов {//2}с J соответствует словам-синонимам, если 3{!з(Тз1),¿з(Тз2)}е Ь8 :
^1)= JЪef ,{/1}в -ф и ^(Тз2) = -V ,{/2}* '7аЛ , Где
3ес 3 , с 3 , а « • » есть операция типа конкате-
нации над множеством 3.
Обозначим Р3 множество пар, отвечающих условию леммы 1. Заменим индексы, вошедшие в пары из Р3, на некоторые / е(М \ 3) во всех моделях из LS. Обозначим далее преобразованное множество LS как LS'.
Пусть — 3 2} — пара последовательностей индексов в Ls(Tsl), где 31 ={/1,..., /2}, 32 ={/12, —, /22}, а парам (д1, /) и (/12, /2) соответствуют синтаксические связи. Для формирования теоретикорешеточного представления множества Тз будем отбирать фразы Та\ е Та’, модели линейных структур которых обладают следующим свойством: либо
31 с 32, либо 32 с 31, либо 131 п 32| = 1, либо 31 п 3 2 =0. При этом суммарная длина всех последовательностей указанного вида для всех синтаксических связей, выявленных для данной фразы, должна быть минимальной.
Утверждение 1. Будем говорить, что СЭ-фразы, отобранные в соответствии с вышеуказанным принципом, определяют смысловой эталон ситуации языкового употребления (СЯУ), задаваемой множеством Тз .
Сам эталон при этом представляется посредством тройки
К = (^ М, I), (*)
именуемой формальным контекстом (ФК) [1]. Здесь множество объектов G составляют основы слов, синтаксически подчиненных другим словам из СЭ-фраз множества Тз . Отношение I с G х М ставит в соответствие объектам их признаки из множества М. Само множество признаков М включает подмножества:
— указаний на основу синтаксически главного
слова;
— указаний на флексию главного слова;
— связей «основа-флексия» для синтаксически главного слова;
— сочетаний флексий зависимого и главного
слова;
— указаний на флексию зависимого слова.
Основная проблема при таком подходе —
выбор наиболее информативных слов в составе фраз множества Тз для построения модели (1). Данная проблема обусловлена наличием второстепенных членов предложения, присутствие которых в каждой Та\ е Та’ не всегда обязательно для однозначной идентификации СЯУ из множества ситуаций языкового употребления, описывающих факты некоторой ограниченной предметной области. Пример: «заниженность эмпирического рис-
ка»^«заниженность риска». Как следствие для описания смыслового эталона будут отобраны фра-
зы естественного языка, не содержащие, к примеру, определений-прилагательных и обстоятельств-наречий, что сильно искажает смысл. Для решения указанной проблемы введем в рассмотрение частоту freq{wj) появления каждого слова w. (независимо от его формы) во всех Ts. є Ts. При этом freq{wj) оценивается относительно множества LS',
а наиболее значимые слова образуют кластер Clust:
— слово с максимальным значением указанной частоты войдет в Clust;
— для V {w., wk Clust и V w{ í Clust верно
то, что
(freq(w])- freq(wk)| < Ifreq(wj )- freq(wl )|)л л( freq(w])- freq(wk) < I freq(wk)- freq(wl))= true.
Тогда в основу эталона войдут те из семантически эквивалентных фраз, отбираемых согласно утверждению 1, у которых число слов, вошедших в множество Clust, максимально. При этом учитывается каждый из возможных порядков следования таких слов во фразе и все синонимы для слов из Clust, найденные по лемме 1.
Пример формального контекста эталона для СЯУ, определяемой множеством СЭ-фраз на рис.1, показан на рис.2. Выделение неизменных и флективных частей слов здесь выполнено по результатам разбора фраз программой «Cognitive Dwarf» [2].
Таким образом, принцип, по которому идет отбор фраз в эталон, есть формализованное определение ограничений на проективность простого предложения с учетом требования минимальности длины самого предложения при максимальном вхождении слов, наиболее значимых в рассматриваемой СЯУ. Содержательно отбираемые фразы максимально точно описывают соответствующий факт действительности (позволяют выразить смысл «на одном дыхании»). При рассмотрении СЯУ, представляемой семантически эквивалентными сложными предложениями, модель вида (*) ее смыслового эталона формируется рекурсивно объединением моделей указанного вида, получаемых для простых предложений в составе сложных и описывающих подситуации заданной СЯУ:
Kres = \J"Ki ,
где n — число подситуаций (одна подситуация отвечает совокупности семантически эквивалентных простых предложений, выделяемых из состава сложных предложений, которые задают СЯУ); теоретикомножественная операция объединения понимается как построение ФК Kres = (Gres,Mres,Ires):
Gres = J^ G¡, Mres = IJ. M , Ires = J I .
Синонимичные перифразы
35:3
Insert
Indent
Modified
[‘Нежелательное переобучение приводит к заниженности эмпирического риска.", "Нежелательное переобучение, следствием которого является заниженность эмпирического риска.",
"Заниженность эмпирического риска является следствием нежелательного переобучения.",
"Заниженность эмпирического риска, являющаяся следствием нежелательного переобучения.",
"Эмпирический риск, заниженность которого является следствием нежелательного переобучения.",
"Эмпирический риск, заниженный вследствие нежелательного переобучения.", "Эмпирический риск, к заниженности которого ведет нежелательное переобучение.",
"Риск, заниженный как следствие переобучения.",
"Эмпирический риск по причине, обусловленной нежелательным переобучением, может оказаться заниженным.",
"Эмпирический риск в силу обстоятельств, связанных с нежелательным переобучением, может оказаться заниженным. ",
"Эмпирический риск по причине, вызванной нежелательным переобучением, может быть заниженным.",
"Эмпирический риск, к заниженности которого приводит нежелательное переобучение.",
"Нежелательное переобучение служит причиной заниженности эмпирического риска.",
"Заниженность эмпирического риска, причиной которой является нежелательное переобучение.",
"Заниженность эмпирического риска является результатом нежелательного переобучения.",
"Нежелательное переобучение, с которым связана заниженность эмпирического риска.",
"Эмпирический риск, с переобучением связана его заниженность. ",
"Заниженность эмпирического риска связана с переобучением.",
"Заниженность эмпирического риска, являющаяся результатом нежелательного переобучения.",
"Нежелательное переобучение, результатом которого является заниженность эмпирического риска.",
"Нежелательное переобучение, результат которого есть заниженность эмпирического риска.",
"Нежелательное переобучение, приводящее к заниженности эмпирического риска.", "Нежелательное переобучение, служащее причиной заниженности эмпирического риска.",
"Заниженность эмпирического риска относится к следствию нежелательного переобучения.",
"Заниженность эмпирического риска связана с нежелательным переобучением.", "Нежелательное переобучение является причиной заниженности эмпирического риска.",
"Заниженность эмпирического риска, причиной которой служит нежелательное переобучение."]
ли ^
Рис.1. Фрагмент исходного множества СЭ-фраз
Выделение эталонов при использовании модели (*) в качестве единицы тезауруса позволяет сократить его размер в среднем на 40-50%. Для сравнения в табл.1 приведены соотношения числа СЭ-фраз, задающих СЯУ (Л^), фраз, представляющих эталон (Л2), исходного числа объектов (Л3) и признаков СЯУ (Л4), числа объектов (Л5) и при-
знаков эталона ^6). Сами СЯУ представлены в
табл. 2. Точность выделения эталона оценивается средним числом невыделенных признаков на один объект ФК эталона. Значение данного показателя будет тем выше, чем меньше частота, с которой сочетания слов в основе отношения «объект-признак» для ФК эталона совместно встречаются в различных фразах.
главное-флексия:ется I
Рис.2. Формальный контекст смыслового эталона для примера СЯУ на рис.1
Таблица 1
Смысловые эталоны
i 1 2 3 4 5 6
N1 54 53 26 26 2 3
n2 14 15 5 11 2 3
N3 13 15 13 12 8 11
n4 160 153 135 102 46 68
N5 9 12 12 12 8 11
N6 75 78 65 71 46 68
Таблица 2 Ситуации языкового употребления
i Что описывает СЯУ
1 Связь переобучения с эмпирическим риском
2 Связь переусложнения модели с заниженностью средней ошибки на тренировочной выборке
3 Влияние переподгонки на частоту ошибок дерева принятия решений
4 Причина заниженности оценки обобщающей способности алгоритма
5 Зависимость оценки ошибки распознавания от выбора решающего правила
6 Зависимость обобщающей способности логического алгоритма классификации от числа закономерностей алгоритмической композиции
Тема отдельного рассмотрения здесь — выделение синтаксических связей на множестве СЭ-фраз без привлечения внешних программ синтаксического разбора и с учетом ложных синтагматических зависимостей. Для сравнения: «ошибки на тренировочной» вместо «ошибки на выборке». Один из путей решения этой задачи — ранжирование самих связей с учетом значимости слов, определяемой предлагаемым в данной работе методом.
Работа выполнена при поддержке РФФИ (проект №10-01-00146).
1. Ganter B., Wille R. Formal Concept Analysis — Mathematical Foundations. Berlin: Springer-Verlag, 1999. P.17.
2. Программный пакет синтаксического разбора и машинного перевода — http://cs.isa.ru:10000/dwarf/ (дата обращения: 18.11.2009).
Bibliography (Transliterated)
1 . Ganter B. , Wille R. Formal Concept Analysis — Mathe-
matical Foundations. Berlin: Springer-Verlag, 1999. P.17.
2. Programmnyjj paket sintaksicheskogo razbora i mashinnogo perevoda — http://cs.isa.ru:10000/dwarf/ (data obrashhenija: 18.11.2009).