УДК 004.43
МАТЕМАТИЧЕСКИЕ МОДЕЛИ СИНТАКСИСА
®2011 Ясулова Х.С.
Дагестанский государственный педагогический университет
В статье приводится формальное определение синтаксиса естественного языка, которое представляет собой ориентированный граф, определенный множеством словосочетаний в лексике языка. Для быстрого знакомства с формальной теорией языка и реализации языка на компьютере предлагаются различные модификации и упрощенные варианты исходной математической модели синтаксиса. Методика моделирования синтаксиса одинаково успешно применима к любому письменному языку.
The article deals with the formal definition of the natural language syntax represented as the oriented graph, defined by a set of word-combinations of the language lexicon. To quickly acquaint with the language formal theory and to realize the language on the computer the different modifications and simplified variants of the initial mathematic model of syntax is offered by the author. The methods of the syntax modeling are equally successfully applicable to any written language.
Ключевые слова: математическая модель, компьютерная модель, граф, сеть, морфология, синтаксис, семантика, словосочетание, синтаксический анализатор, морфологический анализатор модели синтаксиса.
Keywords: mathematical model, computer model, graph, network, morphology, syntax, semantics, word combination, syntactical analyzer, morphological analyzer of the syntax model.
В данной работе в краткой форме приведены две модификации
математической модели синтаксиса русского языка, описанной в [4]. Методика моделирования синтаксиса одинаково успешно применима к любому письменному языку.
Компьютерная лингвистика
заимствовала от языкознания его терминологию. Каждому термину следовало бы приписать слово «компьютерный», например,
«компьютерная морфология»,
«компьютерный синтаксис» и т.д., так как все привычные термины языкознания в компьютерной лингвистике получили новое, формальное определение. В том числе такие понятия, как предложение, однородные члены, дополнение и т.д.
Синтаксис задается синтаксическим графом Sint=(WF, WR). Множество вершин WF графа Sin состоит из словоформ, образующих лексику языка. Множество дуг WR графа Sint состоит из словосочетаний, имеющих место в
данном языке. При определении словосочетания грамматика молчаливо пользуется семантикой его членов. Чтобы устранить из определения синтаксиса ссылку на семантику, лексика (множество IV/') предварительно делится на лексические группы: Т2, . .
. Тп, из которых образуются п2 прямых произведений: Л(; Л, х Л;. где i, ]=1, 2, ... п. Некоторые ИЗ множеств Ту объявлены (названы) синтаксическими
отношениями. Элементы
синтаксического отношения называются словосочетаниями. Объединение
синтаксических отношений есть IV 1^.
Например, пусть IV/<' {кот, кота, коты, ел, пил, ела, пила, ели, пили, каша, кашу, молоко, Маша, Маши, быстро}, £;={кот}, Х2={Маша}, Х5={кота, Маши}, Х4={коты}, Х5={ел, пил}, Т6={ел&, пила}, Х7={ели, пили}, Х«={кашу, молоко}, Х9={быстро}. Множества 1.15. Т26, 1>4~- Iо* 1^68, Ту$, Т8з, Т8, Т59, Т69 и Т79 образуют
синтаксические отношения. Пара
словоформ (V, м>) образует
словосочетание, если она принадлежит какому-то из синтаксических отношений. Множество ЖЯ состоит из объединения синтаксических
отношений. Граф (ЖЕ, ЖЯ) образует модель синтаксиса.
Сочетание из П словоформ Vь V2, . . . vm
в синтаксисе (ЖЕ, ЖЯ) есть корневое дерево в (ЖЕ, ЖЯ) с множеством вершин (V;, V2, . . . Vm}. Определение
словосочетания через лексические группы имеет то преимущество, что миллионы дуг синтаксического графа могут быть заданы сотней синтаксических отношений, что очень важно при создании компьютерной модели синтаксиса.
Такое определение синтаксиса может быть модифицировано в двух противоположных направлениях. Первая модификация модели синтаксиса с
примитивной морфологией, видимо,
определяла языковую способность человека на заре становления его
языковой активности. Вторая
модификация модели синтаксиса могла появиться в ходе эволюции путем
усовершенствования модели
морфологии. Косвенным
доказательством тому являются разные пути развития морфологии с неменяющимися правилами синтаксиса. Ниже в краткой форме изложены обе модели синтаксиса.
1. В первом случае каждая словоформа объявляется
самостоятельным словом. Иначе говоря, лексическая группа, следовательно синтаксическое отношение, состоит из одного элемента. Словосочетания, то есть дуги синтаксического графа, выбираются (объявляются) поштучно. В таком синтаксисе нет морфологии, у каждого слова - одна форма. Такая модель синтаксиса с примитивной морфологией легко реализуется на компьютере. За короткое время (за день или два) можно написать и отладить программу, которая при каждом запуске в разных вариантах будет излагать (выводить на экран монитора) рассказ с известным сюжетом.
В компьютерной лингвистике носителем знания (информации)
является компьютер, элементарной
(неделимой) формой знания - понятие. Знание, конструированное из понятий, поддается структуризации и
формализации. К каждому понятию привязано слово - имя его, которое может быть представлено в памяти компьютера.
В сознании человека с понятием связано определенное представление о нем. Бумага, так же, как и память компьютера, не представляет себе значение написанного на ней слова. Однако и слова, написанные на бумаге, обладают значениями. Память компьютера и память человека, в отличие от бумаги, состоят из отдельных ячеек, в каждой из которых написано и хранится одно слово. Ячейки памяти (узлы) связаны между собой направленными линиями (дугами). Такая структура из узлов и дуг называется графом. Если из данной ячейки с именем Ж отправиться по дугам в разные стороны, чтобы пройденные пути не пересекались и не были очень удалены от исходной точки, то получится некоторая древовидная структура, которая известна как корневое дерево с корнем Ж.
С другой стороны, любое предложение естественного языка представляет собой набор попарно связанных словоформ, которые также образуют корневое дерево. Эти два обстоятельства наталкивают на следующую мысль: нельзя ли слова соединить таким образом, то есть строить такой граф из слов, чтобы любое корневое дерево в нем было предложением данного языка?
Можно не торопиться с ответом, а приступить к исследованию таких графов.
Через Ыатв(Ж) обозначается имя понятия Ж. Под понятием Ж подразумевается его имя.
Предполагается, что при перемещении по цепи понятий в памяти порождается соответствующее предложение языка.
Формальное определение понятия, принятое в данной работе, основано на интуитивном восприятии предметов и соответствующих им представлений. Предмет определяется своими
признаками: цвет, вес и т.д. Каждый
признак проявляет себя в своих значениях: синий, красный и т.д. для признака цвета.
Пусть понятие /■ задано признаками: /'/, Р2. . . Р„„ а признак Р, в понятии /■ проявляет себя значениями:
Если понятие все его признаки и значения признаков отметить точками на плоскости и соединить стрелкой точку /' с его признаками, каждый признак - со всеми его значениями, то получится фигура, которая называется корневым деревом Тгее(Р) с корнем в точке Данное дерево есть модель знания, заключенного в понятии Б. Здесь имеется возможность идентифицировать
мышление с обходом ветвей данного дерева.
Сеть, в которой понятия и признаки связаны между собой указанными выше отношениями, называется
семантической. Сеть можно хранить в памяти компьютера и программно перемещаться по ее соседним вершинам. На семантической сети можно сформулировать и решать много интересных задач, имитирующих языковую способность человека и мышление.
Чтобы не отвлекаться на морфологический анализ словоформ, здесь рассматривается модель, в которой имена понятий и признаков являются «константами», каждое слово имеет единственную морфологическую форму. Аналогично упрощен синтаксис предложения. Последовательность
понятий X, У ... 2 порождает
предложение из имен: «Ыате(Х) Ь'ате(У)
. . . Ыате(2)».
На рисунке 1 показан путь Х-А-У из трех понятий (квадратов). Пусть они имеют имена: А=роза. /1=цвет и
Г=красный. Этот путь представляет собой знание, которое на естественном языке выражается различными сочетаниями слов: роза цвета красного, роза красная и т.д.
Рис. 1
Роза имеет и аромат, и форму, и т.д. В таком случае из квадрата X исходят несколько путей (рис. 2).
Пусть В аромат. С=форма, II приятный, [—круглый. Фигура из рисунка 2 называется корневым деревом с корнем в X. Это дерево состоит из трех путей: Х-А-У Х-В-11 и Х-С-У. Каждый из этих путей образует элементарное знание о понятии X. В знании Х-А-У о понятии X элемент А (закругленный прямоугольник) называется признаком понятия X, а У - значением признака А. Квадраты в графе называются его вершинами, а стрелки, связывающие вершины, - дугами.
Понятие определяется набором признаков. У каждого признака может быть несколько значений. На рисунке 3 значения признака А показаны отдельными элементами.
М
Щ
X? Л* и
\
ч Г ^ С! УЗ
Рис. 2
Рис. 3
Если Кате(Х)=\)оз&, Ь'ате(А) цвета. Ыате(У)=щтол\ото, Ыате(У1) =белого, Мате (У2)=жел того, в данной семантике сосредоточены элементарные знания: роза цвета красного, роза цвета белого, роза цвета желтого. Семантика понятия X задается деревом Тгее(Х) из рисунка 4. Если она не соответствует чьим-то представлениям о розе, то это -вопрос из другой задачи и для другого исследования.
Семантика понятий намного
содержательнее, чем набор
изолированных деревьев. Понятие и значение его признака могут меняться местами. Понятие и его значение в сети разделены признаком.
Рис. 5
Понятие А=сок. в свою очередь, может оказаться значением для другого понятия. Элементарное знание может находиться в пассивном и в активном состоянии. Процесс активизации пути начинается с начала пути и завершается в конце его. Активное состояние пути роза - аромат - приятный соответствует осознанию знания из комбинации этих трех элементов. Функции языка (синтаксиса)
заключаются в генерации фразы «роза аромата приятного».
Этот пример наталкивает на следующую мысль. Во-первых, определить понятие как корневое дерево, состоящее из элементарных знаний. Во-вторых, вершинам пути присвоить такие имена, чтобы они без морфологических преобразований
образовали синтаксически правильное сочетание. Например, если Х=роза, Л=цвета и 7=красного, 5=аромата, £/=приятного, С=формы, Р=круглой, то перемещение по пути Х-А-У генерирует последовательность слов «Ыате(Х) Ыате(А) Ыате(У)»=«роз& цвета красного».
Возможно, на заре становления естественного языка (ЕЯ) к каждой вершине семантического дерева были
Например, семантика сочетания «сок из яблока цвета красного» состоит из двух путей - элементарных знаний:
Х=сок, /)=из (чего сделан сок), 2=яблока (3)
2=яблоко. Л=цвета, И красного (4)
прикреплены конкретные, неизменяемые слова. Иначе говоря, синтаксис был «зашит» в семантику. Семантика была представлена семантической сетью (Р, К), где Р - множество понятий, Р -множество дуг, связывающих некоторые пары понятий.
Такой язык является серьезным средством выражения мыслей. Мы имеем определенный опыт
программирования семантических сетей с примитивным синтаксисом.
Программирование коротких рассказов не представляет труда и легко усваивается студентами.
2. Семантическая сеть (Р, Р), может быть модифицирована следующим образом. Все вершины семантической сети (Р, Я), которые обозначены
морфологическими формами одного и того же слова, стягиваются в одну вершину. Например, слово имеет 12 форм, каждой из них в (Р, Я) соответствует своя вершина. В модифицированной сети эти 12 вершин будут стянуты в одну вершину, сохраняя при этом связи с другими вершинами.
В новой сети дуги, соединяющие по два слова в исходной форме, становятся более информативными. Теперь дуга {X, У) соответствует словосочетанию
«Ыате(Х) Р(Мате(У))», где Р(Ы) -морфологический оператор, который имени N сопоставляет одну из его форм
т)-
Введение морфологических операторов в модель языка возможно. В любом словосочетании первый из членов является главным, второй - зависимым. Форма зависимого члена определяется главным членом, более того, эта зависимость одна и едина для всех форм главного члена. Например, день учителя, дни учителя, днем учителя и т.д. Исключение составляет согласованное определение, когда формы обоих членов
Примечания
согласуются во всех категориях, которые являются словоизменительными для обоих членов словосочетания. Данное обстоятельство позволяет в качестве вершин синтаксического графа использовать только исходные формы слов, а каждую дугу графа, например, и=(день, учитель) рассматривать как функционал, способный преобразовать слово, которое является концом этой дуги.
Реализация этой модели синтаксиса сопряжена со сложностями построения морфологического анализатора, или, как принято говорить теперь, компьютерной модели морфологии.
1. Мельчук И. А. Опыт теории лингвистических моделей «Смысл-Текст». М. : Наука, 1974. 2. Романовский И. В. Дискретный анализ. СПб. : Невский диалект, 1999. 3. Тузов В. А. Морфологический анализатор русского языка // Вестник СПбГУ. 1996. Сер. 1. Вып. 3. № 15. 4. Шихиев Ф. Ш. Формализация и сетевая формулировка задачи синтаксического анализа: Автореф. дисс. ... канд. физ.-мат. наук. СПб. : СПбГУ, 2006.
Статья поступила ередакцию 16.07.2011 г.