Научная статья на тему 'Статистические и парадигматические методы анализа естественного языка и проблема их гибридизации'

Статистические и парадигматические методы анализа естественного языка и проблема их гибридизации Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
247
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА / ГЕНЕРАЦИЯ ЕСТЕСТВЕННОГО ЯЗЫКА / ШАБЛОНЫ ГЕНЕРАЦИИ / STATISTICAL MODEL OF NATURAL LANGUAGE / GENERATION OF NATURAL LANGUAGE / GENERATION TEMPLATES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Личаргин Д. В., Маглинец А. Ю.

Рассматривается проблема определения семантического метрического расстояния между фрагментами текста на естественном языке с использованием шаблонов генерации осмысленных фраз языка в интеграции с применением анализа корпусов текстов на основе модели марковских процессов. Проблема давно рассматривается с точки зрения методов компьютерной лингвистики, искусственного интеллекта, традиционной лингвистики, информатики.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Личаргин Д. В., Маглинец А. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTICAL AND paradigmatic METHODS OF NATURAL LANGUAGE aNALYSIS AND THE PROBLEM OF THEIR Hybridization

Tthe problem of determining the semantic metric distance between fragments of natural language text is considered. The problem is solved by using generation template process based on meaningful sentences in the language along with the use of corpus analysis based on the model of Markov processes. The problem has been considered from the point of view of the methods of computational linguistics, artificial intelligence, traditional linguistics and computer science.

Текст научной работы на тему «Статистические и парадигматические методы анализа естественного языка и проблема их гибридизации»

Программные редктва и информационные технологии

С подстрочником | Только с транскрипцией | Только с переводом Только текст | Задания | Информация

8.) niy triplet sister appears to eat the loaf -

9.) niy Mummy happens to boil the turnip

10.) my Daddy wishes to boil the pear

11.) my ancestor likes to eat the pearl-barley -

< У

Конструктор Просмотр таблиц | Неправильные варианты | Таблица вопроса | Теория | Выбор зааания | Словарь | 0 программе

I мой ...- my ....... (e)s- есть - have - этот ... -the ... - □

родственник - relative - обожать - adore to - пробовать-taste - пища-food -

родитель - parent- любить - love to - есть - eat- кухня - cuisine -

предок-ancestor - нравиться - like to - готовить- cook- закуска-snack-

теща - mother-in-law - быть склонным - tend to - жарить - fry - блюдо - course -

свекровь - mother-in-law - не любить - dislike to - варить - boll - первое - first course -

невестка - sister-in-law - ненавидеть - hate to - тушить - roast- второе - second course -

невестка - sister-in-law - страстно желать - desire t< третье - third course -

золовка - sister-in-law - желать - wish to - десерт - dessert -

свояченица - sister-in-law - хотеть - want to - блюдо - dish -

мать - mother- планировать - plan to - суп - soup -

мама- Mummy- решил - decided to - гарнир - garnish -

J. . ..у-. . , , , ,

|русский-английский-транскрипция i J

Таблица Палмера в программе генерации осмысленных фраз и заданий на английском языке на основе семантической классификации слов

В работе выполнен анализ проблемы обеспечения качественной генерации и синтеза предложений как составляющих учебных заданий и тестов на основе привлечения классификации неправильных вариантов ответов. Предложена модель генерации расширенных таблиц Палмера с колонками ошибок на основе семантической классификации слов естественного языка.

Библиографическая ссылка

1. Личаргин Д. В. Методы и средства порождения семантических конструкций естественно-языкового

интерфейса программных систем : дис. ... канд. техн. наук : 05.13.17. Защищена 05.07.2004 ; утв. 10.12.2004; № 137428. Красноярск, 2004, 154 с.

References

1. Lichargin D. V. Me tody i sredstva porozhdenija semanticheskih konstrukcij estestvenno jazykovogo interfejsa programmnyh sistem (The methods and tools for the generation of semantic structures in the natural language interface of software systems). Krasnoyarsk, 2004, 154 p.

© Личаргин Д. В., Маглинец А. Ю., Амосова Н. С., Рыбков М. В., 2013

УДК 004.9

СТАТИСТИЧЕСКИЕ И ПАРАДИГМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА И ПРОБЛЕМА ИХ ГИБРИДИЗАЦИИ

Д. В. Личаргин, А. Ю. Маглинец

Сибирский федеральный университет Россия, 660074, Красноярск, ул. Киренского, 28

Рассматривается проблема определения семантического метрического расстояния между фрагментами текста на естественном языке с использованием шаблонов генерации осмысленных фраз языка в интеграции с применением анализа корпусов текстов на основе модели марковских процессов. Проблема давно рассматривается с точки зрения методов компьютерной лингвистики, искусственного интеллекта, традиционной лингвистики, информатики.

Ключевые слова: статистическая модель естественного языка, генерация естественного языка, шаблоны генерации.

Решетневскуе чтения. 2013

STATISTICAL AND PARADIGMATIC METHODS OF NATURAL LANGUAGE ANALYSIS AND THE PROBLEM OF THEIR HYBRIDIZATION

D. V. Lichargin, A. Yu. Maglinets

Siberian Federal University 28, Kirenskiy str., Krasnoyarsk, 660074, Russia

Tthe problem of determining the semantic metric distance between fragments of natural language text is considered. The problem is solved by using generation template process based on meaningful sentences in the language along with the use of corpus analysis based on the model of Markov processes. The problem has been considered from the point of view of the methods of computational linguistics, artificial intelligence, traditional linguistics and computer science.

Keywords: statistical model of natural language, generation of natural language, generation templates.

Рассматривается вопрос о методах построения шаблонов генерации осмысленных фраз и различных видов проекций информации из этих шаблонов на предложения из корпусов текстов на естественном языке. Рассматривается также вопрос о проецировании частично бессмысленных фраз и фраз с ошибками на данные шаблоны в рамках проблемы автоматической семантической корректуры текста. В работе рассматривается проблема построения алгоритма вычисления вероятности проекции фрагмента текста на семантические шаблоны реляционной базы данных. На сегодняшний день широко распространены и разрабатываются разнообразные системы анализа текстов на естественном языке, используются различные методы и критерии отделения осмысленных фраз языка от бессмысленных, в частности, особо важную роль в современной дисциплине «обработка естественного языка» играет статистический метод определения осмысленности фраз. Будучи наиболее проработанным методом на сегодняшний день, он позволяет формировать достаточно работоспособные модели на основе марковских процессов. Проблема является актуальной в связи с тем, что анализ и аналитика текстов на естественном языке требует больших человеческих и временных ресурсов и нуждается во всё большей автоматизации. Проблема генерации множества осмысленных фраз языка решается на стыке таких наук, как компьютерная лингвистика, искусственный интеллект, традиционная лингвистика, информатика, психология.

Проблема генерации естественного языка давно и широко исследуется различными авторами, в частности Т. Виноград, Р. Г. Пиотровским, К. Шенноном, А. Тьюрингом и многими другими.

Цель данной работы состоит в описания алгоритма определения соответствия «фрагмент текста - фрагмент базы данных» в первом приближении.

Основная идея работы состоит в построении гибридной модели численной оценки вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т. д. слов во множество предложений корпуса текстов. Новизна работы состоит в том, чтобы предложить формулу оценки данной вероятности.

Статистический критерий осмысленности. В работах М. Коллинза, Колумбийский университет, рассматривается вопрос об оценке условного параметра осмысленности фраз естественного языка на основе

статистических оценок словоупотребления в контексте пар, троек, четверок и пятерок слов в корпусах текстов на основе модели марковских процессов. Осуществляется вероятностная оценка возможности вхождения той или иной фразы во множество осмысленных фраз языка с учётом вероятностных оценок прецедентов вхождения однёрок-двоек-троек и так далее слов в большие по объёму корпусы текстов.

Парадигматический критерий осмысленности. Данный критерий основывается на классификации понятий и слов естественного языка. Для этого используются деревья классификации, узлами которых являются понятия. Каждому понятию может соответствовать одно слово или целый ряд синонимов или же не соответствовать ни одного слова. Набор узлов-понятий назовём понятийным пространством с учетом векторизуемости этого множества слов на основе общих для каждого уровня дерева признаков классификации.

Значения каждого элемента семантического вектора являются понятиями другой классификации - более низкого уровня. Единицы языка разного уровня -предложения, слова и понятия, семы (атомы смысла) и т. д. Представлены соответствующими классификациями разного уровня (или как говорят лингвисты разного «яруса»). Каждая классификация генерирует понятия для создания ряда признаков последующих классификаций. Каждую из классификаций задает свой вектор семантических признаков. На основании каждого из этих векторов можно построить семантическую формулу, дерево классификации или многомерное понятийное пространство, общие для всех единиц одного уровня.

Признаки классификации. Как указывается в работах таких авторов, как К. В. Сафонов, Д. В. Личаргин [1; 2] и др., вектор признаков классификации задается перечислением множества значений элементов семантического вектора или же при помощи порождающей грамматики для каждого уровня классификации, то есть для каждого элемента вектора отдельно. Зададим семантический вектор классификации для слов и понятий естественного языка. В данном семантическом пространстве работает метрика Хэмминга, при этом в некоторых случаях имеет смысл использовать евклидову метрику. В предложенной классификации слов слова разбиваются на классы и подклассы, хорошо сочетающиеся друг с другом комбинаторно и/или ассоциативно.

Программные средства и информационные технологии

Программная система должна оценивать вероятность встретить то или иное принципиально и логически возможное предложение с точки зрения его допустимости, привычности и общеупотребительности на основе статистических методов.

Что касается автоматического исправления ошибок, традиционные методы исправления ошибок в целом связаны с анализом грамматических структур на основе порождающих грамматик Хомского. На основе гибридных методов оценки осмысленности текстов возможно предложить пользователю варианты предложений более приведенного вида: например, вместо «я желание понять ты» будет предложен семантический вариант «я хочу понять тебя». Таким образом, предложим следующую формулу оценки допустимости сгенерированной по шаблонам фразы на основе статистических методов оценки их вхождения в корпус текстов:

F log.

:F '

q( A)

q( A, B)

F l0g;

q( B)

F I l0g;

q(C )

У

=1(4, B)\St ( A, B) • k - S '( A, B) • k '| + m

v

i q(b,c)

F '

У

^,=W,C)\ S, (B, C) • k - S (B, C) • k ' \ +m

x F '

q ( a,c )

У

^i=i«,c)\ S, (A, C) • k - S '(A, C) • k ' \ +m

где ^(а,Ь) - количество пар слов (а, Ь), встречаемых на незначительном расстоянии в предложениях корпусов текстов; к - общее количество предложений в корпусе текстов; Б(а, Ь) - интервальное расстояние между словами а и Ь в /-м предложении без учёта однородных членов предложения в корпусе текста; 5"(а, Ь) - расстояние между словами в шаблоне генерации; к - коэффициент для увеличения величины результирующих малых вероятностей; т - коэффициент для исключения деления на ноль.

Необходима оценка вариантов выбора функций F и F для определения оптимального распределения вероятностей вхождения предложения во множество языка. Это могут быть такие распределения, как:

1) нормальное;

2) линейная функция;

3) степенная функция;

4) mexican hat.

В работе получили рассмотрение проблемы гибридизации статистических и парадигматических методов генерации осмысленных подмножеств языка в приложении к различным задачам. Предложена численная модель оценки вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т. д. слов во множество предложений корпуса текстов. Делается вывод о необходимости учета функций распределения вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т. д. слов во множество предложений корпуса текстов.

Библиографические ссылки

1. Личаргин Д. В. Методы и средства порождения семантических конструкций естественно-языкового интерфейса программных систем : дис. ... канд. техн. наук: 05.13.17. Защищена 05.07.2004 ; утв. 10.12.2004; № 137428. Красноярск, 2004, 154 с.

2. Личаргин Д. В. Порождение дерева состояний на основе порождающих грамматик над деревьями строк : сб. / СибГАУ. 2009. № 4. С. 33-37.

References

1. Lichargin D. V. Metody i sredstva porozhdenija semanticheskih konstrukcij estestvenno jazykovogo interfejsa programmnyh sistem (The methods and tools for the génération of semantic structures in the natural language interface of software systems). Krasnoyarsk, 2004, 154 p.

2. Lichargin D.V. Sbornik SibGAU. 2009, no 4, pp. 33-37.

© Личаргин Д. В., Маглинец А. Ю. 2013

УДК 004.032.26

ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ОЦЕНКИ ВЛИЯНИЯ ДИСЦИПЛИНЫ ОБСЛУЖИВАНИЯ НА НАДЕЖНОСТЬ ВОССТАНАВЛИВАЕМЫХ СИСТЕМ

С. Ю. Лысенко В. А. Володин

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: serega_17@list.ru

Рассматривается вопрос автоматизации процесса определения количества обслуживающих органов информационной системы, обеспечивающего требуемый уровень ее коэффициента готовности. Выполнена реализация генетического алгоритма нахождения количества обслуживающих органов для поддержания требуемой готовности системы.

Ключевые слова: надежность информационных систем, генетический алгоритм, оценка надежности, информационные системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.