Научная статья на тему 'Обработка запросов на естественном языке на основе семантических сетей и шаблонов'

Обработка запросов на естественном языке на основе семантических сетей и шаблонов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1209
144
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАПРОС / ЕСТЕСТВЕННЫЙ ЯЗЫК / ОБУЧЕНИЕ / ЛЕКСИЧЕСКИЙ АНАЛИЗ / СИНТАКСИЧЕСКИЙ АНАЛИЗ / СЕМАНТИЧЕСКИЙ АНАЛИЗ / СЕМАНТИЧЕСКИЕ СЕТИ / ШАБЛОНЫ / QUERY / NATURAL LANGUAGE / EDUCATION / LEXICAL ANALYSIS / SYNTAX ANALYSIS / SEMANTIC ANALYSIS / SEMANTIC NETWORKS / TEMPLATES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Барышникова Надежда Юрьевна

Предложен метод организации формального механизма обработки запросов, который предполагает интерактивный ввод запроса пользователем в виде произвольного текста на некотором проблемно-ориентированном подмножестве естественного языка с целью получения необходимой выборки. За основу взята система электронного тестирования для подготовки морских специалистов в Государственном университете морского и речного флота имени адмирала С. О. Макарова. Разработан алгоритм функционирования механизма, позволяющий существенно сократить и упростить процесс получения информации, необходимой пользователю, с целью анализа и определения структуры организации, приоритетных должностей и т. д. для дальнейшего решения кадрового вопроса. Алгоритм реализован на некотором формальном подмножестве естественного языка, которое ограничено двумя классами предложений: простые вопросительные и побудительные. Особое внимание при реализации программного продукта было уделено применению эффективных методов понимания и обработки семантики (смысла) запроса, вводимого пользователем. Это позволяет с максимальной точностью распознавать текст, независимо от сложности, возможной двусмысленности, используемого стиля изложения, слов, синтаксических взаимосвязей и идиом. Предлагается использовать расслоенные семантические сети, которые позволяют выявить основные семантические структуры языка запросов 1CQ платформы «1С: Предприятие 8» и связать их с синтаксисом описания запроса. Создана база знаний языка 1CQ, для которой по имеющимся сведениям о синтаксисе языка построена целая система шаблонов, позволяющих упростить разбор запроса на языке, близком к естественному.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROCESSING THE QUERIES IN THE NATURAL LANGUAGE BASED ON SEMANTIC NETWORKS AND TEMPLATES

The paper considers the method of the formal mechanism for the processing of queries, which involves interactive input of the request by a user in the form of free text on some problem-oriented subset of natural language in order to obtain the necessary samples. As a basis, the electronic testing system for the marine professional preparation in Admiral Makarov State University of Maritime and Island Shipping is taken. The algorithm of the mechanism functioning is developed; it significantly reduces and simplifies the getting of the required information to the user in order to analyze and define the structure of the organization, priority posts, etc. for further solution of the staff issue. The algorithm is implemented on some formal natural language subset, which is limited by two classes of sentences: simple interrogative and imperative. Particular attention in the implementation of the software was given to the use of the effective methods for understanding and processing of semantics (meaning) of the query entered by the user. This allows with maximum accuracy to recognize the text, regardless of the complexity, possible ambiguity, used writing style, words, syntactic relationships and idioms. It is proposed to use the layered semantic networks, which allow to identify the main semantic structures of the query language 1CQ platform «1C: Enterprise 8» and link them with the syntax of the description of the request. The knowledge base for the language 1CQ, for which according to the available information about the syntax at the language the entire system of templates was built to simplify the analysis on the request in a language close to the natural, is developed.

Текст научной работы на тему «Обработка запросов на естественном языке на основе семантических сетей и шаблонов»

УДК 004.031.42

Н. Ю. Барышникова

ОБРАБОТКА ЗАПРОСОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ НА ОСНОВЕ СЕМАНТИЧЕСКИХ СЕТЕЙ И ШАБЛОНОВ

Предложен метод организации формального механизма обработки запросов, который предполагает интерактивный ввод запроса пользователем в виде произвольного текста на некотором проблемно-ориентированном подмножестве естественного языка с целью получения необходимой выборки. За основу взята система электронного тестирования для подготовки морских специалистов в Государственном университете морского и речного флота имени адмирала С. О. Макарова. Разработан алгоритм функционирования механизма, позволяющий существенно сократить и упростить процесс получения информации, необходимой пользователю, с целью анализа и определения структуры организации, приоритетных должностей и т. д. для дальнейшего решения кадрового вопроса. Алгоритм реализован на некотором формальном подмножестве естественного языка, которое ограничено двумя классами предложений: простые вопросительные и побудительные. Особое внимание при реализации программного продукта было уделено применению эффективных методов понимания и обработки семантики (смысла) запроса, вводимого пользователем. Это позволяет с максимальной точностью распознавать текст, независимо от сложности, возможной двусмысленности, используемого стиля изложения, слов, синтаксических взаимосвязей и идиом. Предлагается использовать расслоенные семантические сети, которые позволяют выявить основные семантические структуры языка запросов 1CQ платформы «1С: Предприятие 8» и связать их с синтаксисом описания запроса. Создана база знаний языка 1CQ, для которой по имеющимся сведениям о синтаксисе языка построена целая система шаблонов, позволяющих упростить разбор запроса на языке, близком к естественному.

Ключевые слова: запрос, естественный язык, обучение, лексический анализ, синтаксический анализ, семантический анализ, семантические сети, шаблоны.

Введение

На кафедре вычислительных систем и информатики Государственного университета морского и речного флота им. адм. С. О. Макарова (ГУМРФ им. адм. С. О. Макарова) была разработана и успешно внедрена в эксплуатацию распределенная информационная система для оценки соответствия профессиональным компетенциям [1, 2] работников морских специальностей. Реализация работы осуществлялась на платформе «1С: Предприятие 8» на основе адаптированной типовой конфигурации «1С: Электронное обучение. Экзаменатор», что позволило включить в процесс профессиональной подготовки, повышения квалификации и переподготовки кадров оценку знаний и умений сотрудников или претендентов на должность на основе электронного тестирования.

Одной из основных особенностей реализованной системы является возможность внесения необходимых корректировок в организацию процесса тестирования, что важно для дальнейшего совершенствования учебных материалов и тестов. В связи с этим наибольшее внимание при создании программного продукта было отведено статистическому анализу данных, получаемых из стандартного набора отчетов информационной системы. Следует отметить, что в процессе эксплуатации довольно часто встречается ситуация, когда либо полученной информации недостаточно, либо требуется более детальная расшифровка полученных результатов, не входящих в объект типа «Отчет» системы 1С. Обычно для решения задач такого рода необходимо использовать средства программирования системы, что требует от пользователя достаточно высокой квалификации, четкого понимания структуры и наполнения базы данных, ее динамически изменяющейся структуры и объема. Пользователи системы, которыми являются как работники или претенденты на должность, так и организаторы тестирований и руководители организаций, не являются специалистами в компьютерной области и испытывают сложности при получении выборки данных. Именно поэтому в информационной системе был реализован формальный механизм [3] обработки запросов [4], который предполагает интерактивный ввод запроса пользователем в виде произвольного текста на некотором проблемно-ориентированном подмножестве естественного языка с целью получения необходимой выборки.

Постановка задачи

В общем виде постановку задачи можно сформулировать следующим образом: создание формального механизма обработки запросов, который предполагает интерактивный ввод запроса пользователем в виде произвольного текста на некотором проблемно-ориентированном подмножестве естественного языка с целью получения необходимой выборки. Важно, чтобы программный продукт мог с максимальной точностью распознавать текст, независимо от сложности, возможной двусмысленности, используемого стиля изложения, слов, синтаксических взаимосвязей и идиом. Для этого предлагается использовать расслоенные семантические сети, позволяющие выявлять основные семантические структуры языка запросов. Для упрощения автоматической генерации программного запроса с целью предоставления требуемых данных следует задать также шаблоны программного кода, содержащие основные сведения о синтаксисе языка.

Организация работы механизма обработки запросов на естественном языке

Алгоритм функционирования предлагаемого формального механизма обработки запросов состоит из следующих этапов [5]:

- интеллектуальный ввод пользователем запроса на естественном языке с возможностью задания параметров;

- лексический анализ;

- синтаксический анализ;

- семантический анализ;

- автоматическая генерация текста запроса на язык запросов 1CQ среды «1С: Предприятие 8»;

- выполнение сгенерированного программного запроса информационной системой, вывод конечных результатов пользователю или сообщения об ошибке с осмысленными причинами ее возникновения, возможность конвертации запроса на язык SQL.

Проблема лексического, синтаксического и семантического разбора пользовательского запроса на естественном языке не зависит от специфики предметной области. Однако получить обобщенный вариант формализации, подходящий одновременно для различных предметных областей (подмножеств языка) не представляется возможным ввиду потенциально неограниченного количества выражений. Именно поэтому в качестве ограниченной предметной области был выбран процесс подготовки морских специалистов в ГУМРФ им. адм. С. О. Макарова.

Одной из главных задач реализованного формального механизма является улучшение понимания истинного смысла запроса на естественном языке, введенного пользователем. Для этого следует определить форму представления описанных данных для использования в процессе анализа текста. В качестве такой формы была выбрана лингвистическая онтология с заданным тезаурусом. Это позволяет эффективно описать отношения между концептами семантической сети, что облегчает обработку запроса.

В отличие от большинства разработчиков подобных механизмов [6], исследования которых в области лингвистики естественных языков, включая русский, ориентированы на построение полных семантических словарей, нами реализован ограниченный словарь, т. к. термины и объекты характеризуются строгой предметной направленностью, обобщенной лексикой и упрощенным синтаксисом. Они загружаются из метаданных информационной системы или осознанно генерируются пользователями. Заранее определены ключевые слова, которые полностью идентифицируют текст в заданном подмножестве (например, специфические термины, названия должностей). Для наполнения словаря в информационной системе использовался находящийся в свободном доступе словарь открытого корпуса русского языка1 в формате XML, предназначенный для автоматической обработки текстов, машинного обучения или тестирования. В настоящее время словарь включает в себя более 1 300 000 словоформ. Этого вполне достаточно для реализации формального механизма обработки запросов в рамках предложенной информационной системы.

С целью сокращения количества заведомо очевидных ошибок используются также некоторые ограничения, относящиеся к проблемно-ориентированному подмножеству естественных языков. Вся совокупность входных запросов была задана двумя классами предложений [7]: простые вопросительные предложения (например: «Каков...?») и побудительные предложения (например: «Показать...»).

1 http://opencorpora.org.

Изначально в информационной системе пользователь вводит некоторый произвольный текст в специально отведенные поля формы (рис. 1). Сложность данного этапа заключается в том, что полученный запрос может содержать последовательности символов, которые часто просто невозможно идентифицировать средствами информационной системы. Возникает необходимость обработки возможных опечаток и определения в тексте исходного запроса основных слов и их взаимосвязей [8]. Для корректности ввода информационная система предоставляет пользователю интеллектуальную подсказку на основе ранее заполненных словарей, которая в значительной степени ограничивает круг возможных ошибок.

Рис. 1. Форма для ввода пользователем запроса на естественном языке (ЕЯ)

Разбор исходного запроса на естественном языке начинается с этапа лексического анализа, представляющего собой процесс определения границ слов и дальнейшего заполнения на их основе таблицы лексем, где каждой лексеме в соответствие ставится набор определенных характеристик, таких как часть речи, род, число и т. д.

Выходная информация, полученная на этапе лексического анализа, передается для дальнейшей обработки на этап синтаксического анализа, основной задачей которого является сопоставление линейной последовательности лексем с формальной входной грамматикой языка в виде синтаксического дерева.

На этапе семантического анализа осуществляется анализ результатов, полученных при синтаксическом анализе. Данный этап не имеет устоявшихся моделей и подходов к его реализации. В большинстве систем роль семантического анализатора играет отдельный модуль, решающий задачу семантического анализа на основе некоторых эвристических соображений [9]. Сложность проблемы состоит в разработке достаточно эффективного алгоритма, который позволял бы извлекать полезную смысловую информацию из запроса на естественном языке. Одним из возможных вариантов реализации семантического анализа является использование семантических сетей и дальнейшее сопоставление текста запроса на естественном языке с базовыми шаблонами языка 1CQ.

На завершающем этапе работы формального механизма производится автоматическая генерация кода на языке запросов 1CQ в специально разработанном модуле, где последовательно происходит обработка поступающей на вход информации о структуре семантической сети

и об имеющихся шаблонах запросов. На их основе выполняется автоматическая генерация программного кода. Например, запрос пользователя на естественном языке «Показать результаты теста участников на должность капитан» породит следующий программный код:

ВЫБРАТЬ

УчастникиТестирований.ФИО КАК ФИО, УчастникиТестирований.Результат КАК Результат ИЗ

РегистрСведений.УчастникиТестирований. СрезПоследних

КАК УчастникиТестирований

ГДЕ

УчастникиТестирований.ТестДолжность = "капитан" УПОРЯДОЧИТЬ ПО УчастникиТестирований.ФИО ВОЗР

В конце работы механизма организуется предоставление результатов пользователю или сообщение об ошибке.

Информационная система обладает также возможностью конвертации запроса на язык SQL [10, 11]. Работа транслятора осуществляется по описанной выше схеме. Запрос на естественном языке, введенный пользователем, последовательно проходит стадии лексического, синтаксического и семантического анализа. В завершение, на основе структуры семантической сети и заданных шаблонов, формируется программный код. Например, запрос пользователя на естественном языке «Показать результаты теста участников на должность капитан» породит следующий программный код:

SELECT

TestParticipants.User AS User, TestParticipants.Result AS Result FROM

TestParticipants WHERE

TestParticipants.Test = "captain" ORDER BY TestParticipants.User ASC

Применение семантических сетей и шаблонов для обработки запросов на естественном языке

Любой язык, в том числе и язык запросов 1CQ платформы «1С: Предприятие 8», можно смоделировать на некоторой семантической сети [12] с концептами, типы которых четко заданы предметной областью или идеологией языка. Это позволяет освободить пользователя от необходимости иметь дело с нагромождением деталей представления данных, а также сохранить их смысловую часть, предоставляя при этом независимость от выбранного метода реализации информационной системы. Еще одно преимущество семантической сети данных - ее ориентация на распознавание семантики, что дает возможность информационной системе более осмысленным образом отвечать на поступающие входные запросы на естественном языке. Такая модель служит более эффективным посредником между многочисленными вариациями запроса пользователя с одной стороны и многочисленными внутренними представлениями данных - с другой [13].

Для создания семантической сети изначально в качестве основы выделяется база [14] -начальная система связанных концептов, которая расширяется путем добавления в нее слоев. В свою очередь, под слоем понимаются отдельные фрагменты семантической сети сильно взаимосвязанные между собой и слабо связанные с остальными.

Для начала следует определить общую базу сети запросов (рис. 2) на кортежах, т. е. некоторый набор элементов, из которых она будет состоять. В данном случае к базе относятся две обязательные секции - это секция описания запроса и секция источника данных запроса, а также одна необязательная - секция задания условий выборки запроса, которая указана в квадратных скобках, что дополнительно отмечает факт ее возможного отсутствия.

Рис. 2. Общая база сети запросов информационной системы

В секции описания запроса определяется список полей, которые будут содержаться в результатах выполнения запроса и являться шапкой для таблицы результата; в секции источника данных запроса - список источников данных - таблиц, которые являются поставщиками данных; в секции задания условий выборки запроса - условия, влияющие на выборку данных в запросе. Все это в совокупности образует единую семантическую сеть. Список полей, список таблиц - источников данных и список условий задаются множеством слов из входного запроса пользователя на естественном языке после этапов лексического и синтаксического анализа с использованием словаря. На рис. 3 представлено множество концептов и множество отношений между ними в реализованной информационной системе.

Рис. 3. Семантическая сеть информационной системы

Все слои модели языка 1CQ образуют довольно сложную сеть, небольшой фрагмент которой для самого простого запроса представлен на рис. 4. В случае, когда у слоя имеется более одного предшественника, возможны коллизии в реализации сходных или зависимых концептов, введенных изначально в предыдущих слоях.

Рис. 4. Фрагмент сети слоев информационной системы

Реализованная семантическая сеть построена на основе анализа запроса на естественном языке, введенного пользователем, и является формализованным представлением содержащихся в нем знаний, поэтому каждому ее элементу соответствует некоторый фрагмент исходного текста запроса. Концептам, отражающим одинаковые по смыслу данные, соответствуют аналогичные по синтаксическому строению фрагменты исходного текста запроса. Это позволяет использовать шаблоны для дальнейшей работы по обработке запроса на естественном языке.

Каждый шаблон описывает синтаксическую структуру части исходного текста запроса на естественном языке и создаваемые элементы семантической сети. При описании синтаксической структуры указываются не только связи слов в предложении, но и условия, накладываемые на каждое из слов. Эти условия могут проверять как лексические или семантические характеристики слова, так и смысловые пометки этого слова, заданные при поиске в других шаблонах. Если какая-то часть текста удовлетворяет всем условиям, указанным в шаблоне, то происходит ее формализация. Это в значительной степени облегчает процесс перевода запроса на язык 1CQ с сохранением смысловой составляющей.

Наполнение информационной системы набором шаблонов для основных типов запросов на языке 1CQ позволяет определить:

- правила распознавания шаблонов;

- правила сочетания шаблонов;

- семантику запросов на естественных языках.

Любой запрос на языке 1CQ имеет вид, который можно свести к шаблону. Так, самый простой запрос к одной таблице имеет следующий вид:

ВЫБРАТЬ список_полей

ИЗ таблица_источник

После выполнения запроса информационной системой пользователю выводится результат в виде таблицы. Для заполнения столбцов используются данные, приведенные в секции источника данных, что в дальнейшем позволяет определить составные части шаблона [15].

Использование шаблонов в процессе разбора запроса пользователя, введенного на естественном языке, реализует запись новой строки в его таблицу. При этом в столбцах таблицы помещаются либо соответствующие фразы, либо идентификаторы простых шаблонов, описывающие вложенные подзапросы, либо идентификаторы рекурсивных шаблонов. Из связанных строк, записанных во всех использованных таблицах шаблонов, становится возможным собрать единую инструкцию для языка запросов 1CQ. На основании шаблонов можно представить общую схему возможных вариантов запросов, которые не содержат в себе подзапросов (рис. 5).

Рис. 5. Варианты запросов информационной системы без использования подзапросов

Основное отличие между шаблонами заключается в наличии или отсутствии:

- фильтра;

- упорядочения:

- группирования.

Определение одного из представленных видов шаблонов в информационной системе происходит без особых трудностей. По умолчанию сначала информационная система в исходном состоянии начинает работу с использования самого простейшего шаблона "ВЫБРАТЬ ... ИЗ ... ГДЕ ...". По мере уточнения и разбора входного запроса на естественном языке шаблон может изменяться на другой. При этом в новый шаблон передаются все данные из предыдущего.

Однако следует отметить, что рассмотренные шаблоны могут применяться только к простым запросам, при разборе сложного запроса они работают следующим образом. Сначала происходит процесс фрагментации, т. е. разделение одного усложненного запроса на несколько более простых, объединенных конструкциями внутреннего языка запросов 1CQ. Для объединения фрагментов изначального запроса используется конструкция "ОБЪЕДИНИТЬ" ("UNION"). Для единовременного обращения информационной системы к различным источникам данных используются различные варианты "ИЗ ... СОЕДИНЕНИЕ ... ПО" ("FROM ... JOIN ..."), такие как внутреннее соединение "ИЗ ... СОЕДИНЕНИЕ ... ПО" ("FROM ... JOIN ..."), правое внешнее соединение "ИЗ ... ПРАВОЕ [ВНЕШНЕЕ] СОЕДИНЕНИЕ ... ПО" ("FROM ... RIGHT OUTER JOIN ..."), левое внешнее соединение "ИЗ ... ЛЕВОЕ [ВНЕШНЕЕ] СОЕДИНЕНИЕ ... ПО" ("FROM ... LEFT OUTER JOIN ...").

В случае если структурная фрагментация сложного запроса невозможна, алгоритм пытается провести иерархическую дефрагментацию, формально реализуемую средствами вложенных запросов вида "ВЫБРАТЬ ... ИЗ ... ГДЕ ... (ВЫБРАТЬ ... ИЗ ... ГДЕ ...)". Каждый простой подзапрос отдельно рассматривается информационной системой на всех этапах работы механизма. Именно благодаря фрагментации становится возможным использование шаблонов и для сложных запросов.

Заключение

Для практической реализации результатов исследования в качестве программного продукта была выбрана платформа «1С: Предприятие 8» и адаптированная под нужны кафедры вычислительных систем и информатики ГУМРФ им. адм. С. О. Макарова типовая конфигурации «1С: Электронное обучение. Экзаменатор». Разработка предназначена для профессиональной подготовки, повышения квалификации и переподготовки морских специалистов на основе электронных тестирований. Кроме того, был реализован формальный механизм обработки запросов, который предполагает интерактивный ввод запроса пользователем в виде произвольного текста на некотором проблемно-ориентированном подмножестве естественных языков с целью получения необходимой выборки. Для этого использовались расслоенные семантические сети, позволяющие выявить основные семантические структуры языка запросов 1CQ платформы «1С: Предприятие 8» и связать их с синтаксисом описания запроса. Данный лингвистический аспект позволяет внести в язык структуры, удобные для обычного пользователя, которые облегчают процесс обработки входного запроса на естественном языке и его перевода в машинный запрос к информационной системе. При этом семантические сети позволяют довольно точно передавать смысловую часть данных. Созданная база знаний языка 1CQ, для которой по имеющимся сведениям о синтаксисе языка построена целая система шаблонов, позволяет также упростить разбор запроса на естественном языке. Все это существенно сокращает и упрощает процесс получения информации, необходимой пользователю, при этом не требуется обладать навыками в области программирования. Информационная система выполнит все действия по преобразованию и предоставлению данных самостоятельно.

СПИСОК ЛИТЕРАТУРЫ

1. Барышникова Н. Ю., Тындыкарь Л. Н. Распределенная тестовая система оценки соответствия профессиональных компетенций работников морских специальностей // IT: вчера, сегодня, завтра: материалы III науч.-исслед. конф. студентов и аспирантов фак. информ. технологий. СПб.: Изд-во ГУМРФ им. адм. С. О. Макарова, 2015. С. 18-20.

2. Барышникова Н. Ю., Крупенина Н. В., Тындыкарь Л. Н. Организация распределенной системы подготовки проведения электронного тестирования для оценки соответствия профессиональных компетенций работников морских специальностей // Вестн. ГУМРФ им. адм. С. О. Макарова. 2015. Вып. 3 (31). С. 216-228.

3. Барышникова Н. Ю. Разработка механизма преобразования запросов на естественном языке в информационной системе // Вестн. ГУМРФ им. адм. С. О. Макарова. 2015. Вып. 6 (33). С. 204-212.

4. Волкова И. А. Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров. М.: Изд-во МГУ, 2006. 43 с.

5. Диковицкий В. В., Шишаев М. Г. Обработка текстов естественного языка в моделях поисковых систем // Тр. Кольского науч. центра РАН. 2010. Вып. 6. С. 204-212.

6. Тузов В. А. Компьютерная семантика русского языка. СПб.: СПбГУ, 2003. 392 с.

7. Барышникова Н. Ю., Егоров А. Н., Крупенина Н. В., Тындыкарь Л. Н. Организация диалога удаленного пользователя с подсистемой балльно-рейтингового учета обучения студентов // Новые информационные технологии в образовании: сб. науч. тр. XIV Междунар. науч.-практ. конф. «Применение технологий «1С» для повышения эффективности деятельности организаций образования». М.: ООО «1 С-Паблишинг», 2014. Ч. 1. С. 331-334.

8. Чуприна С. И., Постаногов И. С. Концепция обогащения унаследованных информационных систем сервисом запросов на естественном языке // Вестн. Перм. ун-та. Сер.: Математика. Механика. Информатика. 2015. Вып. 2 (29). С. 78-86.

9. Степанов П. А. Системы анализа текстов естественного языка // Альманах современной науки и образования. 2013. Вып. 6 (73). С. 159-161.

10. Смирнов И. В., Лустгартен Ю. Л. Перевод запросов, сформулированных на естественном языке, на язык SQL // Вестн. Костром. гос. технол. ун-та. 2006. Вып. 13. С. 96-100.

11. Ердесов С. Ж. Способы трансляции выборки с естественного языка на язык SQL // Научная перспектива. 2014. № 4 (50). С. 215.

12. Попов Э. В. Общение с ЭВМ на естественном языке. М.: Наука. Гл. ред. физ.-мат. лит., 1982. 360 с.

13. Кодд Э. Ф. Расширение реляционной модели для лучшего отражения семантики // Открытые системы. СУБД. 1996. № 5. С. 163-192.

14. Бессарабов Н. В. Когнитивные модели языков программирования // Материалы Всерос. конф. с междунар. участием «Знания - Онтологии - Теории» (ЗОНТ-2009). Новосибирск: Ин-т математики им. С. Л. Соболева СО РАН, 2009. Т. 2. С. 105-109.

15. Бессарабов Н. В., Тищенко А. А. Интерактивный транслятор с естественного языка в SQL // IV Междунар. науч.-практ. конф. «Информационная среда вуза XXI века» («ИТО-Петрозаводск-2010»). Петрозаводск: ПетрГУ, 2010. С. 50-53.

Статья поступила в редакцию 3.06.2016

ИНФОРМАЦИЯ ОБ АВТОРЕ

Барышникова Надежда Юрьевна — Россия, 198035, Санкт-Петербург; Государственный университет морского и речного флота им. адм. С. О. Макарова; аспирант кафедры вычислительных систем и информатики; [email protected].

N. Yu. Baryshnikova

PROCESSING THE QUERIES IN THE NATURAL LANGUAGE BASED ON SEMANTIC NETWORKS AND TEMPLATES

Abstract. The paper considers the method of the formal mechanism for the processing of queries, which involves interactive input of the request by a user in the form of free text on some problem-oriented subset of natural language in order to obtain the necessary samples. As a basis, the electronic testing system for the marine professional preparation in Admiral Makarov State University of Maritime and Island Shipping is taken. The algorithm of the mechanism functioning is developed; it significantly reduces and simplifies the getting of the required information to the user in order to analyze and define the structure of the organization, priority posts, etc. for further solution of the staff issue. The algorithm is implemented on some formal natural language subset, which is limited by two classes of sentences: simple interrogative and imperative. Particular attention in the implementation of the software was given to the use of the effective methods for understanding and processing of semantics (meaning) of the query entered by the user. This allows with maximum accuracy to recognize the text, regardless of the complexity, possible ambiguity, used writing style, words, syntactic relationships and idioms. It is proposed to use the layered semantic networks, which allow to identify the main semantic structures of the query language ICQ platform «1C: Enterprise 8» and link them with the syntax of the description of the request. The knowledge base for the language ICQ, for which according to the available information about the syntax at the language the entire system of templates was built to simplify the analysis on the request in a language close to the natural, is developed.

Key words: query, natural language, education, lexical analysis, syntax analysis, semantic analysis, semantic networks, templates.

REFERENCES

1. Baryshnikova N. Iu., Tyndykar' L. N. Raspredelennaia testovaia sistema otsenki sootvetstviia profes-sional'nykh kompetentsii rabotnikov morskikh spetsial'nostei [Distributed test system for conformity assessment of professional competencies by employees of maritime specialties]. IT: vchera, segodnia, zavtra: materialy III nauchno-issledovatel'skoi konferentsii studentov i aspirantov fakul'teta informatsionnykh tekhnologii. Saint-Petersburg, Izd-vo GUMRF imeni admirala S. O. Makarova, 2015. P. 18-20.

2. Baryshnikova N. Iu., Krupenina N. V., Tyndykar' L. N. Organizatsiia raspredelennoi sistemy podgotovki provedeniia elektronnogo testirovaniia dlia otsenki sootvetstviia professional'nykh kompetentsii rabotnikov mor-skikh spetsial'nostei [Organization of the distributed system by electronic testing for conformity assessment of professional competencies by employees of maritime specialties]. Vestnik Gosudarstvennogo universiteta mor-skogo i rechnogo flota imeni admirala S. O. Makarova, 2015, iss. 3 (31), pp. 216-228.

3. Baryshnikova N. Iu. Razrabotka mekhanizma preobrazovaniia zaprosov na estestvennom iazyke v informatsionnoi sisteme [Development of a mechanism for transforming natural language query in the information system]. Vestnik Gosudarstvennogo universiteta morskogo i rechnogo flota imeni admirala S. O. Makarova, 2015, iss. 6 (33), pp. 204-212.

4. Volkova I. A. Vvedenie v komp'iuternuiu lingvistiku. Prakticheskie aspekty sozdaniia lingvisticheskikh protsessorov [Introduction to computational linguistics. Practical aspects of linguistic processors]. Moscow, Izd-vo MGU, 2006. 43 p.

5. Dikovitskii V. V., Shishaev M. G. Obrabotka tekstov estestvennogo iazyka v modeliakh poiskovykh sis-tem [Processing of human language texts in search system models]. Trudy Kol'skogo nauchnogo tsentra RAN, 2010, iss. 6, pp. 204-212.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Tuzov V. A. Komp'iuternaia semantika russkogo iazyka [Computer semantics of the Russian language]. Saint-Petersburg, SPbGU, 2003. 392 p.

7. Baryshnikova N. Iu., Egorov A. N., Krupenina N. V., Tyndykar' L. N. Organizatsiia dialoga udalennogo pol'zovatelia s podsistemoi ball'no-reitingovogo ucheta obucheniia studentov [Organization of a dialogue of the remote access of the users with a subsystem of grading of the training of students]. Novye informatsionnye tekhnologii v obrazovanii. Sbornik nauchnykh trudov XIV Mezhdunarodnoi nauchno-prakticheskoi konferentsii «Primenenie tekhnologii «1S» dlia povysheniia effektivnosti deiatel'nosti organizatsii obrazovaniia». Moscow, OOO «1S-Pablishing», 2014. Part 1, pp. 331-334.

8. Chuprina S. I., Postanogov I. S. Kontseptsiia obogashcheniia unasledovannykh informatsionnykh sis-tem servisom zaprosov na estestvennom iazyke [Enhancing legacy information systems with a natural language query interface service]. Vestnik Permskogo universiteta. Seriia: Matematika. Mekhanika. Informatika, 2015, iss. 2 (29), pp. 78-86.

9. Stepanov P. A. Sistemy analiza tekstov estestvennogo iazyka [System of the analysis of texts in the natural language]. Al'manakh sovremennoi nauki i obrazovaniia, 2013, iss. 6 (73), pp. 159-161.

10. Smirnov I. V., Lustgarten Iu. L. Perevod zaprosov, sformulirovannykh na estestvennom iazyke, na iazyk SQL [Translation of queries formulated in natural language in the SQL language]. Vestnik Kostromskogo gosu-darstvennogo tekhnologicheskogo universiteta, 2006, iss. 13, pp. 96-100.

11. Erdesov S. Zh. Sposoby transliatsii vyborki s estestvennogo iazyka na iazyk SQL [Methods of sample translation from natural language to the SQL language]. Nauchnaiaperspektiva, 2014, no. 4 (50), p. 215.

12. Popov E. V. Obshchenie s EVM na estestvennom iazyke [Communication with the computer in natural language]. Moscow, Nauka. Glavnaia redaktsiia fiziko-matematicheskoi literatury, 1982. 360 p.

13. Kodd E. F. Rasshirenie reliatsionnoi modeli dlia luchshego otrazheniia semantiki [Expansion of the relational model to better reflection of the semantics]. Otkrytye sistemy. SUBD, 1996, no. 5, pp. 163-192.

14. Bessarabov N. V. Kognitivnye modeli iazykov programmirovaniia [Cognitive models of programming languages]. Materialy Vserossiiskoi konferentsii s mezhdunarodnym uchastiem «Znaniia - Ontologii - Teorii» (ZONT-2009). Novosibirsk, Institut matematiki imeni S. L. Soboleva SO RAN, 2009. Vol. 2, pp. 105-109.

15. Bessarabov N. V. Interaktivnyi transliator s estestvennogo iazyka v SQL [Interactive translator with natural language in SQL]. IVMezhdunarodnaia nauchno-prakticheskaia konferentsiia «Informatsionnaia sreda vuza XXI veka» («ITO-Petrozavodsk-2010»). Petrozavodsk, PetrGU, 2010. P. 50-53.

The article submitted to the editors 3.06.2016

INFORMATION ABOUT THE AUTHOR

Baryshnikova Nadezhda Yurievna — Russia, 198035, Saint-Petersburg; Admiral Makarov State University of Maritime and Inland Shipping; Postgraduate Student of the Department of Computer System and Information Science; [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.