Решение задачи построения запросов в системе тематического поиска на основе распознавания частично структурированных текстов

Гринченков Дмитрий Валерьевич; Кущий Дарья Николаевна

УДК 004.912:519.713.1:519.766.23 DOI: 10.17213/0321-2653-2019-1-10-16

РЕШЕНИЕ ЗАДАЧИ ПОСТРОЕНИЯ ЗАПРОСОВ В СИСТЕМЕ ТЕМАТИЧЕСКОГО ПОИСКА НА ОСНОВЕ РАСПОЗНАВАНИЯ ЧАСТИЧНО СТРУКТУРИРОВАННЫХ ТЕКСТОВ

Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия

SOLUTION TO PROBLEM OF CONSTRUCTING INQUIRIES IN A THEMATIC SEARCH BASED ON RECOGNITION OF PARTIAL STRUCTURED TEXTS

D.V. Grinchenkov, D.N. Kushchiy

Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia

Гринченков Дмитрий Валерьевич - канд. техн. наук, доцент, зав. кафедрой «Программное обеспечение вычислительной техники», Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия. E-mail: [email protected]

Кущий Дарья Николаевна - ст. преподаватель, кафедра «Программное обеспечение вычислительной техники», Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия. E-mail: [email protected]

Grinchenkov Dmitriy Valerievich - Candidate of Technical Sciences, Assistant Professor, Head of Department «Software Computer Engineering», Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: [email protected]

Kushchiy Daria Nikolaevna - Senior Lecturer, Department «Software Computer Engineering», Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: [email protected]

Представлена технология распознавания частично структурированного текста на естественном языке с помощью конечного автомата. Принимаемый автоматом язык задает унифицированную структуру рабочей программы и используется для разбиения исходного текста документа на разделы. Описаны продукционные правила разбора содержимого структурных блоков. Предложенная технология применяется при автоматизированном построении информационного запроса в системе тематического поиска методического обеспечения. Рассмотрены особенности оперирования данными в веб-приложениях, созданных с помощью фреймворка ASP.NET на основе шаблона Model-view-controller и при поддержке технологии распределения ролей и аутентификации Identify ASP.NET. Приведены экранные формы, демонстрирующие работу системы тематического поиска.

Ключевые слова: информационный поиск; веб-поиск; тематический поиск; формальный язык; формальная грамматика; конечный автомат.

In article the technology of recognition of the partial structured text in a natural language by means of the finite-state machine is considered. The language accepted by automatic machine sets the unified structure of the working program and is used for splitting the source text of the document for sections. Productional rules of analysis of contents of structural blocks are described. The offered technology is applied to the automated construction of a query in the system of thematic search of discipline methodological support. Features of operating in the web applications created by means of a framework ofASP.NET on the basis of the Model-view-controller template and with assistance of technology of cast and authentication ofIdentify ASP.NET are considered by data. The main screen forms showing work of system of thematic search are given.

Keywords: information retrieval; web search; subject search; formal language; formal grammar; finite-state automaton.

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

TECHNICAL SCIENCE. 2019. No 1

Введение

Современные информационно-поисковые системы (ИПС) ориентированы на скорость поиска: пользователю за считанные доли секунды выдается огромное количество результатов, измеряемое сотнями тысяч документов. Наиболее оптимальна такая стратегия для вопросно-ответного поиска. При сборе информации по конкретной тематике неизбежно возникает необходимость фильтрации выдаваемых результатов. Встроенный инструментарий не позволяет эффективно сузить круг поиска.

Таким образом, разработка специализированного программного обеспечения для тематического поиска представляет актуальную на настоящий момент задачу. Эффективным решением проблемы является использование лингвистических методов, ориентированных на содержательную составляющую результатов информационного поиска.

На основании анализа зарубежных и российских публикаций, в том числе, и по результатам проводимых подразделениями Российской академии наук исследованиями, задачи извлечения содержательной информации выделяют следующие направления [1 - 3]:

- распознавание именованных сущностей;

- выделение семантических отношений распознанных сущностей;

- извлечение информации о заданных событиях и их атрибутах.

В то же время узкопрофильный тематический поиск требует дополнительно настраиваемого инструментария для достижения оптимальных результатов. В качестве подобного примера можно рассматривать две взаимосвязанных задачи: поиск электронных образовательных ресурсов по текстам рабочих программ и автоматизированное формирование рабочих программ учебных дисциплин на основе ресурсов сети. В обоих случаях на лингвистические методы накладывается необходимость обработки частично структурированного текста.

Универсальность применяемого подхода позволяет применять его не только для решения задач информационного поиска, но и в формализованном построении текстов технического задания или должностных инструкций. Приведенные далее примеры будут рассмотрены для задачи обработки рабочих программ.

Особенности разработки поисковой подсистемы формирования методического обеспечения

Поиск образовательного контента в сети Интернет представляет частный случай задачи тематического поиска, ориентированного на нахождение документов с определенной долей тематической близости их содержания образцу [4, 5]. В рассматриваемом контексте последний представляет собой рабочую программу дисциплины.

Пусть IR = {irY,ir2,...,irl} - множество ресурсов сети Интернет, RR = {rrl,rr2,...,rrm} -множество релевантных запросу ресурсов, ER = {erY,er2,...,ern} - множество ресурсов, одобренных экспертами. Взаимосвязь указанных множеств можно представить следующим образом: ER с RR с IR ^Vx.(x е ER ^ x е RR ^ x е IR) .

Одной из ключевых задач анализа исходного множества IR является определение способа формирования его подмножеств RR и ER. Общая идея построения множества ER заключается в комбинировании формальных методов поиска и обработки информации и статистических методов формирования интегрированной оценки на основе эвристических знаний экспертов.

Для построения математической модели параметрической оптимизации запроса предлагается использовать математическую модель информационно-аналитической поисковой машины:

Model = [Q,Um,R],Um ^R,

где Q - множество запросов к системе; Uir -множество всех подмножеств IR; R={R!}- отображение из множества запросов на множество текстовых документов, соответствующее работе информационно-поисковой машины.

Формирование множества релевантных ресурсов реализуется следующим образом:

R: {Q ^ Um Ur ^ R|R (q ) = IR ( q )} ,

причем выполняется условие вида

(VIRi е IRq )(q е IR ) л (VIR е IR/IRq )(q е IR )

Q = {q е Q | R(q) = 0},

где Q - запросы, на которые были найдены релевантные документы.

В рамках тематического поиска запрос представляет собой модель предметной области,

ISSN0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

для которой определены ключевые слова и их взаимосвязь. Формирование эталонной выборки для построения запроса вручную требует определенных знаний в предметной области и времени. Указанные причины приводят к необходимости автоматизации данного процесса.

Рабочие программы российских вузов представляют собой частично структурированный текст, который отражает предметную область и содержит дополнительную информацию по учебному процессу с повторяющимися блоками. Данный факт обуславливает низкую эффективность применения статистических методов для выделения ключевых слов методом Ципфа и последующего формирования терминологических конструкций мерами t-score и MI-test [6].

Естественный язык не является автоматным и не может быть полностью описан регулярными грамматиками. Однако с учетом обозначенной ранее структуры рабочих программ лингвистический анализ может корректно проводиться в пределах изолированных блоков текста документов подобного вида [7]. В данном случае можно использовать стандартные методы трансляции для упрощения последующей семантической обработки за счет простоты реализации средствами языков программирования их математического аппарата.

В теории формальных языков существует два основных способа детального описания синтаксических свойств языка: с помощью порождающей и распознающей процедур. Рассмотрим данные способы подробнее.

Модель распознавания формального языка на основе конечного автомата

Процедура разбора (построения) структуры рабочей программы может быть представлена в виде обобщенного графа переходов (рис. 1).

Множество базовых состояний позволяет синтезировать формальную структуру рабочей программы и их содержимого. В состоянии q3 инициализируется процедура обработки текста, а в q4 - формирование результатов.

Входной алфавит делится на следующие укрупненные категории: цифра ^1), строка символов ^2); пустая строка ^3), номер раздела ^4). Распознавание названия раздела, как и обработка содержащегося в них текста, осуществляется дополнительными автоматами.

Пусть входной алфавит представлен последовательностями символов. Для приведенного фрагмента он имеет вид:

TECHNICAL SCIENCE. 2019. No 1

I = {«СОДЕРЖАНИЕ», «МЕСТО ДИСЦИПЛИНЫ», «ПЛАНИРУЕМЫЕ РЕЗУЛЬТАТЫ», «ОБЪЁМ ДИСЦИПЛИНЫ», «СОДЕРЖАНИЕ ДИСЦИПЛИНЫ», «Контактная аудиторная работа», «Наименование тем лекций», «Практические занятия», «Лабораторные занятия», «Самостоятельная работа», «Контактная внеаудиторная работа» «ФОНД», «МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ», «ИНФОРМАЦИОННОЕ

ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ», R, T}.

МП-аптомат

разбора

pajiu'.i-a

М Ё|С ТО t ,

ОБЪЕМ. МП-аьтомлт

УЧЕБНО- . [Я^рл S3'

текста рЩАпгла

Cíe*

^ Н \ Т Ь У EL Т Ь

... I I, М А

... l-1-l-.-l.i- ~Г

Рис. 1. Распознавание текста рабочей программы / Fig. 1. Recognition of the text of the working program

Алфавит стека автомата разбора названия раздела Г = {^, R2, R3, R4, R5, Rg, R7 } отображает порядок разделов рабочей программы. Конечное множество внутренних состояний Q'auto = {}-,■■■,п} , F - множество конечных состояний и 5 отображение вида: Qauto • £ • Г ^ Q' • Г , где Г* - новое состояние.

С учетом введенных обозначений семерка M =< Q'auto , Г, 5, qo, zo, F > , где q0 = 1, z0 = R1, представляет собой конечный автомат M с магазинной памятью.

Таблично-управляемый предсказывающий анализатор разбора текста раздела имеет входную ленту, определяемую номером раздела, управляющее устройство, таблицу анализа, магазин с опорными словами для выделения ключевых слов и выходную ленту. Под ключевым словом в данном контексте понимаются и те единицы языка, которые используются в типичной структуре рабочей программы - литература, раздел, час, тема - и при большом весе не несут смысловой нагрузки.

Язык, распознаваемый по приведенной схеме трансляции, может быть задан контекстно-свободной грамматикой, использование которой дает хорошее приближение к реальности и позволяет решить прикладную задачу формирования поискового запроса.

Модель порождения формального языка на основе грамматики

Фактически данная грамматика используется для разбиения исходного текста документа на разделы и обработки наиболее важных из них для рассматриваемой задачи. Разрабатываемая грамматика рабочей программы сводима к право-линейной КС-грамматике в связи с выбором узкоспециализированной области естественного языка и наличием в грамматике атрибутов [8].

Продукционные правила верхнего уровня служат для разбора разделов верхнего уровня. Правила для разбора разделов состоят из двух частей: первая часть служит для разбора названия раздела, вторая - для разбора текстового содержимого раздела. Стоит заметить, что названия разделов и подразделов приводятся в продукциях не полностью, а в виде подстроки.

Рассмотрим некоторые продукционные правила грамматики в БНФ-нотации:

<раздел>: :=«СОДЕРЖАНИЕ» <описание> «МЕСТО ДИСЦИПЛИНЫ» <описание> «ПЛАНИРУЕМЫЕ РЕЗУЛЬТАТЫ» <описание> «ОБЪЁМ ДИСЦИПЛИНЫ» <описание> «СОДЕРЖАНИЕ ДИСЦИПЛИНЫ» <тип><текст> «ФОНД» <описание> «МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ» <описание> «ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ

ДИСЦИПЛИНЫ» <описание>;

Результаты разбора текста рабочей программы являются исходным материалом для проведения аналитической обработки и формирования эталонной выборки с семантическими связями.

Представление грамматики в хга/-формате базируется на подходе из работы [9]. Рассмотрим фрагмент практической реализации:

<global-rule id="Section4" comment = "4.СОДЕРЖАНИЕ

ДИСЦИПЛИНЫ"><rale><rulerefшri="#Sectюn4Name"/>

<rulerefuri="#Section4x"/></rule>

</global-rule>

<global-rule id="Section4Name" sectionPart ="Name" com-

ment="Заголовок раздела 4">

</global-rule>

<global-rule id="Section4x" frame= "SubTitle" fram-eSlot="Title" comment="4.1 Контактная аудиторная работа""or"comment="4.2 Самостоятельная работа" "or"comment="4.3 Контактная внеаудиторная работа" </rule><ruleref uri="#Section4xContent" /></rule> </global-rule>

Шаблоны для первичной обработки текста в xml-формате имеют следующий вид:

Особенности программной реализации

В качестве инструмента разработки был выбран входящий в интегрированную среду Visual Studio фреймворк ASP.NET MVC 5. Созданное приложение является решением Visual Studio с четырьмя проектами внутри. Один проект содержит модель предметной области, второй -приложение MVC, а третий - модульные тесты. Несмотря на то, что определение моделей предметной области возможно и внутри шаблона MVC, было принято решение разделить их для сохранения более четкой структуры. Четвертый проект, подключаемый к решению, является свободно распространяемой библиотекой классов морфологического анализа модуля автоматизированной обработки текстов в системе машинного перевода ДИАЛИНГ [10]. Результаты тематического поиска хранятся в спроектированной базе данных.

Краткое описание созданных проектов приведено в табл. 1. Проекты, входящие в состав решения, создавались на основе пустых шаблонов. Для настройки инфраструктуры добавлены зависимости между проектами и сборками. Был также подключен ряд инструментов Ninject, Moq, Identity, в том числе шаблона OWIN с помощью командной строки NuGet.

Использование в проекте платформы Identity обеспечивает доступ к атрибуту авторизации, который применяется к контроллерам и методам действий для того, чтобы ограничить доступ неавторизованным пользователям. Процедуры авторизации и аутентификации организуются с помощью свойств и методов классов IdentityUser и UserManager. Программная реализация моделей сущностей «Пользователь» и «Эксперт» предполагает использование механизма наследования.

Взаимодействие с разработанной базой данных через Entity Framework осуществляется при помощи механизма миграции, запускаемого с помощью консоли пакетов Package Manager Console.

Оценка эффективности работы поисковой подсистемы

Примеры работы подсистемы формирования методического обеспечения продемонстрированы экранными формами, приведенными на рис. 2, 3.

Заявки на обработку экспертами отправляются в соответствии с областями знаний, указанными при формировании запроса и в личных данных экспертов. Процедура проведения экспертизы представлена экранной формой на рис. 4.

Наиболее важной составляющей информационного поиска является его эффективность, для оценки которой существует множество характеристик. Наиболее весомыми среди них являются полнота и точность, так как они опреде-

ляют значимость найденных документов для пользователя.

Для оценки эффективности проведено сравнение эффективности функционирования смоделированной системы и традиционных информационно-поисковых систем.

Результаты сравнивались с гипотетической эталонной системой, которая находит абсолютно все доступные релевантные данному запросу документы.

Таблица 1 / Table 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Проекты решения WebSearchSystem / Draft decisions of WebSearchSystem

Имя проекта Шаблон проекта Visual Studio Назначение

LemmatizerNET Библиотека классов (свободно распространяемый модуль АОТ системы ДИАЛИНГ) Содержит логику морфологической обработки текстов на естественном языке

WebSearchSystem.Domain Библиотека классов Содержит сущности и логику предметной области; настраивается на обеспечение постоянства посредством хранилища, которое создано с помощью инфраструктуры Entity Framework

WebSearchSystem.WebUI Веб-приложение ASP.NETMVC 5 Содержит контроллеры и представления; выступает в качестве пользовательского интерфейса системы

WebSearchSystem. UnitTests Проект модульного тестирования Содержит модульные тесты для других проектов решения

Определить клкзм&вьке олова

Опорныц иночевые слова

Найти ЭОР

Рис. 2. Формирование набора ключевых слов / Fig.2. Formation of keywords

С ÏS I iHrSgarirvK«Lii1 Ф

Рис. 3. Результаты поиска электронных образовательных ресурсов для заданной дисциплины / Fig. 3. Search results of electronic educational resources for the set discipline

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

TECHNICAL SCIENCE. 2019. No 1

OCPOOOfffOnCiCi

Рис. 4. Оценка электронных образовательных ресурсов экспертом / Fig. 4. Assessment of electronic

educational resources by the expert

Были проведены замеры полноты и точности (рис. 5) при поиске текстовой информации и сопоставлены с аналогичным соотношением, предложенным в книге Д.В. Ландэ «Интернети-ка» [11].

О 0:1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Точность

1 - Традиционная система; 2 - Разработанная система

Рис. 5. Соотношение полноты и точности поиска / Fig. 5. Ratio of completeness and accuracy of search

Заключение

При моделировании была использована электронная коллекция размером около 2500 документов. В данном случае наблюдается повышение эффективности поиска до 20 %.

Результаты, полученные в ходе экспериментов, позволяют говорить об эффективности предложенных подходов по реализации системы тематического поиска. В дальнейшем планируются модификация имеющейся подсистемы построением графического представления семантической сети предметной области запроса и реализация алгоритмов, масштабируемых на большие объемы текстовых коллекций.

Литература

1. Батура Т.В. Семантический анализ и способы представления

смысла текста в компьютерной лингвистике // Программные продукты и системы. 2016. Т. 29. № 4. С. 45 - 57.

2. Asif R. [et al.J. Analyzing undergraduate students' performance using educational data mining // Computers & Education. 2017. Vol. 113. P. 177 - 194.

3. Бондарчук Д.В. Алгоритмы интеллектуального поиска на основе метода категориальных векторов: дис. ... канд. физ.-мат. наук: 05.13.17. Екатеринбург, 2016. 141 с.

4. Grinchenkov D.V., Kushchiy D.N., Kolomiets A.V. One approach to the problem solution of specialized software development for subject search // Proceedings of the 4rd International Conference on Applied Innovations in IT (2016), Koethen: Hochschule Anhalt. 2016. Р. 39 - 43,

5. Гринченков Д.В., Кущий Д.Н. Архитектура системы тематического поиска электронных образовательных ресурсов в сети Интернет // Информатизация и связь. 2016. №3. С. 143 - 146.

6. Гринченков Д.В., Кущий Д.Н. К вопросу о выделении ключевых слов при обработке содержания рабочих программ образовательных дисциплин // Традиции русской инженерной школы: вчера, сегодня, завтра: сб. науч. ст. по проблемам высш. шк. / Юж.-Рос. Гос. политехн. ун-т (НПИ) имени М.И. Платова. Новочеркасск: ЮРГПУ (НПИ). 2015. С. 114 - 117.

7. Хомский Н. Аспекты теории синтаксиса. М., 1999. 235 с.

8. Порождающие грамматики Хомского // URL: https://habr.com/ru/post/177701/ (дата обращения: 1.12.2018)

9. Заболеева-Зотова А.В., Орлова Ю.А. Атрибутная грамматика формального документа «Техническое задание» // Изв. ВолГТУ. 2008. № 2. С. 39 - 43.

10. Сокирко А.В, Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Интернет-математика. 2005. Автоматическая обработка веб-данных. М.: Яндекс, 2005. С. 80 - 94.

11. Ландэ Д.В., Снарский А.А., Безсуднов И.В. Интернетика. Навигация в сложных сетях: модели и алгоритмы. М.: Книжный дом «ЛИБРОКОМ», 2009. 264 с.

ISSN0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

TECHNICAL SCIENCE. 2019. No 1

References

1. Batura T.V. Semanticheskii analiz i sposoby predstavleniya smysla teksta v komp'yuternoi lingvistike [Semantic analysis and methods of text meaning computational linguistics]. Programmnyeprodukty i sistemy, 2016, Vol. 29, no. 4. T. 29, pp. 45 - 57. (In Russ.)

2. Asif R. et al. Analyzing undergraduate students' performance using educational data mining. Computers & Education, 2017, Vol. 113, pp. 177 - 194.

3. Bondarchuk D.V. Algoritmy intellektual'nogo poiska na osnove metoda kategorial'nykh vektorov. Diss. kand. fiz.-mat. Nauk [Intelligent search algorithms based on the method of categorical vectors. Cand. phys.-math. sci. diss]. Ekaterinburg, 2016, 141 p.

4. Grinchenkov D.V., Kushchiy D.N., Kolomiets A.V. "One approach to the problem solution of specialized software development for subject search," Proceedings of the 4rd International Conference on Applied Innovations in IT (2016), Koeth en: Hochschule Anhalt, pp. 39 - 43, 2016.

5. Grinchenkov D.V., Kushchii D.N. Arkhitektura sistemy tematicheskogo poiska elektronnykh obrazovatel'nykh resursov v seti Internet [Architecture of system the subject search of electronic educational resources on the Internet]. Informatizatsiya i svyaz', 2016, no. 3, pp. 143 - 146. (In Russ.)

6. Grinchenkov D.V., Kushchii D.N. [On selection of keywords in the contents of the framework curriculum of academic disciplines] . Traditsii russkoi inzhenernoi shkoly: vchera, segodnya, zavtra: sbornik nauchnykh statei po problemam vysshei shkoly [Traditions of the Russian engineering school: yesterday, today, tomorrow: collection of scientific articles on problems of higher school]. Novocherkassk, 2015, pp. 114 - 117. (In Russ.)

7. Khomskii N. Aspekty teorii sintaksisa [Syntactic Structure]. Moscow, 1999, 235 p.

8. Porozhdayushchie grammatiki Khomskogo [The generating Chomsky's grammars]. Available at: https://habr.com/ru/post/177701/. (accessed 01.12.2018)

9. Zaboleeva-Zotova A.V., Orlova Yu.A. Atributnaya grammatika formal'nogo dokumenta «Tekhnicheskoe zadanie» [Attribute Grammar of the formal Document "Technical Specification". Izvestiya VolGTU. 2008, no. 2, pp. 39 - 43. (In Russ.)

10. Sokirko A.V, Toldova S.Yu. Sravnenie effektivnosti dvukh metodik snyatiya leksicheskoi i morfologicheskoi neodnoznachnosti dlya russkogo yazyka (skrytaya model' Markova i sintaksicheskii analizator imennykh grupp) [Comparing a stochastic tagger based on Hidden Markov Model with a rule-based tagger for Russian]. Moscow: Yandeks Publ., 2005, pp. 80 - 94.

11. Lande D.V., Snarskii A.A., Bezsudnov I.V. Internetika: Navigatsiya v slozhnykh setyakh: modeli i algoritmy [Internetika: Navigation in difficult networks: models and algorithms]. Moscow: Knizhnyi dom "LIBROKOM", 2009, 264 p.

Поступила в редакцию /Received 07 февраля 2019 г. /February 07, 2019

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гринченков Дмитрий Валерьевич, Кущий Дарья Николаевна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гринченков Дмитрий Валерьевич, Кущий Дарья Николаевна

SOLUTION TO PROBLEM OF CONSTRUCTING INQUIRIES IN A THEMATIC SEARCH BASED ON RECOGNITION OF PARTIAL STRUCTURED TEXTS

Текст научной работы на тему «Решение задачи построения запросов в системе тематического поиска на основе распознавания частично структурированных текстов»