Научная статья на тему 'Разработка алгоритмической структуры организации поиска в малых локальных базах данных'

Разработка алгоритмической структуры организации поиска в малых локальных базах данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
135
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНГВИСТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / ЛОКАЛЬНЫЙ ПОИСК / СТАТИСТИЧЕСКАЯ ОБРАБОТКА СЛОВ / ХЕШИРОВАНИЕ ПО СИГНАТУРЕ / АЛГОРИТМ ПОИСКА / ЗОННЫЙ ПОИСК / ВЕКТОРНАЯ МОДЕЛЬ ПОИСКА / LINGUISTIC TEXT PROCESSING / LOCAL SEARCH / STATISTICAL PROCESSING OF THE WORDS / THE HASH FOR THE SIGNATURE ALGORITHM OF THE SEARCH ZONE SEARCH / VECTOR SEARCH MODEL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Костров Борис Васильевич, Хруничев Роберт Вячеславович

Описывается процесс формирования алгоритмической структуры организации поиска в малых локальных базах данных с низким уровнем организации хранения документов, реализованной в виде модульной структуры программного комплекса. Приведена разработанная последовательность применения алгоритмов при организации поиска, а также основные этапы, реализуемые данными алгоритмами. Характерной особенностью является анализ разработанной структуры с указанием возможных вариантов применения сочетания алгоритмов в разной их последовательности при поиске.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Костров Борис Васильевич, Хруничев Роберт Вячеславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE DEVELOPMENT OF THE ALGORITHMIC STRUCTURE OF THE ORGANIZATION OF SEARCH IN SMALL LOCAL DATABASES

Present the process of formation of structure of algorithmic search in small local databases with low level organization of stored documents, implemented in a modular structure of the software complex. Designed given the sequence of applying algorithms to organize the search, as well as the main stages implemented these algorithms. A characteristic feature is the analysis of the developed structures, indicating possible applications of the algorithm combinations in different sequences in the search.

Текст научной работы на тему «Разработка алгоритмической структуры организации поиска в малых локальных базах данных»

Корягина Лилия Игоревна, асп., [email protected], Россия, Тула, Тульский государственный университет

SYNTHESIS CONTROL PARAMETERS IN CONTROL SYSTEM SIMULATOR

L.I. Koryagina

To create a dynamic similarity dynamic motion platforms in simulators should: a)the platform should move in such a way that it is possible to form the same N-dimensional space of relevant parameters; b)should be the principle of similarity.

Key words: dynamic similarity, the relevant parameters, the criterion of similarity, Euclidean distance, linear synthesis problem.

Koryagina Lilia Igorevna, postgraduete, Liela-Lili@yandex. ru, Russia, Tula, Tula state University

УДК 004.91

РАЗРАБОТКА АЛГОРИТМИЧЕСКОЙ СТРУКТУРЫ ОРГАНИЗАЦИИ ПОИСКА В МАЛЫХ ЛОКАЛЬНЫХ БАЗАХ

ДАННЫХ

Б.В. Костров, Р.В. Хруничев

Описывается процесс формирования алгоритмической структуры организации поиска в малых локальных базах данных с низким уровнем организации хранения документов, реализованной в виде модульной структуры программного комплекса. Приведена разработанная последовательность применения алгоритмов при организации поиска, а также основные этапы, реализуемые данными алгоритмами. Характерной особенностью является анализ разработанной структуры с указанием возможных вариантов применения сочетания алгоритмов в разной их последовательности при поиске.

Ключевые слова: лингвистическая обработка текста, локальный поиск, статистическая обработка слов, хеширование по сигнатуре, алгоритм поиска, зонный поиск, векторная модель поиска.

Современное состояние поиска в малых локальных базах. Актуальность эффективного документального поиска уже несколько десятилетий остается одной из важнейших задач информационного поиска в целом. Эксперты обращают внимание, что значительное количество рабочего времени сотрудники компаний тратят на поиск документов [1-4]. В частности, отмечается особый характер локального поиска как такового, поскольку исследования в этом направлении ведутся не столь активно как для глобального поиска, что связано с низкой рентабельностью таких проектов. Следует отметить, что задачи и условия поиска даже в пределах локальных баз данных порой значительно разнятся, в связи с чем приходится выделять задачу локального поиска в малых базах данных в отдельный класс.

1. Решение задачи локального поиска в малых базах. В ряде статей авторами проведены исследования в области документального поиска в малых локальных базах данных с низким уровнем организации хранения документов [5-9]. Предложено дифференцировать процедуру поиска по ключевым этапам.

На первом этапе предполагаются предварительная лингвистическая и статистическая обработки текстовой коллекции документов: выделение лексем из всех документов; применение «стоп-словаря» для отсева незначимых слов; обработка полученного массива стеммером Портера для выделения основ лексем;

лемматизация основ слов, чтобы привести «псевдоразличные» термы к единому основанию, что позволяет значительно сократить количество участвующих в анализе термов и сократить их среднюю длину;

применение предметно-ориентированных словарей для учета тематической направленности документов и отсева неинформативной части текстов;

частотный анализ остаточного массива термов, чтобы отсеять термы с частой встречаемостью как неинформативные и с низким рангом как не несущие смысловой нагрузки.

Отметим, что выполнение таких операций для локального поиска в малых базах данных является оправданным, поскольку вычислительные мощности ограничены и количество термов в анализе не должно быть велико.

Далее, также в целях повышения быстродействия и уменьшения вычислительных затрат, предложено произвести кластеризацию термов по принципу одинаковой сигнатуры [9], для чего потребовалась модификация метода хеширования по сигнатуре [5].

В качестве модели поиска обоснованно выбрана векторная модель [10], а для решения задачи нечеткого поиска разработан алгоритм сравнения индексных последовательностей с возможным изменением в одном бите индекса терма на основе метода ветвей и границ [9].

В целях расширения возможностей разрабатываемой поисковой системы произведен отбор атрибутов, удовлетворяющих задаче локального поиска [7]. С одной стороны, использование атрибутов документов при поиске не приводит к значительному увеличению вычислительных затрат, а с другой значительно повышает качество и эффективность поиска и позволяет производить поиск даже в том случае, когда практически никакой информации о документе нет. При поиске по отдельным атрибутам позволяет производить сортировку документов в выдаче.

Для сочетания векторной модели поиска и учета атрибутов документов применен и модифицирован зонный принцип поиска на основе инвертированных индексов. Произведена оценка весов термов и отдельных

зон. Сформирована итоговая векторная модель, не только описывающая документ с содержательной стороны, но и приводящая дополнительную информацию в виде атрибутов. При решении задачи ранжирования документов в выдаче векторная модель также удобно применяема в сочетании с косинусной метрикой [8].

2. Разработка структуры программного комплекса. На основе разработанных и модифицированных алгоритмов необходимо создатать структуру их последовательного применения для реализации на практике программного комплекса в виде информационно-поисковой системы в малых локальных базах данных.

При анализе структуры алгоритмов и их функционального предназначения в предлагаемой структуре программного комплекса явно прослеживается создание двух отдельных программ.

Первая программа выполняет непосредственное сканирование текстовой коллекции документов и реализует алгоритмы вплоть до создания векторного пространства термов, т.е. по сути является программой обработки и анализа документов.

Вторая программа направлена на непосредственное осуществление поиска и ранжирования документов по запросу пользователя. Кроме того, в случае запроса, содержащего ошибку, которая повлекла изменение в одном бите сигнатуры, происходит обращение к алгоритму сравнения индексных последовательностей на основе метода ветвей и границ.

В рамках каждой программы применим модульный принцип при формировании структуры, который позволяет вести одновременную параллельную разработку модулей - отдельных подпрограмм, реализующих конкретный алгоритм. Это позволит сократить временные затраты [10, 11] на разработку комплекса и повысить качество за счет применения командного принципа разработки [12-14].

Условно структуру программного комплекса можно представить в виде рисунка.

Как видно из рисунка, работа первой программы - программы сканера - является последовательным выполнением обозначенных алгоритмов по анализу текстов и направлена на обработку всех документов текстовой коллекции и формирование итогового векторного пространства.

Работа второй программы - программы взаимодействия с пользователем или поисковой программы - уже является более сложной, и образующие ее алгоритмы могут участвовать или не быть задействованы в различных ситуациях.

Поясним работу поисковой программы. Зонный принцип учета атрибутов предполагает возможность организации поиска как по одному из них, так и по всем сразу или различному их сочетанию. В зависимости от этого программа может отработать как поисковый алгоритм или как сортировщик документов в выдаче.

Программа сканирования документов базы

Программный комплекс

Поисковая программа

Модуль лингвистического анализа

Модуль статистического

Модуль выделения атрибутов документов

Модуль создания

зонных инв ертированных индексов

Модуль формирования векторного пространства

Запрос с атрибутами описания и/или заголовка

Запрос без ошибки или с ошибкой не приведшей к изменению сигнатуры

Модуль вычисления

значения хеш-функции сигнатуры и поиска образа в базе

Модуль вычисления значения ранжирующей функции

Модуль сортировки документов в выдаче

Модуль формирования запроса пользователя

Запрос с ошибкой приведшей к изменению сигнатуры I——I I

Запрос без атрибутов описания и заголовка

Модуль сравнения индексов по методу ветвей и границ

| Обнаружено \

Сходство не ^___

обнаружено

Пустая выдача

Структура программного комплекса

Предположим пользователем утрачена информация о содержании документа или его названии (запрос без атрибутов описания и заголовка), но известен приблизительная дата его создания (или диапазон дат), и/или его формат, и/или его разработчик, в этом случае программа поисковик выступает как сортировщик по заданным ограничениям.

Если в запросе присутствуют атрибуты описания или заголовка, то в этом случае активируются алгоритм вычисления значения хеш функции сигнатуры терма и поиск его соответствия (образа) в базе. При таком запросе возможны два варианта ветвления структуры следования и задействование различных алгоритмов.

В первом случае, когда запрос введен корректно или ошибка в запросе не привела к изменению сигнатуры, полученному значению хеш-функции будет найдено единственное соответствие в базе и будут найдены документы, содержащие данный термин.

В противном случае, когда по значению хеш функции не найдено соответствия в базе или в полученном соответствии находится кластер с термами, имеющими одинаковую сигнатуру, приходится применять алгоритм сравнения индексных последовательностей на основе метода ветвей и границ [9]. Если по данному алгоритму найден терм, то происходят обращение к ранжирующему алгоритму и выдача результатов пользователю, но

107

возможно, что метод не выдаст совпадений (например, когда ошибка в запросе привела к изменению в двух битах индекса) и пользователь получит пустую выдачу.

Заключение. Применение модульного принципа при разработке структуры программ [12] и, в совокупности, программного комплекса позволяет выстроить четкую логическую структуру поиска и на каждом этапе проследить работу программы, что в целом позволяет повысить качество поиска и минимизировать временные затраты на отладку работы программы или ее составляющих алгоритмов.

Преимуществом данной структуры также является возможность применения командного подхода к процессу разработки и быстрой модификации алгоритмов при необходимости, что имеет место при применении программного комплекса на малых локальных базах с различным содержательным контентом. Отметим, что применяемые алгоритмы являются гибкими и на практике позволяют быстро изменить регулируемые (подстро-ечные) параметры в зависимости от структуры и содержания базы данных, что также позволяет повысить качество и эффективность поиска и не приводит к значительным временным задержкам при организации поиска.

Список литературы

1. Национальный корпус русского языка. Сайт. Режим доступа: [Электронный ресурс] URL: http://www.ruscorpora.ru/index.html (дата обращения: 25.08.2017).

2. Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск: пер. с англ. М.: ООО «И.Д. Вильямс», 2011. 528 с.

3. Цукерт А.Г. Проблемы и перспективы информационного поиска // Изв. Таганрог. гос.радиотехн. ун-та. 2001. Т. 21. № 3. С. 194-201.

4. Задачи поисковых систем. Режим доступа: [Электронный ресурс] URL: http://asknet.ru/Technology/searchtask.htm (дата обращения: 25.08. 2017).

5. Хруничев Р.В. Метаданные. Системы метаданных. Сравнительный анализ // Межвузовский сборник научных трудов «Информационные технологии в образовании». Рязань, РГРТУ, 2012.

6. Хруничев Р.В. Модернизация модели Дублинского ядра для анализа предметно-ориентированной коллекции документов посредством применения метода попозиционного взвешивания // Вестник компьютерных и информационных технологий: ежемесячный научно-технический и производственный журнал. М., 2015. №7. С. 16-22.

7. Хруничев Р.В. Применение косинусной метрики при ранжировании документов в выдаче узкоспециализированного поиска. Математические методы в технике и технологиях. Саратов. Саратовский государственный технический университет им. Гагарина Ю.А. 2015. №7.

108

8. Хруничев Р.В. Применение метода ветвей и границ при решении задачи нечеткого поиска методом хеширования по сигнатуре в локальных базах данных // Математика и математическое моделирование, МГТУ им. Н.Э. Баумана: электрон. журн. 2017. № 03. С. 64-76.

9. Хруничев Р.В. Принципы построения многомерного пространства терминов в процессе анализа предметно-ориентированной коллекции документов // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. 2012. № 1. С. 136-141.

10. Ивутин А.Н., Ларкин Е.В. Прогнозирование времени выполнения алгоритма//Известия Тульского государственного университета. Технические науки. 2013. Вып. 3. С. 301 -315.

11. Ларкин Е.В., Ивутин А.Н. Определение временных интервалов в алгоритмах управления // Известия Томского политехнического университета. Инжиниринг георесурсов. 2014. Т. 324. № 5. С. 6-12.

12. Привалов А.Н., Ларкин Е.В. Создание программного обеспечения тренажерных систем на основе унифицированных программных моду-лей//Вестник компьютерных и информационных технологий. 2010. № 4. С.75 -82.

13. Ларкин Е.В., Привалов А.Н. Проектирование программного обеспечения вычислительной среды тренажерных систем. Тула: ТулГУ, 2010. 259 с.

14. Ивутин А.Н., Дараган Е.И. Построение схемы распараллеливания последовательного алгоритма программы//Известия Тульского государственного университета. Технические науки. 2012. Вып. 5. С. 101-109.

Костров Борис Васильевич, д-р техн. наук, проф., зав. кафедрой, kostrov. [email protected], Россия, Рязань, Рязанский государственный радиотехнический университет,

Хруничев Роберт Вячеславович, ст. преп., вед. инж. Центра дистанционного обучения, hrunichev_robert@,mail.ru, Россия, Рязань, Рязанский государственный радиотехнический университет

THE DEVELOPMENT OF THE ALGORITHMIC STRUCTURE OF THE ORGANIZATION OF SEARCH IN SMALL LOCAL DA TABASES

B. V. Kostrov, R. V. Khrunichev

Present the process of formation of structure of algorithmic search in small local databases with low level organization of stored documents, implemented in a modular structure of the software complex. Designed given the sequence of applying algorithms to organize the search, as well as the main stages implemented these algorithms. A characteristic feature is the analysis of the developed structures, indicating possible applications of the algorithm combinations in different sequences in the search.

109

Key words: linguistic text processing, local search, statistical processing of the words, the hash for the signature algorithm of the search zone search, vector search model.

Kostrov Boris Vasilevich, doctore of technicale scienses, professor, head of chair, kostrov. b. v@evm. rsreu. ru, Russia, Ryazan, Ryazan state radio engineering University,

Khrunichev Robert Vjacheslavovich, senior lecturer, the lead eng. center of distance learning, hrunichev_robert@,mail. ru, Russia, Ryazan, Ryazan state radio engineering University

УДК 681.142.2

ИНТЕРФЕЙС ЭКСПЕРТНОЙ СИСТЕМЫ РАСПАРАЛЛЕЛИВАНИЯ И АНАЛИЗА НЕЙРОПРОЦЕССОРНЫХ СТРУКТУР

В.Н. Ручкин, Б.В. Костров, В.А. Фулин, Д.Р. Пикулин

Предлагается интерфейс экспертной системы распараллеливания и анализа возможных нейропроцессорных структур. Разрабатывается программа реализации интерфейса на современном языке TypeScript, который является надмножеством языка JavaScript. Предлагается класс NeuralComputerSystemStructure и метод getStructureType, которые выявляют нужный тип нейро-компьютерной сети в условиях неопределенности с использованием нечетких множеств посредством нейронных сетей.

Ключевые слова: интерфейс экспертной системы, анализ нейропроцессорных структур, TypeScript, JavaScript, принятие решений, продукционная модель.

Для автоматизации вычислений определения оптимальной нейро-компьютерной сети (НКС) была разработана экспертная система [2, 8]. Программа была написана на современном языке TypeScript, который является надмножеством языка JavaScript. Выбор данного языка обусловлен его относительной простотой в использовании и мощной системой типов. Любое приложение TypeScript компилируется в JavaScript, что позволяет данную экспертную систему запускать на многих платформах и операционных системах, например Windows, Linux, MacOS, Android и так далее. Пользовательский интерфейс использует библиотеку React.js для рендера и Redux для работы с состоянием приложения, что упрощает работу с графом результирующей сети с использованием библиотеки 'storm-react-diagrams', которая существенно облегчает графический вывод структур НКС пользователю.

i Надоели баннеры? Вы всегда можете отключить рекламу.