Математические методы моделирования, управления и анализа данных
УДК 512.642
МОДИФИКАЦИЯ ВЕКТОРНОЙ МОДЕЛИ АНАЛИЗА ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ЧАСТОТНОГО МУЛЬТИЛИНГВИСТИЧЕСКОГО ТЕЗАУРУСА
Г. А. Прохорович, А. В. Перанцева, В. В. Брезицкая, Е. В. Туева, Е. В. Бурдина
С Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
В настоящее время активно создаются и совершенствуются системы поиска информации. Для решения проблемы поиска и анализа информации предлагается модификация векторной модели анализа данных с использованием частотного мультилингвистического тезауруса.
Ключевые слова: поисковые системы, частотный мультилингвистический тезаурус, векторная модель.
MODIFYING A VECTOR MODEL OF DATA ANALYSIS USING THE FREQUENCY
MULTILINGUISTIC THESAURUS
G. A. Prohorovich, A. V. Perantseva, V. V. Brezitskaya, E. V. Tueva, E. V. Burdina
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email protected]
Currently, information retrieval systems actively develop and improve. A modification of the vector model of data analysis with the use of the frequency multilinguistic thesaurus is proposed to solve the problem of searching and analyzing information.
Keywords: search engines, frequency multilinguistic thesaurus, vector model.
В настоящее время при создании и развитии технологий сбора и обработки информации основное внимание удаляется развитию существующих технологий, нацеленных на анализ баз данных поисковых сервисов сети Интернет. Однако если встает вопрос об организации подобных процедур в рамках локальных корпоративных систем, то возникает проблема в анализе информации и ее взаимосвязей на локальном уровне. Для решения этой проблемы предлагается использовать модификацию векторной модели анализа данных с применением частотного мультилин-гвистического тезауруса.
Стандартный алгоритм векторной модели анализа данных отлично работает без использования мульти-лингвистического частотного словаря, однако если использовать частотный словарь, то в качестве весового коэффициента более целесообразно использовать весовой коэффициент каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре [1-3].
Тезаурус используется при вводе документов в автоматизированные информационно-управляющие системы, при формировании предписаний на поиск документов, при обеспечении контроля единообразия употребления слов и словосочетаний. Тезаурус является нормативным словарем ключевых слов в определенной предметной области. Отбор ключевых слов для тезауруса производится с учетом частоты их
употребления, значения информационного поиска, приемлемости терминов для ЛПР. При этом словарный состав тезауруса необходимо постоянно обновлять.
Особенно актуальной становится проблема создания тезауруса по основным экономическим, производственным и технологическим процессам предприятий с использованием автоматической обработки массивов электронных документов и данных, доступных в распределенных системах поддержки принятия решений. Тезаурус современных корпоративных информационно-управляющих систем, точно так же как и систем поддержки принятия решений, должен быть эффективен с точки зрения обеспечения заданной полноты и точности информационного поиска и снижения информационного шума. В то же время, тезаурус должен формироваться за разумное время и не требовать на свое создание больших финансовых и трудовых затрат, что характерно для тезаурусов [3-5].
Частотный мультилингвистический тезаурус можно представить в виде математической модели, основанной на теории множеств.
Пусть множества A1, A2, ..., Am - тематические рубрики, элементами которых являются термины. Одно слово может находиться в нескольких тематических рубриках, поэтому множества Ak, k = 1, ..., ш могут пересекаться. Словарь является объединением тематических множеств, т. е.
ш
О = и Ак (1)
к=1
Решетневские чтения. 2017
Весовые коэффициенты обозначаются а/к) - абсолютная частотная характеристика /-го термина в к-й тематической рубрике.
В соответствии с улучшенной моделью, релевантность документа d. к запросу q, которые рассматриваются как информационные векторы
dj = (W1 j , W2 j Wnj ) и q = (W1q , W2q , Wnq ) ОДе™ва-
ется как их скалярное произведение. При этом в стандартной формуле вместо весовой характеристики IDF предлагается использовать весовые коэффициенты
,(к)
из словаря:
(к) mij (к) w[.' =—-• a. ', j M ' '
(2)
где шу - количество появлений терма ti в документе
М- общее число слов в данном документе; а® -абсолютная частотная характеристика терма ti в к-й тематической рубрике из мультилингвистического тезауруса, которая может принимать значения от 1 до К, где К зависит от объема тезаурусной статьи.
Вычисление весовых значений V ¡ц происходит по стандартной формуле.
Релевантность представлена как скалярное произведение векторов документа и запроса:
/ ч d • q
rel (dj, q) = |—--
Z w.. • w. ¿j j 'q
Va • lql
E (Wj )2 4E (Wq)
(3)
Улучшенная векторно-пространственная модель представления данных имеет такие возможности, как:
- обработку запросов без ограничений их длины;
- простоту реализации режима поиска подобных документов (каждый документ может рассматриваться как запрос);
- сохранение результатов поиска с возможностью выполнения уточняющего поиска;
- отсутствие перебора всех документов коллекции для определения веса одного терма, что значительно увеличивает быстродействие данной модели;
- независимость от размерности коллекции документов.
Библиографические ссылки
1. Система поиска, анализа и обработки мульти-лингвистических текстов, интегрированная с информационно-поисковыми системами / И. В. Ковалев [и др.] // Вестник СибГАУ. 2013. № 1(47). С. 48-52.
2. Построение частотных словарей на основе исходных текстов с применением лемматизации / И. В. Ковалев [и др.] // Вестник СибГАУ. 2013. № 4 (50). С. 39-41.
3. Модели и методы оптимизации сбора и обработки информации / Н. А. Распопин [и др.] // Вестник СибГАУ. 2012. № 2 (42). С. 69-72.
4. Зеленков П. В., Прохорович Г. А. Модифицированный алгоритм HITS // Вестник СибГАУ. 2011. Вып. 2 (35). С. 17-20.
5. Processing information system for highly specialized information in corporate networks / P. V. Zelenkov, V. V. Brezitskaya, G. A. Prohorovic [и др.] // IOP Conference Series: Materials Science and Engineering. 2016. Vol. 155, № 1.
References
1. Sistema poiska i obrabotki multilingvisticheskih tekstov, integrirovannaya s informachionno-poiskovumi sistemami / I. V. Kovalev [et al.] // Vestnik SibSAU. 2013. № 1 (47). P. 48-52.
2. Postroenie chastotnykh slovarey na osnove iskhodnykh tekstov s primeneniem lemmatizatsii / I. V. Kovalev [et al.] // Vestnik SibSAU. 2013. № 4 (50). Р. 39-41.
3. Modeli i algoritmu optimizacii sbora i obrabotki informachii / N. Raspopin [et al.] // Vestnik SibSAU. 2012. № 2(42). Р. 69-72.
4. Zelenkov P. V., Prohorovich G. A. Modificirovannyj algoritm HITS // Vestnik SibSAU. 2011. Vol. 2 (35). Р. 17-20.
5. Processing information system for highly specialized information in corporate networks / P. V. Zelenkov, V. V. Brezitskaya, G. A. Prohorovic [et al.] // IOP Conference Series: Materials Science and Engineering. 2016. Vol. 155, № 1.
© Прохорович Г. А., Перанцева А. В., Брезицкая В. В., Туева Е. В., Бурдина Е. В., 2017
'=1