Математические методы моделирования, управления и анализа данных
УДК 512.642
ВЕКТОРНАЯ МОДЕЛЬ АНАЛИЗА ДАННЫХ
Г. А. Прохорович, А. В. Перанцева, В. В. Брезицкая, Е. В. Туева, М. О. Петросян
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
В настоящее время при создании и совершенствовании систем поиска информации используются различные модели анализа данных. Приведено описание классической алгебраической модели анализа данных - векторной модели.
Ключевые слова: поисковые системы, векторная модель, анализ данных.
VECTOR MODEL OF DATA ANALYSIS G. A. Prohorovich, A. V. Perantseva, V. V. Brezitskaya, E. V. Tueva, M. O. Petrosyan
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email protected]
Currently, when creating and improving information retrieval systems, various models of data analysis are used. A description of the classical algebraic model of data analysis - a vector model is given.
Keywords: search engines, vector model, data analysis.
Многие из известных информационно-поисковых систем базируются на векторно-пространственной модели описания данных (Vector Space Model), предложенной Г. Солтоном в 1975 г. и впервые примененной в системе SMART. Данная модель является классической алгебраической. В рамках этой модели документ описывается вектором в евклидовом пространстве, в котором каждому терму, использующемуся в документе, ставится в соответствие его весовое значение, определяемое на основе статистической информации о его появлении, как в отдельном документе, так и во всем документальном массиве. Описание запроса, соответствующего необходимой пользователю тематике, также представляет собой вектор в том же евклидовом пространстве термов. Для оценки релевантности запроса и документа используется скалярное произведение соответствующих векторов запроса и документа [1].
В рамках этой модели каждому ключевому терму t в документе dj соответствует некоторый неотрицательный вес Wj.
Каждому запросу q, который представляет собой также множество термов, не соединенных между собой никакими логическими операторами, также соответствует вектор весовых значений wiq.
Таким образом, каждый документ и запрос могут быть представлены в виде n -мерного вектора, где n -общее количество термов в словаре модели.
Графически векторная модель представлена на рисунке.
В соответствии с рассматриваемой моделью, релевантность документа dj к запросу q, которые как рассматриваются как информационные векторы
^ =(Щу,Щу,) и Ч = (,Щд) ОДенива-ется как их скалярное произведение. При этом вес отдельных термов можно вычислять разными способами [2-4].
Графическое представление векторной модели
Одним из самых распространенных является TF-IDF, согласно которому веса щ вычисляются по следующей формуле:
m,,
wii=-
ъ
■ log
N
(1)
где ту - количество появлений терма и в документе
п
^ тку - общее число слов в данном документе;
kj
k=1
k=1
Решетневские чтения. 2017
N - общее число документов в массиве; п - количество документов, в которых встречается
Весовые значения wiq вычисляются по формуле:
w. =
iq
1, если i-й терм присутствует в запросеq; 0, если i-й терм не присутствует в запросеq.
Релевантность для данной модели поиска представлена как скалярное произведение векторов документа и запроса, которое соответствует косинусу угла между векторами:
/ \ d ■ q
rel ydj, q) = -.—--
z
\dj\ ■ lql
Z (Wj)2 JZ (Wiq)
(2)
Векторно-пространственная модель представления данных обеспечивает системам, построенным на ее основе, такие возможности, как:
- обработку запросов без ограничений их длины;
- простоту реализации режима поиска подобных документов (каждый документ может рассматриваться как запрос);
- сохранение результатов поиска с возможностью выполнения уточняющего поиска.
Вместе с тем в векторно-пространственной модели не предусмотрено использование логических операций в запросах, что существенно ограничивает ее применимость.
мационю-шисковыми системами / И. В. Ковалев [и др.] // Вестник СибГАУ. 2013. № 1 (47). С. 48-52.
2. Модели и методы оптимизации сбора и обработки информации / Н. А. Распопин [и др.] // Вестник СибГАУ. 2012. № 2 (42). С. 69-72.
3. Зеленков П. В., Прохорович Г. А. Модифицированный алгоритм HITS // Вестник СибГАУ. 2011. Вып. 2 (35). С. 17-20.
4. Processing information system for highly specialized information in corporate networks / P. V. Zelenkov, V. V. Brezitskaya, G. A. Prohorovic [и др.] // IOP Conference Series: Materials Science and Engineering. 2016. Vol. 155, Number 1.
References
1. Sistema poiska i obrabotki multilingvisticheskih tekstov, integrirovannaya s informachionno-poiskovumi sistemami / I. Kovalev [et al.] // Vestnik SibSAU. 2013. No. 1 (47). Р. 48-52.
2. Modeli i algoritmu optimizacii sbora i obrabotki informachii / N. Raspopin [et al.] // Vestnik SibSAU. 2012. No. 2 (42), Р. 69-72.
3. Zelenkov P. V., Prohorovich G. A. Modificiro-vannyj algoritm HITS // Vestnik SibSAU. 2011. Vol. 2 (35). Р. 17-20.
4. Processing information system for highly specialized information in corporate networks / P. V. Zelenkov, V. V. Brezitskaya, G. A. Prohorovic [et al.] // IOP Conference Series: Materials Science and Engineering. 2016. Vol. 155, Number 1.
Библиографические ссылки
1. Система поиска, анализа и обработки мульти-лингвистических текстов, интегрированная с инфор-
© Прохорович Г. А., Перанцева А. В., Брезицкая В. В., Туева Е. В., Петросян М. О., 2017
i=1