Научная статья на тему 'Подход к устранению избыточности семантически близкой текстовой информации в хранилищах и базах данных'

Подход к устранению избыточности семантически близкой текстовой информации в хранилищах и базах данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
396
152
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ / УСТРАНЕНИЕ ИЗБЫТОЧНОСТИ / ПРАВИЛА НЕЧЕТКОГО ВЫВОДА / СЕМАНТИЧЕСКИ БЛИЗКАЯ ТЕКСТОВАЯ ИНФОРМАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дашонок В. Л., Хомоненко А. Д., Боброва В. А.

Предложен подход к устранению избыточности семантически близкой текстовой информации на основе латентно-семантического анализа и одного из алгоритмов нечеткого вывода. Дана характеристика основных подходов к дедупликации данных как средству устранения избыточности. Рассмотрен латентно-семантический анализ как способ выявления семантической близости документов. Сформулирован вариант правил нечеткого вывода для решения задачи устранения избыточности семантически близкой информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дашонок В. Л., Хомоненко А. Д., Боброва В. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Approach for redundancy elimination of semantically similar information in archives and data bases

The article suggests an approach for elimination of semantically similar text information based on the latent semantic analysis and one of fuzzy inference algorithm. It characterizes the main approaches for deduplication, as a method for redundancy elimination. Furthermore, the latent semantic analysis is considered as a method for detection of semantically similarity of the documents. The article provides a formula for a fuzzy inference rules version to solve the problem of redundancy elimination of semantically similar information.

Текст научной работы на тему «Подход к устранению избыточности семантически близкой текстовой информации в хранилищах и базах данных»

ОБЩЕТЕХНИЧЕСКИЕ ЗАДАЧИ И ПУТИ ИХ РЕШЕНИЯ

УДК 004.62; 007

В. Л. Дашонок, А. Д. Хомоненко, В. А. Боброва

Петербургский государственный университет путей сообщения Императора Александра I

ПОДХОД К УСТРАНЕНИЮ ИЗБЫТОЧНОСТИ СЕМАНТИЧЕСКИ БЛИЗКОЙ ТЕКСТОВОЙ ИНФОРМАЦИИ В ХРАНИЛИЩАХ И БАЗАХ ДАННЫХ

Предложен подход к устранению избыточности семантически близкой текстовой информации на основе латентно-семантического анализа и одного из алгоритмов нечеткого вывода. Дана характеристика основных подходов к дедупликации данных как средству устранения избыточности. Рассмотрен латентно-семантический анализ как способ выявления семантической близости документов. Сформулирован вариант правил нечеткого вывода для решения задачи устранения избыточности семантически близкой информации.

латентно-семантический анализ, устранение избыточности, правила нечеткого вывода, семантически близкая текстовая информация.

Введение

Информация играет в нашей жизни все большую роль, в мире появляется все больше устройств, которые ее производят и тиражируют. Биты, блоки, последовательности, массивы, таблицы, файлы, мультимедиа, базы и хранилища данных, базы знаний - с каждой секундой объем данных растет с высокой скоростью. Структурированные и неструктурированные данные необходимо хранить, однако их хранение приводит к росту объема. Очень часто информация дублирована, содержит избыточные данные, что приводит

14

к неэффективному использованию средств хранения. Для того чтобы повысить эффективность управления данными и использования средств хранения, необходимо снижать избыточность данных.

Современные информационные системы и веб-приложения оперируют текстовой информацией, а также являются ее источниками, так как текст - это графическое представление мыслей, ощущений и знаний человека, которые можно передать на расстоянии. Например, в базе данных Science Citation Index только за 1981-1992 гг. число публикаций по биологии и клинической медицине составило более 9 и 7 млн соответственно. Информация в текстовом виде, как правило, избыточна.

С точки зрения лингвистики, избыточность информации - величина, которой измеряется относительная доля излишне используемых сообщений в некотором алфавите. Естественным языкам свойственна значительная избыточность информации, например, для русского языка избыточность составляет 50-80 % [1].

С точки зрения теории информации, информационная избыточность означает превышение количества информации, используемой для передачи или хранения сообщения, над его информационной энтропией (количеством информации, приходящимся на один элемент сообщения - знак, букву) [2].

Для повышения эффективности управления данными их структурируют и размещают в базах данных (БД). Избыточность может иметь место независимо от модели базы данных. В иерархических и сетевых БД избыточность связана с основными недостатками соответствующих моделей. В реляционных, объектно-реляционных (ОР) и объектно-ориентированных (ОО) базах данных избыточность приводит не только к увеличению занимаемого пространства, но и к проблемам, связанным с обработкой информации, так называемым аномалиям и противоречиям.

Решение подобных проблем в БД ведет к устранению (или по крайней мере серьезному сокращению) избыточности, и, как следствие, значительному повышению непротиворечивости и целостности данных. В реляционных БД это решается на этапе проектирования их структуры путем нормализации. Вопрос избыточности в объектно-ориентированных БД стоит более остро. ОО-подход предполагает использование более совершенных средств для отображения реального мира (данные представляются в естественном виде), а поскольку в реальном мире наблюдается большая избыточность, в объектные модели удобно вводить большое количество производных сущностей, что и порождает избыточность данных.

Создание хранилищ данных нередко производится автоматизированным способом из нескольких (возможно, разнородных) источников. В этом случае могут быть нарушены правила ограничения структурной, ссылочной и семантической целостности БД. Даже в реляционной и нормализованной БД при интеграции данных из различных источников может возникать семан-

15

тическая противоречивость хранимых данных. Наглядным примером служат БД информационных систем, поддерживаемых Единым государственным реестром прав (ЕГРП) и Государственным кадастром недвижимости (ГКН) [3]. Вполне логичное решение об их объединении в Единый государственный информационный ресурс объектов недвижимости (ЕГРОН) пока встречает препятствие в виде низкого качества данных. Так, в среднем сходимость ЕГРП и ГКН составляет 30-60 %, а в Чеховском районе Московской области - лишь 2 %. В целом же база данных Росреестра содержит 140 млн объектов адресации, это один из самых крупных адресных массивов в мире (для сравнения: в «Яндекс-картах» только 20 млн адресов).

Как отмечено в [4], «в настоящее время отсутствуют стандарты структуры адреса и порядок формирования адресов объектов недвижимости, а также отсутствуют нормы, устанавливающие полномочия по ведению государственного адресного реестра, реестра элементов улично-дорожной сети и элементов планировочной структуры на федеральном уровне». Однако без стандартов в случае семантической несовместимости информационных ресурсов становится невозможным предоставление данных, содержащихся в информационных системах.

Для повышения надежности хранения данных применяется резервное копирование. Регулярное резервное копирование одного файла или дискового тома с использованием обычных политик резервирования приводит к хранению нескольких одинаковых копий и постепенному заполнению пространства дискового хранилища. В этом случае для устранения избыточности применяются методы дедупликации и компрессии данных.

1 Характеристика дедупликации

Дедупликация используется в масштабе всей файловой системы или ресурсов хранения. Различия заключаются в степени детализации (уровень файлов или блоков). Блоки бывают с фиксированным и переменным размером. У блоков фиксированного размера эффективность зависит от размера блока и типа данных, у переменных блоков - от хеш-функции.

Алгоритм дедупликации на источнике или получателе информации в зависимости от реализации сегментирует входящий поток данных, уникально идентифицирует полученные сегменты, а затем сравнивает их с обработанными ранее. Если новый сегмент является копией ранее сохраненного, то он не размещается на системе хранения, а вместо него записывается ссылка на ранее сохраненный сегмент. Если входящий сегмент уникален, то он помещается на конечное устройство хранения [5], [6].

Существуют два метода обработки данных при дедупликации. Поточный (inline) метод предполагает дедупликацию данных перед их записью на

16

ресурсы хранения, серьезную нагрузку на вычислительные ресурсы сервера, но позволяет значительно снизить требования к ресурсам хранения, а так же снизить нагрузку на сеть. Пост процессный (post-process) метод проводит анализ и обработку данных после их размещения на ресурсах хранения. Данные сначала записываются на диск, после чего запускается процесс их дедупликации. Это требует больших дисковых ресурсов, повышает нагрузку на сеть, но освобождает сервер от несвойственной ему функции.

Дедуплицировать блоки данных можно двумя способами. Первый способ подразумевает независимость от типа исходных данных, генерируемых различными приложениями. Второй способ основывается на использовании информации о формате и способах хранения данных внутри исходного набора данных, например форматов файлов, генерируемых распространенными приложениями.

Дедупликация и архивирование производятся на уровне файловой системы, а эффективность устранения избыточности зависит от множества факторов. В базах данных, содержащих много текстовых данных, естественная информационная избыточность может быть высокой изначально. При этом можно предложить метод ее снижения на уровне приложений путем исключения семантически близких данных. Совместное использование технологий семантической обработки и анализа текстовой информации с постпроцессной дедупликацией позволит перераспределить нагрузку на вычислительные ресурсы сервера и системы хранения данных, повысить эффективность хранения данных и работы системы управления БД, а так же снизить избыточность данных.

В работе [7] проводится сравнительный анализ методов автоматического установления смысловой близости документов. Одним из важнейших подходов для установления смысловой близости документов является латентно-семантический анализ. На основе проводимого анализа можно принимать решения о смысловой близости документов.

Далее нами предложен подход к устранению избыточности семантически близкой текстовой информации на основе латентно-семантического анализа и одного из алгоритмов нечеткого вывода.

2 Характеристика подхода к устранению избыточности семантически близкой текстовой информации

Суть предлагаемого подхода к устранению избыточности семантически близкой текстовой информации состоит в следующем:

1. Оценка степени совпадения текста. Если нет полного совпадения текста, то переходим к шагу 2. В противном случае выполняется устранение дублированных данных.

17

2. Определение семантически близкой текстовой информации с помощью одного из методов семантического анализа, например, латентно-семантического.

3. Принятие решения о возможности устранения семантически близкой информации на основе одного из алгоритмов нечеткого вывода, например алгоритма Мамдани.

Семантически близкая информация на железнодорожном транспорте может поступать в базы данных из различных корпоративных информационных систем. К примеру, это могут быть Экспресс-3, АСОУП-2, Сириус, ЕК АСУФР, АСУ ГП и др. [8], [9]. В частности, современная разработка ОАО «НИИАС» [10] «Единая интеллектуальная система управления и автоматизации производственных процессов на железнодорожном транспорте» строится на основе интеграционной платформы, которая объединяет все источники данных и обеспечивает доступ к информации всех прикладных систем.

В качестве основных составляющих содержимого сравниваемых текстовых документов могут выступать следующие информационные признаки: время, место и действие. Кроме того, при сравнении документов естественно учитывать степень (например, процент) совпадения текста.

Подчеркнем, что определение состава основных информационных признаков текстовых документов, сравниваемых по их семантической близости, является важнейшей и нетривиальной задачей, не получившей исчерпывающего решения.

3 Применение алгоритма латентного семантического анализа

Латентно-семантический анализ (ЛСА) представляет собой метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и встречающимися в них термами, сопоставляющий некоторые факторы (тематики) всем документам и термам [11] - [14]. В основе метода ЛСА лежат принципы факторного анализа, в частности, выявление латентных (скрытых) связей изучаемых явлений или объектов. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.

Главные цели использования ЛСА - выявление семантических связей между термами и латентных зависимостей внутри множества текстовых документов, распределение (классификация) документов на группы, расширение поисковых запросов, и решение некоторых других задач.

Метод ЛСА предназначен также для извлечения контекстно-зависимых значений слов при помощи статистической обработки больших наборов

18

текстовых данных [8]. Метод используется при поиске и индексации информации [9], а также в задачах фильтрации. Метод ЛСА позволяет выявить взаимосвязь слов по их контекстам.

Метод ЛСА использует сингулярное разложение исходной матрицы А «термы на документы». В результате получаются три матрицы U, S и V. Результат разложения записывается в виде произведения:

A = USV.

Далее требуется понизить ранг k исходной матрицы. Исходная матрица содержит так называемые шумы (например, случайное совпадение внутренних характеристик у двух документов). Понижение ранга позволяет уменьшить влияние «шумов». Оно позволяет также уменьшить трудоемкость и время обработки исходной матрицы, что целесообразно для очень больших матриц. Чрезмерное понижение ранга исходной матрицы может привести к потере значимой информации, и в результате мы можем получить неудовлетворительные взаимосвязи между объектами.

Понижение ранга приводит к сокращению числа столбцов и строк в составляющих матрицах U, S и V. В результате получаем сокращенные матрицы U, Sk и V Результат понижения ранга матрицы записывают в виде произведения:

^ = UkSkVk.

При понижении ранга встает вопрос, какое оптимальное значение k выбрать для получения более точных результатов [14].

В нашем случае с помощью метода ЛСА оценивается семантическая близость сравниваемых документов с помощью выбранных информационных признаков (например, время, место и действие).

После получения количественных оценок семантической близости сравниваемых документов переходим к этапу нечеткого вывода с целью принятия решения по устранению избыточности информации.

4 Основные этапы и правила нечеткого вывода

Нечеткий вывод решений обычно строится с помощью получившего большое распространение ряда алгоритмов нечеткого вывода Мамдани, Ларсена, Такаги-Сугено и др. Выбор алгоритма нечеткого вывода определяется в основном решаемой прикладной задачей и требует отдельного рассмотрения с позиций достижения наилучшего баланса между точностью и трудоемкостью вывода решения [15] - [18].

19

Как правило, алгоритмы нечеткого вывода включают в себя следующие этапы [15]:

1. Введение нечеткости (фаззификация). Функции принадлежности (ФП), определенные на входных переменных, применяются к их фактическим значениям для определения степени истинности каждой предпосылки каждого правила.

2. Агрегирование степеней истинности предпосылок правил. Численные значения степеней истинности, полученные на этапе 1, агрегируются в зависимости от используемых в правилах нечетких логических связок (И/ИЛИ) между предпосылками.

3. Активизация или композиция заключений правил. Вычисленное значение истинности для предпосылок каждого правила применяется к заключениям каждого правила, что приводит к одному нечеткому подмножеству, которое будет назначено каждой переменной вывода для каждого правила.

4. Аккумулирование активизированных заключений правил. Все нечеткие подмножества, назначенные в каждой переменной вывода (во всех правилах), объединяются вместе, чтобы сформировать одно нечеткое подмножество для всех переменных вывода.

5. Приведение к четкости (дефаззификация). Используется, если требуется преобразовать нечеткий набор выводов в четкое число.

Для решения прикладной задачи устранения избыточности семантически близкой информации в первом приближении можно сформулировать следующие правила нечеткой логики:

ПРАВИЛО <1>: ЕСЛИ «полное совпадение текста» ТО «устраняем менее важный (старый) вариант»;

ПРАВИЛО <2>: ЕСЛИ «совпадение текста высоко» И «семантика вариантов близка» ТО «устраняем менее важный вариант»;

ПРАВИЛО <3>: ЕСЛИ «совпадение текста высоко» И «семантика сравнительно близка» ТО «устраняем менее важный вариант»;

ПРАВИЛО <4>: ЕСЛИ «совпадение текста высоко» И «семантика вариантов различна» ТО «сохраняем оба варианта»;

ПРАВИЛО <5>: ЕСЛИ «совпадение текста не высоко» ТО «сохраняем оба варианта».

При формировании простых нечетких высказываний в предпосылках и заключениях продукционных правил необходимо задать функции принадлежности соответствующих нечетких множеств термов лингвистических переменных.

Формирование правил нечеткого вывода, задание функций принадлежности для каждого из термов лингвистических переменных требует тщательной проработки и обоснования, практической реализации и оценивания достоверности получаемых решений.

20

Заключение

Устранение избыточности в хранилищах и базах данных на основе латентно-семантического анализа и нечеткого вывода, на наш взгляд, может позволить заметно уменьшить объем хранимых данных. Дальнейшие исследования предполагается продолжить в направлениях: практической реализации предложенного подхода, оценки достоверности и эффективности получаемых решений, обоснования состава основных информационных признаков семантической близости сравниваемых сегментов данных, обоснования выбора наилучшего алгоритма нечеткого вывода.

Библиографический список

1. Энциклопедический словарь : психология труда, рекламы, управления, инженерная психология и эргономика / ред. Б. А. Душков ; сост. Б. А. Душков, Б. А. Смирнов, А. В. Королев. - Екатеринбург : Деловая книга, 2000. - 462 с.

2. Избранные труды. Том 3. Теория информации и теория алгоритмов / А. Н. Колмогоров. - Москва : Наука, 2005. - 264 с.

3. ИКТ в Госсекторе : перезагрузка / С. Макаров // CNews. - 2013 - № 66. - С. 26-29.

4. Письмо Министерства экономического развития РФ от 20 декабря 2010 г. № Д23-5204.

5. Оптимальное использование ресурсов памяти / Г. Шрамм // Журнал сетевых решений LAN. - 2011. - № 03. [Электронный ресурс]. - Режим доступа: http://www.osp. ru/lan/2011/03/13007413/.

6. Решения по дедупликации данных / А. Щербинин // Storage News. - 2008. -№ 2. - С. 2-7.

7. Методы автоматического установления смысловой близости документов на основе их концептуального анализа / А. А. Хорошилов / Труды 15-й Всероссийской научной конференции «Электронные библиотеки : перспективные методы и технологии, электронные коллекции». - Ярославль, 14-17 октября 2013 г. Секция 6.

8. Информационные технологии на железнодорожном транспорте / ред. Э. К. Лец-кий, Э. С. Поддавашкин, В. В. Яковлев. - Москва : УМК МПС России, 2000. - 680 с.

9. Системы автоматизации и информационные технологии управления перевозками на железных дорогах / ред. В. И. Ковалев, А. Т. Осьминин, Г. М. Грошев. - Москва : Маршрут, 2006. - 544 с.

10. Интеллектуальная информационно-управляющая среда для организации перевозок и транспортного обслуживания // Труды 2-й научно-технической конференции «Интеллектуальные системы управления железнодорожным транспортом». Москва, 15-16 ноября 2012 г. - С. 66-72.

11. Автоматическая классификация документов на основе латентно-семантического анализа / И. Е. Кураленок, И. С. Некрестьянов // Труды первой всероссийской научно-методической конференции «Электронные библиотеки : перспективные методы и технологии, электронные коллекции». - Санкт-Петербург, 1999. - C. 89-96.

21

12. Применение методов латентно-семантического анализа для автоматической рубрикации документов / А. Д. Хомоненко, С. А. Краснов // Известия ПГУПС. - 2012. -№ 2 (31). - С. 124-132.

13. Автоматическая рубрикация текстов : методы и проблемы / М. С. Агеев, Б. В. Добров, Н. В. Лукашевич // Учебные записки Казанского государственного университета. Физико-математические науки. - 2008. - Т. 150. - Кн. 4. - С. 25-40.

14. Landauer, Т., Foltz, P., Laham, D. (1998). An introduction to Latent Semantic Analysys. Discourse Processes, 25, 259-284.

15. Нечеткое моделирование в среде MATLAB и fuzzyTECH / А. Леоненков. -Санкт-Петербург : БХВ-Петербург, 2005. - 736 с.

16. Нечеткая логика и искусственные нейронные сети / В. В. Круглов, М. И. Дли, Р. Ю. Голунов. - Москва : Изд-во физико-математической литературы, 2001. - 224 с.

17. Выявление вредоносных программных воздействий на основе нечеткого вывода / С. В. Войцеховский, А. Д. Хомоненко // Проблемы информационной безопасности. Компьютерные системы. - 2011. - № 3. - С. 81-91.

18. Введение в теорию нечетких множеств и нечеткую логику / С. Д. Штовба. -Винница : Изд-во Винницкого государственного технического университета, 2001. - 198 с.

© Дашонок В. Л., Хомоненко А. Д., Боброва В. А., 2013

22

i Надоели баннеры? Вы всегда можете отключить рекламу.