УДК 004.5, 004.9
DOI: 10.25702/KSC.2307-5252.2018.10.99-111
А.В. Вицентий, М.Г. Шишаев, В.В. Диковицкий
Институт информатики и математического моделирования ФИЦ КНЦ РАН
ОПЫТ ИСПОЛЬЗОВАНИЯ ВИЗУАЛИЗАЦИИ СЕМАНТИЧЕСКИХ МОДЕЛЕЙ ДОКУМЕНТОВ ДЛЯ ЭКСПРЕСС КОНТЕНТ-АНАЛИЗА (НА ПРИМЕРЕ НОРМАТИВНО-ПРАВОВЫХ АКТОВ, РЕГЛАМЕНТИРУЮЩИХ РАЗВИТИЕ ПРОСТРАНСТВЕННО-РАСПРЕДЕЛЕННЫХ СИСТЕМ)*
Аннотация
В настоящее время большие объемы данных доступны в текстовой форме. Однако из-за характерных особенностей текста на естественных языках, разработка полностью автоматических методов анализа семантики текстов является сложной задачей. В настоящей статье описывается состав, структура и некоторые области применения разработанных технологий семантического анализа и визуализации семантических моделей текстовых документов. Также описываются методы визуального экспресс контент-анализа документов. Эти методы являются частью технологии визуализации семантических моделей текстовых документов и реализованы в виде независимых программных инструментов. Для демонстрации основных возможностей технологии, подробно описывается опыт использования визуализации семантических моделей документов для визуального экспресс контент-анализа нормативно-правовых актов, регламентирующих развитие пространственно-распределенных систем различного уровня и анализ полученных результатов. В заключении делается вывод о перспективных областях использования разработанных технологий, а также определяются основные направления дальнейшей работы и возможности по расширению функциональности методов визуального экспресс контент-анализа текстовых документов.
Ключевые слова:
визуальный анализ документов, контент-анализ, человеко-компьютерный интерфейс, управление пространственно-распределенными системами, tensorflow, TF-IDF
A.V. Vicentiy, M.G. Shishaev, V.V. Dikovitsky
EXPERIENCE IN USING THE VISUALIZATION OF DOCUMENT SEMANTIC MODELS FOR EXPRESS CONTENT ANALYSIS (ON THE EXAMPLE OF LEGAL ACTS REGULATING THE DEVELOPMENT OF SPATIALLY DISTRIBUTED SYSTEMS)
Abstract
Currently, large amounts of data are available in text form. However, due to the characteristic features of the text in natural languages, the development of fully automatic methods for analyzing the semantics of texts is a difficult task. This paper describes the composition, structure and some areas of application of the developed technologies of semantic analysis and visualization of semantic models of text documents. Also, methods for visual express content analysis of documents are described. These methods are part of the technology for visualizing semantic models of text documents and implemented as independent software tools. To demonstrate the main features of the technology, the experience of using the visualization of semantic document models for visual express content analysis of legal acts regulating
* Исследование выполнено при финансовой поддержке РФФИ и Министерства образования и науки Мурманской области в рамках научных проектов № 17-47-510298 р_а и 17-45-510097 р_а.
the development of spatially-distributed systems of various levels and analysis of the results is described in detail. The final part of the paper identifies some promising areas of application of the developed technologies, as well as determines the main directions for further work and the possibilities to expand the functionality of the methods of visual express content analysis of text documents.
Keywords:
documents visual analysis, content analysis, human-computer interface, management of spatially-distributed systems, tensorflow, TF-IDF
1. Введение
С увеличением количества и объема документов, используемых для решения различных прикладных задач, становится все труднее выделить достаточное время для их изучения. Это приводит к распространению ситуаций, когда приходится отказаться от подробного изучения документа, ограничившись кратким обзором, чтобы понять основной смысл. Таким образом, мы жертвуем точностью понимания смысла документа в пользу скорости его интерпретации. Что касается текстовых документов, этот процесс часто называют «диагональным чтением». С диагональным чтением мы получаем некоторый набор основных мыслей, обобщающих смысл документа. Получив общее представление о значении документа, мы интегрируем его как неотъемлемый объект в нашу ментальную систему понятий и, при необходимости, можем «извлечь» его для более детального изучения. В этой работе мы делаем следующий шаг в этом направлении: получение наиболее общего представления о значении документа, которое может быть выражено в одном изображении, интерпретированном одним взглядом. Мы будем называть этот процесс «быстрым пониманием». Благодаря такому подходу, мы можем применять подход визуального анализа для анализа семантики текстовых документов.
Работа с электронными документами воплощает задачу быстрого распознавания смысла в разных ситуациях. В этой статье рассматриваются три случая:
1. Представление результатов поиска. Даже самая сложная поисковая система гарантирует только релевантность результата, то есть его соответствие сформулированному запросу, но не реальным ожиданиям пользователя. Удовлетворение реальных ожиданий пользователя должно являться главным свойством результата поиска. Это свойство называется пертинентностью. Для его априорной гарантии можно использовать разные подходы к организации поисковых систем, в том числе предложенные авторами [1]. Однако, для этого необходимо иметь некоторую модель психических стереотипов каждого пользователя, которую чрезвычайно сложно обеспечить в информационных системах массового использования. Поэтому потенциально эффективным подходом может быть дополнение документа в списке результатов поиска изображением, характеризующим его обобщенное значение. Это обеспечит апостериорную быструю оценку соответствия результатов поиска ожиданиям пользователей. В этом случае главная задача визуализации - убедиться, что пользователь в сжатом виде понимает смысл документа.
2. Идентификация противоречивых документов. Этот случай основан на предположении, что документы, которые идентичны в терминах набора понятий, но имеют разную семантическую структуру, вероятно, будут противоречить друг
другу. Методика быстрого распознавания смыслов поможет выявить такие потенциальные конфликты в случае большого количества или большого объема исходных документов. Согласно первоначальному предположению, главная задача визуализации в этом случае - отразить сходство терминов, используемых в рассматриваемых документах, а также силу отношений между терминами.
3. Разделение набора документов на группы по смыслу. Хотя обычной практикой является априорное распределение похожих документов в разные папки, во многих случаях папка может содержать огромное количество документов, что заставляет пользователя кластеризовать набор документов. Этот случай похож на предыдущий, за исключением того, что нет необходимости понимать значение как таковое для разделения большого количества документов на аналогичные кластеры - достаточно идентифицировать только сходство значения двух или более документов. Потенциально это делает другие методы визуализации обобщенного смысла документа более эффективными.
В этой работе мы рассмотрим двухэтапный способ получения общего семантического представления документа. На первом этапе в автоматическом режиме выполняется семантический анализ документа. Это делается путем применения методов анализа контента и лексикографического анализа к текстовым документам. Первое реализовано путем подсчета TF и других мер, а второе - с помощью нейронной сети, предназначенной для семантического разрешения текстовых предложений. Результатом первого этапа является взвешенная семантическая сеть, которая характеризует частоту использования понятий в документе, а также наличие и силу семантических связей между понятиями. Этот семантический образ документа визуализируется как единое целое на втором этапе. Затем этот визуальный образ представляется пользователю для быстрого понимания смысла документа. Таким образом, предлагаемый подход представляет собой комбинацию семантического и визуального анализа.
Необходимость быстро обрабатывать постоянно увеличивающиеся объемы информации в текстовых документах существует в самых разных сферах деятельности. В этой статье мы рассматриваем проблему с точки зрения регионального административного управления. В этой области существует много объектов управления с довольно сложными отношениями, вызванными административной иерархией, территориальными особенностями и другими факторами. Это создает благодатную почву для появления большого количества документов с перекрывающимися, а также противоречивыми смыслами. В качестве примера для исследования мы взяли два документа, отражающих стратегические приоритеты России в Арктическом регионе:
1. Стратегия социально-экономического развития Мурманской области до 2020 года и на период до 2025 года (далее - «Стратегия МО») [2];
2. Стратегия развития Арктической зоны Российской Федерации и обеспечения национальной безопасности на период до 2020 года (далее - «Стратегия АЗРФ») [3].
Выпущенные на разных административных уровнях и, очевидно, имеющие пересекающиеся субъекты рассмотрения (Мурманская область является частью арктической зоны Российской Федерации), эти документы являются хорошим примером для рассмотрения.
Остальная часть статьи разделена на два основных раздела. В первом разделе рассматриваются подходы, методы и программные средства для
формирования семантической модели документа. Во втором разделе представлены результаты формирования семантических изображений вышеуказанных документов, а также предварительные выводы о перспективах и проблемах использования различных методов визуализации для быстрого распознавания смысла в контексте трех перечисленных выше проблем.
2. Технология формирования семантической модели документа
Для анализа текста используются различные методы извлечения формализованной семантики, основанные на аппарате лингвистики, статистических методах, математической логике, кластерном анализе, методах искусственного интеллекта и других методах и технологиях. Подходы к обработке и анализу текста можно разделить на статистические и лингвистические. Статистический подход основан на предположении, что содержание и, частично, семантика текста отражается наиболее часто встречающимися словами. Суть статистического анализа - учет появления слов в документе или предложении. Общим подходом является присвоение каждому термину t в документе неотрицательного веса.
Вес термина можно рассчитать по-разному, простейшим является «вес», равный числу вхождений термина t в документе d, обозначаемому tf (term frequency) [4]. Этот метод взвешивания не учитывает дискриминационную силу этого термина. Поэтому, когда доступны статистические данные об использовании терминов в наборе документов, выполняется схема вычисления веса tf-idf определяемая следующим образом:
N
tf - ldf,,d = tfUd х ldf,, ldf, = log 37 (1)
dfi
df - частота документа, определяемая как количество документов в коллекции, содержащих t, idf - обратного частота документа, N - общее количество документов в коллекции. Основным недостатком статистических методов текстового анализа является невозможность учета семантики. Использование лингвистических методов текстового анализа наряду со статистическими позволяет преодолеть этот недостаток.
Предлагаемая технология анализа текста включает несколько этапов: графематический, морфологический, синтаксический и семантический анализ. Результаты работы каждого уровня используются следующим уровнем анализа в качестве входных данных. Графематический анализ выделяет элементы структуры текста: параграфов, абзацев, предложений, отдельных слов и т. д. Целью морфологического анализа является определение морфологических характеристик слова и его основной словоформы. Целью синтаксического анализа является определение синтаксической зависимости слов в предложении. В связи с присутствием в русском языке большого количества синтаксически омонимичных конструкций, наличием тесной связи между семантикой и синтаксисом, процедура автоматизированного синтаксического анализа текста является недостаточной для определения зависимостей между понятиями предложения. Сложность увеличивается экспоненциально при увеличении количества слов в предложении и числа используемых правил. Семантический этап определяет формальное представление смысла составляющих входной текст
слов и конструкций. Для учета и хранение контекста понятий предметной области, учета различных форм передачи синтаксиса, а также на решение проблемы равнозначности слов направлено формирование на основе коллекции документов семантической модели предметной области (СМПО) в виде структуры взвешенных семантических отношений. СМПО позволяет реализовать процедуры извлечения и хранения множественного контекста употребленных в документах понятий, частично решая проблему совместимости новой информации с уже накопленными знаниями, а также выявить противоречия в семантических образах документов, в случае, если новая информация противоречит накопленной. Ниже приведена процедура формирования СМПО.
На начальном этапе текст делится на предложения и подвергается грамматическому анализу и лемматизации. Для синтаксического анализа и определения морфологических характеристик слов используется грамматический словарь русского языка [5], тезаурус WordNet [6], а также библиотека определения синтаксических связей SyntaxNet, основанная на аппарате искусственных нейронных сетей Tensor-Flow [7].Особенностью такого подхода является возможность производить анализ морфологии и синтаксиса для слов, отсутствующих в тезаурусе. TensorFlow представляет собой библиотеку для машинного обучения и глубокого исследования нейронных сетей в рамках научно-исследовательской организации Machine Intelligence. Система масштабируема и может быть использована на множестве устройств. Основу библиотеки составляют графы потоков данных, библиотека функционирует на уровне задания архитектуры нейронной сети и ее параметров. Данные в TensorFlow представлены в виде многомерных массивов данных с переменным размером - тензоров. Вычисления представляются в виде направленного графа, пути, по которым эти данные перемещаются - это ребра графа. Тензоры переходят от узла к узлу по ребрам графа [7]. Множество морфологических признаков, определяемых SyntaxNet (374), грамматических категорий (49), и типов зависимостей (37) заданы в нотации Universal Dependency [8]. Для обработки предложений библиотекой SyntaxNet слова предложений преобразуются в вектор библиотекой Word2Vec [9]. Векторные представления слов позволяют рассчитать смысловую близость между словами. Поскольку алгоритмы Word2Vec основаны на обучении нейронной сети, для достижения эффективной работы необходимо использовать большой текстовый корпус для обучения. Для обучения Word2Vec использовались подготовленные векторы, полученные в наборе данных Google News [11]. Модель содержит векторы для 3 миллионов слов и фраз. Фразы были получены с использованием подхода skip-gram[10]. Далее предложения в векторной форме подаются на входной слой нейронной сети, реализованной на основе TensorFlow и обученной на корпусе Universal Dependences. Русскоязычная часть текстовые корпуса в Universal Dependences представлены корпусам SinTagRus [12] и Google Russian Treebank [13]. Результатом работы SyntaxNet является дерево зависимостей предложения и морфологические характеристики слов. Результатом анализа документа является взвешенный семантический образ документа. Семантический образ документа представляет собой семантическую сеть, набор понятий и набор ребер - отношений над понятиями. СМПО формируется в результате интеграции семантических образов документов. Структура сервиса семантического анализа представлена на рисунке.
Рисунок 1. Веб-сервис семантического анализа.
С помощью данного сервиса проанализированы два документа -«Стратегия АЗРФ» и «Стратегия МО», получены две взвешенные семантические сети, содержащие 1993 слова и 2957 отношений для первого документа и 7847 слов и 18044 отношения для второго. Следующий шаг состоял в визуализации документов с целью обеспечения анализа контента.
3. Опыт визуализации семантических моделей документов в контексте различных задач визуального экспресс контент-анализа.
Для демонстрации основных возможностей технологии визуализации семантических моделей текстовых документов ниже приводятся примеры использования методов визуального экспресс контент-анализа документов. Эти методы являются частью технологии визуализации семантических моделей текстовых документов. Эти методы могут использоваться как в комплексе, так и по отдельности. Способы использования методов и интерпретации полученных результатов зависят от поставленной пользователем задачи.
Для проведения процедуры визуального контент анализа упомянутых выше «Стратегии социально-экономического развития Мурманской области до 2020 года и на период до 2025 года» и «Стратегии развития Арктической зоны Российской Федерации и обеспечения национальной безопасности на период до 2020 года» мы использовали три метода, которые были реализованы нами как независимые программные инструменты:
1. «Top 100 Words» - этот метод визуализирует сто самых важных понятий, которые характеризуют документ. Визуализация осуществляется в виде списка понятий документа, упорядоченного по весу понятий;
2. «Semantic Network» - этот метод визуализирует семантическую модель документа в виде семантической сети. Семантическая сеть документа состоит из понятий документа и различных типов отношений между ними;
3. «Semantic Networks Imposition» - этот метод визуализирует семантические модели документов в виде круга. Понятия документа помещаются на окружности, а отношения между ними отображаются внутри круга.
Ниже описан опыт практического применения этих методов для визуального экспресс контент-анализа нормативно-правовых актов, регламентирующих развитие пространственно-распределенных систем, и краткая интерпретация полученных результатов.
3.1 Пример использования метода «Top 100 Words»
Первым методом, для которого мы опишем пример использования для визуального экспресс-анализа содержимого документов, является метод «Top 100 Words». Этот метод, с одной стороны, обеспечивает быстрое создание визуального образа документа даже для относительно больших документов а, с другой стороны, хорошо подходит для оценки тематики анализируемого документа в целом. Фактически, этот метод визуализирует наиболее важные слова документа, которые можно считать ключевыми для описания его контента.
Для вычисления значения важности или веса слова используется статистическая мера TF-IDF. В текущей реализации метода используется абсолютное значение важности слов. То есть при вычислении веса слова, объем документа не учитывается.
Мы применили метод «Top 100 Words» к «Стратегии МО» и «Стратегии АЗРФ» независимо друг от друга. Фрагмент результатов работы метода представлен на рисунке 2. На рисунке показано только одиннадцать концептов (слов) с максимальным весом из каждого документа.
«Стратегия МО» «Стратегия АЗРФ»
WORD TF-IDF WORD TF-IDF
1 развитие 161 1 Арктической 190
2 области 141 2 Российской 173
3 региона 126 3 Федерации 161
4 Мурманской 120 4 развитие 90
5 государственной 93 5 обеспечение 79
6 населения 79 6 зоны 68
7 повышение 65 7 государственной 61
8 обеспечение 63 8 системы 52
9 Российской 62 9 безопасности 33
10 создание 48 10 деятельности 30
11 системы 42 11 населения 26
Рисунок 2. Результаты анализа документов с помощью метода «Top 100
Words» (фрагмент)
В зависимости от задачи анализа, пользователь может по-разному интерпретировать полученные результаты. Но, даже на первый взгляд, видно, что из множества слов с максимальным весом, более 50% слов совпадают в обоих документах. Это, в частности, может свидетельствовать о том, что эти документы имеют общую тематику и схожую терминологию. На основании этого вывода, можно говорить о том, что при проведении разбиения коллекции документов на несколько кластеров, эти документы с высокой вероятность могут попасть в один и тот же кластер, так как обладают некоторой общностью.
Результаты анализа документов с использованием метода «Top 100 Words» могут быть использованы для повышения эффективности задач поиска документов на этапе анализа результатов поиска. Чтобы повысить эффективность анализа результатов поиска, каждый документ должен быть дополнен визуальным образом документа. В этом случае визуальный образ документа представляет собой список основных концептов (понятий) документа. Список понятий упорядочивается по значению весов понятий.
Однако для решения задач выявления потенциальных противоречий в документах метод «Top 100 Words» не подходит, поскольку он не предоставляет никакой дополнительной информации о документе.
Данный метод имеет и некоторые недостатки. На самом деле, метод «Top 100 Words» позволяет настраивать количество концептов, которые выводятся на экран. При этом возникает вопрос о том, какое количество концептов является оптимальным. С одной стороны, количество концептов должно быть достаточным для решения задачи пользователя, но с другой стороны, количество концептов не должно быть слишком большим. Если выводить на экран слишком много концептов, то сложность задачи визуального анализа этих концептов может приближаться к сложности задачи анализа исходного документа. В этом случае, применение метода «Top 100 Words» для визуального экспресс контент-анализа документа теряет смысл.
Если руководствоваться особенностями восприятия визуальной информации человеком, в частности «магическим числом Миллера» [14], и выводить на экран от 5 до 9 концептов с максимальным весом, то в случае больших документов существует высокая вероятность того, что результаты визуального анализа малого количества концептов будут бесполезны для пользователя.
На данный момент у нас нет однозначного ответа на вопрос о том, какое количество концептов является оптимальным для визуального экспресс контент-анализа документа. Решение данного вопроса запланировано нами в будущей работе.
3.2. Пример использования метода «Semantic Network»
Вторым методом, для которого мы опишем пример использования для визуального экспресс-анализа содержимого документов, является метод «Semantic Network». Результатом визуализации в этом случае является семантическая сеть документа.
Эта семантическая сеть не является статическим визуальным образом документа. Пользователь может взаимодействовать с ним в интерактивном режиме: разворачивать сетевые узлы, исследовать связи между основными концептами документа, визуализировать семантическую сеть документа, начиная с определенного пользователем концепта, ограничивать количество отображаемых концептов, изменять параметры отображения семантической сети и т.д.
Для демонстрации возможностей метода «Semantic Network», мы визуализировали семантические модели документов «Стратегия МО» и «Стратегия АЗРФ». Точкой входа для визуализации семантических сетей и для первого и для второго документа был выбран концепт «развитие». Мы выбрали этот концепт в качестве точки входа визуализации по двум причинам. Во-первых,
по результатам использования метода «Top 100 Words» этот концепт попал в список наиболее важных слов как в «Стратегии МО» (первое место списка), так и в «Стратегии АЗРФ» (четвертое место списка). Во-вторых, сумма весов концепта «развитие» для этих двух документов, является максимальной, в сравнении с суммами весов других пар совпадающих концептов.
Для сравнения, фрагменты визуальных образов семантических сетей «Стратегии МО» и «Стратегии АЗРФ», полученные с помощью метода «Semantic Network» приведены на рисунке 3.
Рисунок 3. Визуальное представление семантических сетей анализируемых
документов
Визуальный анализ и работа с семантическими сетями документов осуществляется конечным пользователем в соответствии с заранее определенными задачами анализа. Для проведения более подробного анализа, пользователю предоставляются разнообразные возможности для интерактивного взаимодействия с семантическими сетями (масштабирование, разворачивание узлов, отображение типов связей, перестроение семантической сети и др.). Даже без расчетов, полагаясь только на визуальный анализ семантических сетей документов, можно сделать несколько выводов. В частности, можно обнаружить, что количество концептов, связанных с понятием «развитие» в «Стратегии МО», значительно превышает количество концептов, связанных с тем же понятием в «Стратегии АЗРФ». Это может говорить о том, что развитию различных видов деятельности в «Стратегии МО» уделяется больше внимания, чем в «Стратегии АЗРФ». Масштабируя визуальное отображение семантической сети «Стратегии МО», можно более подробно изучить связи концепта «развитие» с другими концептами и сделать вывод о том, развитию каких именно видов деятельности уделяется больше всего внимания в этом документе.
Приведенный пример визуального экспресс контент-анализа документов не является единственным вариантом использования метода «Semantic Network». В частности, этот метод может быть использован для решения задач повышения пертинентности поиска по корпусу документов и других задач, для которых важны вес и связи концептов в анализируемом документе. Что касается задачи
выявления потенциальных противоречий в документах, метод «Semantic Network» может дать лишь предварительный ответ о потенциальной возможности наличия противоречий в документах. Для получения более точного ответа, требуются дополнительные усилия со стороны пользователя, связанные с более глубоким анализом смысла концептов и типов связей между ними.
Метод «Semantic Network» можно также использовать и для визуальной кластеризации документов. Для эффективного решения этой задачи важно обеспечить одинаковую ориентацию для одинаковых концептов.
В свою очередь, задача визуализации концептов в пространстве относительно друг друга является нетривиальной задачей. В частности, библиотека Word2Vec, которая используется в технологии семантического анализа документов, использует 300-мерные вектора для описания слов и фраз. Отображение слов в трехсотмерном пространстве не имеет смысла для визуального экспресс контент-анализа документа. Поэтому, необходимо проводить редуцирование пространства визуализации семантической модели документа в зависимости от решаемой пользователем задачи. Разработку метода редуцирования пространства визуализации семантической модели документа в зависимости от решаемой пользователем задачи планируется реализовать в будущих работах.
Как и для метода «Top 100 Words», для метода «Semantic Network» также остается актуальным вопрос об оптимальном количестве концептов и связей, которые следует выводить пользователю для визуального экспресс контент-анализа документа. Стоит отметить, что за счет возможностей интерактивного взаимодействия пользователя с визуальным образом семантической сети документа при использовании метода «Semantic Network» этот вопрос не является чрезвычайно важным. Прежде всего, это связано с тем, что пользователь может самостоятельно управлять настройками визуализации, такими как количество выводимых концептов, минимальный вес выводимого концепта, сворачивание и разворачивание узлов сети и т.д. Таким образом, пользователь может самостоятельно настроить оптимальное для него отображение семантической сети документа с учетом решаемой задачи и индивидуальных особенностей восприятия визуальной информации.
Решение вопроса об оптимальном способе визуализации семантической сети для конечного пользователя требует проведения дополнительных исследований и будет рассмотрено нами в будущей работе.
3.3 Пример использования метода «Semantic Networks Imposition»
Для визуализации различий в структуре семантических отношений между понятиями двух документов мы использовали JavaScript библиотеку визуализации D3.js. Понятия, присутствующие в обоих сравниваемых документах, расположены одинаково на обеих диаграммах. Линии представляют семантические отношения между основными понятиями в семантическом образе каждого документа. Визуализация семантических образов документов «Стратегия МО» и «Стратегия АЗРФ» представлена на рисунке 4.
Рисунок 4. Визуальное представление семантических сетей анализируемым
документов
Анализ визуализированных семантических образов позволяет идентифицировать наиболее часто встречающиеся отношения между понятиями. В то же время можно быстро определить разницу между структурами отношений в разных документах. На основе этого анализа можно сформировать гипотезы о важности отношений между основными понятиями анализируемых документов. Например, очевидный вывод состоит в том, что более подробно излагается второй документ, в то время как авторы первого документа оперируют более общими понятиями. Рассмотрим структуру отношений понятия «развитие» при визуализации семантических образов обоих документов. Понятие «развитие» рассматривается в первом документе в контексте показателя эффективности, в то время как во втором «развитие» рассматривается в контексте конкретных мест и времени. Это может быть косвенным признаком наличия несоответствий и противоречий в этих документах. Однако, чтобы подтвердить это предположение, необходимо провести более глубокий анализ и сравнение документов.
4. Заключение
В этой статье мы описали примеры применения визуализации семантических моделей документа для визуального экспресс-анализа содержимого. В качестве методов визуального экспресс-анализа содержимого документов были рассмотрены методы «Top 100 Words», «Semantic Network» и «Semantic Networks Imposition». Используя методы визуализации, описанные в статье, были получены следующие выводы об анализируемых документах: 1. В анализируемых документах список наиболее значимых концептов аналогичен. Пример применения метода «Top 100 Words», описанного выше, показал, что совпадение понятий составляет более 50%.
2. Количество связей между концептами в рассмотренных документах значительно различается. Визуализация семантической модели документов, выполненная с использованием метода «Semantic Network», позволяет визуально оценить разницу в количестве связей, не выполняя вычислений.
3. В документе «Стратегия МО» связи между концептами описаны более подробно, чем в «Стратегии АЗРФ». Такой вывод можно сделать на основе анализа визуализации, выполненного методом «Semantic Networks Imposition».
Также мы можем сделать некоторые выводы о методах:
1. Основываясь на нашем опыте анализа документов, можно сделать вывод, что методы визуального экспресс-анализа содержимого, рассмотренные в этой статье, не являются универсальными.
2. Эффективность конкретного метода зависит от типа решаемой задачи (кластеризация, повышение пертинентности, выявление противоречий).
3. Примеры визуального анализа документов, описанные в статье, позволяют нам говорить о том, что все рассмотренные методы визуального экспресс-анализа контента могут быть успешно применены при решении задач, для которых достаточно понять общий смысл документа на основе визуального отображение его наиболее значимых семантических аспектов.
4. Основываясь на полученном опыте, мы можем сделать предварительный вывод о том, что метод «Top 100 Words» лучше использовать в задачах кластеризации документов, метод «Semantic Network» - для быстрого понимания сути документа и повышения пертинентности результатов поиска, а метод «Semantic Networks Imposition"- для сравнения и идентификации потенциальных противоречий в структуре документа.
Но окончательные выводы можно сделать только после проверки этих методов на большом наборе документов.
5. Обсуждение результатов и будущая работа
В целом, наш опыт использования методов визуализации для экспресс-анализа содержания правовых актов, регулирующих развитие пространственно распределенных систем, может быть оценен как положительный. Визуализации, созданные этими методами, позволяют получить новые знания об анализируемых документах без детального изучения контента документов.
В своих будущих работах мы планируем провести ряд более подробных экспериментов для больших коллекций документов, чтобы найти ответы на следующие вопросы:
1. Для каких типов задач визуализация семантических моделей документа для экспресс-анализа контента может быть наиболее эффективной?
2. Как эффективность визуального анализа зависит от характеристик анализируемого документа?
3. Как наилучшим образом представить результаты визуализации пользователю?
4. Как можно редуцировать визуальный образ с учетом характеристик задачи анализа?
Литература
1. Shishaev, M.G. Architecture and Technologies of Knowledge-Based Multi-Domain Information Systems for Industrial Purposes/ V.V. Dikovitsky M. G. Shishaev , N. V. Nikulina //Automation Control Theory Perspectives in Intelligent Systems. Proceedings of the 5th Computer Science On-line Conference 2016 (CSOC2016), Vol 3. pp. 359 - 369
2. Стратегия социально-экономического развития Мурманской области до 2020 года и на период до 2025 года, утвержденной постановлением Правительства Мурманской области. - Режим доступа: http://docs.cntd.ru/document/465602093
3. Стратегия развития Арктической зоны Российской Федерации и обеспечения национальной безопасности на период до 2020 года. - Режим доступа: http://docs.cntd.ru/document/499002465
4. Salton, G. and McGill, M. J. 1983 Introduction to modern information retrieval. McGraw-Hill, ISBN 0-07-054484-0
5. Зализняк, A.A. Грамматический словарь русского языка. http://odict.ru
6. Тезаурус WordNet. http://wordnet.ru
7. TensorFlow. https://www.tensorflow.org
8. Universal Dependencies. http://universaldependencies.org
9. Word2Vec. https://code.google.com/archive/p/word2vec/
10.Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
11.Google News. Режим доступа - https://drive.google.com/file/d/ 0B7XkCwpI5K DYNlNUTTlSS21pQmM/edit?usp=sharing
12.SinTagRus. Режим доступа - http://www.ruscorpora.ru/search-syntax.html
13.Google Russian Treebank. Режим доступа - https://old.datahub.io/dataset/ universal-dependencies-treebank-russian
14.Miller, G.: The Magical Number Seven, Plus or Minus Two. In: The Psychological Re-view, vol. 63, 1956 pp. 81 - 97
Сведения об авторах
Шишаев Максим Геннадьевич - д.т.н, доцент, профессор РАН, главный научный сотрудник ИИММ КНЦ РАН е-mail: [email protected]
Maxim G. Shishaev - Dr.Sci. (Tech.), associate professor, professor of RAS, lead researcher
Диковицкий Владимир Витальевич - к.т.н, старший научный сотрудник е-mail: [email protected]
VladimirV. Dikovitsky - PhD (Tech. Sci.), senior researcher
Вицентий Александр Владимирович - к.т.н., старший научный сотрудник, доцент e-mail: [email protected]
Vicentiy Alexander - PhD (Tech. Sci.), senior researcher, associate professor