Научная статья на тему 'Подход к реализации автоматизированного поиска онтологической информации в источнике'

Подход к реализации автоматизированного поиска онтологической информации в источнике Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
100
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Подход к реализации автоматизированного поиска онтологической информации в источнике»

УДК 004.912

ПОДХОД К РЕАЛИЗАЦИИ АВТОМАТИЗИРОВАННОГО ПОИСКА ОНТОЛОГИЧЕСКОЙ ИНФОРМАЦИИ В ИСТОЧНИКЕ

А.Н. Чохонелидзе, д.т.н.; Д.В. Богданов

(Тверской государственный технический университет, таИ^аг^еНаЪ.ты)

Описывается подход для повышения релевантности поиска онтологий в источниках информации на примере структуры системы автоматизированного поиска онтологической информации в источнике. Дается сравнительный анализ точности поиска с использованием стандартного и описываемого подходов.

Ключевые слова: онтологии, онтологический поиск, автоматический поиск, релевантный поиск, алгоритм поиска онтологий.

Информационные системы, применяемые на современных предприятиях, в большинстве своем разрозненные, и это создает серьезные проблемы. Причин, вследствие которых созданная информационная система предприятия по сути не является единой, множество, в частности:

• нехватка средств для создания законченной системы;

• автоматизация собственными силами, отсутствие необходимого опыта;

• низкая заинтересованность руководства или иных ответственных сотрудников;

• длительная, многолетняя автоматизация бизнеса;

• преследование иных целей, например, оптимизация налогообложения.

Чтобы такая система работала, то есть позволяла получать информацию о состоянии дел на предприятии, необходимо прилагать достаточно много усилий: осуществлять двойной или даже тройной ввод информации в разных подсистемах, сверять информацию в разных БД и исправлять несоответствия, накапливать и обрабатывать много избыточной информации. На обслуживание такой информационной системы требуются дополнительные расходы.

С ростом предприятия проблема разрозненности данных только усугубляется. Появление новых отделов, магазинов, офисов ведет к возникновению новых источников и потребителей информации из информационной системы. А поскольку изначально созданная система не была рассчитана на расширение масштабов бизнеса, происходит лавинообразный рост несогласованности данных между существующими отдельными информационными системами.

Для решения задачи консолидации ресурсов, относящихся к одной области знаний, в единое информационное пространство необходимо обеспечить качественный поиск онтологической информации. Технология ее сбора в источнике включает два основных этапа: определение типа источника, его принадлежности к предметной области и внесение информации в БД.

В статье рассматривается подход к реализации сбора онтологической информации и дается оцен-

ка показателей качества найденной информации с использованием данного подхода и без него.

Общая схема сбора онтологической информации представлена на рисунке 1.

Пользователи

Сервер

Рис. 1. Блок-схема сбора онтологической информации из источника

Подсистема извлечения текстов получает документ, определяет его тип (например, .html, .doc, .pdf, .jpg и др.), кодировку и записывает текстовую информацию в БД. На данном этапе происходят очистка документов и сохранение только той информации, которая содержит знания.

На этапе обработки текста документа необходимо определить его категорию (классифицировать или кластеризовать текст документа). Для этого используется подсистема индексирования текстов документов, являющаяся основным ядром всей системы и одновременно ее особенностью. Большинство существующих систем поиска онтологий основывается на поиске соответствия начальной формы слова слову в словаре. Для русского языка данный подход является неверным, так как одно и то же слово в разных предложениях может не только не совпадать по смыслу, но и совершенно не соответствовать определенной об-

ласти знаний. Следует отметить, что поиск релевантной информации является основной проблемой всех поисковых систем.

Разрабатываемая подсистема индексирования текстов документов анализирует не слова, а предложения и извлекает необходимые соответствия из онтологического словаря.

Словарь в данном случае также содержит примеры онтологий, а при сравнении выбирается наиболее схожая из них. Кроме того, словарь может быть обучен, однако при применении системы обучения несколькими пользователями через Интернет обучение от разных учителей может оказаться противоречивым. Для решения проблемы возможна разработка прослойки между учителем и словарем - предварительное накопление информации для обучения от разных учителей и online обучение словаря на основании статистического отбора из предварительной базы обучения.

Подсистему индексирования можно модернизировать, добавив анализ связи между предложениями. Данная задача может быть востребована при анализе схожести текстов документов и в рамках данной статьи не рассматривается.

Для поверхностного анализа синтаксиса предложений используется система от разработчиков aot.ru.

На вход алгоритма подается морфологический вариант клаузы. В программе задан некоторый порядок применения правил. Он соответствует порядку построения групп - от меньших к большим. Например, сначала надо построить группы МОДИФ-ПРИЛ, а потом ПРИЛ-СУЩ,, чтобы построить структуру на отрезке «очень красивый человек»: ПРИЛ-СУЩ (МОДИФ-ПРИЛ (очень красивый), человек) [1, 2].

Все правила поочередно применяются к каждому слову входного отрезка слева направо. Каждое правило для вновь построенной группы указывает ее главную группу, список граммем (обычно берется из списка граммем главного слова), тип.

Компоненты, составляющие языковую модель, - это лингвистические процессоры, которые друг за другом обрабатывают входной текст. Вход одного процессора является выходом другого. В модели выделяются следующие компоненты:

• графематический анализ - выделение слов, цифровых комплексов, формул и др.;

• морфологический анализ - построение морфологической интерпретации слов входного текста;

• синтаксический анализ - построение дерева зависимостей всего предложения;

• семантический анализ - построение семантического графа текста.

Для каждого уровня имеется свой язык представления, который, как и полагается, состоит из констант и правил их комбинирования. На графе-

матическом уровне константами были графемати-ческие дескрипторы (ЛЕ - лексема, ЦК - цифровой комплекс и др.). На морфологическом уровне - граммемы (рд - родительный падеж, мн - множественное число). На синтаксическом - названия отношений и групп (ПОДЛ - отношение между подлежащим и сказуемым, ПГ - предложная группа). На семантическом - семантические категории и отношения.

С каждого уровня представления можно сделать переход (трансфер) к такому же представлению на другом естественном языке. Основой для построения уровней служат результаты работы предыдущих этапов, но, что важно, последующие анализаторы также могли улучшить представление предыдущих. Например, для какого-то предложения синтаксический анализатор не смог построить полное дерево зависимостей, тогда, возможно, семантический анализатор сможет спроектировать построенный им семантический граф на синтаксис.

Графики, отображающие точность поиска он-тологий с использованием системы разбора предложений и словаря онтологий и без системы разбора предложений, приведены на рисунке 2.

На графиках по оси X указано количество полученных предложений, по оси У - релевантность поиска онтологий.

Из графиков видно, что с помощью поиска он-тологий с использованием разбора предложений можно приблизиться к большей релевантности, однако из-за тесной связи между синтаксисом и семантикой абсолютного совпадения с ручным поиском достичь практически невозможно.

Сложность реализации связана с наличием тесной связи между синтаксисом и семантикой, присутствием в текстах русского языка большого количества синтаксически омонимичных конструкций, не допускающих однозначной интерпретации без привлечения знаний о семантической сочетаемости слов. Такова, например, проблема управления глагола предложно-падежными конструкциями. В синтаксически эквивалентных фразах «человек стрелял из ружья» и «человек стрелял из окна» объект «ружье» представляет аргумент предиката «стрелять» в роли косвенного дополнения, а объект «окно» - обстоятельство места, которое является дополнительной характеристикой всей ситуации в целом.

Перед системами анализа текста стоят такие задачи: формирование информационного портрета текста в терминах ключевых понятий, выявление смысловых связей между понятиями, автоматическое реферирование. Прикладные функции интеллектуальных систем, которые могут быть реализованы на основе этих результатов, описаны в работе [3]. Важнейшей сопутствующей проблемой, решаемой исключительно средствами синтаксического анализа, является разрешение омонимии в тех случаях, когда грамматические формы различных слов совпадают (например, форма «стали» для существительного «сталь» и глагола «стать»).

Статистические методы анализа текста, на которых до настоящего времени были сконцентрированы усилия разработчиков интеллектуальных систем, достигли своего естественного предела. Дальнейшее усложнение математики без серьезного привлечения лингвистики не позволит заметно повысить качество подобных систем.

К сожалению, внедрение математических методов в обработку текста проходит на фоне отсталости собственно лингвистической составляющей алгоритмов, что не позволяет достичь высокого качества работы прикладных систем.

Описанный подход позволяет извлекать знания из источников с большей релевантностью, и это в некоторой степени решает проблему математической обработки текстов.

Литература

1. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. № 11.

2. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт // Информационные технологии. 2001. N° 8.

3. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных // Мир ПК. 2001. № 8.

4. URL: http://aot.ru/docs/fragman.html (дата обращения: 10.12.2010).

УДК 371.69:623.8/.9

ТЕХНИЧЕСКОЕ ОБСЛУЖИВАНИЕ КОМПЛЕКСНЫХ ТРЕНАЖЕРНЫХ СИСТЕМ, ПОСТРОЕННЫХ НА ДВУХРАНГОВЫХ ЛОКАЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ

Ю.М. Хрястолов (Высшие специальные офицерские классы ВМФ, г. Санкт-Петербург,

ит11978И@таИ. ги)

Описывается система технического обслуживания, созданная в результате опыта эксплуатации тренажерной системы, построенной на двухранговой локальной вычислительной сети. Приведена функциональная модель технического обслуживания в нотации IDEF0. Освещены некоторые проблемные вопросы, связанные с техническим обслуживанием тренажерной системы, построенной на двухранговой локальной вычислительной сети.

Ключевые слова: модель, техническое обслуживание, тренажерные системы, двухранговая вычислительная сеть, ежедневные и еженедельные осмотры, эксплуатация.

Для обеспечения практического обучения, повышения качества и эффективности подготовки офицеров ВМФ разработан и внедрен тренажерный комплекс, построенный на двухранговой локальной вычислительной сети (ЛВС).

Тренажерный комплекс состоит из центрального поста руководства обучением (ЦПРО) и учебно-тренировочных средств - 12 кафедральных тренажеров, которые объединяют 256 АРМ

обучающихся, аппаратно-программных средств комплексирования и ПО.

ЦПРО предназначен для управления образовательным процессом, а также для подготовки, проведения, разбора учебных мероприятий и итоговой оценки действий обучающихся.

Учебно-тренировочные средства включают в себя АРМ обучающихся и руководителя обучения, сервер и коммутирующее сетевое оборудование,

i Надоели баннеры? Вы всегда можете отключить рекламу.