гических программ - предикатных формул. В этом случае использование языка Пролог естественным образом реализует механизм вывода по нечёткой онтологии.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. RobertE. Kent. The Model Theory of Onto Logic. In: Proceedings of ISKO 6: Dynamism and Stability in Knowledge Organization. Toronto, 2000.
2. Nicola Guarino, Christopher Welty. Towards a methodology for ontology based model engineering.- LADSEB/CNR, Padova, Italy.
3. Малышев Н.Г., Берштейн Л.С., Боженюк А.В. Нечеткие модели для экспертных систем САПР.- М.: Энергоатомиздат, 1991.
4. Котеленко С.А. Использование модели нечёткого графа для описания нечётких данных в спецификации OWL // Известия ТРТУ. Тематический выпуск «Интеллектуальные САПР». Материалы Международной научно-технической конференции «Интеллектуальные САПР».- Таганрог: Изд-во ТРТУ, 2004.
5. Reference for users and developers of OXML - the XML - based Ontology Representation language for OntoEdit, Ontoprise GmbH, Karlsruhe, 2003.
6. Guarino N. Formal Ontology and Information Systems In: Proceedings of FOIS’98, Amsterdam, IOS Press, pp.3-15.
7. Troels Andreasen, Henrik Bulskov, Rasmus Knappe. On Ontology-based querying. Department of Computer Science, Roskilde University, 2003.
8. Blue M., Bush B., Puckett J. Applications of Fuzzy Logic to Graph Theory / Energy and Environmental Analysis Group Report, Los Alamos National Laboratory, 1997.
Э.М. Котов
МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И ПРЕДСТАВЛЕНИЕ ТЕКСТА В ФОРМЕ СЕМАНТИЧЕСКОЙ СЕТИ
При рассмотрении вопроса классификации информационных систем можно выделить два класса, в зависимости от способа хранения и обработки информации.
1. Документальные системы. Их основное назначение - работа с информационными массивами, представленными в словесной форме. Одним из основных примеров здесь могут выступать информационно-поисковые системы.
2. Фактографические системы. В данном классе информация представляется в виде специальных структур, например, баз данных под управлением СУБД. К подобному классу можно отнести системы обработки данных, системы анализа и принятия решений. Обработка данных в фактографических системах сводится к вводу, хранению, сортировке данных и т.д.
Можно утверждать, что наибольшее распространение на сегодняшний день имеет представление информации в виде текстовых документов, а не структурированных данных.
Документальные базы данных выделяются в один тип, называемый «информационно-поисковые системы». Они занимаются решением главной задачи -обработки запросов, как правило, сформулированных на естественном языке, посредством выполнения процедуры поиска [1].
Можно выделить следующие четыре основные модели представления знаний:
1. Продукционная. Модель основана на наборе правил, и знания представляются в виде предложений типа:
если (A), то (B),
Известия ТРТУ
Тематический выпуск
где A - условие, предложение-образец, по которому осуществляется поиск в базе знаний;
B - действие, процедура, выполняемая при успешном выполнении условия.
Причем действие /-го шага Bi может быть или условием Ai+1 для последующих предложений системы, или операцией, завершающей работу системы.
Преимущества продукционной модели:
• легкость внесения дополнений и изменений;
• наглядность;
• высокая модульность;
• простой механизм логического ввода.
2. Фреймы. Представляют собой формализованную модель отображения образа и являются структурой знаний для восприятия пространственных сцен, в основе которой лежит абстрактный образ или ситуация, называемые фреймом.
Структуру фрейма можно представить следующей таблицей.
Имя фрейма
Имя 1-го слота Тип 1-го слота Значение 1-го слота Присоединенная процедура
Имя 2-го слота Тип 2-го слота Значение 2-го слота Присоединенная процедура
Имя i-го слота Тип i-го слота Значение i-го слота Присоединенная процедура
Различают: 1) фреймы-структуры; 2) фреймы-роли; 3) фреймы-сценарии; 4) фреймы-ситуации.
Преимущества данной модели:
• способность отражать концептуальную основу памяти человека;
• гибкость;
• наглядность.
3. Формальные логические модели. Основаны на классическом исчислении предикатов I порядка. Предметная область описывается в виде набора аксиом.
Недостатки данной модели:
• высокие требования и ограничения к предметной области;
• логическая модель применима в основном в исследовательских системах. В промышленных системах практически не используется.
4. Семантические сети. Модель представляет собой ориентированный граф, у которого в роли вершин выступают понятия (абстрактные или конкретные), а в роли дуг - отношения (связи типа «это», «принадлежит», «имеет частью») между понятиями.
В семантической сети обязательно присутствуют следующие типы отношений:
<класс> - <элемент класса>;
<свойство> - <значение>;
<пример элемента класса>.
Семантическая сеть, реализованная на множестве абсолютно всех терминов, выработанных человеком, и, по сути, представляющая абстрактное хранилище всех терминологических статей, связанных семантическими отношениями, называется универсальным терминологическим пространством [2].
Формально семантическая сеть представляет собой пару множеств: множество вершин A и множество связей R. Развитие универсального терминологического пространства можно выразить в виде последовательности сетей:
< A(1), R(1) >< A(2), R(2) < A(t), R(0 >.
Семантическая сеть < A(t), R(t ) > обладает рядом следующих свойств:
• в сети отсутствуют изолированные и имеющие 1-2 точки сочленения компоненты;
• сеть является сильносвязанным графом с ограниченным числом циклов;
• отношение числа связей R(t )| к числу вершин |A(t)| практически постоянно;
• для строго иерархических структур справедливо:
R(t)| = \A(t)\ - с,
где с - количество компонент связанности, т.е. R(t )|/| A(t )| > 1 - 0;
• для полносвязных структур справедливо:
R(t)|/|A(t)| > (|A(t)| -1)/2 ;
• отношение общего числа вершин-документов к числу терминов-понятий практически постоянно:
i < |A(t)| / p < i +1,
где p - число документов, выделенных экспертом в качестве понятий. Семантическая сеть может быть описана матрицей весов связей:
W = [wp ],
где wij - степень ассоциативности, отражающая вероятность появления понятия j в смысловой связи с понятием i.
Для решения задачи автоматической классификации документов в качестве модели можно предложить модель ассоциативной семантической сети:
PN = [p(j l i)],i = 1,...,N, j = 1,...,N,
где p(j l i) ~ Wj - условная вероятность появления понятия j в смысловой связи
с понятием i;
N - количество элементов сети.
Таким образом, метод решения задач, связанных с анализом документов, может быть найден в представлении текста в форме семантической сети, в которой для каждого понятия, наиболее часто встречающегося в тексте, и, следовательно, несущего смысловую нагрузку, формируется набор ассоциативных связей с другими понятиями, с которыми оно встречалось в текстовом материале.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Luhn H.P. A statistical approach to mechanised encoding and searching of library information / IBM Journal of Research and Development, 1, P. 309-317.
2. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство / Материалы международной конференции «Диалог-2002».
Э.М. Котов, Ю.А. Целых МОДЕЛИ ПОИСКА И КЛАССИФИКАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ
В качестве основного понятия, связанного с рассмотрением документа, как множества ключевых слов, и определяющего, по какому принципу определяется