5(191) - 2014
Моделирование в экономике
УДК 303.442
СЕМАНТИЧЕСКИЕ МЕТОДЫ И МОДЕЛИ ИЗУЧЕНИЯ СЛАБОСТРУКТУРИРУЕМЫХ СИСТЕМ
И СИТУАЦИЙ*
О. Е. ХРУСТАЛЁВ,
кандидат экономических наук, научный сотрудник E-mail: [email protected] Центральный экономико-математический институт РАН
В статье изложены методология построения семантических моделей гипертекстового типа, предназначенных для концептуального изучения объектов сложной и трудноформализуемой структуры, а также технология извлечения, сбора и систематизации знаний, необходимых для моделирования.
Ключевые слова: семантическое моделирование, гипертекстовая модель, экономика знаний, тезаурус, извлечение, систематизация, научный, исследование, информационный, технология, база знаний.
Введение. Успешное решение основных проблем экономического развития страны предполагает улучшение существующей системы информационного обеспечения. В настоящее время ведутся серьезные исследования в области проектирования современных информационных технологий, призванных повысить обоснованность принимаемых решений в различных сферах деятельности.
Важнейшими с методологической точки зрения направлениями исследований становятся выделение и описание изучаемой предметной области, подго-
* Статья подготовлена при поддержке Российского фонда фундаментальных исследований (проект № 13-06-00139-а).
товка четких методик и рекомендаций, обеспечивающих своевременное внедрение теоретических положений в практику, создание программного инструментария, позволяющего в автоматизированном режиме проектировать и анализировать информационные модели разнообразных объектов, процессов и систем [1, 3—5, 10].
Принципы построения семантических моделей и методы систематизации сведений для разных областей знаний различаются из-за специфических особенностей информации каждого конкретного вида. Для систематизации обширного класса сведений может использоваться новый тип моделей — гипертекст, или нелинейный текст, совмещающий положительные свойства энциклопедии, монографии и тезауруса. Гипертекст обладает рядом характеристик, свойственных как тексту, так и фонду, и не может быть отождествлен ни с одним из существующих методов систематизации информации [6—8, 12].
Следует отметить, что многие попытки формализовать слабоструктурируемые системы традиционными — операционными методами окончились тем, что модели последних стали настолько абстрактными, что перестали отражать действительность.
Материальные
Физические
Излишнее стремление к точности приводит к тому, что исследования сосредоточиваются только на тех проблемах, которые поддаются строгому решению. В результате многие классы важных проблем, являющихся слишком сложными или плохо определенными для того, чтобы допустить точный математический анализ, остаются в стороне. Для анализа и эффективного
разрешения проблем подобного рода необходимо отказаться от требований точности и допустить приближенные результаты.
В операционных исследованиях построение семантической (концептуальной) модели является предварительным этапом формулировки математической модели, который служит для оценки исходной информации, необходимой для дальнейшего исследования, а также проверки, не упущены ли какие-либо существенные факторы и связи и т. п.
В рамках теории статистически ненадежных решений концептуальная модель носит название формальной схемы. Однако ни операционный подход, ни теория статистически ненадежных решений не предполагают динамического моделирования и структурного анализа концептуальной модели.
Методы концептуального анализа и мо -делирования. Удовлетворить указанным выше требованиям могут методы семантического моделирования, основанные на «мягких» вычислительных процедурах и позволяющие на качественном уровне описывать и исследовать слабоструктурируемые системы и ситуации.
Основным преимуществом методов семантического моделирования является то, что применяемые в их рамках языковые средства «мягких» вычислений обладают большей семантической силой, т. е. большими по сравнению с языками классической математики возможностями описания ситуаций реального мира. Однако в то же время они менее мощны в аспекте инструментальных средств, т. е. в меньшей степени позволяют производить формально-эквивалентные преобразования своих конструкций.
Модели, созданные с помощью методов семантического моделирования, относятся к классу
МОДЕЛИ
Идеальные
Аналоговые
Знаковые (семиотические)
Интуитивные (мысленные)
Описательные (вербальные)
Формальные
Формализованные
(логико-лингвистические)
Рис. 1. Классификация моделей
логико-лингвистических (рис. 1) и обладают рядом характерных особенностей.
Переменные в таких моделях не количественные, а качественные (лингвистические), т. е. их значениями выступают не числа, а слова на естественном языке. Связи между переменными выражаются не в виде математических уравнений, а также задаются лингвистически — с помощью выражений на естественном языке. Критерии выбора формулируются не в виде математического функционала, а описываются качественными рекомендациями по предпочтительности, недопустимости или желательности того или иного варианта решения.
Таким образом, особенностью метода логико-лингвистического моделирования, отличающей его от традиционных — операционных методов, является то, что благодаря использованию лингвистических переменных и нечетких алгоритмов он позволяет эффективно исследовать поведение сложных, плохо определенных систем, не поддающихся точному математическому анализу.
Методы концептуального анализа и моделирования и логико-лингвистические модели применяются, как правило, на стратегическом или концептуальном уровнях управления и разработки решений (рис. 2).
Проектирование гипертекстовых концептуальных моделей (баз знаний). Процесс проектирования гипертекстовых концептуальных моделей, реализованных в виде гипертекстовых баз знаний (ГБЗ) можно представить в виде ряда этапов, практически не зависящих от предметной области. Несмотря на то, что количество и порядок следования этапов не могут быть строго фиксированными, вполне допустимо определение некоторой типовой последовательности процедур: выбор проблемы,
7х"
21
Стратегический,
или Г>.
концептуальный V
Тактическим,
операциональный I
Операционный,
или
элементный
разработка ГБЗ, тестирование, оценка, модификация и сопровождение ГБЗ.
Перечисленные работы в состоянии выполнить хорошо подобранный и правильно организованный коллектив специалистов, каждый из которых удовлетворяет конкретным квалификационным требованиям.
Выбор проблемы. Первый этап проектирования ГБЗ включает в себя деятельность, предшествующую собственно разработке гипертекстовой базы знаний. Исходной посылкой для выполнения этой работы служат желание специалиста иметь гипертекст и заключение эксперта относительно целесообразности его создания.
Основанием для принятия окончательного решения на разработку являются следующие выводы, сделанные в результате исследования существующей системы информационного обеспечения в конкретной области деятельности:
• сведения данной тематики пользуются спросом на рынке информационной продукции;
• тиражи монографий, справочников и другой литературы, в которых рассматриваются выделенные проблемы, не в полной мере удовлетворяют потребностям общества;
• степень сложности объектов, определяющих исследуемую предметную область, и отношений между ними настолько велика, что структура традиционных документов (линейная, иерархическая) не в состоянии отразить существующую систему взаимосвязей;
• заказчики, готовые финансировать работы по созданию гипертекста, определены;
• оценка длительности и трудоемкости процесса построения гипертекста дает приемлемые для организации работ результаты;
• реальные и потенциальные конкуренты данной работы либо отсутствуют, либо не в состоянии оказать серьезного влияния на тиражирование и распространение продукции. Итоговыми материалами данного этапа являются:
• наименование гипертекста и его список главных тем;
• информация о потребителях, заказчиках, список категорий потенциальных пользователей;
• ориентировочный срок выполнения работ;
ас>
о
Постановка целей и формирование общего замысла их достижения
Детализация целей, постановка задач и планирование операций
Выбор технологического приема, обеспечивающего наиболее эффективное осуществление операций
Рис. 2. Основные уровни управления и разработки решений
• другие требования к продукции.
Правильное определение тематики фонда и построение (использование) эффективного инструментария для работы с ним позволяют создавать научно-техническую продукцию, которая будет иметь спрос на рынке интеллектуальных товаров и услуг.
Предварительный подход к оценке трудоемкости программной реализации гипертекстового изделия определяется в зависимости от параметров задачи и объемов средств, выделенных на ее решение. На этом же этапе подсчитывается и анализируется экономический эффект, который ожидают получить после внедрения и использования гипертекста, а также определяются планируемые затраты и сроки их погашения. После решения данных вопросов можно переходить к следующему этапу проектирования.
Разработка ГБЗ. Второй этап проектирования ГБЗ наиболее ответственный и трудоемкий. Он охватывает последовательность действий, необходимых для разработки качественного варианта ГБЗ, пригодного для эксплуатации и тиражирования.
Гипертекстовая база знаний может существовать в виде нескольких самостоятельных вариантов (прототипов): демонстрационного, исследовательского, промышленного, коммерческого. Каждый вариант может рассматриваться как определенный шаг разработки, имеет целевое назначение и используется независимо от других.
В настоящее время прототипы широко используются в различных сферах интеллектуальной деятельности, где существует определенная вероятность изготовления неприемлемого для заказчика продукта, в то время как средства, выделенные на его разработку, оказываются полностью израсходованными.
Создание дешевого незавершенного, но работающего варианта ГБЗ в начале разработки обеспечивает снижение степени риска получения
неудовлетворительного изделия в последующем, повышает качество базы знаний и сокращает затраты на ее сопровождение.
Демонстрационный вариант решает только часть проблемы, показывая жизнеспособность предложенного подхода. Он предназначен для первоначального ознакомления потенциальных пользователей с возможностями разрабатываемой ГБЗ. Этот вариант должен подчеркивать достоинства базы, ее удобство в эксплуатации и практическую полезность. Ему следует уделять чрезвычайно важное внимание, так как от того, насколько удачно прорекламирована ГБЗ, зависят количество возможных потребителей, объем продаж и, в конечном счете, успех проекта в целом.
Исследовательский вариант позволяет решать практически весь комплекс поставленных задач. Однако данный вариант может быть еще не полностью проверен и протестирован, поэтому в нем допускаются неустойчивость и отдельные сбои в режимах эксплуатации и сопровождения. Кроме того, при обслуживании сложных заданий запрашиваются большие объемы памяти и не всегда удовлетворяются предъявляемые требования по быстродействию.
Промышленный вариант ГБЗ обеспечивает высокое качество решений при минимизации времени и памяти и предназначен для установки в организациях заказчика. Главное в разработке данного варианта автоматизированного гипертекста — создание или адаптация интерфейсов, с помощью которых будет осуществляться общение с пользователем (экспертом). Здесь особое внимание должно быть обращено на языковые возможности программ ведения диалога, их простоту и удобство в управлении базой знаний.
Коммерческий вариант отличается от промышленного тем, что он хорошо документирован, снабжен дополнительным сервисом (например, возможностью инсталлировать ГБЗ на компьютерном оборудовании). Он предназначен для продажи заинтересованным лицам и организациям.
Разработку начального варианта ГБЗ и доведение его до промышленной или коммерческой версии целесообразно описать относительно технологичности процесса разработки в целом, а также дать его укрупненную функциональную разбивку. Последняя охватывает идентификацию проблемы, извлечение и структурирование знаний, формализацию и реализацию базы знаний.
Идентификация проблемы заключается в уточнении поставленной задачи, планировании хода разработки, определении целей, источников информации и т. д. Одновременно осуществляются формирование коллектива разработчиков, их обучение и инструктаж, а также генерация неформальной постановки проблемы.
Извлечение знаний из различных источников производится в целях получения наиболее полного представления о предметной области. Для этого используются специальные методы: анализ текстов, диалог, интервью, лекции и др.
Структурирование знаний, т. е. определение основных терминов (понятий), отношений между ними, типов отношений и т. д., позволяет построить семантическую модель, аккумулирующую объекты предметной области и взаимосвязи между ними. Более детально данная проблема будет рассмотрена ниже.
Формализация базы знаний выполняется на основе выбранного языка представления знаний или другого инструментария. В результате получаем фрагмент базы знаний на языке, который, с одной стороны, соответствует выявленной структуре, а с другой — позволяет представлять вариант ГБЗ в виде программного продукта.
В процессе реализации базы знаний создается вариант интеллектуальной системы, содержащий формализованные знания, блоки интерфейса системы с пользователем и манипулирования базой. Для этого либо выполняется непосредственное программирование изделия необходимого качества, либо используются существующие инструментальные средства разработки ГБЗ, либо применяются предварительно сгенерированные «пустые» оболочки гипертекстовых систем. Задача этой заключительной процедуры — разработка программного комплекса, демонстрирующего жизнеспособность и эффективность подхода в целом.
Для создания гипертекстовых массивов семантических данных (баз данных и баз знаний) необходимо построить, исследовать и оптимизировать общую процедуру обработки информационных материалов, которая позволит преобразовать структуру исходных текстов в нелинейную форму, описать каждую отдельную стадию этой процедуры, указав квалификацию и специализацию исполнителей работ, входные и выходные данные, а также сформулировать требования к результирующей научно-технической продукции.
Технологический процесс формирования гипертекста включает в себя несколько основных стадий, каждая из которых в зависимости от сложности может, в свою очередь, подразделяться на более частные и конкретные работы.
Обработка входной информации должна соответствующим образом управляться. Планируемые операции необходимо выполнять в строго определенной последовательности. Все специалисты, составляющие единый творческий коллектив, должны быть обеспечены отвечающими их квалификации заданиями, сроки выполнения которых контролируются и регулируются. Это позволяет в любой момент дать обоснованный прогноз относительно даты завершения работы в целом. Чтобы целенаправленно продвигать семантические данные через все стадии обработки, ответственный исполнитель выдает технические задания каждому участнику проекта.
Конкретному исполнителю передаются комплект информационных материалов, формулировка задания, сроки выполнения работы и другие требования. Факт передачи задания регистрируется в рабочих документах.
Выполнив задание, специалист предъявляет подготовленную продукцию ответственному исполнителю, который осуществляет формальный контроль и фиксирует приемку работы. Полученные материалы помещаются в соответствующую позицию информационного конвейера, после чего подготавливается очередное задание и подбирается работник, способный его выполнить.
Ответственный исполнитель генерирует поток заданий для всех членов творческого коллектива, обеспечивая, как правило, обработку исходных материалов в прямом направлении от информационного сырья к готовому гипертексту. Формированием заданий, в особенности для возврата назад по конвейеру, занимается также научный руководитель проекта.
Контролируя качество информационных и тезаурусных статей, тезауруса и гипертекста в целом, научный руководитель вправе сделать дополнительный запрос на проведение библиографического поиска, подготовить задание на слияние нескольких статей или выполнить эту операцию самостоятельно, внести смысловые коррективы в обрабатываемые материалы (изъять часть информационных данных, добавить или заменить некоторые сведения и т. п.), сформулировать новые требова-
ния к изложению или доработке тезаурусных и информационных статей. Прерогативой научного руководителя является принятие решения относительно готовности создаваемого гипертекста и возможности его тиражирования.
Разработка каждого гипертекста сопровождается подготовкой и ведением комплекта документации, в которой фиксируются данные о различных стадиях преобразования исходных материалов в гипертекстовую форму. В состав комплекта могут входить:
• паспорт гипертекста, содержащий список исполнителей, перечень названий всех рабочих документов;
• тетради учета выдаваемых документов, машинных носителей и информационных материалов;
• дискеты для хранения копий документов-первоисточников, их фрагментов, других промежуточных результатов;
• копии (распечатки) гипертекстового массива на бумажном носителе;
• картотека штатных и нештатных специалистов, которых можно привлекать к работе. Формирование библиографического списка
первоисточников. Это первая стадия технологического процесса. На основе списка первоисточников будет строиться основная часть информационно-поискового массива. Ответственность за подготовку библиографического списка, а в дальнейшем и за приобретение новых документов по тематике возлагается, как правило, на участвующих в проекте экспертов. В список желательно включать фундаментальные труды признанных ученых и специалистов (монографии, учебники, научно-справочную литературу). Оптимальным можно считать такое количество первоисточников, которое позволило бы подготовить до 70 % информационных статей.
Каждый первоисточник, используемый при создании гипертекста, необходимо снабдить соответствующим библиографическим описанием. Для ссылок из информационных статей на список используемой литературы каждому документу-источнику присваивается условный порядковый номер.
Для удобства работы с гипертекстом желательно иметь два библиографических списка. Первый упорядочивается по номерам документов и используется для непосредственного обращения к указанной в ссылке библиографии. Второй — алфавитный — предназначен для контроля списка на предмет дублирования.
При определенных условиях может возникнуть необходимость в проведении дополнительного поиска первоисточников, в результате чего в число обрабатываемых будут включены новые документы. При внесении их в библиографический список необходимо выполнить корректировку ссылок в цитатах, уже помещенных в информационные статьи.
Приобретение и копирование документов проводятся в соответствии с библиографией.
Обработка отобранных первоисточников. Это одна из важнейших и трудоемких стадий процесса построения гипертекста. Эксперт в соответствующей тематической области или специалист по обзорно-аналитической деятельности, прошедшие обучение созданию сетевых объектографических массивов, должны просмотреть, прочитать, выделить и разметить фрагменты исходных документов (книг, брошюр, журналов, газет), которые следует включать в состав гипертекста. При этом должны быть помечены отрывки, используемые лишь для фиксации отдельных идей и требующие последующего редактирования. Около каждого отмеченного текстового фрагмента необходимо поставить условный номер описываемого в нем объекта. Одновременно составляется перечень встретившихся информационных объектов, оформленный в следующем виде:
< Условный номер > — < Наименование объекта >.
При выборе наименований объектов, составляющих исследуемую предметную область и включаемых в перечень, желательно пользоваться терминами из уже подготовленной части тезауруса. Такой подход позволяет уменьшить количество порождаемых при разметке текстов синонимов и сократить объем стыковки материалов, подготовленных разными исполнителями.
Фрагменты, описывающие один и тот же объект, могут компоноваться в обобщенную информационную статью. Если она получается слишком объемной (например, более двух страниц), ее целесообразно расчленить в соответствии с принципами построения гипертекста.
Затем каждую информационную статью (комплект статей) переносят на машинный носитель. Эта операция выполняется специалистами, владеющими приемами работы с текстовыми редакторами типа «Лексикон» на ПЭВМ и грамотно (без орфографических ошибок) пишущими на русском языке. Результатом данного этапа является дискета
(или несколько дискет), содержащая директорию с требуемым названием, а в ней — файлы введенных информационных статей.
Две (или более) информационные статьи, полученные из разных источников и имеющие одинаковые или синонимичные заголовки, могут быть преобразованы в одну. В процессе слияния тексты, относящиеся к одинаковым подзаголовкам, соединяются, проверяются на наличие смысловых повторов и редактируются.
После этого возможно окончательное редактирование подготовленных текстов, которое выполняет, как правило, профессиональный редактор, имеющий опыт работы по данной тематике.
Формирование тезауруса. Эта технологическая стадия распадается на две процедуры. Первая процедура заключается в создании тезаурусной статьи на основе изучения содержания подготовленной информационной компоненты. В результате выполнения второй процедуры осуществляется добавление новой статьи к текущему тезаурусу.
Рассмотрим более подробно эти процедуры. Пользуясь информационной статьей, разработчик фрагмента гипертекста определяет категорию рассматриваемого в ней объекта (предмет, процесс, информация и т. п.), а также составляет список родственных объектов, связанных с искомым предусмотренными в данной реализации гипертекста отношениями.
В результате первой процедуры для каждой информационной статьи должна быть составлена одноименная тезаурусная, в которой обязательно должны быть заполнены отношения «род — вид» и укрупнение. Если сведений для этого в текстовом компоненте формируемого фонда оказывается недостаточно, следует прибегнуть к помощи экспертов.
Работы, реализующие вторую процедуру, предназначены для обеспечения максимальной полноты и точности поиска информации по проблемам, связанным по смыслу с объектом, название которого вынесено в заголовок включаемой в гипертекст тезаурусной статьи. Специалист, ответственный за качество данной процедуры, должен выполнить приведенную ниже последовательность действий: • проверить по алфавитному словарю, не вводилась ли ранее статья с таким же наименованием. Если вводилась, следует лишь добавить недостающие связи из данной тезаурусной статьи в уже существующую. В противном случае
наименование статьи должно быть включено в гипертекст; • рассмотреть наименование данной тезаурусной статьи как запрос на информационный поиск, в результате которого может возникнуть одна из перечисленных ситуаций:
а) обнаружена другая тезаурусная статья, заголовок которой синонимичен (эквивалентен по смыслу) заголовку данной статьи. Такие тезаурусные статьи необходимо объединить. В качестве заголовка следует выбрать наиболее удачный;
б) в тезаурусе не найдено тем, родственных данной тезаурусной статье. В этом случае название должно быть включено в список главных тем;
в) если в тезаурусе нашлись родственные статьи, они должны быть связаны с искомой всеми типами отношений, предусмотренных в гипертексте. Неисключено, что придется создать одну или несколько новых тезаурусных статей. В статье, добавленной в тезаурус, должна присутствовать связь с родовым термином или укрупнением. Если не удается или не требуется создавать отношения данных типов, статья должна быть помещена в список главных тем.
Сборка и формирование гипертекста в электронном варианте. На этой стадии технологического цикла все подготовленные материалы заносятся в текущий информационно-поисковый массив. Сначала в соответствии с содержанием новых те-заурусных статей вводятся перечисленные в них связи и выполняется контроль вновь созданных и дополненных статей. Затем проверенные и отформатированные информационные статьи, перенесенные на машинный носитель, загружаются в гипертекст. Качество выполненных изменений оценивается специалистами, после чего возможно окончательное комплексное редактирование гипертекста (замена терминов, удаление и корректировка связей, исправление обнаруженных в текстах ошибок).
Распечатка и оценка гипертекста. На заключительной стадии технологического процесса реорганизуется и выводится на бумажный носитель словарь, представляющий собой алфавитно упорядоченное оглавление массива текстов сетевой структуры. Периодически распечатывается содержание гипертекста, включая все тезаурусные и информационные статьи.
Оценка состояния фонда (или отдельных фрагментов фонда) и его ревизия проводятся следую-
щим образом. В связи с изменением окружения тезаурусных статей (появлением в тезаурусе новых объектов) или неудовлетворительной доступностью информации при поиске, который начинается со списка главных тем или от любого родственного объекта, целесообразно пересмотреть содержание каждой статьи. При этом выполняются корректировка существующих и ввод дополнительных связей (навигаций, ведущих к данной тезаурусной статье). Одновременно выявляются недостающие ветви гипертекста, которые желательно иметь, определяются отсутствующие и ненаполненные информационные статьи, проводится их предварительное структурирование. С учетом обнаруженных недоработок может быть дана экспертная оценка степени готовности создаваемого гипертекста.
Тестирование, оценка, модификация и сопровождение ГБЗ. На данном этапе проектирования вначале исследуется и оценивается работа ГБЗ в комплексе с управляющей системой в целях приведения функциональных возможностей в соответствие с реальными требованиями пользователей. Представленный вариант проверяется на удобство интерфейса, корректность базы знаний, время реакции и по другим характеристикам. К тестированию привлекаются эксперты, которые выполняют апробацию системы, определяют уровень работоспособности ГБЗ на различных примерах. Стадия тестирования предназначена для выявления ошибок и подготовки рекомендаций по доработке базы до промышленного (коммерческого) варианта.
Оценка проводится для того, чтобы проверить точность работы программ и их полезность. Ее можно проводить исходя из различных критериев, которые можно сгруппировать следующим образом:
• критерии пользователей («дружелюбность» интерфейса, развитый аппарат подсказок при эксплуатации и т. д.);
• критерии разработчиков (производительность, дизайн, широта охвата предметной области, непротиворечивость базы знаний и т. д.);
• критерии независимых экспертов. Модификация и сопровождение ГБЗ связаны,
во-первых, с необходимостью пополнения (коррекции) информационных данных и, во-вторых, с расширением функциональных возможностей программной среды, в которую погружены извлеченные и формализованные знания.
Говоря о втором аспекте сопровождения и модификации, следует отметить, что при замене
отдельных модулей системы на новые, которые подготовлены с помощью высокоэффективных языков программирования, повышается быстродействие и оптимизируется процедура использования памяти компьютера, однако снижаются гибкость и адаптивность. Поэтому при оптимизации процедур сопровождения и модификации ГБЗ необходимо учитывать: если проблемная область изменяется, систему целесообразно оставлять в ее собственной инструментальной среде разработки.
Извлечение и структурирование знаний для гипертекстовых систем. В связи с особой значимостью данных процессов представляется логичным подробно рассмотреть проблемы, связанные с извлечением и структурированием знаний для гипертекстовых систем [2, 9, 11].
Условно можно выделить три основные проектные процедуры: приобретение, формирование и извлечение знаний.
Приобретение знаний. Для этой процедуры необходимы ЭВМ, оснащенные подходящим программным обеспечением. Автоматизированные системы, выполняющие ввод данных или знаний, устраняющие ошибки и расширяющие базы до желаемого уровня, позволяют приобретать уже готовые фрагменты знаний в соответствии со структурами, заложенными разработчиками систем. Большинство этих инструментальных средств специально ориентировано на конкретные предметные области с жестко обозначенной моделью представления знаний.
Формирование знаний. Эта процедура связывается с созданием компьютерных систем, реализующих автоматическое получение знаний, — так называемые методы машинного обучения (machine learning). Специалисты этой чрезвычайно перспективной области инженерии знаний занимаются разработкой моделей, методов и алгоритмов обучения, а также индуктивных принципов формирования гипотез, определяемых с помощью использования обучающих выборок, обучения по аналогии и других приемов.
Предполагается, что в результате автоматизации процесса обучения система сможет «самостоятельно» формировать необходимые знания на основе имеющегося эмпирического материала (данных). Следует подчеркнуть, что формирование знаний может быть реализовано при наличии достаточно представительной выборки примеров различных ситуаций в предметной области и соответствующих
пакетов прикладных программ. Рассматриваемое направление ориентировано на получение нового знания, которое в явном виде не представлено ни экспертом, ни в имеющейся литературе.
Извлечение знаний. Это длительная и трудоемкая процедура, в которой специалисту по разработке интеллектуальной системы, вооруженному аппаратом математической логики, системного анализа и т. п., необходимо построить модель предметной области.
Извлечение знаний выполняется без использования вычислительной техники путем непосредственного контакта инженера по знаниям с носителем знаний (например, экспертом, специальной литературой и др.). На современном этапе этот подход используется наиболее часто, поскольку промышленных систем приобретения и формирования знаний практически нет.
Основной принцип систематизации методов извлечения знаний связан с типом источника знаний. Инженеры по знаниям в зависимости от конкретной задачи и ситуации могут выбрать подходящий метод.
Коммуникативные методы охватывают все виды контактов с живым источником знаний — экспертом, а текстологические касаются методов работы с документами и специальной литературой. Разделение всех групп методов не означает их антагонистичности. Обычно методы комбинируются. Например, сначала изучается литература, а затем проводятся беседы с экспертом, или наоборот.
Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик, справочников и других носителей профессиональных знаний. Эта группа является наименее разработанной. Поскольку построение гипертекстов основывается на работе с текстами документов, требуется разработка детальной методики, предназначенной для сбора и концептуализации знаний, приобретаемых без взаимодействия с экспертами.
Технология сбора знаний. При составлении информационных массивов и документов, содержащих сведения о некоторой предметной области, одной из важнейших и первоочередных задач является определение правил, на основе которых производятся формирование структуры массивов (документов) и размещение в них отдельных фактов или семантических блоков. Эти правила чрезвычайно важны
для пользователей, поскольку дают возможность, с одной стороны, быстро, точно и полно находить требуемые сведения, а с другой — практически определять месторасположение поступающих в фонд новых данных. Для гипертекстов характерны особые требования к размещению информации. Основу, каркас для компоновки материалов представляет собой гипертекстовой тезаурус.
Прежде чем приступить к наполнению собственно информационного массива, необходимо систематизировать понятия, используемые в исследуемой предметной области. Составление тезауруса считается наиболее интеллектуальным и трудоемким процессом, поэтому при создании гипертекстовых массивов основная часть работы заключается в построении сети взаимосвязанных понятий, объединенных некоторым тематическим единством. От того, насколько полно представлены в тезаурусе все встречающиеся понятия, определяющие главным образом различные предметы и процессы, и все допустимые взаимосвязи между выделенными понятиями, зависит качество гипертекста, в том числе полнота найденных сведений, скорость и точность их поиска.
Для эффективной разработки фонда или документации (в дальнейшем — фонда) гипертекстовой структуры рекомендуется придерживаться следующей последовательности операций.
1. Должны быть сформулированы цели, которые преследуются при создании гипертекста (разработка концептуальной модели исследуемого явления, информационно-справочной системы и т. п.), и определен примерный контингент потенциальных пользователей — потребителей информации из подготовленного фонда.
2. С учетом направленности создаваемого массива следует составить так называемый список главных тем, которые предполагается раскрыть в гипертексте. В список включаются самые общезначимые понятия, определяющие глобальные и важные объекты. Этим списком регламентируется тематический объем фонда и оцениваются вероятные трудозатраты.
Например, информационно-справочной системой по налогообложению в Российской Федерации будут пользоваться налоговые инспекторы, финансово-экономические службы предприятий различных форм собственности и налогоплательщики — физические лица. Поэтому в список главных тем целесообразно включить следующие объекты:
налоги и другие платежи; объекты налогообложения; плательщики налогов; налоговые органы; льготы по налогам; налоговые ставки.
3. Документы, отобранные в качестве первоисточников, обрабатываются коллективом ги-перизаторов (специалистами, преобразующими традиционные линейные материалы в тексты сетевой структуры). Первое прочтение сопровождается предварительной разметкой текстов, а также построением тезауруса описываемой предметной области.
Во время чтения следует по возможности выделять описываемые ситуации, которые связывают между собой несколько объектов. Требуется тщательно изучить каждую ситуацию и установить ее составляющие (компоненты, фрагменты, этапы и т. п.). В первую очередь определяются основные, наиболее важные элементы, которые характеризуют ситуацию, а затем второстепенные.
В зависимости от обстоятельств, которыми диктуется необходимость создания гипертекста (цель разработки, категория пользователей), второстепенные компоненты иногда могут не учитываться. Потеря же основного компонента ведет к резкому снижению качества информационного массива, ухудшению его поисковых возможностей и других характеристик. Таким образом, в документах-первоисточниках выявляются объекты, которые будут внесены в тезаурус гипертекста и описаны в его информационных статьях.
4. После того, как ситуация расчленена на взаимосвязанные фрагменты, должна быть определена роль каждого компонента. Смысл термина «роль» аналогичен значению понятия «определитель роли», которое широко используется для повышения полноты и точности поиска в традиционных дескрип-торных информационно-поисковых системах. В соответствии с тем назначением, которое несет каждый объект ситуации, из комплекта взаимосвязей, предусмотренных в применяемой реализации гипертекстовой системы, подбирается адекватный для данной роли тип связи.
Роль компонента ситуации в процессе работы над текстом можно либо уточнять, либо искусственно огрублять (при более тонком определении роли перечень типов связей должен быть достаточно велик, чтобы отразить отмеченное разработчиком различие). Вследствие этих действий жизненный цикл объектов будет расписан с той или иной степенью подробности. Целесообразно роль компонента
ситуации определять с максимальной точностью, а уже потом, при необходимости, огрублять эту роль до желаемой степени.
5. Одновременно с оценкой ситуаций идет построение тезауруса гипертекста. Для объектов, зафиксированных при чтении первоисточников, составляются списки с указанием ближайших родственных объектов со всеми видами отношений, и в первую очередь базисными.
Совокупность всех списков представляет собой тезаурус гипертекста. Практически тезаурус реализуется в виде картотеки, в которой для каждого объекта заведена отдельная карта, где записаны названия ближайших родственных объектов с указанием типа родства (тезаурусная статья). Карты располагаются в алфавитном порядке названий объектов.
При корректировке тезауруса карты новых объектов добавляются в картотеку, а в карты соответствующих объектов (с которыми связан новый объект) вписываются названия новых, или, наоборот, карты изымаются из картотеки, а наименования удаленных объектов вычеркиваются из соответствующих карт.
Для облегчения процедуры построения тезауруса в тексте первоисточников следует искать определения изучаемых объектов, поскольку в определениях дается полезная для составления тезауруса информация.
Тезаурус можно формировать и экспертно, пользуясь накопленным опытом специалистов, работающих в данной предметной области. Данная методика рассчитана также и на информационных работников (инженеров по знаниям), которые обладают навыками, позволяющими создавать информационные массивы для любой отрасли знаний.
6. Затем осуществляется обработка первоисточников. Разметка текста заключается в том, что в нем помечаются (указываются начало и конец) и последовательно нумеруются (номер ставится на полях страницы напротив соответствующего текстового отрывка и обводится в кружочек) фрагменты, в которых дается семантическое описание выделенных объектов. В нижней части карты объекта, на которой уже записана тезаурусная статья этого объекта, помещаются номера соответствующих ему фрагментов.
Таким образом, на бумажном носителе строится гипертекст, содержащий как тезаурусную, так и информационную составляющие. Если в дальнейшем требуется более детальная систематизация и
возникает необходимость дробить уже помеченный фрагмент, то образовавшиеся новые, более мелкие отрывки текста остаются с прежним номером, но с добавлением буквы, например 15а, 29в и т. д.
7. Важной задачей при формировании информационных (справочных) статей является определение оптимального размера фрагментов текста, выделяемых в первоисточниках. При выборе размеров фрагмента необходимо стремиться к его максимальному сжатию, т. е. отрывок должен состоять только из необходимых для понимания сути явления сведений. Следует, однако, постоянно контролировать, не теряется ли смысл приводимых фактов из-за чрезмерного сокращения размеров семантических блоков. В зависимости от обстоятельств величина фрагментов может варьироваться в достаточно широких пределах, например от одного предложения до нескольких абзацев и даже страниц.
8. При втором прочтении выполняется окончательная разметка текстов документов. Одновременно производятся попутная коррекция и пополнение тезауруса, уточнение названий объектов, добавление новых связей и т. п.
9. На завершающей стадии работ проверяются связность и корректность сформированного тезауруса. При этом необходимо соблюдать следующие требования:
• не должно быть изолированных объектов, которые по каким-либо причинам (невнимательность гиперизаторов, недостаток исходной информации и т. д.) оказались без родственного окружения, т. е. их тезаурусные статьи — пусты;
• все объекты, кроме, может быть, входящих в список главных тем, должны иметь «родовых родственников» или таких, в которые они входили бы как часть;
• все синонимичные наименования объектов должны быть взаимосвязаны.
10. Размеченные тексты первоисточников систематизируются в справочные статьи в соответствии со структурой тезауруса. Извлеченные сведения помещаются в статьи с учетом принципов построения гипертекстов. Окончательно редактируется текст информационных компонентов. Необходимость редактирования объясняется тем, что статьи, формируемые из фрагментов первоисточников, не всегда получаются достаточно связными и литературными.
Однако бывают случаи, когда редактирование недопустимо. Это случается, например, при созда-
нии гипертекстовых массивов нормативно-правовой информации, извлеченной из законов, указов, постановлений высших органов государственной власти. При таких ограничениях в состав отдельных информационных статей фрагменты первоисточников помещаются без изменений (как цитаты), но снабжаются дополнительными пояснениями и комментариями.
Заключение. Гипертекст представляет собой многомерный информационный массив, элементарная составляющая которого (гипертекстовая статья) содержит тезаурусный и информационный компоненты.
В тезаурусной статье перечислены заголовки объектов, родственных искомому. Информационная статья хранит понятийные и другие сведения, которые характеризуют объект, определенный заголовком статьи.
Гипертекстовая технология моделирования основывается на построении и применении тезауруса — совокупности статей, каждая из которых содержит список заголовков родственных статей с указанием типа родства.
Экспериментально выявлены и теоретически обоснованы типы отношений, которые необходимо отражать в тезаурусе гипертекста, предназначенного для информационного моделирования экономических систем. Выбранные за основу методы реализации тезауруса апробированы при построении ряда гипертекстовых моделей и показали свою эффективность по сравнению с другими возможными вариантами.
Процесс планирования и организации разработки баз знаний гипертекстовой структуры представляет собой самостоятельное научное исследование. Теоретических и инструментальных средств оказывается недостаточно для создания высокоэффективных баз — необходимо четко формализовать деятельность коллектива проектировщиков в целом и каждого отдельного члена группы в частности.
Список литературы
1. Авдонин Б.Н., Хрусталёв Е. Ю., Хрус-талёв О. Е. Когнитивная методология структури-
зации знаний для изучения и применения финансово-экономических инноваций // Финансовая аналитика: проблемы и решения. 2013. № 35.
2. Гаврилова Т. А., Червинская К. Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992.
3. Крейслер Г., Чэн Ч. Теория моделей. М.: Мир, 1977.
4. Омельченко А. Н., Хрусталёв О. Е. Когнитивное моделирование развития банковской системы России в условиях глобализации // Финансы и кредит. 2011. № 41.
5. Осуга С. Обработка знаний. М.: Мир, 1989.
6. Тихомиров В. П., Хрусталёв Е. Ю. Гипертекстовое информационное моделирование экономических систем: проблемы теории и практики внедрения // Экономика и математические методы. 1997. Т. 33. Вып. 2.
7.ХрусталёвЕ.Ю. Методологические и теоретические основы гипертекстовой технологии моделирования экономических систем // Концепции. 2010. № 1—2.
8. Хрусталёв Е. Ю. Семантическое моделирование как метод производства, систематизации и использования знаний об оборонном потенциале государства // Национальные интересы: приоритеты и безопасность. 2012. № 9.
9. Хрусталёв Е. Ю., Баранова Н. М. Интеллектуальные семантические модели для повышения качества образовательных и научно-исследовательских процессов // Экономический анализ: теория и практика. 2013. № 35.
10. Хрусталёв Е. Ю., Ларин С. Н. Использование информационных ресурсов и технологий для стимулирования инновационного развития экономики // Национальные интересы: приоритеты и безопасность. 2011. № 32.
11. Хрусталёв Е. Ю., Баранова Н. М. Семан-тико-ориентированная методология обучения студентов в информационно-коммуникативной среде университета // Национальные интересы: приоритеты и безопасность. 2011. № 21.
12. Conklin J. Hypertext: An Introduction and Survey // Computer. 1987. № 9.