УДК 681. 335.001.53
ЗАСТОСУВАННЯ ТЕОРІЇ НФОРМАЦЙНОЇ ВЗАЄМОДІЇ ДО ПОБУДОВИ СИСТЕМ СМИСЛОВОГО ПОШУКУ НФОРМАЦІЇ
ТЕСЛЯ Ю.М., КОСЕНКОВА О.М._________________
Виконується аналіз традиційних методів пошуку інформації в слабо структурованих базах даних. На основі результатів, отриманих в теорії інформаційної взаємодії, пропонується підхід до побудови ефективних систем смислового пошуку інформації.
Обсяги інформації, необхідної для прийняття рішень у бізнесі чи науці, культурі чи у фінансово-кредитній сфері, в управлінні країною чи вищим навчальним закладом, збільшуються стрімкими темпами, що зумовлено широким розповсюдженням корпоративних та глобальних мереж, активним використанням потужних СУБД, появою електронних бібліотек, швидким розвитком мультимедійних технологій. В таких умовах зростає потреба в ефективних системах пошуку та аналізу інформації.
Основними критеріями оцінки ефективності пошукових систем є швидкість, точність та повнота відповідей. Точність визначається тим, яка частина інформації, що видається у відповідь на запит, є релевантною, тобто такою, що відповідає цьому запиту. Повнота характеризується співвідношенням між всією релевантною інформацією, що міститься в базі, і тією її частиною, що береться до уваги, з якими типами даних може працювати та чи інша система, в якій формі представлені результати пошуку, який рівень підготовки користувачів необхідний для роботи з пошуковою системою.
На сьогодні відомі та широко розповсюджені системи пошуку, які базуються [1] на:
— методах індексного пошуку;
— статистичних методах;
— базах знань.
Традиційні пошукові системи — це системи індексного пошуку. Індексний пошук застосовують більшою мірою на структурованих базах даних. В таких системах слова інтерпретуються як послідовності закодованих символів. Використовуючи мову запитів, така система вибирає точну відповідність для окремого слова, декількох слів або слів, пов’язаних між собою логічними операторами. Її позитивними рисами є простота та швидкість. Системи індексного пошуку мають обмеження по точності, яка впливають на можливість знаходження всієї інформації, що відноситься до запиту. В таких системах не враховуються різноманітні форми та значення слів. Крім того, користувач повинен чітко уявляти ключові слова та фрази, які б використовувались авторами документів у їх текстах. Але не виключена можливість, коли користувач не спроможний чітко
сформулювати запит, тому що предметна область для нього невідома. Системи індексного пошуку не ранжирують знайдені документи по мірі їх відповідності запиту, тому користувач повинен ознайомитись з кожним документом, щоб визначити міру відповідності його запиту. Подібна “ідеологія” запитів забезпечує спілкування з користувачем на мові досить низького рівня (“знайти задану послідовність символів” і т.п.). Ця мова запитів є прямою трансляцією машинних алгоритмів, що оперують з такими структурами даних, як послідовність символів.
Системи більш високого рівня використовують статистичні методи, що базуються на розрахунку різноманітних частотних характеристик. Основними критеріями для таких систем є частота входження слів у документ, частота сумісного входження декількох слів, фізична відстань між словами та інше. При цьому вважається, що чим більше зустрічається те чи інше слово запиту в документі, тим вища ступінь відповідності даного документа введеному запиту. На відміну від методів індексного пошуку статистичні методи дозволяють більш гнучко застосовувати мову запитів. Використовуючи ці методи, можна будувати досить повні та від біркові запити на основі застосування логічних операторів та масок. Вони дозволяють використовувати різні граматичні форми слів. На основі використання частотних характеристик можна ранжирувати документи за ступенем відповідності запиту.
Проте такі методи не завжди забезпечують бажану точність та повноту відповідей. Це пояснюється тим, що поняття важливості того чи іншого терміну для всього тексту не напряму пов’язане з частотою його використання. Пошукові системи, що опираються на статистичні методи, оперують зі словами. Але між словами тексту існують і зв’язки. Подібні системи розглядають такі зв’язки лише з математичної точки зору, при цьому лінгвістична сторона не враховується. Що стосується користувача, то він повинен добре володіти мовою побудови запитів конкретної системи, а також уявляти предметну область, до якої належить потрібна йому інформація, і якими словами вона може бути виражена в тексті.
Інший підхід до організації пошуку інформації реалізований у системах, що базуються на знаннях. Вони використовують концептуальні відношення, які не враховуються при статистичному пошуку.
Одним з найбільш простих та поширених способів представлення знань є таблиця синонімів. Використання синонімів дозволяє при відповіді на запит враховувати не тільки ті терміни, що безпосередньо вказані в запиті, але й інші слова, вона є близькими до них за значеннями. Досить поширеним є спосіб, що використовує ієрархію термінів і понять, що задається самим користувачем. Деякі системи застосовують підхід на основі лінгвістичних правил, які використовуються для аналізу і граматичного розбору текстової бази даних [2]. Цей метод аналізу визначає ключові слова та поняття, що об’єднуються в базу знань. Остатня використовується для пошуку та ранжирування документів. Процес граматичного
РИ, 2000, № 1
103
розбору та створення бази знань повинен проводитись для кожної предметної області.
Ще один підхід базується на застосуванні семантичних мереж. Семантична мережа містить множину визначень для кожного слова, що зберігається. Визначення споріднених слів та понять пов’язані між собою. Основна перевага використання семантичних мереж — врахування смислу слів.
Використання в системах пошуку баз знань дозволяє підняти рівень взаємодії користувача з системою на значно вищий рівень. Позитивним в концепції баз знань є те, що користувачу не потрібно знати слова, які обов’язково повинні бути присутніми в тексті. Такі системи, маючи своєрідний інтелект, що грунтується на знаннях, здатні розширити запит користувача. При цьому інформативне коло, що є результатом пошуку, буде відповідно розширюватись. Але з іншого боку, така концепція доповнення запиту словами та поняттями несе в собі і негативне забарвлення, яке полягає в зниженні точності відповідей, що знайдені в результаті пошуку, хоча повнота при цьому може підвищуватись. Продовжуючи аналіз недоліків, можна зазначити і те, що подібне розширення запиту за рахунок бази знань може бути досягнуте і шляхом використання більш традиційних і простих підходів. Для цього користувач власноруч має доповнити запит чи то синонімами, чи то додатковими термінами, що з’єднані між собою логічними операторами (як і в випадку з статистичними методами).
Системи пошуку інформації, що базуються на знаннях, не зовсім зручні в експлуатації. Відомо, що основним джерелом надходження знань у систему є знання експерта. Потрібна чітка формалізація знань експерта, що забезпечила б ефективне функціонування системи. Для придбання знань в системі необхідна участь інженера по знаннях, а в окремих випадках і програміста. Крім того, слід зазначити дуже вузький характер інформації в базі знань, що зумовлений вузькою спеціалізацією експерта в тій чи іншій предметній області.
Стосовно систем, що базуються на використанні семантичних мереж, можна відзначити такий позитивний момент, як використання смислового забарвлення слів. Слова запиту в цьому випадку не просто розширюються словами, близькими за значенням, а й доповнюються з урахуванням семантики запиту. Це сприяє використанню лише тих слів, що є найбільш значущі в контексті конкретної ситуації. Подібне стає можливим внаслідок накладання семантичної мережі на запит користувача. Серед представлених на розгляд систем на основі баз знань саме ці належать до найбільш перспективних. Що стосується систем, що використовують лінгвістичні правила, то їхнім недоліком можна вважати необхідність роботи професійного лінгвіста, який розробляє систему формально-граматичних правил. В цьому випадку багато залежить від професійного рівня лінгвіста. Також можна відзначити, що на практиці інколи мають місце нестандартні ситуації, які не підлягають класичним правилам, тобто мова
йде про специфіку автора. В таких випадках системи не завжди здатні приймати правильне рішення.
Отже, аналізуючи сучасний стан проблем в області пошуку інформації, а також методи їх вирішення, можна зробити такі висновки. Недосконалість та обмеженість індексного методу, слабка лінгвістичність статистичних, тобто нездатність враховувати різноманітні мовні конструкції, вузька спеціалізація та великі затрати часу та ресурсів при реалізації систем на основі баз знань, а також актуальність проблеми ефективного пошуку вимагають використання якісно нового підходу до рішення задач цього класу, який вібрав би в себе простоту статистичних методів та ефективність систем на основі баз знань.
Інтелектуальна система пошуку повинна містити в собі аналітичне ядро, яке б здатне було класифікувати документи за смисловими групами. Вхідною інформацією для нього будуть теми. Вихідною інформацією в першому наближенні мають бути посилання на довільні природномовні тексти. Подібна система повинна мати можливість навчатися та налагоджуватись на різні тематики.
Значна складність сформульованої задачі полягає у відсутності в такому науковому напрямку, як штучний інтелект, науково-обгрунтованої формальної теоретичної бази подібних розробок, тому як науково-методичну основу системи пошуку використовують результати, отримані в рамках теорії інформаційної взаємодії.
До області досліджень теорії інформаційної взаємодії відносяться процеси несилової зміни інформаційного вмісту відмінних між собою об’єктів. Теорія базується на гіпотезі про адекватність законів інформаційної взаємодії деяким фізичним законам [3,4].
Подамо пошук як задачу розрахунку величини інформаційної взаємодії елементів запиту та документів, в середовищі яких відбувається пошук. Представимо смислове наповнення природномовного тексту через існування множини віртуальних об’єктів, що активізуються цим текстом. Вони отримали назву об’єктів інформаційної взаємодії (ОІВ). Визначивши величину дії фрагментів запиту та документів, серед яких ведеться пошук на такі віртуальні об'єкти, можна за допомогою традиційних методів розпізнавання образів визначити можливість віднесення (класифікації) вхідного зображення (запиту) тому чи іншому класу образів (документу, що розглядається). При цьому і запит, і документ визначаються множиною активізованих ОІВї.
Для побудови ефективних систем пошуку необхідно навчитися активізувати адекватні смисловому наповненню комбінації об’єктів інформаційної взаємодії. Рішення цієї задачі виконувалось в рамках побудови систем природномовного спілкування [5]. Проведені експериментальні дослідження показали ефективність наведеного підходу до побудови систем, що “розуміють” природну мову. Але в системах пошуку інформації активізація ОІВ виконується за іншим, ніж в системах природномовного спілкування, алгоритмом. В цьому алгоритмі виділяються такі етапи.
104
РИ, 2000, № 1
Етап 1. Формування структури ОІВ, адекватної смислу запиту.
Генерується набір подібних за смислом, але по-різному записаних текстів. На кожний з текстів вчитель задає множину ОІВ, що активізуються (представлень смислу). При цьому формується система зв’язків, що забезпечує активізацію вибраних ОІВ для різних за написанням, але однакових за смислом текстів. Зв’язки між фрагментами текстів та ОІВ формуються за принципом:
а) величина дії по активізації ОІВ визначається різницею в кількості інформаційної дії на ОІВ:
Особливістю наведеного підходу до побудови систем смислового пошуку є те, що для обчислення кількісних показників використовуються аналітичні вирази, отримані в теорії інформаційної взаємодії із відомих фізичних законів. Експериментальна перевірка продемонструвала значну ефективність методів обробки природномовних текстів, які базуються на положен -нях і висновках теорії інформаційної взаємодії [7]. Основні переваги цього підходу - формальна обгрунтованість, простота реалізації. Метод досить ефективний і не вимагає великих затрат на реалізацію, що дозволяє розраховувати на його широке використання в системах смислового пошуку.
Id =l-lo ,
де i, io — інформаційна міра станів ОІВ; p — відносна (при умові появи фрагмента тексту) імовірність активізації ОІВ; po — абсолютна імовірність активізації ОІВ;
б) виділяються зв’язки активізації та пасивізації ОІВ:
i-io max.
Література: 1. Карташева Е. Интеллектуальные поисковые системы Excalibur //Опубликовано на сервере http:/ /www.cio.ru/nets/1997/06/98/htm. 2. Андреев А.М., Березкин Д.В., Брик А.В., Кантонистов Ю.А. Вероятностный синтаксический анализатор для информационно-поисковой системы // Опубликовано на сервере http://www. inteltec/ru. 3.Тесля Ю.Н. Информационное взаимодействие в природе. Киев, 1995. 37 с. (Препр. НАН Украины. Ин-т кибернетики им. В.М.Глушкова: 96-5). 4. Тесля Ю.М. Основи теорії інформаційної взаємодії. Філософсько-логічне та фізичне обгрунтування // Вісник Черкаського інженерно-технологічного інституту. 1998. №2. С.62-69. 5. Тесля Ю.Н. Рефлекторная система обработки естественно-языковых текстов в АСУ строительством сложных энергетических объектов// Радиоэлектроника и информатика. 1998. №4. С.52-55. 6. Тесля Ю.М. Застосування теорії інформаційної взаємодії до побудови систем класифікації образів// Пращ сьомої міжнародної конференції «Укробраз 98», Київ, 26-30 жовтня. 1998. С. 122-123. 7. Тесля Ю.М. Основи теорії інформаційної взаємодії . Експериментальне підтвердження // Вісник Черкаського інженерно-технологічного інституту. 1998. №2. С.70-75.
Надійшла до редколегії 25.02.2000
Етап 2. Пошук документа:
а) актуалізація зв’язків фрагментів для кожного вхідного документу;
а) активізація ОІВ. Величина дії на ОІВ визначається як сума дії окремих фрагментів документів.
Етап 3. Відбір документа:
Множина активних ОІВ, визначена фрагментами документів, розглядається як зображення, а множина активних ОІВ, що відповідає смислу запиту як опис класу образів. Використовуючи метод розпізнавання образів, який базується на положеннях теорії інформаційної взаємодії (макрорівень ОІВ) [6], відбираються тексти з максимальною відповідністю запиту.
Рецензент: д-р техн. наук Тимченко А.А.
Тесля Юрій Миколайович, канд. техн. наук, доцент, професор кафедри інформатики Черкаського інженерно-технологічного інституту. Наукові інтереси: автоматизовані інформаційні системи і технології управління будівництвом складних енергетичних об’єктів; гіпотетична теорія інформаційної взаємодії. Адреса: Україна, 18006, Черкаси, вул. Чехова, 42, кв.428.
Косенкова Олена Миколаївна, інженер відділу комп'ю-теріизації навчального процесу Черкаського інженерно-технологічного інституту. Наукові інтереси: системи природномовного пошуку інформації; гіпотетична теорія інформаційної взаємодії. Адреса: Україна, 18006, Черкаси, вул. Седова, 1, кв.49.
РИ, 2000, № 1
105