Научная новизна. Результатом проведенного исследования является муравьиный алгоритм поиска оптимального маршрута в городе с заданными критериями оптимальности. Предложена модель взаимодействия всех участников дорожного процесса как единой системы, решающей сложные динамические задачи, не выполнимые без внешнего управления, контроля и координации.
Практическое значение. Результатом применения данного метода является нахождение оптимальных по задаваемым критериям маршрутов, их динамическое перераспределение. При этом если какой-либо участок пути оказывается "переполненным", то прокладывается обходной маршрут, пусть и более длинный. Когда же "трафик" уменьшается, все агенты вновь начинают "проходить" по оптимальному пути. А накопленные в ЦКС данные позволят выделить наиболее проблемные участки в городе.
Список литературы: 1. http://wikipedia.oig 2. National-geographic Роевой интеллект // http://www.national-geographic.ru/ngm/200708/article_139/ 3. Штовба С.Д. Муравьиные алгоритмы // Exponenta Pro. Математика в приложениях. 2003. №4. C. 70-75. 4. Thompson, Jonathan. Ant Colony Optimization. //http:// www.orsoc.org.uk/region/regional/swords/swords.ppt 5. Barker T. and Von Haartman M. Ant Colony Optimization. // http://courses.washington.edu/inde510/510/Ant Colony Optimization? .ppt.
Поступила в редколлегию 07.03.2008 Гвоздинский Анатолий Николаевич, канд. техн. наук, профессор кафедры искусственного интеллекта ХНУРЭ. Научные интересы: оптимизация процедур принятия решений в сложных системах управления. Адрес: Украина, 61166, Харьков, ул. ак. Ляпунова, 7, кв. 9, тел. 702-38-23.
Вертий Артём Владимирович, магистрант кафедры искусственного интеллекта ХНУРЭ. Научные интересы: электронная коммерция, мультиагентные системы. Адрес: Украина, 61166, Харьков, ул. Целиноградская, 36, к. 504.
УДК 519.7
А.Н. ГВОЗДИНСКИЙ, В.А. ГУБИН, Е.А. ПАРШИКОВ
ИСПОЛЬЗОВАНИЕ RDF ДЛЯ АННОТИРОВАНИЯ СОДЕРЖИМОГО ТЕКСТОВЫХ ДОКУМЕНТОВ
Показывается состояние проблематики доступа к данным, хранящимся в Internet, рассматривается проблема их поиска и анализа. Описываются и выделяются основные методы и концепции для повышения эффективности машинного поиска и анализа данных, хранящихся в Internet.
Актуальность исследования определяется тем, что в современном мире самой большой ценностью является информация, а самым большим хранилищем информации сегодня является всемирная сеть Internet. И на сегодняшний день очень остро стоит проблема поиска полезной информации в этом хранилище. По данным исследований сырые, неструктурированные данные составляют не менее 90% информации, с которой имеют дело пользователи. Найти в таких данных нечто ценное можно лишь посредством специализированных технологий.
Состояние проблемы. Как правило, в процессе поиска информации в Internet находят все что угодно, кроме того, что было действительно нужно. Это связанно с тем, что большинство информации во всемирной паутине хранится в виде слабоструктурированных текстовых документов, что значительно усложняет их поиск и анализ, в том числе и автоматизированный. На данный момент эту проблему решают с помощью концепций Semantic Web. Это означает, что вся информация должна быть аннотирована с помощью языков RDF или XML. Но как же быть с информацией, которая уже хранится в Internet? Перегонка этих данных под стандарт Semantic Web сегодня является одной из наиболее важных задач, которые решают специалисты для превращения Internet из свалки, которой он является сейчас, в строго структурированный банк данных и информации, поиск которой не будет занимать много времени. Но тут возникает проблема, как это сделать. Вручную обработка всей информации потребует очень много времени и астрономических вложений материальных и человеческих ресурсов. И сейчас на первый план вышла задача создания систем для автоматизированного аннотирования таких документов.
Сущность исследований. В настоящее время для поиска информации в Internet человек использует преимущественно автоматические поисковики. Но для таких поисковиков информация должна быть в строго структурированном виде. В работе рассматривается сущность слабоструктурированных тестовых документов, основные языки для аннотирования этих документов и основы Semantic Web.
Цель исследования. Проведение анализа современного состояния доступа к данным, находящимся в Internet, и технологий, которые предоставляют возможность облегчить обработку этих данных как машиной, так и человеком.
Согласно мнению социологов, человечество сейчас вошло в постиндустриальную эпоху, которая характеризуется тем, что наибольшей ценностью становятся знание и информация, а с развитием компьютеров электронный формат стал основным для хранения информации. Но сейчас ситуация сложилась так, что только 10-15% этой информации находится в структурированном виде в базах данных, хранилищах информации и т.д. Остальная же информация хранится в текстовых документах различного вида. Еще такие документы называют слабоструктурированными текстовыми документами. Основные их свойства следующие:
1. В них хранится какая-либо информация.
2. Эта информация находится в неявном виде.
3. Информация состоит из пар "концепт-значение".
4. Информация выделена из окружающего текста (средствами форматирования).
5. Нельзя четко определить, что является концептом, а что его значением.
На рис.1 показан пример такого документа. Человек, посмотрев на него, сразу видит, что здесь концепт, а что - его значение. К примеру пары: температура и ее значение "+23-28C". Но для машинной обработки очень сложно найти такие пары, а если они еще и не выделены из текста, то это просто невозможно. Один из минусов такого подхода для разбора документов заключается в том, что для корректного их анализа нам нужна большая выборка однотипных документов этого вида для «обучения» системы, но даже после этого возможны ошибки. После выделения таких пар мы можем приступить к аннотированию документа.
Температура: +23-25С Атмосферное давление: 744мм Влажность воздуха: 50-55 % Ветер: Ю 1-5метр/с Комфорт: +24-26 °С
Рис. 1. Пример слабоструктурированного текстового документа Первыми об аннотировании заговорили ученые из Консорциума W3 в контексте новой концепции по развитию сети Internet. Эта концепция получила название Semantic Web. Целью ее является реализация возможности машинной обработки информации, доступной сети Internet. Основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержание ресурсов сети, в противовес использованию в настоящее время текстового анализа документов. На рис. 2 мы видим структуру Semantic Web. Для описания метаданных в Semantic Web предполагается использовать XML подобный язык RDF.
На сегодняшний день язык XML дает возможность пользователям создавать документы произвольной структуры, однако он ничего не говорит о том, что означает эта структура. Смысл выражается посредством языка RDF, который кодирует его с помощью деревьев глубины три, где каждое дерево состоит из субъекта (подлежащее), свойства (сказуемое) и объекта (дополнение). Объект можно назвать функцией свойства от субъекта. Например, утверждение «Небо голубого цвета» в RDF-терминологии можно представить следующим образом: субъект — «небо», свойство — «иметь цвет», объект — «голубой». Сегодня наиболее ярким примером использования RDF для аннотации веб-ресурсов является Dublin Core. Концепция Dublin Core хоть и появилась раньше RDF, но теперь это просто аннотации (метаданные) к любым объектам, записанным на RDF с помощью
онтологии Dublin Core. Цель Dublin Core — установить единый формат метаданных для облегчения поиска по автору, названию, году выпуска и т. д. Множество метаданных Dublin Core состоит из 15 элементов: Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifer, Source, Language, Relation, Coverage, Rights.
Trust
Proof
Logic
Pules & Query
Ontology
RDF Model & Syntax
XML Query
XML Schema
XML
Namespaces
URI
Unicode
n
К
Рис. 2. Структура Semantic Web
Аннотирование документов помогает при работе с большим набором разнотипных документов. В случае обработки однотипных документов будут аннотироваться не только сами документы, но и их содержимое, что в итоге упростит задачу их автоматизированной обработки. Для этих целей, как и для аннотации документов, будет использоваться RDF. Его применение в этом случае оправдано универсальностью данного инструмента. RDF дает возможность описывать объекты практически в любом удобном для нас виде и, что важно, уже создано много программных интерфейсов для работы с форматом RDF.
Для аннотирования фрагментов текстовых документов можно использовать расширения системы описания метаданных Dublin Core. В нее добавим, кроме описания самого текстового документа, еще выделенные свойства форматирования для текстовых фрагментов. После проведения анализа можно выделить следующие значимые свойства форматирования: текст фрагмента; размер шрифта; цвет шрифта; цвет фона; жирность/курсив/подчеркивание; выравнивание; тип шрифта.
На основе этих новых добавленных свойств можно будет проводить анализ данного объекта и рассуждать о его принадлежности либо к классу концептов, либо к классу значений. Разделение на такие объекты позволит упростить поиск нужной нам информации.
Так как это направление находится только в начале своего развития, такое решение данной проблемы не претендует на оптимальность и завершенность. Но данное направление при должном его развитии может перерасти в новую глобальную концепцию развития поиска информации как в сети Internet, так и в простых хранилищах данных.
В заключение можно сделать следующие выводы: на сегодняшний день нет абсолютно верного решения проблемы поиска информации в слабоструктурированных текстовых документах. Концепция, предложенная в этой работе, является одной из самых перспективных, существующих на данный момент. И дальнейшее развитие идей будет происходить в данном направлении. Это развитие не обещает быть быстрым, но тот факт, что люди уже стали заниматься этой проблемой и уже сделаны первые шаги в этом направлении, вселяет в нас надежду на то, что указанная проблема может быть решена уже в ближайшем будущем.
Научной новизной данной работы является предложенная концепция перехода от аннотирования документов к аннотированию их содержимого. Показаны плюсы и минусы этого перехода. Предложен один из вариантов для RDF-аннотирования текстовых фрагментов слабоструктурированных текстовых документов.
Практическим значением полученных результатов является то, что их можно использовать для более качественного решения задачи поиска информации в Internet. Выделены возможные варианты для свойств текстовых фрагментов. Данная работа может быть использована как основа для дальнейших исследований на эту тему.
Список литературы: 1. Гаврилова В.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. 526 с. 2. http://www.w3.org/TR/REC-rdf-syntax/ RDF Primer. W3C Recommendation 10 February 2004; 3. www.w3.org/TR/REC-xml-names/ XML W3C Recommendation 16 August 2006.
Поступила в редколлегию 21.03.2008 Гвоздинский Анатолий Николаевич, канд. тех. наук, профессор кафедры искусственного интеллекта ХНУРЭ. Научные интересы: оптимизация процедур принятия решений в сложных системах управления. Адрес: Украина, 61166, Харьков, ул. ак. Ляпунова 7, кв. 9, тел. 70238-23.
Губин Вадим Александрович, ст. преподаватель кафедры искусственного интеллекта ХНУРЭ. Научные интересы: интеллектуальный анализ текстовых данных. Адрес: Украина, 61054, Харьков, ул. Гв. Широнинцев, 23, кв. 286, тел .710-64-12.
Паршиков Евгений Александрович, студент кафедры искусственного интеллекта ХНУРЭ. Научные интересы: интеллектуальный анализ текстовых данных. Адрес: Украина, 61001, Харьков, пер. Аптекарский, 9, корп. 1, кв. 35, тел. 65-18-86.
УДК 519.713
З.В. ДУДАРЬ, М.В. ЗБИТНЕВА, А.В. КОТЕНКО
ОБРАБОТКА ЭЛЕКТРОННОЙ ПОЧТОВОЙ ИНФОРМАЦИИ ПОЛЬЗОВАТЕЛЯ С ПРИМЕНЕНИЕМ ИНТЕЛЛЕКТУАЛЬНЫХ АГЕНТОВ
Предлагается усовершенствованный метод обработки почтовой электронной информации пользователя с применением агентно-ориентированного подхода. Описывается архитектура многоагентной системы, а также алгоритм обработки электронной почтовой информации, с помощью которых реализуется предложенный метод обработки.
1. Введение
В развитых странах информация является важнейшим объектом производственной деятельности и потребления, поскольку оказывает значительное или даже решающее воздействие на направления и результаты прогресса в научной, технической, культурной и других сферах жизни этих стран [1].
Сказанное в полной мере относится также к деятельности отдельных организаций, фирм, учебных заведений, административно-управленческих органов и физических лиц, являющихся многоаспектными пользователями и производителями разнородной информации. Поэтому информация стала одним из наиболее значимых ресурсов человеческого сообщества и в государственном плане рассматривается как стратегический ресурс [2]. Одним из ключевых аспектов в деятельности человека является обмен информацией как между конкретными индивидуумами, так и между группами людей. За века человек придумал множество различных способов передачи информации, однако наиболее эффективным и распространенным стало письмо. Несмотря на давнее изобретение письма, оно не потеряло актуальности и сегодня, хотя и претерпело значительные видоизменения. Электронная почта является на сегодняшний день одним из самых удобных, доступных и быстрых способов передачи информации. Однако в связи с все возрастающим количеством информации, с которым приходится иметь дело, а также в связи с повсеместным распространением такого досадного явления как спам человеку приходится все труднее эффективно работать с информационными потоками. На помощь ему призваны придти автоматические средства обработки информации [3,4], которые смогут полностью либо частично совершить предобработку полученной информации, тем самым уменьшая затраты человека на выполнение чисто рутинных операций. Таким образом, обработка электронной почтовой информации является актуальной и важной темой в современном обществе.