Научная статья на тему 'Информационный поиск в объектно-реляционных базах данных'

Информационный поиск в объектно-реляционных базах данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
191
34
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бородин О. Н.

В статье предложены основные направления и проблемы поиска информации по коллекции текстовых документов. Рассмотрены возможности объектно-реляционных баз данных в соответствии с требованиями информационного поиска.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бородин О. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The information extraction from the full-text data sources

The article reveals the mathematical models of the information search. It represents the description of the method for structure information extraction from the texts represented in the natural language.

Текст научной работы на тему «Информационный поиск в объектно-реляционных базах данных»

1 \ \ \

\ х 1=^ \ / /

\ ж ^ —7" / ^

— загрязненный воздух из животноводческого помещения;

■=> — очищенный воздух; — нагретый воздух

Принципиальная схема аэрогидродинамического кондиционера:

1, 7 — вентиляторы; 2 — камера барботации; 3 — сетка, покрытая наноструктурным материалом; 4 — ультрафиолетовый облучатель; 5 — сепаратор; 6 — воздухонагреватель; 8 — соединительная вставка; 9 — перфорированные шланги

ется от аммиака, диоксида углерода и пыли. Затем в камере барботации 2 воздух проходит через мелкоячеистую сетку 3 и обрабатывается излучением ультрафиолетового облучателя 4. Под воздействием ультрафиолетового излучения и наноструктурного материала сетки уничтожаются вредные микроорганизмы. После чего воздух удаляется из камеры барботации вытяжным вентилятором 7 и подается обратно в животноводческое помещение.

При работе системы аэрогидродинамического кондиционирования воздуха можно выделить следующие технологические режимы: нагрев воздуха воздухонагревателем; охлаждение воздуха (в летний период года) в камере барботации кондиционера — водоиспарительное охлаждение; увлажнение воздуха в камере барботации кондиционера водой или водным раствором; осушение воздуха (в зимний период года) воздухонагревателем; очистка воздуха в воде или водно-химическом растворе.

Однако в случаях массового заражения животных и птицы этого недостаточно. Также существуют вирусы, при наличии которых требуется более

серьезная обработка воздуха. Сетка 3 повышает эффективность обеззараживания воздуха за счет использования наноструктурных материалов. Нано-размерные частицы серебра, железа и оксида титана (ТЮ2) могут очищать воздух от различных загрязнителей, включая опасные органические соединения, клетки, вирусы и ядовитые химикаты.

Технологический процесс аэрогидродинамиче-ской системы кондиционирования обеспечивает очистку внутреннего воздуха от аммиака на 75.. .85 %, диоксида углерода—70.80 %о, пыли — 100 % и снижает бактериальную загрязненность воздуха.

Вывод

Применение энергосберегающей системы аэ-рогидродинамического кондиционирования воздуха в животноводческих и птицеводческих помещениях с очисткой его от вредных газов, пыли и микроорганизмов позволит снизить расход энергии на создание и поддержание микроклимата внутри ферм, а также улучшить экологическую обстановку вокруг ферм и комплексов.

4

3

6

5

7

9

8

УДК 631.3; 004:519.86

О.Н. Бородин, стажер кафедры ВТ и ПМ

Федеральное государственное образовательное учреждение высшего профессионального образования «Московский государственный агроинженерный университет им. В.П. Горячкина»

информационный поиск В объектно-реляционных БАЗАХ дАННых

Проблемы поиска и извлечения информации из формацию, принадлежащую разным источникам

внутренних электронных хранилищ данных в мас- и хранящуюся во множестве форматов (текстовые

штабе одного предприятия становятся все более документы, графические данные, электронные таб-

актуальными, так как необходимо накапливать ин- лицы).

-------------------------- 37

Вестник ФГОУ ВПО МГАУ № 1'2008

Результаты системного анализа возможностей информационного поиска в СУБД

Альтернатива K1 K2 K3 K4 K5 K6

Microsoft SQL Server 2GG5 (Pl) + + - + - -

PostgreSQL (P2) + - + + - -

Oracle lüg ^З) + + - + + +

MySQL (P4) + - - + - -

Классическая задача информационного поиска, с которой и началось развитие этой области, — поиск документов, удовлетворяющих запросу пользователя, в рамках некоторой статической коллекции документов.

Существует три основные направления информационного поиска.

1. Кластеризация документов.

Цель кластеризации документов — автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов. Отметим, что группы формируются только на основе схожести описаний документов, и никакие характеристики этих групп не задаются заранее. Достигается применением математических алгоритмов.

2. Классификация документов.

Цель этого направления — определение для каждого документа одной или нескольких из ранее заданных категорий, к которым этот документ относится.

3. Фильтрация документов.

Цель фильтрации — разделение множества документов на категории. Однако этих категорий только две: документы, удовлетворяющие заданному критерию, и документы, которые этому критерию не удовлетворяют.

Для обзора возможностей информационного поиска в объектно-ориентированных базах необходимо провести системный анализ существующих программных продуктов, реализующих задачи информационного поиска.

В процессе системного анализа выявлены шесть критериев оценки.

1. Критерий поиска информации по текстовым атрибутам в базе данных (обозначен К1).

Сформированный критерий определяет возможность поиска информации в простых SQL типах данных таблицы таких, как CHAR, INTEGER и др.

2. Критерий поиска информации в бинарных объектах (К2).

Хранение в базе данных информации, представленной в двоичном виде, таких как текст ASCII, или документы (Microsoft Word, Microsoft Excel); используется тип данных BLOB. С целью расширения области охвата информационного поиска необходимо обеспечить возможность поиска информации по этому типу данных.

3. Критерий выполнения морфологического анализа документа, изложенного на естественном языке, (К3).

Большинство слов русского языка имеют десятки различных грамматических форм, поэтому для их поиска в тексте необходимо использовать про-

38

граммный модуль морфологического анализа, который обеспечит приведение слов русского и английского языка к нормальной форме (именительным падежам, инфинитивам), получение всех форм анализируемых слов, а также синтез лексем незнакомых слов. Это существенно снизит размер индексируемой информации.

4. Критерий наличия алгоритмов ранжирования отфильтрованной информации (К4).

Крайне важно систематизировать результаты поиска, чтобы первыми оказались те результаты, которые вероятнее всего интересны для пользователя.

5. Критерий кластеризации документов (К5).

6. Критерий классификации документов (К6).

Результаты анализа исследуемых средств информационного поиска посредством перечисленных критериев оценки представлены в таблице.

Из таблицы видно, что альтернатива P3 наиболее оптимальна для решения задач информационного поиска, так как удовлетворяет множеству критериев оценки, но ее требуется существенно доработать для решения задач анализа русскоязычных текстовых документов.

Основные недостатки СУБД как инструмента, реализующего полнотекстовый поиск, — недостаточная полнота и нечеткость поиска информации из-за отсутствия средств морфологического анализа русских слов, а также недостаточность тезауруса.

Предварительная аналитическая обработка текстов, в том числе и русскоязычных, — одна из главных задач информационного поиска. Создание методов обработки текста на естественном языке для формирования оптимального сводного индекса по документам — наукоемкая проблема, требующая дополнительного исследования.

Своевременное и правильное нахождение информации, хранящейся в электронном виде, позволит улучшить качество принятия управленческих решений и повысить уровень самообразования сотрудников государственных организаций.

Список литературы

1. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян и др. — СПб.: БХВ-Петербург, 2007. — С. 194-223.

2. Data Mining. Теория и практика / А.В. Баранов и др. — М.: БДЦ-пресс, 2006. — С. 96-99.

3. Линючев П. Text Mining: современные технологии на информационных рудниках // PCWEEK. — 2007. — № 6.

Вестник ФГОУ ВПО МГЛУ № 1'2008

i Надоели баннеры? Вы всегда можете отключить рекламу.