УДК 004.032.26
А. М. Вульфин (к.т.н., м.н.с.)1, А. И. Фрид (д.т.н., проф.)1, В. М. Гиниятуллин (к.т.н., доц.)1, С. А. Шувалов (асп., инж.)2, М. А. Салихова(м.н.с.)1
Система обработки информации для диагностирования инженерной сети нефтедобычи на основе методов интеллектуального анализа данных
1 Уфимский государственный авиационный технический университет, кафедра вычислительной техники и защиты информации e-mail: [email protected] 2Российский государственный университет нефти и газа имени И. М. Губкина, кафедра физической и коллоидной химии, 119991, г. Москва, Ленинский просп., д. 65, корп. 1, тел. (499)2339589, e-mail: [email protected]
A. M. Vulfin1, A. I. Frid1, V. M. Giniyatullin1, S. A. Shuvalov2, M. A. Salihova1
Information processing system for diagnosing of petroleum engineering network based on data mining analysis
1 Ufa State Aviation Technical University e-mail: [email protected] 2Gubkin Russian State University of Oil and Gas 65, Leninskii pr, 119991, Moscow, Russia; ph. +7 (499) 2339589, e-mail: [email protected]
Рассматривается проблема повышения эффективности систем обработки информации для диагностирования инженерной сети нефтедобычи на основе интеллектуальной поддержки принятия решений. Предложена диагностическая модель распознавания ситуаций, возникающих на участках инженерной сети нефтедобычи.
Ключевые слова: интеллектуальный анализ данных; технологические временные ряды; нейронная сеть.
Разработка систем анализа диагностической информации, включающих в себя элементы поддержки принятия решений, направлена на предоставление информационной поддержки в поиске оптимального решения задачи диагностирования, что позволяет снизить риски и повысить эффективность системы управления в целом 1-3.
Особое значение для диагностирования технического объекта имеют технологические временные ряды (ТВР), представляющие собой один из основных источников информации, характеризующей его состояние 4-6. Совершенствование технологий интеллектуального анализа данных (ИАД) создает новые возможности извлечения знаний из ТВР в ходе
Дата поступления 12.11.12
The problem of improving the efficiency of information processing systems for the diagnosis of petroleum engineering network based on data mining analysis is considered. Proposed diagnostic model recognition of situations that arise in the areas of engineering network of oil production.
Key words: data mining; neutral network; time series processing.
комплексного исследования системных связей и закономерностей функционирования и развития объекта, при обнаружении типичных и аномальных событий и выявлении имевших место качественных изменений.
Цель работы — повышение эффективности систем обработки информации (СОИ) для диагностирования инженерной сети нефтедобычи на основе интеллектуальной поддержки принятия решений.
Для достижения этой цели поставлены и решены следующие задачи:
1. Разработка диагностической модели распознавания ситуаций, возникающих на участках инженерной сети нефтедобычи.
2. Разработка программного комплекса в рамках методологии интеллектуального анализа данных, реализующего полученную модель
в виде модуля интеллектуальной системы обработки диагностической информации, и оценка их эффективности на основе накопленных натурных данных.
Анализ проблемы обработки информации для диагностирования инженерной сети нефтедобывающего предприятия.
Главной задачей технической диагностики является распознавание состояний технологического объекта в условиях ограниченной информации, т.е. отнесение состояния системы к одному из возможных классов. Распознавание образов и классификация состояний технологических объектов осуществляется на основе анализа и сопоставления отфильтрованных входных данных в виде технологических временных рядов и совокупности накопленной информации. Оценивается степень сходства текущего состояния с хранимыми эталонными образами, обеспечивающая отнесение входного состояния к одному из классов состояний объекта.
Диагностика состояния технологического объекта направлена на поиск причины изменения его состояния. При диагностике и прогнозировании состояния технологического комплекса СОИ формирует признаки возможной причины на основе накопленных опытных данных.
Анализ расходных параметров потоков и давления в узлах инженерной сети нефтедобычи, представленной на рис. 1, в виде набора технологических временных рядов лежит в основе построения системы распознавания технологических событий и является базовой составляющей интеллектуальной СОИ 1-3.
Возможная классификация неисправностей участка инженерной сети согласно 1-4 приведена в табл. 1.
В последнее время стали появляться программные продукты, реализующие алгоритмы интеллектуальной обработки информации и предназначенные для создания комплексных
Рис. 1. Структура технологического комплекса нефтедобычи. ДНС — дожимные насосные станции, СИКН — система измерения и контроля качества нефти, КНС — кустовые насосные станции, ПСН — узел приема-сдачи подготовленной нефти, УПН — установка подготовки нефти, ГЗУ — групповая замерная установка.
Таблица 1
Классификация неисправностей участка инженерной сети
Класс неисправностей
Параметрические Структурные
выход наблюдаемых параметров за пределы допустимых значений: гидравлического сопротивления, нагрузки, напора, расхода; изменение структуры технологического объекта: отключение контуров или ветвей инженерной сети;
Примеры Примеры
закупорки трубопроводов, поломки задвижек, изменение пропускной способности коммуникаций; порывы коммуникаций, подключение посторонней нагрузки;
Рис. 2. Функциональная модель системы обработки диагностической информации. Нулевой уровень декомпозиции
Рис. 3. Функциональная модель системы обработки диагностической информации. Первый уровень декомпозиции
систем управления и диагностирования, в том числе, основанные на анализе ТВР. Тем не менее, применительно к процессу добычи нефти они не обеспечивают специалистов значимой поддержкой в принятии диагностических решений 1-5.
Разработка диагностической модели распознавания ситуаций, возникающих на участке инженерной сети нефтедобычи.
Диагностирование сложных объектов, например, инженерных сетей, относится к классу слабо структурированных задач 4, следовательно, необходима разработка и применение в этой области диагностических моделей, позволяющих накапливать профессиональный опыт специалистов-технологов.
Структурно-функциональная организация интеллектуальной системы для обработки
диагностической информации (ИСОИ) представляется в виде функциональной модели в нотации IDEF0. Функциональная модель данных имеет иерархическую структуру. На рис. 2. И рис. 3 приведена диаграмма нулевого уровня и последующая декомпозиция модели.
Построение модели технологических сигналов, руководствуясь технологией Data Mining, возможно с применением различных методов и алгоритмов на всех этапах модели-
3—5 7
рования .
В работах автора 3'4 описаны базовые алгоритмы адаптивной сегментации с помощью АР-моделей (авторегрессионных моделей), а в 5 — адаптированная реализация методов для решения некоторого набора задач. Использованы методы оценки меры спектральной ошибки и метод обобщенного отношения правдоподобия. В работах 3-5 предлагается использовать гетерогенную нейросетевую структуру, использующую распределенную TLFN для построения модели квазистационарного сегмента и метод обобщенного отношения правдоподобия (ООП) для адаптивной пороговой сегментации, что позволяет расширить возможности систем адаптивной сегментации и повысить их чувствительность к «быстрым» изменениям технологического сигнала.
В работе 5 используются три метода кластеризации совокупности унифицированных сегментов для сравнения эффективности по критериям производительности и характеристикам полученных кластеров.
В работах автора 4'5 описаны несколько моделей анализа технологических временных рядов, комбинирующих алгоритмы различных этапов Data Mining. После предобработки исходный временной ряд подвергнут сегментации тремя методами:
1. АР-ООП - АР-модель и метод ООП;
2. ИНК — иерархический нейросетевой классификатор для сегментации временных рядов с дрейфовой динамикой;
3. TLFN(DEKF-BPTT)-ООП-АФГК — распределенная TLFN, Decoupled Extended Kalman Filter, несвязанный, расширенный фильтр Калмана, BPTT, Backpropagation Through Time, алгоритм обратного распространения ошибки во времени, и модифицированный метод ООП, а также алгоритм формирования групп классов 5-8.
Этап диагностирования, подразумевающий выявления текущего типа динамики на участке инженерной сети, представлен на рис. 4.
На основании модели выявления текущего типа события необходимо путем интеграции
процедур поддержки принятия решений и анализа аварийных ситуаций построить полную диагностическую модель распознавания ситуаций (рис. 5).
Так как методы ИНК и TLFN(DEKF-BPT^-АФГК включают помимо сегментации временного ряда этапы кластеризации-классификации согласно методологии Data Mining, то они не требуют использования дополнительных шагов и процедур, в отличие от АР-ООП, что позволяет сократить количество подстраиваемых параметров и упростить последующий анализ с целью построения подсистемы поддержки принятия решений.
Оценка эффективности модуля интеллектуальной системы поддержки принятия решений в процессе диагностирования участка инженерной сети нефтедобычи.
Для анализа были использованы данные об изменении параметров узла учета нефти СИКН 3 за период продолжительностью в 9 дней. На узле СИКН каждые 5 секунд замеряется давление на выходе узла и расход нефти по 5 измерительным линиям.
Для дальнейшего анализа использованы временные ряды, описывающие давление на выходе узла и суммарный расход. Общая длина каждого ряда составляет 155520 отсчетов.
Описываемые ТВР имеют эффект памяти и в них присутствуют корреляции замеров в различные моменты времени, что позволяет прогнозировать успешность применения процедуры адаптивной сегментации. Оценка экспоненты Херста для параметра «Давление». H = 0.853.
Общие результаты работы систем с различной структурой приведены в табл. 1. Представлены следующие данные:
— количество выделенных сегментов;
— средневзвешенная оценка попадания — рассчитывается среднее значение отношения полученных и истинных длин сегментов;
— процент успешной классификации подвижным тестовым окном — на вход системы сегментации-кластеризации-классификации подается k последовательных отсчетов временного ряда. Принадлежность последовательности к определенному классу определяется по (k + 1)-й точке. Приводится процент успешного распознавания типа текущей динамики участка временного ряда. Использованы как гетерогенные нейросетевые модели, использующие АР-модели на этапе сегментации, так и более однородные сети ИНК и АФГК. Ошибка I рода — ложное распознавание. Ошибка II рода — пропуск события.
Рис. 4. Схема диагностической модели определения текущего типа динамики на узле инженерной сети
Рис. 5. Диагностическая модель распознавания ситуаций: RTDB — база данных реального времени; КИС — корпоративная информационная сеть; P(t) — ТВР «Расход»; D(t) — ТВР «Давление»; Xp — агрегированный входной вектор ИНС; ИHСD и ИНСР — модули адаптивной сегментации ТВР, выход и класс ТС; Deffuz — блок дефаззификации модуля поддержки принятия решений; Solve — блок формирования диагноза; ТС — технологическая ситуация; АС — аварийная ситуация m* — степень принадлежности входного вектора классу правил RS; r — функция принадлежности к части IF правила; AS — нечеткое множество условной части s-го правила; — класс диагностического решения.
Таблица 2
Результаты сегментации ТВР «Давление-Расход»
Исходя из технологической легенды и экспертной информации для описываемых временных рядов расхода и давления на узле СИКН, определены следующие количественные характеристики (табл. 2).
Экспертная оценка позволяет выявить в исследуемых ТВР около 50 событий, нашедших отражение в технологической легенде. Из них 25 являются аварийными. Общее количество событий распределено по 8 классам, из которых аварийные события образуют 5 классов. Существующая система (СС) 5 выделяет порядка 10 классов событий, а предлагаемый ПК — 29. Причем, результаты работы СС включают в себя выделенные экспертом классы событий и вводят дополнительные классы, характеризующиеся сходными типами динамик временных рядов в соответствующие промежутки времени. ПК позволяет увеличить количество классов технологических событий на 30% путем введения субклассов, характеризующих промежуточные состояния, и дополнительных классов, описывающих похожие участки с близкими динамиками, что находит частичное отражение в технологической легенде. Как видно из табл. 2 и 3, процент успешного распознавания выделенных классов и событий наиболее высок в предлагаемом ПК.
Главной задачей эксперта является выявление и анализ аварийных ситуаций (АС). При анализе исторических данных сформировано 25 классов АС. Определен временной интервал 1 = 20 отсчетов, в течение которого успешное распознавание АС и соответствующее управляющее решение могут значительно снизить ущерб (утечку, выход из строя оборудования и т.п.). В табл. 4 показано, что за данное время реакции СС смогла верно идентифицировать 18 событий, а без учета временного ограничения — 20 событий. ПК, соответственно, выявил 20 и 25 событий. Следовательно, вероятность успешного разрешения АС повысилась с 72% до 80%. Отметим, что без учета временных ограничений ПК смог верно идентифицировать все АС, наблюдаемые согласно технологической легенде.
В табл. 5 приводятся количественные характеристики, описывающие временные параметры выявляемых технологических событий (ТС), как-то:
— показатель эффективности описания ТС — отношение длины выделенных сегментов, характеризующих ТС, и длины участка временного ряда, описывающего ТС по легенде (усреднено по всем прецедентам, величина безразмерная);
Экспертна; ■ныецеара к го Существуасщйк1 р'истспцнеисхровн Разраб ютанная те МОгонд
Количество выявленны. х событий-^ ;мон1ЙДх р; д ов «ДавЛенио» и «Расход [30
коЯйчестворинебкие вы шявННЫрСЙ^ЫТЙТка тр 'бопровЬда кЛаСС Rio события 29
пп0НШТ1ШШИ0 Класс R2, собьиия S5, S6
распознавания выявле! шых соВытийкновение : течки 70 Класс R§5 события S7-S9 73
Количество классов вы явленных АС 5 Класс R4,5;обытия S 10-S19 5
Коли1че рТ вовыявл енны выяйлмхАС™ х в промежуток t АС / Плановые переклю чениЯ2И/С5 Класс R5, собыия Класс 1\118/205ытия S S20-25 26-S30 2 0/25
Процент успешного рас выявленных АС- познавания Класс N2, собыия S Класс N3?,2:обытия 31-S34 335-50 31
ы
Таблица 3
Таблица 4
Классификация и локализация типов неисправностей
Оценка времени задержки т, которая характеризует глубину памяти ряда, например, осуществляется по автокорреляционной функции. Так как АКФ не пересекает ось абсцисс, то можно сделать вывод о неэффективности использования АР-моделей для построения квазистационарных участков данного временного ряда.
к = - Е 4"
где — длина п-го найденного сегмента, характе-
ризующего данное технологическое состояние;
— длина п-го сегмента, характеризующего данное технологическое состояние согласно легенде — время реакции — время запаздывания (по модулю) от начала ТС по легенде до начала соответствующего выделенного сегмента, описывающего ТС (усреднено по всем прецедентам, измеряется в отсчетах).
Таблица 5 Количественные характеристики технологической легенды временных рядов «Давление» и «Расход»
Как видно из табл., СС имеет на 11% большую погрешность описания ТС, и 24% худшее время реакции.
Таким образом с целью снижения роли человеческого фактора в процессе диагностирования технического объекта и улучшения информационного обеспечения процесса поддержки принятия решений разработана диагностическая модель распознавания ситуаций, возникающих на участках инженерной сети нефтедобычи, основанная на анализе ТВР. Использование разработанной нейросетевой модели позволяет избежать излишней сегментации и переключения сигнализирующей системы и повысить достоверность описания ситуаций.
Модель основана на нейросетевой обработке временных рядов и включает в себя нелинейный фильтр на базе распределенной сети TLFN в совокупности с расширенным методом оценки ООП, модифицированный иерархический нейросетевой классификатор, блок нечеткого композиционного вывода и блок нейросетевой базы знаний. Применение разработанной модели позволило:
1. увеличить количества классов выявляемых событий на 20—30 % путем введения субклассов, описывающих участки смены типа динамических параметров квазистационарных сегментов;
2. получить количественное описание и характеристики технологических событий, как-то: временные границы приходящих событий и квазистационарных сегментов, тип и параметры динамики таких сегментов;
3. увеличить на 10—12 % количества выявляемых технологических событий;
4. повысить достоверности описания технологических ситуаций приблизительно на 15%.
Литература
1. Зозуля Ю. И. Интеллектуальные нейросистемы // Радиотехника.— Москва.— 2003.— С.14.
2. Зозуля Ю. И./Анализ баланса потоков жидкости в узлах инженерной сети на основе ее нейросетевой модели. VI Всероссийская конференция «Нейрокомпьютеры и их применение», 16-18 февраля 2000 г., Москва.— Москва.— 2000.— С.53.
3. Vulfin A. M., Giniyatullin V. M., Frid A.I. // Optical Memory and Neural Networks (Information Optics).- 2010.- V.19, №3.- P. 207.
4. Вульфин А. М., Фрид А. И. // Информационно-управляющие системы.- 2011.- №5.-С.31.
5. Вульфин А. М., Фрид А. И. // Мехатроника, автоматизация, управление.- 2011.- №5.-С.29.
6. Орлов Ю. Разработка и исследование алгоритмов построения иерархических нейросетевых комплексов для классификации данных физических измерений.- М.: Москва, 2008.- С.23.
7. Барсегян А. А., Куприянов М. С., Степаненко
B. В. Методы и модели анализа данных: OLAP и Data Mining.- СПб.: БХВ-Петербург, 2004.-
C.67.
8. Хайкин С. Нейронные сети, полный курс. 2е издание, испр.- М: Вильямс, 2008.- С. 809.
Работа выполнена в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009—2013 годы при финансовой поддержке Министерства образования и науки Российской Федерации (соглашение 14.B37.21.0182).