Костиков Д.В., Петров А.Н., Лялин В.Е. ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ ДЛЯ ЗАДАЧИ ИНТЕРПРЕТАЦИИ ГЕОФИЗИЧЕСКИХ ИССЛЕДОВАНИЙ СКВАЖИН С ПОМОЩЬЮ МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ
В настоящее время существует большое количество программных средств и аппаратно-программных комплексов, позволяющих автоматизировать все процессы сбора, обработки и хранения данных геофизических исследований скважин (ГИС). Но даже при современном многообразии различных программных средств, производящих интерпретацию ГИС, системы, использующие возможности искусственного интеллекта, немногочисленны по своей номенклатуре и обладают достаточно невысокими интеллектуальными способностями, что не позволяет использовать их в качестве основных решающих инструментов при вынесении заключения с высокой степенью достоверности о наличии нефтяных коллекторов в литологической структуре как скважин, так и геологических горизонтов. Развитие интеллектуальных компьютерных систем, разработка высоких информационных технологий, доведение их до уровня, соответствующего современным требованиям экспертных систем, является магистральным направлением в развитии скважинной геофизики.
Использование преимуществ искусственного интеллекта позволяет выйти на иной, более качественный уровень обработки результатов ГИС, поскольку он дает в значительной мере заменить геофизика-интерпретатора, занимающегося рутинной работой просмотра огромных массивов однотипной геологогеофизической информации, на автоматизированный программно-аппаратный комплекс, который может решать задачу интерпретации данных ГИС с высокой скоростью и точностью. Одним из направлений развития систем искусственного интеллекта является использование в них аппарата искусственных нейронных сетей (НС). Несмотря на простоту их построения и функционирования, они позволяют накапливать уже известные закономерности ГИС, обобщать факты и давать вполне корректные оценки в ситуациях, когда на входе нейронной сети представлены зашумленные данные. НС уже широко применяются за рубежом в различных системах, например, распознавания образов, аппроксимации. прогнозирования, управления и др.
Процесс нейросетевого анализа данных можно представить в виде следующей схемы (рис. 1). В процессе нейросетевого анализа можно выделить четыре основных этапа: постановка задачи, подготовка данных,
нейросетевое моделирование, анализ результатов.
На первом этапе мы идентифицируем проблему, формализуем задачу, определяем, какой вид будут иметь входные и выходные данные. На первом этапе часто бывает, необходима помощь эксперта по предметной области. После того, как выполнена постановка задачи и определены типы исходных данных и ожидаемых результатов, можно переходить к следующему этапу.
Целью второго этапа является подготовка качественных данных, то есть получение, на основе исходных данных, обучающего, тестового и, если необходимо, проверочного множеств.
На третьем этапе происходит создание и обучение нейронной сети.
Четвертый этап позволяет оценить качество полученных результатов. В случае если результаты являются не удовлетворительными, можно перейти к первому этапу и заново проанализировать задачу, а также определить какой этап был выполнен не корректно. Если результаты устраивают, то можно использовать полученные шаги для решения поставленной задачи.
Определение проблемы.
Постановка задачи.
Подготовка данных.
Нейросетевое моделирование.
Анализ результатов моделирования.
Рис. 1. Схема процесса нейросетевого анализа данных
Обычно на практике малое время уделяется подготовке данных, в то время как подготовка данных - важный и критичный шаг в нейросетевом моделировании. От того насколько хорошо подготовлены данные, во многом может зависеть результат использования нейронной сети. Правильная подготовка данных позволяет нейронной сети быстрее и качественнее обучатся и функционировать. Неправильная подготовка данных может сделать анализ сложным или даже не возможным. В современных условиях, когда приходиться работать с огромными массивами данных, подготовка данных становиться самостоятельной задачей, которая может занимать значительную часть времени и усилий, затрачиваемых на анализ.
За прошедшее время, искусственные нейронные сети, как метод интеллектуального анализа данных, получили широкое распространение и применяются во многих областях, таких как наука, управление, проектирование и т.д. Появилось большое количество программ-эмуляторов, реализующих различные топологии и процедуры обучения нейросетей. Тем не менее, большинство программ фокусируются на создании и функционировании нейронных сетей, не уделяя должного внимания процессу подготовки данных. Во многих теоретических и практических исследованиях по нейронным сетям, подготовка данных состоит только из нормализации данных, а выбор обучающего множества происходит простым делением примеров на части. Встречаются исследования, в которых подготовка данных вообще не используется, в них подразумевается, что все данные уже подготовлены для анализа и данные могут использоваться при нейросетевом моделировании. На практике, данные не всегда готовы для решения поставленных задач. И поэтому решение задач не может быть успешным без серьезной подготовки данных. Правильная подготовка данных позволяет получить данные меньшие по объему и имеющие более высокое качество, которые могут значительно улучшить эффективность сложного анализа дан-
ных. Таким образом, подготовка данных является очень важным шагом и ее целью является получение данных более высокого качества.
Подготовка данных полезна при проведении любого типа анализа, но при этом нейронные сети имеют специальные требования:
нейронные сети являются механизмом требовательным ко времени, поэтому подготовка данных важна и необходима для ускорения процесса обучения и функционирования нейронной сети;
подготовка данных может уменьшить сложность задачи, что приводит к уменьшению времени обучения и работы нейронной сети;
подготовка данных может повысить способность к обобщению, особенно для нейронных сетей.
Таким образом, подготовка данных при работе с нейронными сетями играет большую роль, чем при использовании других методов анализа. И является необходимым этапов нейросетевого моделирования.
Как было отмечено выше, задача подготовки данных при нейросетевом анализе является очень важным и ответственным этапом. Но до сих пор не существует стандартных схем для подготовки данных. Схема подготовки исходных данных должна включать в себя все этапы преобразований данных с момента их получения до момента подготовки обучающего, тестового и если необходимо проверочного множеств. Однако выбор типа нейронной сети, разработка ее структуры и методов обучения не должны входить в задачи этапа подготовки. Рассмотрим предлагаемую схему подготовки исходных данных. Эта схема представлена на рисунке 2. Она состоит из трех этапов: сбор и анализ исходных данных, предобработка исходных данных и подготовка обучающей выборки.
Сбор и анализ исходных данных.
Предобработка исходных данных.
I
Подготовка обучающей выборки.
Рис. 2. Этапы процесса подготовки исходных данных
Целью первого этапа является сбор данных, преобразов-ание исходных данных с целью получение более информативных сигналов, а также выявление наиболее значимых входных переменных. Этот этап можно разделить на следующие фазы:
1. Получение новых данных на основе исходных сигналов. Цель этой фазы получение новых данных, которые можно будет легче интерпретировать с помощью НС. К исходным данным могут применяться методы сколь-
зящего окна данных, спектральный и вейвлет анализ и т.д.
2. Выбор наиболее значимых переменных. После того как данные собраны, становиться возможным опреде-
ление переменных, которые будут использоваться при работе НС. Целью любой модели должно быть стремление к уменьшению количества входных переменных, то есть поиск наиболее простого объяснения явления с помощью доступных переменных. Следовательно, необходимо определить наиболее значимые переменные или выделить наиболее значимые признаки данных и использовать их в качестве входных данных. Эта операция позволит сократить пространство состояний и уменьшит время обучения и работы НС.
Второй этап позволяет повысить информативность входов за счет устранения ошибок в полученных данных. Этап можно разделить на следующие фазы:
1. Проверка данных. Цель этой фазы поиск ошибок в исходных данных. Анализу подвергается количество и качество данных. При анализе количества данных в основном сталкиваются с двумя проблемами: слишком много данных и слишком мало данных. При оценке качества данных проверяются зашумленность данных, наличие пропусков в данных, шкала данных, присутствие трендов, сезонных колебаний и т.д.
2. Обработка данных. На данной фазе проводятся исправления и корректировки найденных на предыдущей фазе проблем. При этом используются методы уменьшения и увеличения количества исходных данных, удаление выбросов и шума, восстановление пропущенных значений в данных, нормализация, удаление трендов, сезонных колебаний и т.д.
На третьем этапе все множество примеров разбивается на части и формируется обучающая, тестовая и, если необходимо, проверочная выборки. Данный этап делиться на следующие фазы:
1. Деление данных. После проведения предыдущих этапов, данные используются для создания и обучения НС. Первое, что необходимо сделать с данными на этом этапе, это разделить их на множества. Обычно выделяют два множества: обучающие и тестовое. Реже выделяют третье множество - проверочное. На данный момент не существует универсальных правил для определения размеров этих множеств. Yao и Tan говорят, что исторически сложилось деление на три множества: обучающие, проверочное и тестовое. Обучающее множество содержит 7 0% от всего объема данных, проверочное - 20% и тестовое - 10%. Иногда анализируя результаты работы НС, приходиться проводить эту процедуру по новой.
2. Оценка качества полученного обучающего множества. На этой фазе происходит вычисления коэффициентов качества ОВ до проведения процесса обучения НС.
Таким образом, из сказанного выше, можно выделить те основные проблемы, которые решаются на каждом из этапов. А также привести возможные методы их решения (табл. 1).
Таблица 1 представляет наиболее общие и часто встречающиеся проблемы, которые ставятся на этапе подготовки исходных данных. Однако, в зависимости от исходных данных данная схема может изменяться, некоторые фазы могут пропускаться.
Таблица 1
Проблема и ее решение для каждого этапа общей схемы подготовки данных
Проблема 1 Решение
Этап 1: Сбор и анализ исходных данных
Получение новых данных, имеющих большую информативность. Преобразование исходных данных, с целью получения более качественных сигналов. Используются преобразования, предполагаемые предметной областью, окна данных, спектральный и вейвлет анализы, методы повышения совместной энтропии и др.
Высокая размерность задачи. Понижение размерности задачи. Выделение наиболее значимых входных переменных, с целью уменьшения размерности задачи. Используются корреляционный анализ, анализ главных компонент (АГК), генетический алгоритм и др.
Этап 2: Предобработка данных
Не нормированные данные и данные с разной шкалой. Нормализация данных.
Пропущенные значения. Восстановление пропущенных значений
Данные с присутствием выбросов и шума. Удаление выбросов, фильтрация.
Присутствие тренда. Удаление тренда.
Слишком много исходных данных. Методы уменьшения количества исходных данных. Кластеризация.
Слишком мало исходных данных. Методы генерации примеров.
Этап3: Подготовка обучающей выборки
Оценка качества обучающей выборки. |Расчет коэффициентов качества обучающей выборки
Выше была подробно изложена общая схема подготовки данных. Но при решении конкретных задач, в связи с особенностями исходных данных, некоторые фазы подготовки данных могут пропускаться. Так как при решении задачи интерпретации данных ГИС (в условиях данной работы) нет проблемы связанной с недостатком данных можно пропустить фазу восстановления пропущенных значений и фазу генерации примеров, также нет необходимости проводить фильтрацию сигналов. Таким образом, адаптированная схема, применяемая к задаче интерпретации данных ГИС, несколько отличается от общей схемы подготовки данных. Решение задач и методы реализации этих решений для адаптированной схемы подготовки данных приведены в таблице 2.
Таблица 2
Адаптированная схема подготовки исходных данных с указанием используемых алгоритмов
Задача | Методы решения
Этап 1: Сбор и анализ исходных данных
Преобразование исходных данных, с целью получения более качественных сигналов. Преобразования предполагаемые предметной областью. Метод окон данных. Спектральный анализ. Вейвлет анализ. Методы де корреляции исходных данных (метод «выбеливания» входов).
Выделение наиболее значимых входных переменных, с целью уменьшения размерности задачи. Корреляционный анализ. Анализ главных компонент (АГК). Генетический алгоритм.
Этап 2: Предобработка данных
Нормировка данных Линейная нормировка. Линейная нормировка с удалением выбросов. Статистическая нормировка с нелинейным преобразованием.
Данные с присутствием выбросов и шума. Удаление выбросов. Фильтрация. Вейвлет фильтрация.
Слишком много данных. Группировка примеров на основе расстояния Евклида. Кластеризация (к-средних).
Этап 3: Подготовка обучающей выборки
Оценка качества обучающей выборки. Константа Липшица. Коэффициент повторяемости. Коэффициент противоречивости.
Для тестирования схемы подготовки данных составим последовательности методов, данном разделе приводятся итоги последовательного применения нескольких методов подготовки данных. Рассмотрим следующие
последовательности методов: без подготовки данных;
применение линейной нормировки исходных данных; применение линейной нормировки и окна данных;
применение линейной нормировки, окна данных и уменьшения количества входов с помощью коэффициента
корреляции (15 значений);
применение линейной нормировки, окна данных и выделения наиболее значимых признаков при помощи метода АГК (15 значений);
применение линейной нормировки, окна данных, уменьшения количества входов с помощью коэффициента
корреляции(15 значений) и уменьшения количества обучающих примеров (на основе расстояния Евклида);
применение линейной нормировки, окна данных, уменьшения количества входов с помощью коэффициента
корреляции (15 значений) и уменьшения количества обучающих примеров (метод к-средних);
применение линейной нормировки, окна данных, выделения наиболее значимых признаков при помощи метода АГК и уменьшения количества обучающих примеров (на основе расстояния Евклида);
применение линейной нормировки, окна данных, выделения наиболее значимых признаков при помощи метода АГК и уменьшения количества обучающих примеров (метод к-средних).
Время, затраченное на подготовку данных и обучение нейронной сети, приведено в таблице 3.
Таблица 3
Сравнительная таблица времени подготовки данных, времени обучения и суммарного времени представлены
Метод Время подготовки, мин Время обучения, мин Суммарное время, мин Часть от максимального времени, %
Метод 1 0 17 17 71
Метод 2 0 17 17 71
Метод 3 0 24 24 100
Метод 4 0 24 24 100
Метод 5 0 24 24 100
Метод 6 1 10 11 46
Метод 7 2 10 12 50
Метод 8 1 10 11 46
Метод 9 2 10 12 50
В таблице 3 время округляется до целых минут. Для методов 1-5 время подготовки данных занимает менее 1 минуты. Результаты, приведенные в таблице 3, показывают, что наименьшее время требуют методы с 6 по 9, то есть те методы, для которых применяются алгоритмы понижения количества обучающих примеров. При использовании данных методов не ухудшается качество интерпретации данных ГИС, а даже происходит повышение качества.
Результаты эксперимента по применению методов подготовки данных, усредненные по пяти тестовым скважинам, приведены в таблице 4.
Представленные результаты показывают, что последовательность «Метод 9» дает наилучшие результаты по качеству интерпретации данных ГИС.
Ниже приведены результаты экспериментов по выделению пластов-коллекторов на трех скважинах.
Для дополнительной оценки полученных результатов введем порог округления и проанализируем количество верно определенных выходных значений. Введение порога округления подразумевает преобразование выходного сигнала НС к двум значениям - 0 и 1 в случаях когда оценка выше или ниже заданного порога. Проценты совпадения с эталонными данными, усредненными по пяти скважинам, используемым при тестировании, приведены в таблице Ошибка! Источник ссылки не найден..
Таблица 4
Сравнительная таблица усредненных результатов интерпретации
№ скв. Входные данные Коллектор Нефть Вода Нефть- вода
СКО Коэфф. коррел. СКО Коэфф. коррел. СКО Коэфф. коррел. СКО Коэфф. коррел.
Средние значения Метод 1 0,016 0,321 0,014 0,483 0,008 0,279 0,007 -0,038
Метод 2 0,012 0,732 0,013 0,544 0,008 0,262 0,007 0,226
Метод 3 0,012 0,742 0,012 0,615 0,007 0,349 0,007 0,238
Метод 4 0,011 0,746 0,013 0,567 0,008 0,270 0,007 0,243
Метод 5 0,011 0,746 0,013 0,585 0,008 0,338 0,007 0,234
Метод 6 0,011 0,741 0,013 0,564 0,008 0,278 0,007 0,231
Метод 7 0,011 0,743 0,013 0,563 0,008 0,268 0,007 0,235
Метод 8 0,012 0,744 0,013 0,594 0,007 0,366 0,007 0,228
Метод 9 0,011 0,747 0,012 0,614 0,007 0,411 0,007 0,229
Таблица 5
Таблица совпадений результатов интерпретации данных ГИС с эталонными значениями при введении порога округления
Метод Порог округления
0,1 0,3 0,5 0,7 0,9
Метод 1 42% 42% 6 6% 58% 58%
Метод 2 74% 81% 81% 75% 63%
Метод 3 75% 84% 83% 75% 62%
Метод 4 74% 83% 85% 78% 63%
Метод 5 75% 84% 83% 75% 62%
Метод 6 69% 82% 84% 77% 63%
Метод 7 73% 82% 85% 79% 64%
Метод 8 73% 84% 82% 74% 62%
Метод 9 76% 83% 86% 78% 6 6%
Из данных приведенных в таблице 5 видно, что наилучшие результаты достигаются при пороге округления равном 0,5. По результатам всех проведенных экспериментов можно сказать, что последовательность «Метод 9» является оптимальной при подготовке данных для интерпретации результатов ГИС с помощью НС. Таким образом, проведенные эксперименты показывают, что методы подготовки данных позволяют повысить качество распознавания и скорость обучения сети.
Результаты выделения пластов-коллекторов с помощью порога округления (0,5) для скважин 13089, 13090, 13115 при использовании «Метода 9» представлены на рисунке 3.
Рис. 3. Результаты применения порога округления (0,5) к результатам работы НС для скважин 13089,13090, 13115 при использовании «Метода 9» для подготовки данных
ЛИТЕРАТУРА
1. Тарасенко Р.А., Крисилов В.А. Предварительная оценка качества обучающей выборки для нейронных сетей в задачах прогнозирования'временных рядов. // Труды Одесского политехнического университета. -
Одесса, 2001. - Вып.1. - С. 90-93.
2. Царегородцев В.Г. Оптимизация предобработки данных: константа Липшица обучающей выборки и свой-
ства обученных нейронных сетей // Нейрокомпьютеры: разработка, применение. 2003, №7. - c.3-8.
3. Уоссермен Ф. Нейрокомпьютерная техника. М., Мир, 1992.
4. Хайкин С. Нейронные сети: полный курс, 2-е издание. М., Издательский дом «Вильямс», 2006.
5. J.T. Yao and C.L. Tan, "A Case Study on Using Neural Networks to Perform Technical Forecasting of
Forex," Neurocomputing, vol.34, pp. 79-98, 2000.