Костиков Д.В., Лялин В. Е. РЕЗУЛЬТАТЫ ПРИМЕНЕНИЯ МЕТОДА УМЕНЬШЕНИЯ ОБЪЕМА ОБУЧАЮЩЕЙ ВЫБОРКИ ПРИ РАСПОЗНАВАНИИ ЛИТОЛОГИЧЕСКОЙ СТРУКТУРЫ СКВАЖИНЫ НЕЙРОННОЙ СЕТЬЮ ПО ДАННЫМ ГЕОФИЗИЧЕСКИХ ИССЛЕДОВАНИЙ СКВАЖИН
Задачей интерпретации результатов геофизических исследований скважин (ГИС) является распознавание литологической структуры или классификация пластов скважины на основе данных каротажных диаграмм.
Существуют различные решения данной задачи. Одним из вариантов является использование теории нейронных сетей (НС).
Благодаря основным свойствам [2] нейронных сетей, их применение для классификации геофизических объектов дает ряд преимуществ по сравнению с классическими методами интерпретации. Обучаемость НС позволяет настроить сеть на интерпретацию практически любых скважин со схожими параметрами. Кроме того, проводить интерпретацию с помощью полученной НС может человек с невысокой квалификацией. Способность к обобщению позволяет НС не обращать внимание на шумы и иные малые изменения входного сигнала. Способность к абстрагированию дает возможность предъявлять НС входные образы, с которыми сеть никогда не встречалась, и получать адекватный результат на выходе.
В процессе литологического расчленения скважины основную информацию о вскрываемых скважиной пластах несут каротажные диаграммы. Существуют несколько методов, которые наиболее часто используются при проведении каротажных исследованиях: ВК - боковой каротаж. Измерение удельного электрического
сопротивления горных пород. DS - кавернометрия. Измерение фактического диаметра необсаженной сква-жины^Т - акустический каротаж. Измерение интервального времени пробега продольной звуковой волны. ОЯ - гамма-метод. Регистрация интенсивности естественного гамма-излучения горных пород. NGR -нейтронный гамма-метод. Измерение поглощения и рассеяния нейтронов горными породами.
Фрагменты каротажных диаграмм представлены на рис.1.
Каротажные диаграммы представляют собой одномерные функции, которые устанавливают связь между глубиной и каким-либо измеряемым параметром пород (в зависимости от рассматриваемого типа каротажа)
и = / ) + £ г
где и - значение метода каротажа; d - глубина; £ - случайная компонента (шум или помеха).
Рис. 1 Фрагмент нормированных каротажных кривых
При анализе сигналов при помощи нейронных сетей (НС), в связи с особенностями механизма НС, мы не можем подать на НС весь сигнал. Так как входной вектор должен быть постоянной длины для всех используемых примеров. Поэтому используются окна данных. При использовании окна данных размером
2 к +1
входной
зектор представляет собой у л
Ч+к
для каждой каротажной кривой. Поэтому будем
рассматривать нейронные сети, которые на входе принимают вектора следующего вида:
Уі
( 1 1
где верхний индекс показывает номер метода каротажа (в нашем случае используются 5 видов каротажа). Решением задачи литологического расчленения разреза скважины будет являться определение принадлежности к классу коллектор/не коллектор, а также определение типа флюида (нефть, вода, нефть-вода). Поэтому выход НС для отсчета 1 будет представлять вектор: г,- = {к1 о, м>1, ом>1)
где к - вероятность того, что пласт на отсчете глубины i является коллектором;
О
вероятность того,
что пласт на отсчете глубины i нефтенасыщен; wi - вероятность того, что пласт на отсчете глубины i водонасыщен; о- вероятность того, что пласт на отсчете глубины i нефте-водонасыщен;
То есть на выходе сети получаем четыре значения: коллектор/не коллектор, тип флюида (нефть, вода,
нефть-вода).
Таким образом, наши кривые разбиваются на множество примеров:
{{У,, )} ' > = != N
Полученные примеры разбивается на два множества: обучающую и тестовую выборки. Полученные выборки имеют большое количество сходных примеров. Эти примеры не несут полезной информации, но при обучении усложняют структуру нейронной сети и увеличивают время обучения.
Сходные входные сигналы от схожих классов должны формировать единое представление в нейронной сети. Исходя из этого, они должны быть классифицированы как принадлежащие к одной категории.
Для уменьшения избыточности обучающего множества можно разделить примеры на классы сходных векторов и заменить каждое множество одним примером [3]:
первым примером из класса;
средним значением по классу;
)
2
2
3
3
4
4
.X
.X
.X
X
X
X
X
X
і+к* і—к
і+к* і—к
і+к* і—к
наиболее близким примером к среднему значению по классу.
Существует множество подходов к определению степени сходства входных сигналов. Обычно степень подобия определяется на основе Евклидова расстояния [1].
Л(X,, х]) = ||х,. - Х]\ = - х1к )2
где ^ и Xд — к-е элементы векторов X и X соответственно. Отсюда следует, что степень сходства между входными сигналами, представленными векторами X , и Xj , является величиной, обратной Евклидову расстоянию между ними Л(X,X) • Чем ближе друг к другу отдельные элементы векторов xi и X , тем меньше Евклидово расстояние Л(х,X) и тем выше сходство между векторами X ; и Xj . Если векторы X и X' схожи, то они должны быть отнесены к одному классу.
Для разбиения на классы вычислим расстояние между входными векторами и объединим те, расстояние, между которыми не больше числа а , определяющего размер класса.
К = {ук : ||Ук - У, || ^ а} } = !>м
где у - элемент, образующий класс.
Получив, таким образом, М классов, оставим по одному первому примеру из каждого класса. Примеры классов приведены на рисунках ниже.
Рис. 1 Примеры классов при С = 0,1
Рис. 2 Примеры классов при С = 0,15
Рис. 3 Примеры классов при С = 0,2
Евклидово расстояние между парой т-мерных векторов X и X вычисляется как:
Рис. 4 Примеры классов при а = 0,3
Из представленных рисунков видно, что при увеличении параметра а происходит значительное увеличение количества примеров в каждом классе.
Применив данный метод для уменьшения избыточности данных обучающей выборки, получим следующие результаты:
Обучающая выборка (ОВ) Объем ОВ Часть от всей ОВ, %
Без уменьшения объема 6110 100,00%
Классы при а = 0,1 3779 61 85%
Классы при а = 0,15 1943 31 80%
Классы при а = 0,2 1004 16,43%
Классы при а = 0,3 360 589%
Уменьшив объем обучающей выборки, проведем обучение сети и сравним результаты.
Для интерпретации используется многослойная нейронная сеть с одним скрытым слоем и сигмоидой в качестве функции активации. Для обучения выбран алгоритм обратного распространения ошибки. На выходе сети получаем четыре значения: коллектор/не коллектор, тип флюида (нефть, вода, нефть-вода). В дан-
ной работе количество нейронов в скрытом слое равно 21 для всех нейронных сетей. Но для сетей с уменьшенной обучающей выборкой можно убавить количество нейронов в скрытом слое. Это понизит сложность сети и повлечет дополнительное увеличение скорости обучения.
Для оценок качества распознавания используем две величины: среднеквадратическое отклонение и
взаимную корреляцию.
Оценки качества определения коллекторов и характера насыщения пластов.
Коллектор Нефть Вода Нефть- вода
№ скважины Входные данные Сред- некв. от- клон. Коэфф. Взаим- ной корре- ляции Сред- некв. отклон. Коэфф. Взаим- ной ореля- ции Сред- некв. от- клон. Коэфф. Взаим- ной ореля- ции Сред- некв. отклон Коэфф. Взаим- ной ореля- ции
Без уменьш 0 011 0, 746 0 012 0, 580 0 009 0, 455 0 007 0,272
а = 0,1 0 011 0, 752 0 012 0, 566 0 009 0, 411 0 007 0,281
13089 а = 0,15 0 011 0, 753 0 012 0, 591 0 008 0, 591 0 007 0,251
а = 0,2 0 011 0, 743 0 012 0, 643 0 007 0, 692 0 007 0,245
а = 0,3 0 012 0 731 0 013 0 541 0 008 0 620 0 007 0,237
Без уменьш 0 012 0, 750 0 012 0, 586 0 008 0, 627 0 009 0,319
а = 0,1 0 012 0, 756 0 013 0, 556 0 009 0, 600 0 009 0,297
13090 а = 0,15 0 012 0, 756 0 012 0, 609 0 007 0, 681 0 009 0,313
а = 0,2 0 013 0, 721 0 013 0, 604 0 007 0, 707 0 009 0,279
а = 0,3 0 016 0 641 0 014 0 526 0 007 0 690 0 009 0,241
Без уменьш 0 011 0, 778 0 012 0, 680 0 008 0, 131 0 006 0,141
а = 0,1 0 011 0, 781 0 012 0, 675 0 008 0, 132 0 006 0,143
13093 а = 0,15 0 011 0, 787 0 012 0, 680 0 008 0, 224 0 006 0,153
а = 0,2 0 012 0, 772 0 012 0, 680 0 008 0, 373 0 006 0,141
а = 0,3 0 015 0 684 0 014 0 633 0 008 0 255 0 006 0,173
Без уменьш 0 011 0, 742 0 012 0, 620 0 006 0, 279 0 007 0,268
а = 0,1 0 011 0, 738 0 012 0, 612 0 006 0, 243 0 007 0,280
13109 а = 0,15 0 011 0, 737 0 012 0, 635 0 005 0, 447 0 007 0,249
а = 0,2 0 012 0, 721 0 012 0, 671 0 004 0, 695 0 007 0,228
а = 0,3 0 014 0 651 0 013 0 590 0 005 0 533 0 007 0,191
Без уменьш 0 013 0, 711 0 013 0, 598 0 006 0, 275 0 006 0,195
а = 0,1 0 013 0, 707 0 013 0, 580 0 006 0, 270 0 006 0,196
13115 а = 0,15 0 013 0, 704 0 013 0, 599 0 006 0, 346 0 006 0,200
а = 0,2 0 014 0, 682 0 013 0, 598 0 006 0, 395 0 006 0,179
а = 0,3 0 016 0 584 0 016 0 484 0 006 0 373 0 006 0,213
. знач. Без уменьш 0,012 0,745 0,012 0,613 0,007 0,354 0,007 0,239
а = 0,1 0,012 0,747 0,013 0,598 0,008 0,331 0,007 0,239
а = 0,15 0,012 0,747 0,012 0,623 0,007 0,458 0,007 0,233
Сред а = 0,2 0,012 0,728 0,012 0,639 0,007 0,572 0,007 0,214
СО 0, II 0,015 0,658 0,014 0,555 0,007 0,494 0,007 0,211
Из таблицы видно, что уменьшение объема обучающей выборки не привело к ухудшению результатов, а даже позволило улучшить их. Наилучшие результаты показал метод уменьшения объема обучающей выборки с использованием классов при & = 0,15 .
Все нейронные сети обучались 10 000 эпох. Сравнительная таблица времени обучения представлена
ОВ
Без уменьшения объема
Время, мин
27
Классы при & = 0,1 16
Классы при & = 0,15 10
Классы при & = 0,2 6
Классы при & = 0,3 4
Из представленных таблиц видно, что применение методов уменьшения объема обучающей выборки позволяет значительно сократить время обучения нейронной сети и при этом повысить качество распознава-
0,1 )
з) уменьшение объема ОВ (а = 0,15 )
г) уменьшение объема ОВ( а = 0,2 ) д) уменьшение объема ОВ ( а = 0,3 )
Рис. 5 Фрагменты результатов распознавания коллекторов : а) без уменьшения объема ОВ; б) уменьше-
ние объема ОВ ( а = 0,1 ); в) уменьшение объема ОВ ( а = 0,15 ); г) уменьшение объема ОВ (а = 0,2 ); д) уменьшение объема ОВ ( а = 0,3 ).
Приведенные результаты показывают, что обучающая выборка, составленная с использованием окон
данных для каротажных сигналов, имеет большое количество избыточных данных. Избыточные данные при-
водят к усложнению архитектуры нейронной сети, а также увеличивают время обучения. Существует возможность уменьшения объема обучающей выборки с помощью исключения схожих примеров. Применив метод сокращения количества схожих примеров, в работе удалось значительно уменьшить объем обучающей выборки (с 6110 примеров до 194 3 примеров) , уменьшить время обучения сети (с 27 мин. до 10 мин. ) и повысить качество интерпретации данных ГИС.
ЛИТЕРАТУРА
1. С. Хайкин. Нейронные сети: полный курс, 2-е издание. М., Издательский дом «Вильямс», 2006.
2. Ф. Уоссермен. Нейрокомпьютерная техника. М., Мир, 1992.
3. Lean Yu, Shouyang Wang, K.K. Lai, An Integrated Data Preparation Scheme for Neural Network Data Analysis, IEEE Transactions on Knowledge and Data Engineering, vol. 18, no. 2, pp. 217-230,
Feb., 2 0 0 6.
4. M. Lou. Preprocessing Data for Neural Networks, Technical Analysis of Stocks & Commodities Magazine, Oct. 1993.
5. R. Stein. Preprocessing Data for Neural Networks, AI Expert, vol. 8, no. 3, pp. 32-37, 1993.