Разведка скрытых направлений исследований в нефтегазовой отрасли с помощью анализа библиотеки OnePetro

Краснов Ф.В.; Ушмаев О.С.

Разведка скрытых направлений исследований в нефтегазовой отрасли с помощью анализа

библиотеки ОпеРе1хо

Ф.В.Краснов, О.С.Ушмаев

Аннотация— Данное исследование проведено с целью представления возможностей современных подходов к извлечению информации из текстовых массивов. Задача данного исследования состоит в том, чтобы с помощью научного подхода к анализу текста дать ответы на следующие бизнес-вопросы: Какие важные направления исследований развились за прошедший год? Что нового в нефтегазовых технологиях?

Авторы успешно применили технологию тематического моделирования (topic modeling) для решения поставленной задачи. Особое внимание в ходе создания тематической модели авторы уделили метрикам качества модели. В статье исследовано поведение метрик Perplexity и Sparsity для матриц 0 и Ф при регуляризации.

Применение методики последовательной множественной регуляризации позволило разделить тематики на основные и шумовые, что существенно улучшило интерпретируемость модели тематик.

Ключевые слова— тематическое моделирование, регуляризация, BigARTM, GloVe, FastText, кластеризация текстов.

I. Введение

По нашим оценкам более 6 тысяч научно-практических статей публикуется ежегодно на основном нефтегазовом портале https://OnePetro.org. Большинство лиц, принимающих решения в нефтяной индустрии желают быть в курсе основных технологических трендов. Но лишь единицы из них имеют время на то, чтобы прочитать одну-две научных статьи в неделю. Драматически важно чтобы это время было использовано с максимальной эффективностью и выбранные научные статьи представляли действительно сфокусированные исследования высокого качества, а не вторичное перемалывание известных фактов.

Таким образом авторы данного исследования сформулировали для себя задачу создания методики работы с научной периодикой, позволяющей осуществлять такой выбор.

Статья получена 15 января 2018.

Ф.В.Краснов, к.т.н., эксперт, ООО «Газпромнефть НТЦ», 190000 г. Санкт-Петербург, набережная реки Мойки д.75-79,. [email protected], orcid.org/0000-0002-9881-7371, РИНЦ 8650-1127

О.С.Ушмаев, д.т.н., ЗГД по геологии и разработке месторождений ООО "ГПН-Развитие", 190000, Россия, Санкт-Петербург, пер.Зоологический, д.2-4, [email protected]

Очевидно, что проблема находится в области называемой Information retrieval. В последние годы в этом направлении бурно развиваются методики тематического моделирования. Недавние исследования привели к развитию нескольких основных направлений: вероятностного [1], на основе SVD [2] и генеративного [4].

Тематическое моделирование определяет каждую тему как распределение некоторого количества слов с определенными вероятностями. Большинство современных тематических моделей строятся на основе распределения Дирихле (LDA, Latent Dirichlet Allocation) [3].

Трудно представить, что настолько универсальное распределение как LDA будет одинаково хорошо работать для любых текстов. Необходимы тонкие настройки алгоритма на конкретный проблемный домен. Поэтому авторы сосредоточились на основном мировом источнике для научно-практических статей нефтегазовой отрасли - библиотеке OnePetro. Важно отметить, что OnePetro охватывает широкий спектр инженерных дисциплин и содержит тексты на английском посвященные именно практическим аспектам применения новых технологий в нефтегазовой отрасли. Авторами этих статей являются сотрудники нефтяных компаний со всего мира.

Таким образом, авторы выбрали 1696 статей с сайта OnePetro для углубленного анализа. Эти документы были в формате PDF и нуждались в трансформации в формат пригодный для текстового анализа. Авторы использовали библиотеку Apache TIKA для конвертации PDF в текст. В процессе трансформации была восстановлена пунктуация. После получения корпуса текстов необходимо было создать словарь для терминов.

На Рисунке 1 изображена гистограмма частот терминов (слов) которые употреблялись в выбранных статьях и доля выбранных терминов для дальнейшего анализа. С помощью такой выборки авторы избавились от слов с низкими и высокими частотами употребления в коллекции текстов.

Все слова Выбранные слова

10

s

о

10

10 10 10 Частота слов

10

P(w\d) = £ter0wt6td

(1)

создания тематической модели такой настроики на

предметную область не производится.

Для решения подзадачи настройки тематической модели

на предметную область авторами использован механизм

регуляризаторов, предложенный в работе [5].

Пусть рф — распределение тем в коллекции

документов:

p(t) = ^p(d) вы

Тогда полезным представляется регуляризатор на основе дивергенции Кульбака-Лейбнера:

R(®)= -TÏteTlnZdeDp(d) в

td

• max

(3)

Рисунок 1 Распределение частот терминов в корпусе текстов.

Дальнейшие шаги исследования носят итеративный характер и изложены в разделах Методика, Результаты эксперимента и Заключение.

II. Методика исследования

Формальная постановка задачи тематического моделирования следующая. Пусть зафиксирован словарь терминов Ш, из элементов которого складываются документы, и дана коллекция Б документов ё с Б. Для каждого документа ё известна его длина пй и количество пйш использований каждого термина м>.

Пусть Ф = (фш{) - матрица распределений терминов (м>) в темах (0, а 0 = (вы) - матрица распределений тем (1) в документах (ф. Тогда задача тематического моделирования состоит в том, чтобы найти такие матрицы Ф и 0, чтобы выполнялось равенство (1).

Где фш - вероятности терминов V в каждой теме /, вы -вероятности тем / в каждом документе ё, а -

вероятность появления термина w в документе й. Уравнение (1) можно представить в матричном виде Ф • 0. При этом легко показать, что данная задача имеет много решений (2).

Ф • 0 = Ф • Л • Л-1 • 0 = Ф • 0, где Ф = Ф • Л, 0 = Л-1 • 0 (2)

Из (2) следует, что матрицы Ф и 0 так же будут являться решениями (1). Но не все матрицы Ф и 0 будут содержать хорошо интерпретируемые тематики. Таким образом, в задачу (1) необходимо ввести условия способствующие получению адекватных и интересных тематик. Образно можно сказать, что необходимо оцифровать специфику предметной области текста для встраивания в алгоритм поиска оптимальных матриц Ф и 0. Отметим, что при использовании ЬБЛ для

Где т - параметр регуляризации, который нужно подобрать в зависимости от предметной области коллекции документов. Требование максимизации Д(0) будет означать обнуление вероятностей появления документов и приведет к большей разрежённости матрицы 0.

Вторым механизмом для регуляризации может быть обратное действие - увеличение вероятностей для тематик, которые присутствуют во многих документах. Такие тематики называют шумовыми. Для получения уплотнений строк матрицы 0 с шумовыми тематиками можно применить регуляризатор (3) с обратным знаком.

Таким образом, матрица 0 после регуляризации будет представлять чередование зон разрежённости для основных тематик и уплотнений для шумовых тематик. Полученную тематическую модель необходимо формально проверить на качество. Для этого в процесс обучения необходимо встроить метрики качества модели. А после достижения формальных критериев сходимости на основании метрик провести визуализацию модели для общего контроля качества. Основной метрикой для выявления факта сходимости модели тем является метрика Perplexity вычисляемая по формуле (4).

T(D, Ф, 0) = exp ZdED Ewed ndwln EteT ^wt^d) (4) "

Метрика Perplexity не нормирована и поэтому не может быть использована для сравнения сходимости разных моделей. Общая логика состоит в том, что чем меньше Perplexity, тем лучше модель. Поэтому для принятия решения о достаточной сходимости модели руководствуются тем, что Perplexity перестает значительно уменьшаться с ростом количества итераций обучения.

Результирующая модель тематик может быть рассмотрена как кластеризация. В таком случае к полученным тематикам могут быть применены инструменты визуализации, используемые для кластеров. Например, могут быть применены методы обучения на основе многообразий (Manifold Learning): t-distributed Stochastic Neighbor Embedding (TSNE) [6] и Multidimensional scaling [7]. Результаты работы алгоритма TSNE зависят от выбранной метрики

расстояния между векторами. При размерности векторного пространства в несколько сотен применяют следующие метрики:

1. Косинусная мера (Cosine): -—1v2 ,,

IKIh* 1Mb

2. Евклидово расстояние (Euclidean): Цу1 — у2Ц2

Для эффективного использования визуализации тематической модели с помощью методов обучения на основе многообразий необходимо представить слова, составляющие тематики, в векторном пространстве (Vector Space Model). Такая процедура называется word embedding. Для нее часто используют метод GloVe описанный в исследовании [8]. Альтернативным методом word embedding является FastText [9,10], поэтому авторы данного исследования решили провести качественное сравнение обоих методов word embedding на выбранной коллекции. Оба метода обучают векторные представления слов на основании того, как часто слова употребляются вместе. Отличие между ними состоит в том, что FastText условно можно назвать «предиктивной», а GloVe основывается только на частотах слов. В этом свете GloVe гораздо проще, а авторы данного исследования верят, что простота в бизнесе — это залог эффективности.

III. Результаты эксперимента

В начале авторы произвели тренировку PLSA topic model чтобы определить скорость сходимости по метрике Perplexity. Зависимость Perplexity от количества циклов обучения модели отображена на Рисунке 2.

26

24

о

и

сп >.

х

Ф

Q-

<Б

22

20

18

16

14

— — Метрика Perplexity Score

IUI

0

40

5 10 15 20 25 30 35 Количество циклов обучения модели Рисунок 2 Зависимость Perplexity от количества циклов обучения модели.

Из Рисунка 2 видно, что модель хорошо сходится уже на 20 циклах.

Для дальнейшего обучения к модели были добавлены следующие регуляризаторы:

1. Sparse Theta - для увеличения разрежённости матрицы 0 для основных тематик,

2. Sparse Phi - для увеличения разрежённости матрицы Ф для основных тематик,

3. Smooth Theta - для уплотнения матрицы 0 для шумовых тематик,

4. Smooth Theta - для уплотнения матрицы Ф для шумовых тематик.

Для определения параметров регуляризаторов были проведены пробные эксперименты по обучению модели. Результаты этих пробных экспериментов оценивались по метрикам разрежённости матриц Ф и 0. Для уплотнения матриц Ф и 0 предполагается использовать полученные параметры с обратным знаком. На Рисунке 3 приведена зависимость разрежённости матрицы Ф для нескольких значений параметра регуляризации т. 1.0

о

0.9

0.8

Cl 0.7

Ь

СО

0.6

ш S к о.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

fO П5 CL

0.5

0.4

0.3

0.2

- т= -100

т — -10 т- -1

0 5 10 15 20 25

Количество циклов обучения модели

Рисунок 3 Зависимость разрежённости матрицы Ф для нескольких значений параметра регуляризации т.

На основании зависимости отображенной на Рисунок 3 для дальнейших экспериментов было выбрано значение т = -10. При таком значении т после 25 циклов обучения в матрице Ф остается 92% нулевых значений. На Рисунке 4 приведена зависимость разрежённости матрицы 0 для нескольких значений параметра регуляризации т.

1.0

0.8

®

lû ■3

0.6

0) 0.4

*

в;

го CL

0.2

0.0

/-

- 7"- -100 Т= -10 7" — -1

FastText

5 10 15 20

Количество циклов обучения модели

25

Рисунок 4 Зависимость разрежённости матрицы 0 для нескольких значений параметра регуляризации т.

На основании зависимости отображенной на Рисунке 4 для дальнейших экспериментов было выбрано значение т = -10. При таком значении т после 25 циклов обучения в матрице 0 остается 78% нулевых значений. Для того, чтобы качественно оценить полученную тематическую модель авторы применили метод визуальных оценок качества кластеризации. Рассмотрим темы в тематической модели как кластеры. Тогда хорошо выделенная тема должна описываться «близкими» словами и отстоять «далеко» от слов, образующих другие темы.

Чтобы количественно сравнивать «близость» и «удаленность» слова были представлены в виде векторов с помощью алгоритмов FastText и GloVe. Для отображения полученных векторов были использованы два алгоритма уменьшения размерности: TSNE и MDS. Алгоритм TSNE имеет несколько значимых параметров, таких как метрика, perplexity и learning rate. Авторы рассмотрели значения perplexity от 5 до 50 с шагом 5 и перебрали следующие метрики расстояний: cosine и euclidean. Наиболее наглядные результаты

представлены на Рисунке 5 и Рисунке 6.

TSNE

Модифицированное измерение 1

Рисунок 5 Кластеры слов по тематикам. Векторы слов получены с помощью FastText. Визуализация получена с помощью TSNE с параметрами preplexity=30 и метрикой cosine.

Модифицированное измерение 1

Рисунок 6 Кластеры слов по тематикам. Векторы слов получены с помощью GloVe. Визуализация получена с помощью TSNE с параметрами preplexity=30 и метрикой cosine.

На основе рисунков 5 и 6 можно наблюдать группировки слов, образующих тематики. Отметим, что расстояния при трансформации векторного пространства методом TSNE не сохраняются, но сохраняются пропорции расстояний. Преобразование векторного пространства с помощью метода MDS отображены на Рисунке 7 и Рисунке 8.

Модифицированное измерение 1

Рисунок 7 Кластеры слов по тематикам. Векторы слов получены с помощью FastText. Визуализация получена с помощью MDS.

Терм1 liquid sand stress injection corrosion casing injection safety

Терм2 equation shale fractures history nace mud recovery management

ТермЗ velocity porosity hydraulic matrix samples cement steam risk

Терм4 pipe logging fracturing optimizatio n concentratio n hole viscosity assessment

Терм5 experiment al pore proppant recovery acid tubing core human

Терм6 eq samples shale porosity treatment string heavy health

Терм? coefficient core stage linear steel drill injected company

Терм8 multiphase log treatment matching ph bit polymer team

Терм9 equations sample conductivit y match inhibitor completio n flooding equipment

Терм1 0 mass logs stimulation cumulative chemical mpd solvent environment al

В Таблице 2 представлены Юр 10 терминов, образующих основные тематики после применения обучения с регуляризацией.

Таблица 2 Top10 терминов, образующих основные тематики после применения обучения с регуляризацией.

Тема sbj0 sbj 1 sbj2 sbj3 sbj4 sbj5 sbj6 sbj7

Терм1 liquid shale fracturing injection corrosion casing recovery safe ty

Терм2 pipeline porosity proppant fractures nace cement injection manageme nt

ТермЗ pipe logging hydraulic shale concentratio n mud steam risk

Терм4 velocity sand stress matrix samples hole core human

Терм5 multiphas e pore fractures hydraulic inhibitor mpd viscosity health

Терм6 slug samples stage recovery acid bit flooding business

Терм? friction core shale fractured ph drill solvent assessmen t

Терм8 bhr spwla treatment bakken steel string heavy training

Терм9 group clay conductivit y porosity houston pipe saturatio n company

Терм1 0 holdup symposiu m stages unconvention al iron liner surfactan t activities

Модифицированное измерение 1

Рисунок 8 Кластеры слов по тематикам. Векторы слов получены с помощью GloVe. Визуализация получена с помощью

На рисунках 7 и 8 можно видеть группировку слов, образующих тематики. Алгоритм МБ8 использует евклидову метрику для вычисления расстояний. Полученные с помощью МБ8 и Т8КБ результаты для РаБкТеХ и GloVe показывают наличие кластеров слов, соответствующих тематикам. Так же мы видим наличие шумовых слов в тематиках.

В Таблице 1 представлены Юр 10 терминов, образующих основные тематики до регуляризации.

Таблица 1 Top10 терминов, образующих тематики до регуляризации.

При сравнении таблиц 1 и 2 мы видим, что основные термины, формирующие тематики устойчивы к процессам регуляризации. Качество

интерпретируемости тематик улучшается с регуляризацией за счет появления более конкретных терминов.

Так же представляет интерес поведение тематик для отбора шумовых терминов. В Таблице 3 приведены шумовые тематики до и после регуляризации.

Таблица 3 Top10 терминов, образующих шумовые тематики до и после применения обучения с регуляризацией.

Тема sbjO sbjl sbj2 sbj3 sbj4 sbj5 sbj6 sbj7

До регуляризации После регуляризации

nz0 nz1 nz0 nz1

pump wave pump stress

pipeline seismic sand equation

esp seg completion seismic

power frequency injection wave

subsea velocity tubing velocity

operating waves equipment numerical

lift amplitude operating x

equipment x downhole pore

installation elastic power our

liquid offshore esp direction

Примечательно, что в шумовые тематики попала тема Сейсмики (nzl). Согласно мнению эксперта к теме сейсмике относятся слова seismic, wave, velocity, elastic, seg, frequency и amplitude. Статьи по сейсмике мало представлены в OnePetro и действительно могут быть отнесены к второстепенным. После обучения с регуляризацией в nzl добавились несколько терминов связанных с вычислениями, но тема сейсмики осталась. В частности, термин offshore ушел в основные тематики. С тематикой nz0 все достаточно однозначно. В нее попали часто употребляемые слова, которые встречаются в очень широком круге статей. Рассмотрим результат отнесения моделью документов к определенным темам. Распределение тем для каждого документа отражены в матрице 0. Для получения более общего представления о происходящем в процессе регуляризации преобразовании матрицы 0 авторы представили ее вид до (Рисунок 9) и после (Рисунок 10) регуляризации в виде карт.

750 1000 1250 1500 Статьи

Рисунок 9 Матрица 0 до регуляризации. По оси х отложены номера документов из коллекции.

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0

500 1000

Статьи

1500

Рисунок 10 Матрица 0 после регуляризации. По оси x отложены номера документов из коллекции.

Как мы видим из рисунков 9 и 10 матрица 0 в процессе регуляризации становится более разряженной на основных тематиках (sbj0-sbj 10) и более плотной на шумовых тематиках (nz0-nz1).

Например, документ №555 обладает самым большим весом тематики 0.72 (sbj6). Вероятности других основных тематик для этого документа равны нулю. Таким образом этот документ согласно модели, полностью посвящен тематике sbj6, представленной словами (Таблица 2): recovery, injection, steam, core, viscosity, flooding, solvent, heavy, saturation, surfactant.

При помощи эксперта тематике sbj6 дано название: «Chemical enhanced oil recovery».

Но с другой стороны, мы можем проверить по корпусу текстов нашей выборки, что данный документ №555 соответствует статье с названием «Low Tension Gas Process in High Salinity and Low Permeability Reservoirs». Вот фрагмент из публичной аннотации этой статьи с сайта OnePetro.org1:_

Abstract

Chemical enhanced oil recovery (EOR) in carbonate reservoirs has always been technically and economically challenging. Conventional Alkaline-Surfactant-Polymer (ASP) flooding has limited application in low permeability (2-20 mD) and high salinity formations (~200,000 ppm TDS) with a large concentration of divalent cations. Also injectivity into such low permeability reservoirs can be a significant problem with polymer solutions (...).

Как мы видим из этого общедоступного фрагмента статьи тематика определена с высокой точностью. Но более того, из модели мы знаем, что эта статья действительно сфокусирована на этой тематике. Приобретя данную статью можно быть достаточно уверенным, что в ней не будет других тематик. Важно так же отметить, что можно было и не прибегать к помощи эксперта для определения названия тематики sbj6, а воспользоваться тем, что данный документ представлен единственной тематикой и взять название из аннотации статьи. Такой подход «автоматического выбора названий для тематик» был успешно применен авторами. Работа экспертов упростилась таким образом до верификации автоматического названия темы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

IV. ЗАКЛЮЧЕНИЕ

Тематическое моделирование позволяет оперативно обрабатывать значительные объемы текстов для сужения найденных понятий до топиков. Каждая тема представляется набором слов и от качества этого представления зависит возможная интерпретация. Авторы показали результативность подхода к улучшению интерпретируемости тематик на основе последовательной регуляризации. Примененные методы управление отношением «плотность-разрежённость» открывают возможности настройки модели на предметную область корпуса текстов. Библиотека BigARTM [5] позволяет выстраивать последовательно несколько регуляризаторов и управлять группами тематик. Такой инструмент является уникальным на момент написания данной статьи. Широко используемые на западе методы построения тематических моделей на основе LDA не дают таких возможностей.

Авторы показали принципы создания и настройки модели тематик, которые позволяют вести интеллектуальный поиск (разведку) высоко сфокусированных источников знаний. Кластеризация топиков была проверена с помощью двух методов для векторизации слов (FastText, GloVe) и двух методов для уменьшения размерности векторного

1 https://www.OnePetro.org/conference-paper/SPE-179839-MS

пространства (Т8КБ, МБ8). Результаты представлены в виде диаграмм и уверено показывают наличие кластеров.

Подход к анализу текстовой информации на основе моделирования тематик широко используется во внутренних процессах компании ООО «Газпромнефть НТЦ» для оптимизации процессов управления знаниями, выявления наиболее перспективных направлений исследований и поиска лидеров мнений в определенных научных направлениях. Новизна данного исследования состоит в применении современных библиотек к предметному домену нефтегазовой отрасли для решения насущных бизнес задач в условиях растущих объемов информации.

Библиография

1. Hofmann T. Probabilistic latent semantic indexing //ACM SIGIR Forum. - ACM, 2017. - Т. 51. - №. 2. - С. 211-218.

2. Lu X., Zheng X., Li X. Latent semantic minimal hashing for image retrieval //IEEE Transactions on Image Processing. - 2017. - T. 26. -№. 1. - C. 355-368.

3. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Journal of machine Learning research. - 2003. - T. 3. - N°. Jan. - C. 9931022.

4. Law J. et al. LTSG: Latent Topical Skip-Gram for Mutually Learning Topic Model and Vector Representations //arXiv preprint arXiv:1702.07117. - 2017.

5. Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news //Conference on Artificial Intelligence and Natural Language. - Springer, Cham, 2017. - C. 181193.

6. Maaten L., Hinton G. Visualizing data using t-SNE //Journal of machine learning research. - 2008. - T. 9. - №. Nov. - C. 2579-2605.

7. Agrafiotis D. K., Rassokhin D. N., Lobanov V. S. Multidimensional scaling and visualization of large molecular similarity tables //Journal of Computational Chemistry. - 2001. - T. 22. - №. 5. - C. 488-500.

8. Pennington J., Socher R., Manning C. Glove: Global vectors for word representation //Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). - 2014. - C. 15321543.

9. Joulin A. et al. Bag of tricks for efficient text classification //arXiv preprint arXiv:1607.01759. - 2016.

10. Bojanowski P. et al. Enriching word vectors with subword information //arXiv preprint arXiv: 1607.04606. - 2016.

Exploration of Hidden Research Directions in Oil and Gas Industry via Full Text Analysis of OnePetro Digital Library

Fedor Krasnov, Oleg Ushmaev

Abstract — This study was conducted to present the possibilities of modern approaches to extracting information from text corpus. The purpose of this study is to provide answers to the following business questions using a scientific approach to the analysis of the text: What important areas of research have developed over the past year? What is new in oil and gas technologies?

The authors have successfully applied the technology of topic modeling to solve the problem. The focus of the research was quality of the topic model. This paper investigates the behaviors of metrics Perplexity Score and Sparsity Scores for matrices 0 and O in the regularization of the topic model.

The application of additive regularization allowed dividing the topics into main and noise, which significantly improved the interpretability of the topics.

Keywords— clustering, topic modelling, BigARTM, GloVe, FastText, adaptive regularization.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Краснов Ф. В., Ушмаев О. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Краснов Ф. В., Ушмаев О. С.

Exploration of Hidden Research Directions in Oil and Gas Industry via Full Text Analysis of OnePetro Digital Library

Текст научной работы на тему «Разведка скрытых направлений исследований в нефтегазовой отрасли с помощью анализа библиотеки OnePetro»