Научная статья на тему 'Эволюция языковых моделей'

Эволюция языковых моделей Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
683
198
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
языковая модель / цепь Маркова / теория информации / нейронные языковые модели / векторные представления слов / предварительно обученные языковые модели / BERT / GPT / language model / Markov chain / information theory / neural language models / vector representations of words / pre-trained language models / BERT / GPT

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Прошина Мария Владимировна

В данной статье представлен обзор истории развития языковых моделей, начиная с работы Андрея Маркова и его введения понятия "цепь Маркова". Описано, как Марков применил свою модель к роману Пушкина "Евгений Онегин". Затем рассмотрена работа Клода Шеннона, который ввел понятия энтропии и кросс-энтропии и исследовал свойства n-граммовых моделей. Отмечено, что Шеннон предоставил инструменты для оценки языковых моделей. Затем приведен обзор работы Ноама Хомского и его иерархии грамматик Хомского, которые показывают ограничения конечных грамматик при описании естественных языков. Наконец, рассмотрена работа Йошуа Бенжио и его соавторов, которые предложили нейронные языковые модели, улучшая ограничения n-граммовых моделей. В работе Бенжио использовались векторные представления слов для улучшения моделей. Также рассмотрены предварительно обученные языковые модели, которые основаны на архитектуре Трансформер и используются для решения задач в области NLP. Они обучаются в два этапа: предварительное обучение, где модель тренируется без учителя на большом объеме данных, и точная настройка, где модель корректируется с помощью небольшого количества размеченных данных. Существуют три типа предварительно обученных языковых моделей: однонаправленные, двунаправленные и последовательность к последовательности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Evolution of language models

This article provides an overview of the history of the development of language models, starting with the work of Andrei Markov and his introduction of the concept of a “Markov chain”. It is described how Markov applied his model to Pushkin's novel "Eugene Onegin". It then looks at the work of Claude Shannon, who introduced the concepts of entropy and cross-entropy and explored the properties of n-gram models. It is noted that Shannon provided tools for assessing language models. Then there is an overview of the work of Noam Chomsky and his hierarchy of Chomsky grammars, which show the limitations of finite grammars in describing natural languages. Finally, the work of Yoshua Bengio and co-authors is reviewed, who proposed neural language models, improving on the limitations of n-gram models. Bengio's work used vector representations of words to improve models. Also discussed are pre-trained language models that are based on the Transformer architecture and are used to solve problems in the field of NLP. They are trained in two stages: pre-training, where the model is trained unsupervised on a large amount of data, and finetuning, where the model is adjusted using a small amount of labeled data. There are three types of pretrained language models: unidirectional, bidirectional, and sequence-to-sequence.

Текст научной работы на тему «Эволюция языковых моделей»

Эволюция языковых моделей

СО CS

о

CS

Прошина Мария Владимировна

аспирант, кафедра математического моделирования и искусственного интеллекта, РУДН им. Патриса Лулумбы, [email protected]

В данной статье представлен обзор истории развития языковых моделей, начиная с работы Андрея Маркова и его введения понятия "цепь Маркова". Описано, как Марков применил свою модель к роману Пушкина "Евгений Онегин". Затем рассмотрена работа Клода Шеннона, который ввел понятия энтропии и кросс-энтропии и исследовал свойства n-граммовых моделей. Отмечено, что Шеннон предоставил инструменты для оценки языковых моделей. Затем приведен обзор работы Ноама Хомского и его иерархии грамматик Хомского, которые показывают ограничения конечных грамматик при описании естественных языков. Наконец, рассмотрена работа Йошуа Бенжио и его соавторов, которые предложили нейронные языковые модели, улучшая ограничения n-граммовых моделей. В работе Бенжио использовались векторные представления слов для улучшения моделей. Также рассмотрены предварительно обученные языковые модели, которые основаны на архитектуре Трансформер и используются для решения задач в области NLP. Они обучаются в два этапа: предварительное обучение, где модель тренируется без учителя на большом объеме данных, и точная настройка, где модель корректируется с помощью небольшого количества размеченных данных. Существуют три типа предварительно обученных языковых моделей: однонаправленные, двунаправленные и последовательность к последовательности. Ключевые слова: языковая модель, цепь Маркова, теория информации, нейронные языковые модели, векторные представления слов, предварительно обученные языковые модели, BERT, GPT

Введение

Языковая модель - это распределение вероятностей, определенное для последовательности слов (предложения или абзаца). Языковые модели представляют собой важный механизм моделирования текстов на естественном языке, основанный на теории вероятностей, статистике, теории информации и машинном обучении. Нейронные языковые модели, основанные на глубоком обучении, особенно недавно разработанные предварительно обученные языковые модели, стали фундаментальными технологиями NLP.

В последние годы обработка естественного языка (Natural Language Processing, NLP) претерпела революционные изменения. Благодаря разработке и использованию предварительно обученных языковых моделей были достигнуты значительные достижения во многих приложениях.

Предварительно обученные языковые модели обладают двумя основными преимуществами. Одним из преимуществ является то, что они могут значительно повысить точность многих задач NLP. Например, можно использовать модель BERT для достижения более высоких показателей в понимании языка по сравнению с человеческими возможностями. Можно также использовать модель GPT-3 для генерации текстов, похожих на те, что были написаны людьми. Второе преимущество предварительно обученных языковых моделей заключается в том, что они являются универсальными инструментами обработки языка. Чтобы выполнить задачу, основанную на машинном обучении, в традиционном NLP, нужно пометить большой объем данных для обучения модели. Напротив, в настоящее время для точной настройки предварительно обученной языковой модели требуется лишь пометить небольшой объем данных, поскольку она уже обладает значительным объемом знаний, необходимых для обработки языка.

NLP - это область компьютерных наук (Computer Science, CS), искусственного интеллекта (Artificial Intelligence, AI) и лингвистики, в которой в качестве приложений используются машинный перевод, понимание прочитанного, диалоговая система, обобщение документов, генерация текста и другие. В последние годы глубокое обучение стало фундаментальной технологией NLP.

Можно выделить два основных подхода к моделированию естественного языка с использованием математических средств: один основан на теории вероятностей, а другой - на теории формального языка. Эти два подхода также могут быть объединены. Языковые модели относятся к первой категории с точки зрения фундаментальной структуры.

О ш m х

<

m о х

X

1. Марков и языковые модели

Русского математика Андрея Маркова (1856 - 1922) можно назвать первым ученым, который изучал языковые модели [1], хотя термина "языковая модель" в то время не существовало.

Марков ввел понятие «цепь Маркова» в 1906 году. Модель, которую он впервые рассмотрел, была довольно простой, с двумя состояниями и вероятностями перехода между этими состояниями.

Марков доказал, что если переходить между двумя состояниями в соответствии с вероятностями перехода, то частоты доступа к двум состояниям будут сходиться к ожидаемым значениям, что является эргодической теоремой цепи Маркова. В

последующие годы он расширил модель и доказал, что приведенный выше вывод все еще справедлив в более общих условиях.

Чтобы привести конкретный пример, Марков применил предложенную им модель к роману Александра Пушкина в стихах "Евгений Онегин" в 1913 году. Убрав пробелы и знаки препинания и классифицировав первые 20 о0о русских букв романа на гласные и согласные, он получил последовательность гласных и согласных звуков в романе.

Потом, используя бумагу и ручку, Марков подсчитал вероятности перехода между гласными и согласными. Затем полученные данные были использованы для проверки характеристик простейшей цепи Маркова.

Важно отметить, что первоначальной областью применения цепи Маркова является язык, поэтому пример, который изучал Марков, является простейшей языковой моделью.

Рассмотрим пример языковой модели. Пусть рСи^и^) = р(и^). Предположим, что м^, м/2, ..., и^ - это последовательность слов. Тогда вероятность встречаемости последовательности слов может быть вычислена следующим образом:

N

рСм^м^,.., Шд,) = ^ р^м^м^,.., и^-О 1=1

Пусть N = 5, тогда:

рСи^и^и^и^и^) =

= р(ш1) хр^^и^) хр(ш3|ш1,ш2)

хр(ш4|ш1,ш2,ш3) XX р(ш5|ш1,ш2,шз,ш4)

Пример 1:

р(сейчас, вода, кажется, такой, прозрачной) = = р(сейчас) хр(вода | сейчас) х р(кажется | сейчас, вода) х хр (такой | сейчас, вода, кажется) х хр(прозрачной |сейчас, вода, кажется, такой)

Различные типы языковых моделей используют различные методы для вычисления условных вероятностей вида р(шг|ш1,ш2,., Процесс изучения и использования языковой модели называется языковым моделированием. Модель п-грамма - это базовая модель, которая предполагает, что слово в каждой позиции зависит только от слов в п- 1 предыдущих. Эта модель представляет собой цепь Маркова порядка п- 1 ^ - общее число слов; п - порядок):

i=l

N

=п

wi-(n-l),wi-(n-

-n+l,wi-n+2,■■■, wi-1)

2. Шеннон и языковые модели

Теория информации - это раздел прикладной математики и информатики, который изучает передачу, хранение и обработку информации.

Теория информации находит применение в информационных технологиях, телекоммуникациях, криптографии, статистике и других областях. Она сыграла важную роль в развитии современных коммуникационных систем и Интернета.

В 1948 году американский ученый Клод Шеннон (1916 -2001) опубликовал новаторскую работу "Математическая теория связи", которая положила начало области теории информации.

В статье Шеннон ввел понятия энтропии и кросс-энтропии и изучил свойства п-граммовой модели [2]. Шеннон позаимствовал термин "энтропия" из статистической механики, основываясь на советах Джона фон Неймана.

Энтропия представляет собой неопределенность одного распределения вероятностей, в то время как перекрестная энтропия (кросс-энтропия) представляет неопределенность одного распределения вероятностей по отношению к другому распределению вероятностей. Энтропия - это нижняя граница перекрестной энтропии.

Предположим, что язык (последовательность слов) - это данные, сгенерированные стохастическим процессом. Тогда энтропия распределения вероятностей п-грамм определяется следующим образом:

Я„(р) = - ^ р(шьш2,...,шп)х^2р(шьш2,...,шп),

где:

W, ,W,,:,W„

Иными словами, модель п-грамма предсказывает и^ на основе Ш1_п+1,Ш1_п+2.....И^.

Формула для подсчета совместной вероятности всей цепи Маркова:

П"=1Р (^;К,И/2.....~

Используем цепи Маркова для предсказания элемента последовательности, а не всего контекста по следующей формуле:

Марковская модель первого порядка, где N = 7, п = 2 (вероятность слова зависит только от предыдущего слова):

Пример 2:

р(чистой | сейчас вода кажется такой прозрачной и) «р(чистой | и)

Марковская модель второго порядка, где N = 7, п = 3 (учитываем контекст последних двух слов):

- p(w1,w2,^,wJl) - вероятность n-граммов для последовательности Wj,W2,^ ,wn.

Перекрестная энтропия распределения вероятностей n-грамм по отношению к "истинному" распределению вероятностей данных определяется следующим образом:

Я„(р,?) = - ^ p(w1,w2,^,wJl)

w1,w2,-,wn

- q(w!,w2,-, wn) - вероятность n-граммов для последовательности w!,w2,- ,wn;

- p(w1,w2,^,wJl) - истинная вероятность n-граммов для последовательности w1,w2,-,w„.

Имеет место следующее соотношение: Яп(р)<Яп(р,?)

В теореме Шеннона-Макмиллана-Бреймана утверждается, что когда стохастический языковой процесс удовлетворяет условиям стационарности и эргодичности, выполняются следующие соотношения:

Я(р) = lim -Я„(р) = lim — log2p(w1,w2,^,wJl)

nira и nira и

Я(р,д) = lim -Я„(р,ч) = lim --log2q(w1,w2.....w„)

ты и п^га и

Я„(р) <я„(р,?)

Другими словами, когда длина последовательности слов стремится к бесконечности, можно определить энтропию языка. Энтропия принимает постоянное значение и может быть оценена по данным языка.

Если одна языковая модель может более точно предсказать последовательность слов, чем другая, то она должна иметь меньшую перекрестную энтропию. Таким образом, работа Шеннона предоставляет инструмент оценки для языкового моделирования.

3. Хомский и языковые модели

В 1956 году американский лингвист Ноам Хомский предложил иерархию грамматик Хомского для представления синтак-

X X

о го А с.

X

го m

о

м о м

CJ

fO CS

о

CS

о ш m

X

3

<

m О X X

сиса языка [3]. Он отметил, что грамматики с конечным состоянием (также n-граммовые модели) имеют ограничения при описании естественных языков (см. (I)-(III) ниже).

Теория Хомского утверждает, что язык состоит из конечного или бесконечного набора предложений, каждое предложение представляет собой последовательность слов конечной длины, слова берутся из конечного словарного запаса, а грамматика - это набор производственных правил, которые могут генерировать все предложения в языке. Различные грамматики могут создавать языки разной сложности, и они образуют иерархическую структуру.

В теории Хомского "грамматика", лежащая в основе конечной цепи Маркова (или n-граммовой модели), является грамматикой с конечным числом состояний. Грамматика с конечным числом состояний имеет ограничения в построении предложений на английском языке. Например, существуют грамматические отношения между английскими выражениями, такие как следующие отношения в (I) и (II).

(I) Если S1, то S2.

(II) Либо S3, либо S4.

(III) Либо, если S5, то S6, либо, если S7, то S8.

Отношения можно комбинировать бесконечно долго для

получения правильных английских выражений (например, в примере III). Однако грамматика конечного состояния не может описать все комбинации, и, теоретически, существуют английские предложения, которые невозможно охватить. Поэтому Хомский утверждал, что существуют большие ограничения в описании языков грамматиками с конечным числом состояний, включая n-граммовые модели. Вместо этого он отметил, что контекстно-свободная грамматика может моделировать языки эффективнее. Под его влиянием в последующие десятилетия в NLP все чаще стали использоваться контекстно-свободные грамматики. Теория Хомского сейчас не имеет большого влияния на NLP, но она по-прежнему имеет важное научное значение.

4. Нейронные языковые модели

В 2001 году канадский математик Йошуа Бенжио и его соавторы предложили одну из первых нейронных языковых моделей [4], которая открыла новую эру языкового моделирования. Бенджио, Джеффри Хинтон (британский и канадский ученый) и Ян Лекун (французский ученый) получили Премию Алана Тьюринга (A.M. Turing Award) в 2018 за свои концептуальные и инженерные прорывы, которые, как хорошо известно, сделали глубокие нейронные сети важнейшей частью вычислительной техники (A.M. Turing Award считается самой престижной премией в области компьютерных наук и технологий, аналогом Нобелевской премии).

Модель n-gram ограничена в своей способности к обучению. Традиционный подход заключается в оценке по корпусу условных вероятностей p(wilwi_n+1,wi_n+2,^,wi_1) модели методом сглаживания. Однако количество параметров (в модели) придает алгоритму модели экспоненциальный порядок сложности 0(Vn), где V обозначает размер словаря. Когда п увеличивается, параметры модели не могут быть точно изучены из-за разреженности обучающих данных.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Модель нейронного языка, предложенная Бенжио и др., улучшает n-граммовую модель двумя способами. Во-первых, вещественный вектор, называемый векторным представлением слова (Бенжио называл этот вектор входным векторным представлением), используется для представления слова или комбинации слов. Векторное представление слова имеет гораздо меньшую размерность, чем "one-hot вектор" слова (one-hot encoding), в котором элемент, соответствующий слову, равен единице, а остальные элементы равны нулю.

Векторное представление слова, как тип "распределенного представления", может представлять слово с большей эффективностью, способностью к обобщению, надежностью и расширяемостью, чем one-hot вектор. Во-вторых, языковая модель представлена нейронной сетью, что значительно сокращает количество параметров в модели. Условная вероятность определяется нейронной сетью:

Щ-1) = /fl(W;

- wi_n+bwi_n+2,...,wi_1 обозначают векторные представления слов Wi_n+1,Wi_n+2,..., wi_1;

- /(•) обозначает нейронную сеть;

- в обозначает параметры сети.

В данном случае количество параметров уже делает алгоритм модели линейным, с порядком сложности 0(V). На рисунке 1 показана взаимосвязь между векторными представлениями в модели. Каждая позиция имеет промежуточное векторное представление, которое зависит от векторных представлений слов в предыдущих п - 1 позициях, и это справедливо для всех позиций. Промежуточное векторное представление в текущей позиции затем используется для генерации слова для этой позиции.

промежуточное

векторное представление

входное векторное представление

■п+1 wi-n*2

Рисунок 1. Взаимосвязь между векторными представлениями в исходной нейронной языковой модели

После работы Бенжио и др. было разработано большое количество методов для векторного представления слов и нейросетевых методов языкового моделирования, которые привнесли улучшения с разных точек зрения.

Так, показательным методом векторного представления слов является Word2Vec [5]. Word2Vec - это алгоритм, который позволяет получить векторные представления слов на основе их семантического контекста в текстах. Word2Vec был разработан Томасом Миколовым и его коллегами из компании Google в 2013 году.

Входной слой

Скрытый слой

Выходной слой

Рисунок 2. Пример работы CBOW

Алгоритм Word2Vec приносит значительные улучшения в область языковой обработки текстов по сравнению с работой

Йошиа Бенжио 2001 года, а именно: он способен эффективно работать с большими данными, обучаться на более широких контекстах, вычислять точные векторные представления слов и уменьшать размерность данных для их более быстрой обработки.

Word2Vec представляет собой алгоритм, который создает векторные представления слов на основе их использования в контексте текстов. Наиболее популярными алгоритмами Word2Vec являются Continuous Bag of Words (CBOW) и Skip-Gram.

Входной слой

Скрытый слой

Выходной слой

шотландские

Рисунок 3. Пример работы Skip-Gram

CBOW - это алгоритм, который пытается предсказать центральное слово в предложении на основе его окружения. На рисунке 2 представлен пример работы CBOW:

1) Берется последовательность слов «Британские и шотландские кошки близкородственные», где центральное слово «шотландские». Это целевое слово, которое должно быть предсказано моделью.

2) Контекстом слова считаются окружающие его слова одинаковой длины с каждой стороны (например, по 2 слова от центра слева («Британские», «и») и справа («кошки», «близкородственные») в данном примере).

Skip-Gram - это алгоритм, который пытается предсказать окружающие слова (контекст слова) на основе центрального слова. На рисунке 3 модель Skip-gram из данного слова «шотландские» пытается угадать его контекст («Британские», «и», «кошки», «близкородственные»).

Показательными нейронными языковыми моделями являются языковые модели с рекуррентными нейронными сетями (Recurrent Neural Network, RNN), которые включают языковые модели с долгой краткосрочной памятью (Long Short-Term Memory, LSTM) [6].

Модели RNN обрабатывают последовательности данных, сохраняя информацию о предыдущих элементах в скрытом состоянии и используя это скрытое состояние для генерации последующих элементов. Однако обычные RNN могут сталкиваться с проблемой затухающих градиентов и иметь проблемы с обработкой длинных последовательностей.

Проблемы затухающих градиентов и обработки длинных последовательностей были решены с помощью модели LSTM, которая представляет собой специальный тип RNN, способный сохранять данные дольше и избежать затухания градиентов. Для этого, LSTM использует специальную структуру, называемую "воротами" (gates), чтобы контролировать поток информации, которая будет сохранена и использоваться для генерации последующих элементов последовательности.

В языковой модели RNN условная вероятность в каждой позиции определяется RNN:

- мью2,...,м1_1 обозначают векторные представления слов и^и^,.., и^;

- /(•) обозначает RNN;

- в обозначает параметры сети.

В языковой модели RNN слово в каждой позиции зависит от слов во всех предыдущих позициях. Важной концепцией в RNN являются ее промежуточные векторные представления или состояния. Зависимости между словами характеризуются зависимостями между состояниями в модели RNN. В модели RNN параметры являются общими для всех временных шагов, однако вычисляемые на каждом шаге векторные представления различны (для простоты понимания не даются формальные определения и не представлены архитектуры нейронных сетей).

На рисунке 4 показана взаимосвязь между векторными представлениями в языковой модели RNN. Существует промежуточное векторное представление каждого слоя в каждой позиции, которое представляет "состояние" последовательности слов на данный момент. Промежуточное векторное представление текущего слоя в текущей позиции определяется промежуточным векторным представлением того же слоя в предыдущей позиции и промежуточным векторным представлением слоя ниже в текущей позиции. Конечное промежуточное векторное представление в текущей позиции используется для вычисления вероятности следующего слова.

Языковые модели могут использоваться для вычисления последовательности слов или для генерации языка. В последнем случае предложения на естественном языке генерируются, например, путем случайной выборки из языковых моделей. Так, языковые модели LSTM, которые обучаются на основе большого объема данных, могут генерировать связные предложения на естественном языке.

вывод

промежуточное

векторное представление

Wf

w2

<eos>

промежуточное

векторное представление

входное векторное представление

<bos> w-f

w2

WN

Рисунок 4. Взаимосвязь между векторными представлениями в языковой модели RNN. Здесь <bos> обозначает начало предложения, а <eos> - конец предложения

Расширением языковой модели является условная языковая модель, которая вычисляет условную вероятность последовательности слов при заданных условиях. Если условием является другая последовательность слов, то возникает за-

X X

о го А с.

X

го m

о

м о м

CJ

СО CS

о

CS

о ш m

X

3

<

m О X X

дача преобразования одной последовательности слов в другую — то есть задача преобразования последовательности в последовательность. Например, машинный перевод, обобщение текста и порождающий диалог. Если заданным условием является картинка, то задачей становится преобразование картинки в последовательность слов. Например, создание субтитров к изображениям представляет собой именно такую задачу.

Условная языковая модель присваивает вероятности последовательностям слов w=(wbw2,...,wN), учитывая некоторый обусловливающий контекст х (N - число слов в последовательности):

N

p(wW = ^ p(wtlx, w1,w2,...,wt_1)

i=t

Условные языковые модели могут использоваться в самых разнообразных задачах. При машинном переводе система преобразует предложения на одном языке в предложения на другом языке с той же семантикой. При генерации диалога система генерирует ответ на высказывание пользователя, и два сообщения образуют один раунд диалога. При обобщении текста система преобразует длинный текст в короткий, заставляя последний отражать суть первого. Семантика, представленная условными распределениями вероятностей моделей, варьируется от задачи к задаче и извлекается из данных в задачах.

Изучение таких моделей внесло свой вклад в разработку новых технологий. Так, показательной является модель транс-формера [7], разработанная в 2017 году Васвани и др. Архитектура «Трансформер» основана на механизме внимания и использует внимание для осуществления кодирования, декодирования и обмена информацией между кодером и декодером.

Механизм внимания - это механизм, используемый в нейронных сетях для выбора и подсчета значимых частей входных данных. Он позволяет модели обрабатывать входные данные более эффективно, направляя внимание на наиболее важные аспекты входных данных и игнорируя менее значимые.

В настоящее время почти все системы машинного перевода используют модель трансформера, а качество машинного перевода достигло высокого уровня, сопоставимого с качеством перевода, выполненного человеком. Архитектура «Трансформер» используется почти во всех предварительно обученных языковых моделях (в следующей главе рассмотрены подробнее).

5. Предварительно обученные языковые модели

Основная идея предварительно обученной языковой модели заключается в том, что реализуется языковая модель, основанная, например, на кодере и/или декодере трансформера. Модель обучается в два этапа:

1) предварительное обучение (pre-training): используется огромный массив данных, а параметры модели тренируются с помощью обучения без учителя;

2) точная настройка (fine-tuning): применяется предварительно обученная модель к конкретной задаче и далее корректируются параметры модели с помощью небольшого количества размеченных данных посредством обучения с учителем.

Существует три типа предварительно обученных языковых моделей: однонаправленные, двунаправленные и последовательность к последовательности. Все основные предварительно обученные языковые модели используют архитектуру «Трансформер».

Трансформеры изменили область NLP благодаря механизму внимания, который фокусируется на определенных ча-

стях входных данных и игнорирует другие, чтобы лучше решить поставленную задачу.

Последовательность к последовательности (seq2seq) - это тип нейронной сети, предназначенный для сопоставления последовательности входных данных с последовательностью выходных данных (например, BART, T5). Она состоит из двух основных компонентов: основана на архитектуре кодер-декодер. Модель работает по схеме типа КОДЕР -> ДЕКОДЕР. Кодер принимает последовательность в качестве входных данных и преобразует ее в состояние с фиксированной длиной. Декодер отображает закодированное состояние фиксированной длины в выходную последовательность.

Трансформеры прекрасно справляются с задачей векторного представления языка, а огромный корпус содержит множество языковых выражений (немаркированные данные). Таким образом, предварительно обученные языковые модели могут эффективно представлять лексические синтаксические и семантические особенности языка. Предварительно обученные языковые модели, такие как BERT и GPT (GPT-1, GPT-2, GPT-3, GPT-4) стали основными технологиями современного NLP.

Решение задач NLP с помощью предварительно обученных языковых моделей позволило добиться значительных результатов в этой области. "Точно настроенный" BERT превзошел человеческие возможности с точки зрения точности в задачах понимания языка, таких как понимание прочитанного. "Точно настроенный" GPT-3 также позволил достичь поразительно высокого уровня в решении задач генерации текста.

Модели GPT (модели такого типа называют авторегрессионными), разработанные Рэдфордом и др. [8] и Брауном и др. [9], имеют следующую архитектуру. Входные данные представляют собой последовательность слов wbw2,...,wn. Сначала на входном уровне создается последовательность входных векторных представлений, обозначаемая как матрица Н(0). После прохождения L слоев декодера трансформера создается последовательность промежуточных векторных представлений, обозначаемая как матрица ff(i): = transformerdecoder(H Наконец, распределение вероятностей по последовательностям слов вычисляется в каждой позиции на основе конечного промежуточного векторного представления в этой позиции. Предобучение моделей GPT такое же, как и при обычном языковом моделировании. Цель состоит в том, чтобы предсказать вероятность появления последовательности слов. Для заданной последовательности слов w = wbw2,...,wN нужно вычислить и минимизировать перекрестную энтропию или отрицательное логарифмическое правдоподобие, чтобы оценить параметры:

-logp(w) = -nf=1logpe(wilwbw2.....wi_1), где:

- в обозначает параметры модели GPT. Предварительно обученные языковые модели (без тонкой настройки), такие как BERT и GPT-3, содержат большой объем фактических знаний. Например, их можно использовать для ответов на такие вопросы, как "Где родился Пушкин?" и проведения простых рассуждений, таких как "Сколько будет 32 плюс 54?", при условии того, что они получили знания из обучающих данных. Однако сами языковые модели не имеют механизма рассуждения. Их способность "рассуждать" основана на ассоциациях, а не на подлинных логических рассуждениях. В результате они не могут продемонстрировать высокую производительность при решении задач, требующих сложного рассуждения, включая аргументированное рассуждение, числовое и временное рассуждение, а также дискурсивное рассуждение. Интеграция способности рассуждать и языковых способностей

в систему NLP станет важным направлением в будущих исследованиях.

Заключение

Языковые модели имеют историю, насчитывающую более 100 лет. Марков, Шеннон и другие не могли предвидеть, что модели и теории, которые они изучали, окажут такое большое влияние впоследствии; это могло быть даже неожиданным для Бенджио.

Технологии языкового моделирования постоянно развиваются. Весьма вероятно, что в ближайшие годы на смену BERT и GPT придут другие более эффективные модели.

Основные выводы:

• Нейронное языковое моделирование представляет собой новую эру языкового моделирования, в которой модель параметризуется нейронной сетью;

• Предварительно обученные языки, как новый тип нейронной языковой модели, вывели технологии обработки естественного языка (NLP) на более высокий уровень;

• Нейронные языковые модели, особенно предварительно обученные языковые модели, по-прежнему будут самыми эффективными инструментами для решения задач NLP в ближайшие годы;

• Развитие нейронных языковых моделей представляет значительный потенциал для будущих технологических достижений.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Важнейший вопрос заключается в том, как спроектировать нейронные сети так, чтобы приблизить возможности модели к обработке естественного языка к человеческим по способности представления и вычислительной эффективности. Для решения этой проблемы исследователи продолжают черпать вдохновение в устройстве человеческого мозга.

Литература

1. Hayes, B. First links in the Markov chain / B. Hayes // American Scientist. - 2013. - Vol. 101 (2). - P. 92.-97.

2. Shannon, C. A Mathematical Theory of Communication / C. Shannon // The Bell System Technical Journal. - 1948. - Vol. 27. - P. 379-423.

3. Chomsky, N. Three models for the description of language / N. Chomsky // IEEE Transactions on Information Theory. - 1956. Vol. 2 (3). - P. 113-124.

4. Bengio, Y., Ducharme, R., and Vincent, P. A neural probabilistic language model / Y. Bengio [et al.] // In Advances in Neural Information Processing Systems. - 2001. - P. 932-938.

5. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / T. Mikolov [et al.] // In Proceedings of Workshop at ICLR. - 2013. - 9 p.

6. Hochreiter, S. Long Short-Term Memory / S. Hochreiter, J. Schmidhuber //

7. Neural Computation. - 1997. - Vol. 9 (8). - P. 1735-1780.

8. Vaswani, A. Attention is all you need / A. Vaswani [et al.] // Advances in Neural Information Processing Systems. - 2017. - P. 5998-6008.

9. Radford A. [et al.] Improving language understanding by generative pre-training. 2018. 12 p. URL: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf (Дата обращения: 19.05.2023).

10. Brown, T. B. Language Models are Few-Shot Learner / T. B. Brown [et al.] // In Proceedings of the 2020 Conference on Neural Information Processing Systems (NeurIPS). - 2020. - 75 p.

11. Devlin J. [et al.] BERT: Pre-training of deep bidirectional transformers for language understanding. 2019. 16 p. URL: https://arxiv.org/pdf/1810.04805.pdf (Дата обращения: 19.05.2023).

Evolution of language models Proshina M.V.

RUDN University named after. Patrice Lulumba

JEL classification: C10, C50, C60, C61, C80, C87, C90_

This article provides an overview of the history of the development of language models, starting with the work of Andrei Markov and his introduction of the concept of a "Markov chain". It is described how Markov applied his model to Pushkin's novel "Eugene Onegin". It then looks at the work of Claude Shannon, who introduced the concepts of entropy and cross-entropy and explored the properties of n-gram models. It is noted that Shannon provided tools for assessing language models. Then there is an overview of the work of Noam Chomsky and his hierarchy of Chomsky grammars, which show the limitations of finite grammars in describing natural languages. Finally, the work of Yoshua Bengio and co-authors is reviewed, who proposed neural language models, improving on the limitations of n-gram models. Bengio's work used vector representations of words to improve models. Also discussed are pre-trained language models that are based on the Transformer architecture and are used to solve problems in the field of NLP. They are trained in two stages: pre-training, where the model is trained unsupervised on a large amount of data, and fine-tuning, where the model is adjusted using a small amount of labeled data. There are three types of pretrained language models: unidirectional, bidirectional, and sequence-to-sequence. Keywords: language model, Markov chain, information theory, neural language models, vector representations of words, pre-trained language models, BERT, GPT References

1. Hayes, B. First links in the Markov chain / B. Hayes // American Scientist. - 2013. -

Vol. 101(2). - P. 92.-97.

2. Shannon, C. A Mathematical Theory of Communication / C. Shannon // The Bell

System Technical Journal. - 1948. - Vol. 27. - P. 379-423.

3. Chomsky, N. Three models for the description of language / N. Chomsky // IEEE

Transactions on Information Theory. - 1956. Vol. 2 (3). - P. 113-124.

4. Bengio, Y., Ducharme, R., and Vincent, P. A neural probabilistic language model /

Y. Bengio [et al.] // In Advances in Neural Information Processing Systems. -2001. - P. 932-938.

5. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / T.

Mikolov [et al.] // In Proceedings of Workshop at ICLR. - 2013. - 9 p.m.

6. Hochreiter, S. Long Short-Term Memory / S. Hochreiter, J. Schmidhuber //

7. Neural Computation. - 1997. - Vol. 9 (8). - P. 1735-1780.

8. Vaswani, A. Attention is all you need / A. Vaswani [et al.] // Advances in Neural

Information Processing Systems. - 2017. - P. 5998-6008.

9. Radford A. [et al.] Improving language understanding by generative pre-training.

2018. 12 p. URL: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf (Date of access: 05/19/2023).

10. Brown, T. B. Language Models are Few-Shot Learner / T. B. Brown [et al.] // In

Proceedings of the 2020 Conference on Neural Information Processing Systems (NeurIPS). - 2020. - 75 p.

11. Devlin J. [et al.] BERT: Pre-training of deep bidirectional transformers for language

understanding. 2019. 16 p. URL: https://arxiv.org/pdf/1810.04805.pdf (Date of access: 05/19/2023).

X X О го А С.

X

го m

о

м о м

CJ

i Надоели баннеры? Вы всегда можете отключить рекламу.