Научная статья на тему 'Глубокая модель селекции Т-клеточных рецепторов'

Глубокая модель селекции Т-клеточных рецепторов Текст научной статьи по специальности «Математика»

CC BY
90
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИОИНФОРМАТИКА / МОДЕЛЬ ИММУННОЙ СЕЛЕКЦИИ / ИММУНОЛОГИЯ / Т-КЛЕТОЧНЫЕ РЕЦЕПТОРЫ / ТИМИЧЕСКАЯ СЕЛЕКЦИЯ / DEEP LEARNING / BIOINFORMATICS / IMMUNE SELECTION MODEL / IMMUNOLOGY / T-CELL RECEPTORS

Аннотация научной статьи по математике, автор научной работы — Офицеров Евгений Петрович

В работе предложена математическая модель тимической селекции Т-клеточных рецепторов на основе методов машинного обучения. Разработан эффективный алгоритм обучения модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEEP MODEL OF T-CELL RECEPTOR SELECTION

The paper presents a mathematical model of the tymic selection, based on modern deep learning methods. Developed effective learning algorithm for model’s parameters inferring.

Текст научной работы на тему «Глубокая модель селекции Т-клеточных рецепторов»

THE APPLICA TION OF INFORMA TION TECHNOLOGY IN THE STUDY OF DISCIPLINE

"BASICS OF COMPUTER-AIDED DESIGN"

V. V. Kuleshov

The conditions of information-technological training of the bachelor are considered in the work. The tasks that, in their direction and practical significance, are approaching the actually existing production and scientific ones will be determined.

Key words: information technologies, mathematical models, identification, applied programs.

Vladimir Veniaminovich Kuleshov, candidate of tehnicale Sciences, docent, v4 7kuleshov102ci a gmail. com, Russia, Tula, Tula State University

УДК 519.6

ГЛУБОКАЯ МОДЕЛЬ СЕЛЕКЦИИ Т-КЛЕТОЧНЫХ РЕЦЕПТОРОВ

Е.П. Офицеров

В работе предложена математическая модель тимической селекции Т-клеточных рецепторов на основе методов машинного обучения. Разработан эффективный алгоритм обучения модели.

Ключевые слова: биоинформатика, модель иммунной селекции, иммунология, Т-клеточные рецепторы, тимическая селекция.

Иммунная система человека состоит из двух частей: врожденный и адаптивный иммунитет. Первая представляет собой систему первичной защиты организма, реагирующей на определенные, заранее известные, классы антигенов, часто встречающиеся у бактерий и вирусов. Эта часть иммунитета реализуется за счет специального набора рецепторов, закодированных в геноме человека. Эта система быстро активируется в ответ на попадание в организм наиболее распространенных патогенов. Однако из-за конечного объема ДНК, врожденный иммунитет не может обеспечить защиту от всех возможных патогенов. Поэтому важнейшую роль в защите организма играет адаптивный иммунитет, который позволяет организму создавать новые, не записанные в геноме, рецепторы, тем самым обучаясь защите от новых патогенов. Эта система реализуется за счет Т и Б клеток. Математическое моделирование процесса селекции таких клеток, является важной практической задачей, имеющей большое применение в иммунологии и медицине.

Целью работы является построение модели тимической селекции Т-клеточных рецепторов, с использованием современных методов глубокого обучения.

Т-клеточные рецепторы - это специальные белки, расположенные на поверхности Т-клеток, которые могут распознавать процессированные антигены, связанные с молекулами главного комплекса гистосовместимо-сти. В отличие от других белков в организме, эти рецепторы не закодированы заранее в ДНК, а генерируются случайным образом в стохастическом процессе У(Б)1-рекомбинации. Во время этого процесса, часть генома Т-клеток перестраивается и транслируется в белок-рецептор. Для этого, вначале случайным образом выбираются сегменты из трех специальных участков ДНК клетки. Получившиеся сегменты случайным образом модифицируются на концах и соединяются в итоговую нуклеотидную последовательность. Если в результате такого процесса образовывается корректная кодирующая последовательность, то она транслируется в белок и формирует клеточный рецептор. Такой стохастический процесс позволяет создавать огромное количество различных аминокислотных последовательностей. В работе [1], количество возможных вариантов бета-цепей Т-клеточных рецепторов оценивается, как 1014. Этот механизм обеспечивает первоначальное разнообразие возможных иммунных рецепторов.

Далее получившиеся рецепторы проходят селекцию в тимусе, в процессе которой отсеиваются клетки, чьи рецепторы активны по отношению к собственным клеткам организма, а также фильтруется Т-клетки, чьи рецепторы обладают низкой химической активностью и не способны к распознаванию антигенов. После прохождения тимической селекции, Т-клетки подвергаются периферической селекции. В результате этого процесса, в крови возрастает содержание рецепторов, которые часто активируются в ответ на патогены.

Ранее в работах [2] и [3] предлагались модели, описывающие тими-ческую и периферическую селекцию соответственно. В этих работах, вероятность селекции предсказывается на основе длины аминокислотной последовательности, уникальной комбинации VI генов, и распределения аминокислот по позициям в последовательности. Соответствующие параметры выводятся на основе данных о распределении Т-клеточных рецепторов, полученных с помощью многопоточного секвенирования, а также вероятностной модели процесса V(D)J рекомбинации, описанной в работе [1]. В предложенных моделях, делается предположение о условной независимости аминокислот в вариабельной части рецептора. Это является существенным недостатком. Целью работы является построение более точной, контекстно-зависимой модели тимической селекции.

Предлагаемое решение. В работе предлагается модель тимической селекции на основе двунаправленной рекуррентной нейронной сети. Рекуррентные сети зарекомендовали себя, как эффективный подход при описании последовательностей, позволяющий учитывать контекст произволь-

ного размера. Вероятность того, что рецептор с вариабельной частью a = {a1,a2,K,aL} и генами V, J встретиться в экспериментальной выборке может быть записана в виде

Ppost (a,V, J) = Ps (a,V, J )Ppre (a,V, J),

где Ppre (a,V, J) - вероятность сборки рецептора a,V, J. Ps (a,V, J) - вероятность того, что рецептор a,V, J пройдет тимическую селекцию. Вероятность P может быть записана функцией вида:

p (a,V, J )=liaam,

где f (a,V, J)e [0,1] - функция выражающая давление селекции на соответствующий рецептор, Z - нормализующая константа, необходимая для того, чтобы выполнялось условие

X PpOSt(t,V,J) = 1.

t,V ,J

В качестве функции f (a,V,J) может быть использован выход нейронной сети любой архитектуры, принимающей на вход последовательность a = {a1,a2,K, aL} и пару генов V, J. В работе применялась нейронная сеть, использующая информацию только о вариабельной части рецептора a. В использованной архитектуре, исходная последовательность поступает на вход двунаправленного рекуррентного слоя на базе GRU (Gated Recurrent Unit) размерности 20 х 50 . К объединенным выходам обоих слоев применяется нелинейная активационная функция и одномерная свертка с ядром размерности 100 х 50 х 1. После этого, результат усредняется по длине последовательности и подается на вход финального линейного слоя размерности 50 х1. Для того, чтобы выход сети принадлежал отрезку [0,1],

в конце применяется сигмоидальная активационная функция —.

1 + e x

Обучение модели.

При обучении модели использовались экспериментальные данные, полученные с помощью метода high-throughput sequencing [4], а также генеративная модель, обученная на некодирующих последовательностях по методу, описанному в работе [1]. Обучение заключается в максимизации правдоподобия

Likehood = ^Ppost (ai, V, J,) ® max,

i

log (Likehood) = Xlog (Ps (t, V, Jt)) + X log (Ppre (t, V, Ji)) ® max.

i i

Так как Ppre не зависит от неизвестных параметров, то задачу можно свести к максимизации первого слагаемого:

N

Xlog(f (a,V,J))-Nlog(Z) ® max.

i=0

Для вычисления константы 2 в соотношении выше, можно воспользоваться условием:

X рр„,(а,У,J)= Е Ррге(«У,л) = 1.

aV, J

aV, J

Z

Выражение X 1(а,У,^)Ррге(а,У,J) представляет собой матема-

aVV J

Z

I(а,У,Л) „

тическое ожидание величины —--. Поэтому, для вычисления нормализующей константы 2, можно воспользоваться методом Монте-Карло, приблизив истинное матожидание выборочным средним, вычисляемым по случайной выборке из множества сгенерированных рецепторов:

X I(а,У,Л) X I(а,у,J)

E

Ч (a,V, J )Л

Z

(a,V, J )îS

Z | S |

Z

_ (a,V,J)eS

S

[D|=500 |S[ = 5000

200 300

iter number

Рис. 1. Кривая обучения модели, с использования алгоритма

ADAM

В формулах выше, £ - случайная выборка из множества сгенерированных последовательностей. С учетом этого, итоговая задача оптимизации может быть решена с помощью стохастического градиентного спуска, или любых других стохастических градиентных методов. Для этого, на ка-

353

ждои итерации алгоритма из экспериментальном и сгенерированном выборки рецепторов выбираются случайные подмножества О и & После этого, на этих подмножествах рассчитывается градиент выражения:

Г V Г 1 _ Г7 ТЛЛ

х log(f (a,v,j))-1 d| log

a,V ,JîD

X f(a,V,J)

(a,V J )îS

|S|

и выполняется шаг градиентного спуска. При достаточно размере случайных выборок, описанный алгоритм показал хорошую сходимость на реальных данных.

Рис. 2. Кривая обучения модели, при использовании стохастического градиентного спуска с накоплением моментов

Результаты. Описанный выше алгоритм был реализован на языке Python и адаптирован для вычисления на видеокарте, с использованием библиотеки глубокого обучения Chaîner. Для обучения модели использовались данные из [4]. По результатам экспериментов лучше всего себя показа модель, использующая в качестве нелинейных активационных функций ELU (Exponential Linear Units). В качестве методов оптимизации, использовались алгоритмы ADAM (Adaptive Moment Estimation) [5] и стохастический градиентный спуск с накоплением первого момента. На рисунках ниже, приведены кривые обучения для соответствующих алгоритмов. Можно видеть, что алгоритм ADAM показывает намного лучшую сходимость.

Список литературы

1. Anand Murugan et al. 2012. Statistical inference of the generation probability of T-cell receptors from sequence repertoires. Proceedings of the National Academy of Sciences. Jorge Nocedal, Stephen J. Wright. 2006. V. 109. I. 40. P. 16161-16166.

2. Yuval Elhanati et al. Quantifying selection in immune receptor repertoires. Proceedings of the National Academy of Sciences. 2014. V. 111. I 27. P. 9875-9880.

3. Офицеров Е.П. Статистическая модель периферической селекции Т-клеточных рецепторов // Известия Тульского государственного университета. Технические науки. Тула: ТулГУ, 2017. Вып. 2. С. 138-143.

4. Ivan Zvyagin et al. Distinctive properties of identical twins' TCR repertoires revealed by high-throughput sequencing. Proceedings of the Nation-al Academy of Sciences. 2014. V. 111. I. 16. P. 5980-5985.

5. Kingma D., Adam Ba J. A method for stochastic optimization // arXiv preprint arXiv. [Электронный ресурс] URL: https://arxiv.org/pdf/1412. 6980.pdf (дата обращения: 10.11.2017).

Офицеров Евгений Петрович, асп., eofitserov@,gmail.com, Россия, Тула, Тульский Государственный Университет

DEEP MODEL OF T-CELL RECEPTOR SELECTION E.P. Ofitserov

The paper presents a mathematical model of the tymic selection, based on modern deep learning methods. Developed effective learning algorithm for model's parameters inferring.

Key words: deep learning, bioinformatics, immune selection model, immunology, T-cell receptors.

Ofitserov Evgeniy Petrovich, postgraduate, eofitserov@gmail. com, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.