Научная статья на тему 'Статистическая модель периферической селекции Т-клеточных рецепторов'

Статистическая модель периферической селекции Т-клеточных рецепторов Текст научной статьи по специальности «Математика»

CC BY
104
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИОИНФОРМАТИКА / МОДЕЛЬ ИММУННОЙ СЕЛЕКЦИИ / ИММУНОЛОГИЯ / Т-КЛЕТОЧНЫЕ РЕЦЕПТОРЫ / ПЕРИФЕРИЧЕСКАЯ СЕЛЕКЦИЯ / BIOINFORMATICS / IMMUNE SELECTION MODEL / IMMUNOLOGY / T-CELL RECEPTORS / PERIPHERAL SELECTION

Аннотация научной статьи по математике, автор научной работы — Офицеров Евгений Петрович

В работе предложена математическая модель периферической селекции. Разработано эффективное программное обеспечение для обработки экспериментальных данных и вывода параметров модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTICAL MODEL OF T-CELL RECEPTOR PERIFERIC SELECTION

The paper presents a mathematical model of the peripheral selection. Developed effective software for experimental data processing and inferring models parameters.

Текст научной работы на тему «Статистическая модель периферической селекции Т-клеточных рецепторов»

Nguyen Chi Thanh, postgraduate, nct1101@gmail. com, Russia, Kaluga, Bauman Moscow State Technical University - Kaluga branch

УДК 519.6

СТАТИСТИЧЕСКАЯ МОДЕЛЬ ПЕРИФЕРИЧЕСКОЙ СЕЛЕКЦИИ

Т-КЛЕТОЧНЫХ РЕЦЕПТОРОВ

Е.П. Офицеров

В работе предложена математическая модель периферической селекции. Разработано эффективное программное обеспечение для обработки экспериментальных данных и вывода параметров модели.

Ключевые слова: биоинформатика, модель иммунной селекции, иммунология, Т-клеточные рецепторы, периферическая селекция.

Иммунную систему человека можно разделить на две ветви. Первая ветвь - это врожденный иммунитет. Он представляет собой группу клеток, которые располагают специальными рецепторами, позволяющими выявлять и уничтожать определенный набор патогенов. При этом список таких патогенов заложен в геноме человека. Но поскольку геном обладает ограниченным объемом, в нем невозможно закодировать рецепторы, распознающие абсолютно все возможные патогены. Поэтому для защиты организмы одного врожденного иммунитета недостаточно, и необходима вторая ветвь - адаптивный иммунитет, который позволяет организму создавать новые не записанные в геноме рецепторы и обучаться защите от наиболее распространенных патогенов в среде.

Целью работы является построение математической модели адаптивного иммунитета. В его основе лежат Т-клетки и Б-клетки, несущие на себе специальные белки-рецепторы, позволяющие распознавать патогены и запускать иммунный ответ. Такие рецепторы называются, соответственно, Т-клеточные рецепторы и иммуноглобулины. В отличие от других белков в организме, эти рецепторы заранее не закодированы в ДНК, а генерируются случайным образом в стохастическом процессе У(Б)1-рекомбинации, в котором часть генома Т-клеток или Б-клеток перестраивается и транслируется в белок-рецептор. В этом процессе случайным образом выбираются сегменты из трех специальных участков ДНК клетки. Получившиеся сегменты случайным образом изменяются на концах и конкатенируются в итоговую нуклеотидную последовательность. Если в результате такого процесса образовывается корректная кодирующая

последовательность, то далее она транслируется и формирует клеточный рецептор. В случае Т-клеточных рецепторов получившиеся белки проходят следующий этап - селекцию в специальном органе (тимусе), которая отсеивает клетки, чьи рецепторы активны в отношении собственных клеток организма, а также те, чьи рецепторы принципиально не способные к распознаванию.

Технологии секвенирования нового поколения позволили получать нуклеотидные последовательности Т-клеточных рецепторов и иммуноглобулинов из периферической крови человека, что открыло возможность для статистического анализа иммунологических данных и математического моделирования поведения иммунной системы. В данной работе приводится математическая модель, описывающая влияние периферической селекции на конкретные рецепторы.

Модель периферической селекции. Первоначальное разнообразие возможных иммунных рецепторов обеспечивается за счет механизма V(D)J-рекомбинации. Этот стохастический процесс позволяет создавать огромное количество различных аминокислотных последовательностей. Например, для Т-клеточных рецепторов бета-цепей количество возможных вариантов оценивается как 1014 [1].

Созданные с помощью таких геномных модификаций клетки проходят два этапа селекции. Первый этап - это тимическая селекция, которая отсеивает аутоиммунные рецепторы, а также рецепторы, которые не способны распознать ни один из возможных патогенов. Клетки, которые прошли тимическую селекцию и не сталкивались с патогеном, называются наивными. Как только клетка распознает патоген, она начинает делиться и создавать новые Т-клетки с идентичными рецепторами. В результате этого количество полезных рецепторов увеличивается, меняя итоговое распределение (рис. 1).

В работе для описания периферической селекции была использована модель, схожая с предложенной ранее в работе [2] моделью тимической селекции. В основе этой модели лежит предположение о независимости таких факторов селекции, как длина последовательности CDR3 сегмента, положение отдельных аминокислот и пара V,J-генов. Тогда вероятность того, что клонотип т с сегментами V, J пройдет селекцию, может быть записана в виде

Рр08< (т, V, J) = д(т, V, J) Ррге (т, V, J),

где Ррге - вероятность сборки соответствующей последовательности; д -давление селекции

где Ьх - длина аминокислотной последовательности вариабельной части рецептора т, V, J - соответствующие V и I гены, аг - аминокислота, стоящая на ¡-й позиции вариабельного участка, 7 - нормализующая константа, необходимая для того, чтобы выполнялось условие

£ Ррох (т, V, J) = 1.

тУ, J

Рис. 1. Соотношение размеров репертуаров ТСЯ. Наибольшее разнообразие ТСЯ находится в преселектированном репертуаре. Селекция в тимусе убирает нефункциональные и аутоиммунные рецепторы, что снижает разнообразие репертуара. После встречи с патогенами, рецепторы увеличивают свою численность, вытесняя наивные рецепторы (которые не встречались с патогенами ранее)

Коэффициенты qL, , qL г а выражают соответственно влияние, которое селекция оказывает на длину последовательности, уникальные сочетания V и I генов и на 1-ю аминокислоту в клонотипе длины Ь.

Эти коэффициенты являются параметрами модели. Таким образом, для любого клонотипа, зная вероятность его сборки в процессе V(D)J-рекомбинации и селекционную модель Q, возможно оценить его потенциальную представленность в экспериментальных данных.

140

Метод максимального правдоподобия. Для определения параметров модели селекции используются экспериментальные данные, полученные с помощью метода high-throughput sequencing [4], а также генеративная модель, обученная на некодирующих последовательностях по методу, описанному в работе [1]. Неизвестные коэффициенты определяются с помощью метода максимального правдоподобия из следующего соотношения:

Likehood = ПPpost(t, V, Ji) ® max. i

Максимизация приведенного выше выражения эквивалентна максимизации логарифма правдоподобия:

log (Likehood) = X log (Q(t, V, J)) + X log (Ppre (t, V, J)).

i i

Так как Ppre не зависит от неизвестных параметров, то задача сводится к максимизации первого слагаемого:

Г т \

N

X

i=0

Li

log(qLi) + log(qvj7) + X log(qLi, j,«) - N log(Z)

j=o j

Для определения константы Z используется соотношения

X Ppost(t,V,J) = X Q(t,V,J)Ppre(t,V,J) = 1,

® max (1).

tV, J tVJ

Lt

2 = X Ррге (*,У, ^)ЧЬХ ЧУЗ П ЧЦ* • %у,3 1=0

Из-за огромного количества возможных вариантов *, У, J провести суммирование по всем таким сочетаниям вычислительно невозможно. Однако можно заметить, что правая часть выражения представляет собой математическое ожидание величины Ч*^П. Пользуясь этим, можно

1=0 '

приблизительно оценить значение 2 через выборочное среднее. Для этого с помощью модели генерации создается случайная выборка из м клоноти-пов, отражающая оригинальное распределение вероятностей сборки. Для каждых *, У, J вероятность попасть в выборку равна Ррге. Тогда значение 2 может быть приблизительно оценено как

м I

х ЧЦ^ П ЧЦ,7,о-2 »!=0_ 7=0 у

м

Также преимуществом описанного выше метода является то, что не нужно проводить вычислительно сложную операцию расчета Ррге для конкретных клонотипов. Вместо этого используется случайное семплирова-

141

ние, которое достаточно выполнить только один раз, после чего для решения задачи (1) можно использовать градиентные методы оптимизации такие, как градиентный спуск, метод сопряженных градиентов или квазиньютоновские методы. В работе был использован метод сопряженных градиентов [3]. Он показал значительно лучшие результаты, в сравнении с простым градиентным спуском, который использовался в работе [2].

Результаты. Описанный выше алгоритм был реализован в виде программного кода на языке C++. Использование этого языка программирования позволило добиться высокой скорости работы алгоритма. В программе также были реализованы алгоритмы градиентного спуска с постоянным шагом и метод наискорейшего спуска. Разработанное программное обеспечение было протестировано на данных TCR альфа-цепи пары однояйцевых близнецов из [4].

О 5 10 15 0 5 10 15 0 5 10 15

Н1

0 5 10 15

0 5 10 15 0 5 10 15 0 5 10 15 0 5 10 15

413 и

517

ККККК]

О 5 10 15 0 5 10 15 0 5 10 15 0 5 10 15

шккн

О 5 10 15 0 5 10 15 0 5 10 15 0 5 10 15

VI

О 5 10 15 0 5 10 15 0 5 10 15 0 5 10 15 индекс аминокислоты

|

■ с

Рис. 2. Значение нормализованных коэффициентов для первого

близнеца из пары. По вертикали откладывается длина последовательности, по горизонтали откладывается индекс аминокислоты в последовательности

Ж

О 5 10 15

|!?1

5 О 5 10 15

Г

413 <и

517

о 0 5 10 15

го а

X

|13 §17

К

ш

ииёгаа

О 5 10 15 0 5 10 15 0 5 10 15

О 5 10 15 0 5 10 15 I- М

КН

О 5 10 15

ю

I

ш

10 15

!:-Я

0 5 10 15 0 5 10 15 0 5

13 17 I

10 15

0 5 10 15

0 5 10 15 0 5

39

10 15 0 5 10 15 индекс аминокислоты

- и

I

■ о

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 3. Значение нормализованных коэффициентов для второго

близнеца из пары

142

Корреляция параметров qLi,a для двух близнецов составляет 0,19. Ниже приведены визуализации нормализованных значений этих коэффициентов p(a | L, Q) = 2q0L,i,a , выражающих вероятность встретить соот-

X qL,i,k k=1

ветствующую аминокислоту при соответствующей длине последовательности при условии, что клонотип прошел селекцию.

Список литературы

1. Anand Murugan et al. Statistical inference of the generation probability of T-cell receptors from sequence repertoires. Proceedings of the National Academy of Sciences, 2012. 109. 40. P. 16161-16166.

2. Yuval Elhanati et al. 2014. Quantifying selection in immune receptor repertoires. Proceedings of the National Academy of Sciences, 111, 27. P. 98759880.

3. Jorge Nocedal, Stephen J. Wright. 2006. Conjugate gradient methods. Numerical Optimization. P. 101-134.

4. Ivan Zvyagin et al. 2014. Distinctive properties of identical twins' TCR repertoires revealed by high-throughput sequencing. Proceedings of the Nation-al Academy of Sciences, 111, 16. P. 5980-5985.

Офицеров Евгений Петрович, асп., eofitserovagmail.com, Россия, Тула, Тульский Государственный Университет

STATISTICAL MODEL OF T-CELL RECEPTOR PERIFERIC SELECTION

E.P. Ofitserov

The paper presents a mathematical model of the peripheral selection. Developed effective software for experimental data processing and inferring models parameters.

Key words: bioinformatics, immune selection model, immunology, T-cell receptors, peripheral selection.

Ofitserov Evgeniy Petrovich, postgraduate, eofitserovagmail. com, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.