SCIENCE TIME
МОБИЛЬНОЕ ПРИЛОЖЕНИЕ ДЛЯ РЕАЛИЗАЦИИ МЕТОДОВ АНАЛИЗА АССОЦИАЦИЙ
Трушина Вероника Павловна, Пятницев Данил Валентинович, Новосибирский государственный университет экономики и управления, Новосибирск
E-mail: [email protected]
Аннотация. Разработаны программные средства на мобильных устройствах для принятия решений с помощью методов анализа ассоциаций. Данный метод обладает большей разрешающей способностью, чем анализ сцепления. При анализе сцепления удается определить положение гена в интервале 10-20 сМ, а при анализе ассоциаций 3-6 сМ.
Ключевые слова: генотип, аллели, локус, маркер, потомки, программирование, методы, ассоциации.
Современный подход к локализации генов основан на анализе ассоциаций. Говорят, что между двумя фенотипами существует ассоциация, если они появляются вместе чаще или реже, чем ожидается при их независимом случайном распределении. Один из путей решения проблемы неоднородности популяций заключается в сравнении больных не с популяционным контролем, а с собственными родителями [1]. Материалом для метода HRR (haplotive relative risk) являются ядерные родословные (ЯР), состоящие из пары родителей и единственного больного потомка. Каждая ЯР характеризуется генотипом потомка и контрольным генотипом, составленным из аллелей родителей, не переданных потомку. Генотипы больных потомков из разных ЯР объединяются в одну группу, а контрольные генотипы - в другую. HRR рассматривает эти две группы как независимые выборки и использует стандартные методы сравнения опыта и контроля. Популярный вариант HRR метода, называемый HHRR, рассматривает в качестве единиц наблюдения аллели, а не генотипы. Каждая ЯР характеризуется парой переданных и парой не переданных потомку аллелей. Группы, полученные при объединении первых и объединении последних по всем ЯР, рассматриваются как независимые выборки. Для диаллельного локуса данные можно представить в виде табл. 1.
Таблица 1
Передача аллелей диаллельного маркера
Переданные алле- Непереданные аллели Всего
ли Аллель 1 Аллель 2
Аллель 1 ^12 К
Аллель 2 121 122 ! 2.
Всего t .1 t.2 t
Переменная - это число родителей, передавших больному потомку
аллель г и не передавших аллель 7 . Тогда статистика
_ )2 _ )2
НИШ = ——— + ——, имеет в асимптотике распределение хи-квадрат с
t-^, + 12« ^ t•2
одной степенью свободы. Рассмотрим выборку [1], состоящую из 100 больных детей и их родителей, у которых определены генотипы диалллельного маркера, которая представлена в табл.2.
Таблица 2
Исходные данные
Родители Потомки
1/1 1/2 2/2
11х11 22 0 0
11х12 17 25 0
11х22 0 7 0
12х12 1 11 13
12х22 0 1 1
22х22 0 0 2
Прежде всего, используя данные этой таблицы, сформируем новую табл.3, характеризующую трансмиссию аллелей. Значения, приведенные в этой таблице, можно использовать для вычисления различных статистик, позволяющих тестировать наличие аллельных ассоциаций.
Таблица 3
Распределение аллелей
Переданные аллели Непереданные аллели Всего
Аллель 1 Аллель 2
Аллель 1 93 31 124
Аллель 2 63 13 76
Всего 156 44 200
Критерий HHRR вычисляется по формуле:
HHRR ' ^ + ^ t'2 ^
tl. ^ t.l 12« ^ t«2 и для рассматриваемого нами примера равен:
HHRR J56-124>2 >- 76>' = 12,19 .
156 +124 44 + 76 щ
Одним из недостатков метода HHRR является то, что он игнорирует
парность передачи аллелей. Чтобы избежать этого используется критерий, который называется TDT (transmission disequilibrium test) [1]. TDT - статистика
(t -1 )2
определяется как величина TDT = ——, имеющая в асимптотике
t12 + 121
распределение хи-квадрат с одной степенью свободы, когда маркерный локус и
локус, контролирующий болезнь, не сцеплены. Критерий TDT для рассматриваемого примера равен:
TDT = i63zll)l = 10,89 63 + 31
Является ли TDT тестом на сцепление или тестом на неравновесность и на сцепление, зависит от материала [2]. Если выборка состоит из независимо выбранных потомков и их родителей, то TDT является тестом одновременно на сцепление и на неравновесность. Если же данные получены из одной большой родословной, в которой все больные особи получили аллель, вызывающий болезнь, от одного общего предка, то TDT является тестом только на сцепление. Метод TDT учитывает только парность аллелей, но не парность родителей. Он предполагает, что передача аллелей от отца и от матери больного ребенка являются независимыми событиями. Рассмотрим более общий метод [1], не требующий предположения о независимости передачи родительских аллелей.
SCIENCE TIME
Для того чтобы объяснить его, переформулируем сначала метод TDT в терминах правдоподобия. Пусть вероятности передачи аллелей в1 и В2 от родителя с
генотипом В1 В2 равны р12 и р21 . Тогда функция правдоподобия,
описывающая передачу аллелей от гетерозиготных родителей больным потомкам, равна:
1п Ь = ?12 1п Р12 + г 21 1п Р21 .
Учитывая, что р12 + р21 = 1, легко получить ММП оценку р12, равную 1x2 Величина функции правдоподобия в точке максимума равна:
^12 + ^ 21
1п Ь1 = г12 1п г12 + г21 1п г21 -^12 + г21 )1п^12 + г21 )
?
тогда как при нулевой гипотезе (р12 = р21 = 0,5) она равна 1п Ь0 = (¿12 + г21 )1п-2
Критерий отношения правдоподобия вычисляется как 2 • (1п Ь1 - 1п Ь0) . Здесь щ все еще игнорируется парная природа родительских данных. Чтобы ее учесть, следует рассматривать не передачу отдельных аллелей от каждого из родителей, а передачу генотипов потомков от пары родителей. Если маркер тесно сцеплен с геном, контролирующим болезнь, то каждому маркерному генотипу можно приписать аналог пенетрантности, определенный как вероятность проявления болезни у индивида с данным маркерным генотипом. Обозначим эти
/12 £22
пенетрантности /„, /п и /21 , а также ^ = — и г22 = -у . В трех типах браков
/и /11
В1В1 х В1В1 , В1В1 х В2В2 и В2В2 х В2В2 получаются генетически мономорфные
потомки, не различающиеся по своим генотипам. Поэтому эти браки не информативны для анализа нарушения трансмиссии. У родителей В1В1 х В1В2 возможны два типа потомков и их вероятности равны:
1 + r
1 -г '12
P(g 0 = B1B1 / больной, ^ = B1B1 х B1B2) = 1 p{g0 = B1B2 / больной, gp = B1B1 x B1B2)
Г12
1 + Г12
У родителей В1В2 х В2В2 также возможны два типа потомков и их вероятности равны:
SCIENCE TIME
P{g0 = B1B2 / больной, gp = B1B2 X B2B2 P{g0 = B2 B2 / больной, gp = B1B2 X B2B2 ):
Г + Г
'12 ^ '22
Г22
г + г
'12 ^ '22
1 + 2г12 + Г22
У родителей Б1В2 х Б1В2 возможны три типа потомков и их вероятности равны:
Р^0 = Б! В; / больной, ^ = Б; В2 X Б; В2) 0 = ВВ2 / больной, ^^ = В1В2 х Б1В2) Р(?0 = В2В2 / больной, Ер = Б1В2 X Б1В2 )
2Г
12
1 + 2г12 + Г22
Г22
1 + 2г12 + Г22
• Имея данные о родителях и больных потомках, можно посчитать
численности перечисленных семи групп. Тогда функция правдоподобия выражается как сумма семи слагаемых, каждое из которых равно численности соответствующей группы, умноженной на логарифм ее вероятности. Максимизируя функцию правдоподобия, можно оценить оба параметра г12 и г22.
Подставив эти параметры в выражение для функции правдоподобия, получим 1п Ь1 , а повторив процедуру при нулевой гипотезе, получим 1п ^ . Статистика
2 (1п Ь1 - 1п Ь0) имеет распределение хи-квадрат с двумя степенями свободы, и
служит критерием для проверки нарушения трансмиссии. Назовем этот тест общей формой ТЭТ. Обычный ТЭТ получается простой заменой г22 = г^ , так что все вероятности выражаются через один параметр, и принимают вид:
0 = В1Б1 / больной, Ер = В1Б1 х Б1В2) = —1
r(g0 = B1B2 / больной, gp = B1B1 x B1B2 ^
1 + Г12
Г12 1 + Г12
P{g0 = B1B2 / больной, gp = B1B2 X B2B2 ) =
Г + 1
'12 ^ 1
SCIENCE TIME
p(g0 = B2 B2 / больной, gp = B1B2 x B2B2 ^
Г12
Г + 1 '
'12 ^ 1
P{g0 = B1B1 / б0ЛЬН0й, gp = B1B2 X B1B2 ) = T-
P (1 + Г12 )2 '
p(g0 = B1B2 / больной, gp = B1B2 x B1B2 ):
2Г
12
(1 + Г12 )' '
P(g0 = B2 B2/ больной, gp = B1B2 X B1B2 ) =
Г 2
12
(1 + Ъ ^ ■
Критерий, основанный на этих выражениях, эквивалентен обычному TDT. Это можно интерпретировать следующим образом. Когда г22 = г^, то маркерные
аллели передаются от двух родителей больному потомку независимо друг от 4 друга. Если это условие выполняется, то обычный критерий TDT обладает • большей мощностью, чем общая форма TDT, поскольку у него всего одна степень свободы. Если это условие не выполняется, то следует ожидать, что большая мощность будет у TDT, представленного в общем виде.
Критерий ТБТ, основанный на отношении правдоподобия равен
2-(1пЦ - 1п4) = 11,11 , где 1пц = 631п63 + 311п31 -941п94 , а 1пЦ = 941п2 . Вычислим
критерий ТБТ, основанный на общей форме. Получим следующие оценки параметров: Г12 = 1,73, г22 = 5,04 , которым соответствует функция правдоподобия 1пц =-58,0. При нулевой гипотезе, когда г12 = г22 = 1 , 1пц =-64,46 . Тогда 2 -(1пЦ - 1пЦ0) = 2 •(- 58,0 + 64,46)= 12,92 .
Все четыре теста продемонстрировали наличие ассоциации между маркером и изучаемой болезнью.
Таким образом, анализ ассоциаций является сейчас популярным подходом к картированию генов, ответственных за развитие болезней.
Разработано программное обеспечение, реализующее эти методы анализа ассоциаций на мобильных устройствах.
Данные критерии широко применяются и в других областях химии, биологии и медицины [3, 4, 5].
SCIENCE TIME
Литература:
1. Аксенович Т.И. Статистические методы генетического анализа признаков человека: Учебное пособие / Новосиб. гос. ун-т. - Новосибирск, 2001. - 128 с.
2. Пятницев Д.В. Программные средства реализации сегрегационного анализа // Закономерности и тенденции развития науки: сборник статей Международной научно-практической конференции. - Стерлитамак: РИЦ АМИ, 2015. - 128 с.
3. Осипов А.Л., Трушина В.П., Мирошников А.Н., Жулаев А.А., Павлик И.О. Математическая модель построения зависимости доза-эффект // В мире научных открытий. 2014. № 12.2 (60). С. 758-765.
4. Нигматуллин Р.С., Осипов А.Л., Карпова Н.А. Система поиска и анализа патентной информации о химических соединениях // Научно-техническая информация. Серия 2: Информационные процессы и системы. 1989. № 1. С. 14.
5. Осипов А.Л., Семенов Р.Д., Грозенок Д.А. Моделирование зависимости концентрация-эффект для системных фунгицидов-ингибиторов синтеза эргостерина // Автометрия. 1997. № 5. С. 110.