Научная статья на тему 'МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ'

МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ Текст научной статьи по специальности «Биологические науки»

CC BY
29
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
количество белка / дрожжи / трансформер / ESM2 / машинное обучение / protein abundance / transformer / ESM2 / machine learning

Аннотация научной статьи по биологическим наукам, автор научной работы — Вензель Артур Сергеевич, Клименко Александра Игоревна, Иванисенко Тимофей Владимирович, Деменков Павел Сергеевич, Лашин Сергей Александрович

В работе представлен новый метод предсказания количества белка в клетках пекарских дрожжей Saccharomyces cеrevisiae, основанный на анализе их биологических последовательностей с использованием предобученных языковых моделей. Для обработки последовательностей были применены модели семейства ESM2 для аминокислотных последовательностей и модель GENA-LM для нуклеотидных последовательностей генов, что позволило получить информативные векторные представления входных данных. В работе оценивается влияние различных архитектур и размеров предобученных языковых моделей на точность предсказания. Предложенный метод имеет потенциал для применения в биотехнологии, оптимизации процессов биосинтеза и компьютерном дизайне штаммов-продуцентов с повышенной экспрессией генов целевых белков. Результаты исследования могут способствовать более глубокому пониманию механизмов регуляции генетической экспрессии и открывают перспективы для пред сказания количества белков в других микроорганизмах.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по биологическим наукам , автор научной работы — Вензель Артур Сергеевич, Клименко Александра Игоревна, Иванисенко Тимофей Владимирович, Деменков Павел Сергеевич, Лашин Сергей Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AN APPROACH FOR PREDICTING PROTEIN ABUNDANCE IN YEAST CELLS BASED ON THEIR GENOMICAL SEQUENCES

In this work presented a new method for predicting protein abundance in Saccharomyces cerevisiae baker’s vcast cells, based on the analysis of their biological sequences using pre-trained language models. For sequence processing, ESM2 family models were applied to amino acid protein sequences, and the GENA-LM model was used for nucleotide gene sequences, which allowed for obtaining informative embedding of input data. The study evaluates the impact of various architectures and sizes of pretrained language models on prediction accuracy. The proposed method has potential applications in biotechnology, optimization of biosynthesis processes, and computer-aided design of producer strains with enhanced gene expression of target proteins. The results of the study may contribute to a deeper understanding of genetic expression regulation mechanisms and open up prospects for predicting protein abundance in other microorganisms.

Текст научной работы на тему «МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ»

AN APPROACH FOR PREDICTING PROTEIN ABUNDANCE IN YEAST CELLS BASED ON THEIR GENOMICAL SEQUENCES

A. S. Venzel, A. I. Klimenko, T.V. Ivanisenko, P. S. Demenkov, S.A. Lashin, V.A. Ivanisenko

Institute of Cytology and Genetics, SB RAS, 630090, Novosibirsk, Russia Kurehatov Genomic Center of the Institute of Cytology and Genetics, SB RAS,

630090, Novosibirsk, Russia Novosibirsk State University, 630090, Novosibirsk, Russia

DOI: 10.24412/2073-0667-2024-4-17-26 EDN: HIAEDZ

In this work presented a new method for predicting protein abundance in Saccharomyces cerevisiae baker's yeast cells, based on the analysis of their biological sequences using pre-trained language models. For sequence processing, ESM2 family models were applied to amino acid protein sequences, and the GENA-LM model was used for nucleotide gene sequences, which allowed for obtaining informative embedding of input data. The study evaluates the impact of various architectures and sizes of pre-trained language models on prediction accuracy. The proposed method has potential applications in biotechnology, optimization of biosynthesis processes, and computer-aided design of producer strains with enhanced gene expression of target proteins. The results of the study may contribute to a deeper understanding of genetic expression regulation mechanisms and open up prospects for predicting protein abundance in other microorganisms.

Key words: protein abundance, transformer, ESM2, machine learning.

References

1. Vogcl C., Marcotte E. M. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses /7 Nat Rev Genet. 2012. V. 13, № 4. P. 227 232.

2. Schwanhausser B. et al. Global quantification of mammalian gene expression control /7 Nature. 2011. V. 473, № 7347. P. 337 342.

3. Rives A. et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences /7 Proceedings of the National Academy of Sciences. 2021. V. 118, № 15. P. C2016239118.

4. Ji Y. et al. DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome /7 Bioinformatics. 2021. V. 37, № 15. P. 2112 2120.

5. Ferreira M. et al. Protein Abundance Prediction Through Machine Learning Methods /7 Journal of Molecular Biology. 2021. V. 433, № 22. P. 167267.

6. Lin Z. et al. Evolutionary-scale prediction of atomic-level protein structure with a language model /7 Science. 2023. V. 379, № 6637. P. 1123 1130.

The work is supported by a budget project of ICG SB RAS No FWNR-2022-0020.

(c) A. S. Venzel, A. I. Klimenko, Т. V. Ivanisenko, P. S. Demenkov, S. A. Lashin, V. A. Ivanisenko, 2024

7. Fishman V. et al. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences. 2023.

8. Cherry J. M. et al. SGD: Saccharomvces Genome Database // Nucleic Acids Research. 1998. V. 26, № 1. P. 73-79.

9. Huang Q. et al. PaxDb 5.0: Curated Protein Quantification Data Suggests Adaptive Proteome Changes in Yeasts // Molecular k, Cellular Proteomics. 2023. V. 22, № 10.

10. Schmirler R., Heinzinger M., Rost B. Fine-tuning protein language models boosts predictions across diverse tasks // Nat Commun. 2024. V. 15, № 1. P. 7407.

МЕТОД ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА БЕЛКА В КЛЕТКАХ ДРОЖЖЕЙ НА ОСНОВЕ ИХ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

A.C. Вензель, А. И. Клименко, Т. В. Иванисенко, П. С. Деменков,

С. А. Лашин, В. А. Иванисенко

Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия Курчатовский геномный центр ИЦиГ СО РАН,

630090, Новосибирск, Россия Новосибирский государственный университет, 630090, Новосибирск, Россия

УДК 575.112

DOI: 10.24412/2073-0667-2024-4-17-26 EDX: HIAEDZ

В работе пред ставлен новый метод предсказания количества белка в клетках пекарских дрожжей Saccharomyces cerevisiae, основанный на анализе их биологических последовательностей с использованием нредобученных языковых моделей. Для обработки последовательностей были применены модели семейства ESM2 для аминокислотных последовательностей и модель GENA-LM для нуклеотидных последовательностей генов, что позволило получить информативные векторные представления входных данных. В работе оценивается влияние различных архитектур и размеров нредобученных языковых моделей на точность предсказания. Предложенный метод имеет потенциал для применения в биотехнологии, оптимизации процессов биосинтеза и компьютерном дизайне штаммов-продуцентов с повышенной экспрессией генов целевых белков. Результаты исследования могут способствовать более глубокому пониманию механизмов регуляции генетической экспрессии и открывают перспективы для предсказания количества белков в других микроорганизмах.

Ключевые слова: количество белка, дрожжи, трансформер, ESM2, машинное обучение.

Введение. Количество банков в клетке является результатом сложной интеграции многочисленных процессов, зависимых от информации, закодированной в геноме. На уровень базалыюй экспрессии гена влияют такие факторы, как его частотно-кодонный состав, структура соответствующего участка ДНК, эффективность трансляции, количество мРНК и тРНК, стабильность и структура мРНК, активность промоторов и скорость метаболизма банков |1, 21, Понимание данных механизмов имеет ключевое значение дня биотехнологии и оптимизации процессов биосинтеза, в частности дня компьютерного дизайна штаммов-продуцентов с повышенной экспрессией генов целевых банков.

В настоящее время в связи с развитием высокопроизводительных технологий секве-нирования и нротеомного анализа накопились обширные объемы данных о геномах и

Работа поддержана бюджетным проектом ИЦиГ СО РАН № FWNR-2022-0020.

(с) A.C. Вензель, А. И. Клименко, Т. В. Иванисенко, П. С. Деменков, С. А. Лашин, В. А. Иванисенко, 2024

протеомах различных организмов. Это открыло возможности для применения методов машинного обучения и глубокого обучения для предсказания уровня белковой экспрессии на основе генетической информации. Современные методы глубокого обучения, такие как трансформеры, продемонстрировали высокую эффективность в анализе биологических последовательностей, позволяя извлекать сложные закономерности и зависимости [3, 4],

Ранее были предприняты попытки предсказать количество белков в клетке с использованием различных машинных методов. Например, в работе Ferreira, 2021, была разработана модель предсказания количества белков на основе машинного обучения, использующая характеристики последовательностей и структурные свойства белков [5], Эта модель достигла коэффициента детерминации 0,64 для дрожжей Saccharomyces cerevisiae, демонстрируя потенциал реализованного подхода для точного предсказания уровня белковой экспрессии,

В данной работе представлен метод предсказания количества белка в клетках Saccharomyces cerevisiae (пекарские дрожжи) на основе предобученных языковых моделей для биологических последовательностей. Были использованы модели семейства ESM2 [6] для аминокислотных последовательностей белков и модель GENA-LM [7] для нуклеотид-ных последовательностей генов, что позволило получить векторные представления входных данных без необходимости дополнительного обучения на больших объемах специализированных биологических данных.

Целью исследования является разработка моделей, способных предсказывать уровень белковой экспрессии с высокой точностью, используя информацию о последовательностях белков и генов, а также о регуляторных областях последних. Кроме того, было оценено влияние различных архитектур моделей и размеров предобученных языковых моделей на точность предсказания, В перспективе разработанные модели могут быть применены для предсказания количества белков в других микроорганизмах и более глубокого понимания регуляции генетической экспрессии,

1. Методы и материалы,

1,1, Выборка данных. Полный геном Saccharomyces cerevisiae S288C и аннотация генома были взяты из базы данных The Saccharomyces Genome Database (SGD) [8]: http: //sgd-archive.yeastgenome.org/sequence/S288C_reference/, Количественные данные по белкам в Saccharomyces cerevisiae S288C были взяты из Protein Abundance Database (PaxDb)[9]: https://pax-db.org/species/4932. Количество белков представлено в ррт (parts per million), Для каждого гена из аннотированных данных были добавлены регуля-торные участки в размере 1000 пар оснований до старт-кодона. Количество генов в аннотированном геноме Saccharomyces cerevisiae S288C: 6032, Если в аннотации генома не было последовательности белка, кодируемого соответствующим геном, или данных по количеству белка в PaxDb, то такие гены далее не рассматривались. Также ввиду ограничения ESM2 по максимальной длине последовательности не рассматривались последовательности длиной больше 1020 аминокислот. Значения количества белка логарифмировано по основанию 10, В итоге размер выборки данных: 5351 нуклеотидных, аминокислотных последовательностей и значений количества синтезируемого белка.

Данная выборка данных разделялась на обучающую и валидационную выборки, в которых значения логарифма количества белка были распределены равномерно. Доля ва-лидационной выборки равна 20 % всей выборки: 4281 пара последовательностей для обучающей выборки и 1070 для валидационной выборки.

Таблица 1

Использованные для векторизации языковые модели и их характеристики

Размер

Семейство Модель Название выходного Кол-во Кол-во

модели вектора слоев параметров

esm2_t33_650M_UR50D protl280 1280 33 650М

ESM2 esm2_t30_150M_UR50D prot640 640 30 150М

esm2_tl2_35M_UR50D prot480 480 12 35М

esm2_t6_8M_UR50D prot320 320 6 8М

GENA-LM gena-lm-bert-base-yeast gene 768 12 110М

1.2, Предобученные языковые модели. Для векторизации входных последовательностей использовались предобученные языковые модели для биологических последовательностей, основанные на архитектуре трансформеров. Для аминокислотных последовательностей белков были использованы модели семейства ESM2 [6] с разными количеством параметров (табл. 1), Для нуклеотидных последовательностей генов была использована модель из семейства GENA-LM [7], обученная на геномных последовательностях пекарских дрожжей,

1.3, Векторизация последовательностей. Для векторизации последовательностей на каждую языковую модель подавалась последовательность после токенизации. Значения векторов получались усреднением значений по всем токенам в одной оси после удаления специальных токенов CLS и SEP, Усреднение по токенам необходимо для получения векторов фиксированной длины для всех последовательностей. Все векторы получены в режиме half-precision. При получении векторных представлений последовательностей все веса языковых моделей оставались статическими,

1.4, Архитектура регрессионного слоя. В каждой модели регрессионный слой реализован в виде полносвязной нейронной сети, состоящей из входного слоя, двух скрытых слоев и выходного слоя. Размер входного слоя соответствует длине входного векторного представления последовательности, размерности скрытых слоев составляют 256 и 32 нейрона соответственно, а размер выходного слоя равен 1, Перед каждым скрытым слоем выполняется нормализация батчей, в качестве активационной функции используется НИ.Г. После активации НИ.Г в скрытых слоях применяется механизм отсеивания с коэффициентом dropout, равным 0.4.

1.5, Обучение модели. Функция потери для всех моделей — MSE, Оптимизатор — Adam. Размер батчей — 64, Количество эпох — 20, Скорость обучения — 10-4, Эпсилон оптимизатора — 10-7. Значение параметра seed — 42,

На вход обучения подавались векторные представления последовательности и соответствующие им логарифмированные значения количества белка. После каждой эпохи проводилась оценка модели на валидационной выборке.

Состояние моделей сохранялось после каждой эпохи, после обучения выбиралось состояние с наименьшей ошибкой валидации.

1.6, Кросс-валидация. Для оценки качества модели использовалась кросс-валидация с разделением данных по методу «k-fold cross-validation», при котором весь набор данных был случайным образом разделен на 5 равных частей, и в каждом цикле 4 части использовались для обучения модели, а одна оставалась для валидации. Процесс повторялся 3 раза с разными случайными разбиениями данных. Такой подход позволяет лучше оценить

производительность и устойчивость модели в зависимости от обучающей выборки данных ввиду ограниченности выборки данных, так как она тестируется на разных подмножествах данных, а результаты усредняются, что снижает вероятность случайных выбросов и переобучения на конкретных выборках,

1,7, Оценка точности модели. Для тестирования точности модели использовалась ва-лидационная выборка. Регрессионная модель была протестирована тремя методами измерения разницы между предсказанными моделью значениями и фактическими: средний квадрат ошибки (МБЕ), коэффициент детерминации (Я2) и коэффициент Пирсона (г).

Средний квадрат ошибки (МБЕ) является средней арифметической квадратов отклонений между предсказаниями модели и фактическими значениями:

1 п

МвЕ = - У,)2,

г=1

где уг и уг — ьые значения векторов длины п фактических наблюдаемых значений и предсказанных значений соответственно.

Коэффициентом детерминации (Я2) называется мера, которая показывает, насколько хорошо модель объясняет изменчивость зависимости предсказанной переменной на основе независимых переменных:

^2 _ 1 _ Еп=1(Уг — Уг) ЕП=1(Уг - У)2 ,

где у — среднее значение фактических наблюдений, Коэффициент Пирсона (г) измеряет линейную корреляцию между двумя наборами данных:

г = Е1=1(^г - х)(уг - у)

л/^л=1(хг - %)2 Е1=1 (Уг - У)2' где хг ъ уг — значения двух наборов данных, а« у — их средние значения,

2. Результаты. В ходе работы было разработано и проверено 12 моделей: 4 модели, где на вход подают последовательность экспресспруемого белка (рис, 1, а), 1 модель, где на вход подают последовательность гена с дополнительными 1000 пар оснований до старт-кодона для учета регуляторной области гена (рис, 1, б), 8 моделей в которых — векторные представления аминокислотных последовательностей и нуклеотидных последовательностей, полученных с помощью ЕБМ2 и (;К.\Л-1..\1. объединяются в один одномерный вектор и подаются на вход регрессионного слоя. Количество моделей обусловлено использованием нескольких моделей с разными параметрами из семейства ЕБМ2 (табл. 1), Также были обучены модели, где векторные представления белков объединяются с векторными представлениями только последовательностей регуляторной области гена (т, е, 1000 пар оснований до старт-кодона) либо полной последовательности гена с регуляторной областью.

После обучения регрессионных слоев для каждой модели были предсказаны значения логарифма количества белка для последовательностей из валидационной выборки и сравнены с экспериментальными (табл. 2), Наилучшие показатели точности предсказаний продемонстрировали модели с векторными представлениями белка, полученными из ЕБМ2, Модель, использующая векторные представления как регуляторной области, так и белка, показала схожие результаты, однако незначительно уступила по коэффициенту детерминации. Результаты кросс-валидации показали высокую устойчивость моделей относительно обучающей выборки.

A

Б

В

ESM2 GENA-LM ESM2 GENA-LM

> > г > t

Регрессионный слой Регрессионный слой Регрессионный слой

Количество Количество Количество

белка белка белка

Рис. 1. Схемы моделей для предсказания количества белка в дрожжах Saccharomyces cerevisiae S288C. (А-Б) модели, в которых векторные представления аминокислотных и нуклеотидных последовательностей подаются на вход отдельно. (В) модели, где векторные представления аминокислотных и нуклеотидных последовательностей объединяются в один вектор

3. Обсуждение. Модель protl280reg, использующая векторные представления банков, полученные с помощью предобученной банковой языковой модели ESM2 (с наибольшим числом параметров среди рассмотренных моделей семейства ESM2), показала наивысшую точность предсказания. Это объясняется тем, что белковые языковые модели кодируют в векторные представления последовательностей больше информации, чем модели дня нуклеотидных последовательностей. Известно также, что белковые языковые модели отлично подходят дня решения задач, в которых входными данными являются белковые последовательности, такие как предсказание термоетабилыюети белков, температуры плавления, внутриклеточной локализации, вторичных структур и т. д. При этом точная настройка этих моделей (fine-tuning) обеспечивает более высокую точность дня конкретных задач, чем их статическое использование дня векторизации без изменения весов |10|. Также замечено, что применение моделей с большим количеством параметров приводит к более высокой точности предсказания, так как такие модели учитывают больше закономерностей в последовательностях.

В отличие от белковых моделей, нук.неотидные языковые модели менее широко применяются дня решения задач, требующих анализа нуклеотидных последовательностей, особенно при их статическом использовании дня векторизации. Еще одно отличие нуклеотидных моделей заключается в том, что дня их применения необходимо точно настраивать модель, размораживая часть весов или все веса, что является ресурсоемкой задачей и требует значительных вычислительных мощностей, в частности, GPU. Однако в данном исследовании модель protl280reg, объединяющая регу.няторную область гена и аминокислотную последовательность кодируемого белка, показала точность, сравнимую с моделью, продемонстрировавшую наивысшую точность. Это может свидетельствовать о том, что векторные представления регу.няторной области в статическом случае содержат информацию о генетическом контексте.

Лучшие результаты нашего исследования сопоставимы с ранее опубликованными результатами работы Ferreira (2021), где коэффициент детерминации дня дрожжей составил 0.64 |5|, а также несколько улучшают достигнутый ранее результат.

Таблица 2

Результаты предсказания моделей. Оценка точности модели представлена в виде среднеквадратичной ошибки (МЯК), коэффициента детерминации (112), коэффициента корреляции Пирсона (г). В качестве векторного представления нуклеотидной последовательности на вход подавались векторные представления гена с регуляторной областью либо только регуляторной области. Жирным шрифтом выделена модель с лучшими показателями точности

Модель Векторные представления последовательности MSE R? г Средняя MSE после кросс-валидации

gene ген 0.97 -0.14 0.08 1.01 ± 0.03

prot320 белок 0.38 0.56 0.75 0.39 ± 0.02

prot480 белок 0.35 0.59 0.77 0.36 ± 0.02

prot640 белок 0.34 0.61 0.78 0.34 ± 0.02

protl280 белок 0.30 0.64 0.81 0.30 ± 0.01

prot320reg белок, регуляторная область 0.45 0.48 0.70 0.45 ± 0.02

prot480reg белок, регуляторная область 0.40 0.53 0.73 0.41 ± 0.02

prot640reg белок, регуляторная область 0.37 0.57 0.76 0.38 ± 0.01

protl280reg белок, регуляторная область 0.30 0.65 0.81 0.32 ± 0.01

prot320ge белок, ген 0.45 0.47 0.69 0.47 ± 0.02

prot480ge белок, ген 0.38 0.56 0.75 0.42 ± 0.01

prot640ge белок, ген 0.37 0.57 0.75 0.39 ± 0.01

protl28oge белок,ген 0.33 0.61 0.78 0.32 ± 0.01

Заключение. В данном исследовании был предложен метод предсказания уровня экспрессии белка в дрожжах ЗассЬаготусев сеге\4з1ае Б288С на основе предобученных языковых моделей, применяемых для анализа биологических последовательностей. В ходе работы были обучены несколько моделей: на основе генетических последовательностей, белковых последовательностей, а также их комбинаций.

Достигнутый коэффициент детерминации Я2 = 0.65, хоть и демонстрирует корреляцию между предсказанным и экспериментально определенным количеством белка в клетках дрожжей, в контексте биотехнологического применения, особенно для рационального дизайна штаммов-продуцентов, еще недостаточен для надежного промышленного использования. В задачах оптимизации экспрессии целевых белков, где даже небольшие изменения концентрации могут существенно влиять на выход продукта и экономическую эффективность процесса, необходима более высокая предсказательная способность. Я2 = 0.65 указывает на наличие значительной доли ш'объясненной вариабельности, которая может быть связана с посттрансляционными модификациями, взаимодействием с другими белками, условиями культивирования и другими факторами, не учтенными в модели.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тем не менее, полученные результаты служат отправной точкой для дальнейших исследований по решению этой задачи. В будущем возможно направление усилий на «разморозку» весов обеих моделей либо одной из них, с последующей точной настройкой для повышения точности предсказания уровня экспрессии белка в дрожжах и других микроорганизмах. Альтернативным направлением могут стать разработка и обучение моделей с оригинальными архитектурами, специально предназначенными для обработки нуклеотидных и аминокислотных последовательностей, либо учет дополнительных факторов, влияющих на количество белков в клетке.

Список литературы

1. Vogel С., Marcotte Е. М. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses // Nat Rev Genet. 2012. T. 13. № 4. C. 227-232.

2. Schwanhausser В. и др. Global quantification of mammalian gene expression control // Nature. 2011. T. 473. № 7347. C. 337-342.

3. Rives А. и др. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences // Proceedings of the National Academy of Sciences. 2021. T. 118. № 15. C. e2016239118.

4. Ji Y. и др. DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome // Bioinformatics. 2021. T. 37. № 15. C. 2112-2120.

5. Ferreira M. и др. Protein Abundance Prediction Through Machine Learning Methods // Journal of Molecular Biology. 2021. T. 433. № 22. C. 167267.

6. Lin Z. и др. Evolutionary-scale prediction of atomic-level protein structure with a language model // Science. 2023. T. 379. № 6637. C. 1123-1130.

7. Fishman V. и др. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences // 2023.

8. Cherry J. M. и др. SGD: Saccharomyces Genome Database // Nucleic Acids Research. 1998. T. 26. № 1. C. 73-79.

9. Huang Q. и др. PaxDb 5.0: Curated Protein Quantification Data Suggests Adaptive Proteome Changes in Yeasts // Molecular & Cellular Proteomics. 2023. T. 22. № 10.

10. Schmirler R., Heinzinger M., Rost B. Fine-tuning protein language models boosts predictions across diverse tasks // Nat Commun. 2024. T. 15. № 1. C. 7407.

Вензель Артур Сергеевич — аспирант, младший научный сотрудник Института цитологии и генетики СО РАН. Области научных интересов: биоинформатика, структурная биология, ИИ в биологии. E-mail: [email protected].

Artur Sergeevich Venzel — PhD student, junior researcher at the Institute of Cytology and Genetics of the Siberian Branch of the Russian Academy of Sciences. Areas of scientific interest: bioinformatics, structural biology, AI in biology. E-mail: [email protected].

Клименко Александра Игоревна — канд. биол. наук, научный сотрудник Института цитологии и генетики СО РАН. Окончила в 2014 г. ФЕН НГУ, специалист в области математического и компьютерно-

го моделирования микробных сообществ, ге-номики прокариот и микробиомики. E-mail: [email protected].

Klimenko Alexandra Igorevna — PhD in

Biology, researcher at the Institute of Cytology and Genetics of the Siberian Branch of the Russian Academy of Sciences, graduated in 2014 from the Faculty of Natural Sciences of the Novosibirsk State University, specialist in mathematical and computer modeling of microbial communities, prokaryote genomics and microbiomics. E-mail: [email protected].

Иванисенко Тимофей Владимирович — научный сотрудник Института цитологии и генетики СО РАН. Области научных интересов: биоинформатика, генные сети, системная биология, большие геномные данные, ИИ в биологии, text-mining. E-mail: [email protected].

Timovey Vladimirovich Ivanisenko —

researcher at the Institute of Cytology and Genetics of the Siberian Branch of the Russian Academy of Sciences. Areas of scientific interest: bioinformatics, gene networks, systems biology big genomic data, AI in biology text mining. E-mail: [email protected].

Деменков Павел Сергеевич — канд. техн. наук, научный сотрудник Института цитологии и генетики СО РАН. Окончил НГУ в 2005 году по специальности «Прикладная математика и информатика». Защитил кандидатскую диссертацию в 2008 году. Области научных интересов: биоинформатика, генные сети, системная биология, большие геномные данные, ИИ в биологии, text-mining . E-mail: [email protected].

Pavel Sergeevich Demenkov — PhD in Computer Science, researcher at the Institute of Cytology and Genetics of the Siberian Branch of the Russian Academy of Sciences. Areas of scientific interest: bioinformatics, gene networks, systems biology, big genomic data, AI in biology text mining. E-mail: [email protected].

Лашин Сергей Александрович — канд. биол. наук, ведущий научный сотрудник Института цитологии и генетики СО РАН. Окончил в 2003 г. ММФ НГУ, специалист в области математического и компьютерного моделирования биологиче-

ских систем широкого круга — молекулярно-генетических, популяционно-генетических, экологических, разработки биоинформатических методов, программного обеспечения и баз данных. E-mail: [email protected].

Sergey Aleksandrovich Lashin graduated in 2003 from the Faculty of Math of the Novosibirsk State University, PhD in Biology, specialist in mathematical and computer modeling of biological systems — molecular-genetic, population-genetic, ecological, development of bioinformatic methods, software and databases. E-mail: [email protected].

Иванисенко Владимир Александрович — канд. биол. наук, доцент, заведующий лаборатории компьютерной протеомики и лаборатории искусственного интеллекта и больших геномных данных ИЦиГ СО РАН. Области научных интересов: биоинформатика, генные сети, структурная биология, системная биология, большие геномные данные, ИИ в биологии, text-mining. E-mail: [email protected].

Vladimir Alexandrovich Ivanisenko — PhD in Biology, associate professor, the head of the Laboratory of Computational Proteomics and the Laboratory of Artificial Intelligence and Big Genomic Data at the Institute of Cytology and Genetics of the Siberian Branch of the Russian Academy of Sciences. Areas of scientific interest: bioinformatics, gene networks, structural biology, systems biology, big genomic data, AI in biology text mining. E-mail: [email protected].

Дата поступления — 02.11.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.