Научная статья на тему 'АЛГОРИТМИЗАЦИЯ СОЗДАНИЯ ПРОГРАММ ПО СБОРУ И ОБРАБОТКЕ МЕТАДАННЫХ ГЕНОМНОЙ СЕЛЕКЦИИ'

АЛГОРИТМИЗАЦИЯ СОЗДАНИЯ ПРОГРАММ ПО СБОРУ И ОБРАБОТКЕ МЕТАДАННЫХ ГЕНОМНОЙ СЕЛЕКЦИИ Текст научной статьи по специальности «Сельскохозяйственные науки»

CC BY
50
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
база данных / система хранения результатов экспериментов / интеллектуальный анализ данных / селекционно-генетический материал. / database / experimental results storage system / data mining / breeding and genetic material.

Аннотация научной статьи по Сельскохозяйственные науки, автор научной работы — Мишечкина Валерия Сергеевна, Любимова Анна Валерьевна, Кочнева Дарья Алексеевна

В мире каждый день проводятся биологические исследования и ставятся опыты. Количество обрабатываемых результатов постоянно увеличивается, однако никак не структурируется. В связи с этим большую популярность приобретают различные методы интеллектуального анализа. Повсеместно создаются биологические базы данных, проектируются программные обеспечения для обработки и хранения накопляемого экспериментального материала. Однако и они являются не совершенными. У многих из них отсутствует четкая структура, они не являются совместимыми между собой, так же отсутствует возможность постоянного дополнения информации, которое было бы осуществимо с разных точек доступа. В статье приводятся примеры существующих баз данных, а также доводы о том, какими особенностями должна обладать единая информационная база данных, несущая в себе информацию о результатах биологических исследований и материалах геномной селекции.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по Сельскохозяйственные науки , автор научной работы — Мишечкина Валерия Сергеевна, Любимова Анна Валерьевна, Кочнева Дарья Алексеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHMIZATION OF THE CREATION OF PROGRAMS FOR THE COLLECTION AND PROCESSING OF GENOMIC SELECTION METADATA

Biological research and experiments are conducted every day in the world. The number of processed results is constantly increasing, but it is not structured in any way. In this regard, various methods of intellectual analysis are becoming very popular. Biological databases are being created everywhere, software is being designed for processing and storing accumulated experimental material. However, they are also imperfect. Many of them lack a clear structure, they are not compatible with each other, there is also no possibility of constant addition of information that would be feasible from different access points. The article provides examples of existing databases, as well as arguments about what features a single information database should have, carrying information about the results of biological research and genomic selection materials.

Текст научной работы на тему «АЛГОРИТМИЗАЦИЯ СОЗДАНИЯ ПРОГРАММ ПО СБОРУ И ОБРАБОТКЕ МЕТАДАННЫХ ГЕНОМНОЙ СЕЛЕКЦИИ»

УДК 575:581.1:004.67 ГРНТИ 34.05.25

DOI 10.24412/2409-3203-2023-33-7-13

АЛГОРИТМИЗАЦИЯ СОЗДАНИЯ ПРОГРАММ ПО СБОРУ И ОБРАБОТКЕ МЕТАДАННЫХ ГЕНОМНОЙ СЕЛЕКЦИИ

Мишечкина Валерия Сергеевна

стажер-исследователь Любимова Анна Валерьевна

к.б.н., заведующая лабораторией Кочнева Дарья Алексеевна

младший научный сотрудник Научно-исследовательский институт сельского хозяйства Северного Зауралья - филиал Федерального исследовательского центра Тюменского научного центра Сибирского

отделения Российской академии наук Россия, г. Тюмень

Аннотация: В мире каждый день проводятся биологические исследования и ставятся опыты. Количество обрабатываемых результатов постоянно увеличивается, однако никак не структурируется. В связи с этим большую популярность приобретают различные методы интеллектуального анализа. Повсеместно создаются биологические базы данных, проектируются программные обеспечения для обработки и хранения накопляемого экспериментального материала. Однако и они являются не совершенными. У многих из них отсутствует четкая структура, они не являются совместимыми между собой, так же отсутствует возможность постоянного дополнения информации, которое было бы осуществимо с разных точек доступа. В статье приводятся примеры существующих баз данных, а также доводы о том, какими особенностями должна обладать единая информационная база данных, несущая в себе информацию о результатах биологических исследований и материалах геномной селекции.

Ключевые слова: база данных, система хранения результатов экспериментов, интеллектуальный анализ данных, селекционно-генетический материал.

ALGORITHMIZATION OF THE CREATION OF PROGRAMS FOR THE COLLECTION AND PROCESSING OF GENOMIC SELECTION METADATA

Mishechkina Valeria Sergeevna

Trainee researcher Lyubimova Anna Valerievna PhD, head of the laboratory Kochneva Daria Alekseevna

Junior researcher

Research Institute of Agriculture of the Northern Trans-Urals - branch of the Tyumen Scientific Center of the Siberian Branch of the Russian Academy of Sciences

Russia, Tyumen

Abstract: Biological research and experiments are conducted every day in the world. The number of processed results is constantly increasing, but it is not structured in any way. In this regard, various methods of intellectual analysis are becoming very popular. Biological databases are being created everywhere, software is being designed for processing and storing accumulated experimental material. However, they are also imperfect. Many of them lack a clear structure, they are not compatible with each other, there is also no possibility of constant addition of

7

information that would be feasible from différent access points. The article provides examples of existing databases, as well as arguments about what features a single information database should have, carrying information about the results of biological research and genomic selection materials.

Keywords: database, experimental results storage system, data mining, breeding and genetic material.

В настоящее время в биологии объемы экспериментальных данных многократно возрастают качественно и количественно. Это связано как с применением новых информационных технологий, широким внедрением компьютерной техники, так и с увеличением числа проводимых опытов. [1]

Научно-исследовательские центры увеличили объем опытов, поскольку обработка результатов стала значительно проще с появлением компьютеров. Это дало возможность ученым сосредоточиться на большем количестве проводимых опытов в рамках собственных исследований. Несмотря на огромные массивы накопленного материала, полезной информации из них выделяется намного меньше. Полученная в ходе исследований информация занимает достаточно большой объем, но выделить из нее ценную часть достаточно сложно. Поэтому в научных центрах скапливается огромное количество информации, которая не систематизирована и не проанализирована учеными.

В зарубежной литературе даже есть специальный термин, указывающий на избыточность данных и практически отсутствие информации - DRIP-синдром (Data Rich Information Poor - много данных - мало информации). В то же время результаты экспериментов имеют колоссальное значение и потенциальную возможность получения новой, практически ценной информации. [2]

Так, например, в качестве фундамента для проведения исследований по биоразнообразию является разностороннее изучение, в том числе молекулярно-генетическое, гербарных коллекций, которых во всем мире невообразимое множество. [3], Например, Королевский ботанический сад Кью (г. Ричмонд, Великобритания) насчитывает 8,5 миллионов лишайников, мхов и растений. В то же время в Нью-Йоркском ботаническом саду (г. Нью-Йорк, США) существует коллекция, которая содержит почти 8 миллионов растительных образцов. На территории России в Ботаническом институте им. В. Л. Комарова РАН (Санкт-Петербург) так же собрано более 7 миллионов гербарных листов, из которых 6 миллионов приходится на сосудистые растения. Национальный музей естественной истории в Париже собрал около 8 миллионов образцов, из которых 75% приходится на семенные растения. [4]

При накоплении столь значительных объемов информации очень часто возникают ошибки системного характера, например, неправильная идентификация вида, нарушение классификационных названий. Данная проблема усугубляется языковым барьером, так называемыми трудностями перевода в описании растений. Во избежание существующих сложностей правильно систематизировать полученную информацию возможно только при её цифровизации. Перевод в цифровой формат исключает недопонимание между учеными.

Из-за огромного количества информации нередки случаи путаницы в работе различных селекционных центров. Проблемы возникают при работе с исходным материалом, появляются ошибки в документировании растительных образцов и при оформлении авторских прав создателей сорта.

На практике такая организация информации является труднодостижимой для ученых и исследователей. Если обратиться к работе селекционеров, станет понятно, что уложить в одну систему все накопляемые данные без помощи компьютерных технологий крайне сложно. Большинство ученых, работающих в поле, делают пометки на бумаге и хранят в столе. Так, например, Научно-исследовательский институт сельского хозяйства Северного Зауралья имеет коллекцию овса посевного, которую составляют сотни растений, а также коллекцию пшеницы в несколько десятков тысяч образцов. Несмотря на

8

то, что процесс классической селекции упрощается и ускоряется использованием методов маркер-ориентированной селекции, обрабатывать такое количество материала по одному показателю все еще сложно. [5] Однако, количество показателей, по которым анализируются коллекции, может достигать порядка тридцати и каждый из них будет значим.

Подобная ситуация создается и в работе с генетическим материалом. [6] Секвенирование последовательностей необходимо для оценки экспрессии генов для разных генотипов, для разных условий обитания и произрастания, и определения последовательностей, поиска маркёров к функционально важным генам. Однако, чтобы интерпретировать полученные фрагменты последовательностей важно провести несколько стадий биоинформатической обработки, что не каждый биолог способен сделать. Исходя из этого, возникает необходимость в создании баз данных, которые бы хранили это огромное количество (десятки и сотни тысяч) последовательностей и обеспечивали бы свободный доступ ученым, а также программ, которые бы способствовали качественной статистический обработке и эффективной оценке генетического материала.

Существует большое количество разнообразных и разноплановых программных обеспечений, позволяющих проводить не только цифровую обработку данных, строить генетически карты, но и довольно эффективно устанавливать, а также анализировать генетический материал. [7] И хотя такой анализ требует специализированной технической оснащенности (например, программного обеспечения, лабораторного оборудования), а также опыта, знаний и компетентности в понимании разрешающей способности того или иного метода, включая интерпретацию полученных результатов, совершенно очевидно, что в перспективе исследователи для того, чтобы, например, прокартировать интересующий их ген или локусы хромосом, не будут нуждаться в том, чтобы начинать с нуля широкомасштабный физиолого-генетический эксперимент, а смогут пользоваться существующими, постоянно пополняемыми базами данных и современным программным обеспечением, позволяющими проводить статистически достоверный и оперативный анализ внутригеномных взаимодействий.

Так, например, в Государственном аграрном университете Северного Зауралья была разработана база данных генетических паспортов сортов овса. Ее цель - систематизация результатов проведенных исследований. В базу вносились технические параметры, которые используются при постановке электрофореза, чтобы обеспечить воспроизводимость результатов. Так же были загружены изображения гелей с электрофоретическими спектрами исследований сортов. На основе информации, собранной о каждом образце, в том числе номер по каталогу ВИР, вид, название сорта, происхождение, данные о количестве биотипов и их соотношении, генетические формулы на основе аллельного состояния локусов, контролирующих наследование компонентов электрофоретических спектров проламина овса. Созданная база используется для исключения технических ошибок при определении образцов, за счет того, что генетические паспорта используются в качестве эталонов при идентификации сортов, гибридов, линий и клонов. [8]

Следующая база данных была сформирована в Красноярском научно-исследовательском институте сельского хозяйства (КНИИСХ). Она используется для хранения, поиска и анализа селекционно-генетических и хозяйственно-ценных показателей селекционного материала ярового ячменя. [9] В таблицы данных вошли результаты многолетнего (1990-2020 гг.) изучения аллельного состава запасных белков (гордеинов) местных форм и селекционных сибирских сортов ярового ячменя. [10] Представлены генетические формулы гордеинов (Hrd A.B.F.) шестидесяти сибирских современных сортов, четырнадцати сортов и перспективных образцов ярового ячменя селекции КНИИСХ, их родительских форм (16 образцов), генетические формулы местных сибирских стародавних форм (40 образцов), сортов, районированных в Красноярском крае (22 образца). Графические формы и отчеты базы данных включают фотографии

9

электрофоретических спектров гордеинов ярового ячменя сортов КНИИСХ и их родительских форм, местных красноярских форм ячменя. Спроектирован кнопочный интерфейс форм для доступа к основным объектам базы данных (отчеты, запросы, таблицы) и разработана главная форма для начала работы с базой. Созданы параметрические запросы для поиска образцов по генетической формуле гордеинов, по названию сорта. Также сконструирован запрос для расчета частот встречаемости аллелей гордеинкодирующих локусов среди современных сибирских сортов. Одним из преимуществ созданной базы данных являются возможности скрытия и отображения объектов базы данных с целью защиты объектов и устранения путаницы в их поиске и выборе для работы. [11]

В Индии сельское хозяйство является демографически самым широким сектором экономики и играет значительную роль в общей социально-экономической структуре страны. [12] В связи с этим местные исследователи провели работу по анализу данных о сельском хозяйстве и поиску оптимальных параметров для увеличения производства с использованием методов интеллектуального анализа данных. Информация собиралась из разнообразных источников, характеризующих данные с разных точек зрения, например, культура (хлопок, арахис, рис и пшеница) урожайность, территориальное расположение посевов (район) и их площадь (в гектарах), погода, температура и относительная влажность, сезон. В ходе работы были сформированы таблицы со сгруппированными данными на основе районов, производящих максимальную продукцию. На основе анализов были получены оптимальные параметры для получения максимальной урожайности. Различные методы интеллектуального анализа данных применяются к входным данным для оценки метода, обеспечивающего наилучшую производительность и для прогнозирования годовой урожайности культур. В исследовании использовались методы интеллектуального анализа данных для получения оптимальных климатических требований к пшенице, таких как оптимальный диапазон наилучшей температуры, наихудшей температуры и количества осадков для достижения более высокого урожая пшеницы. [13] Методы кластеризации сравниваются с использованием показателей качества. [14] Предлагаемая работа также может быть расширена для анализа почвы и других факторов, для увеличения урожайности в различных климатических условиях. [15]

Алгоритм первичного программного обеспечения формируется под цель исследования, после проведения которого обработанные результаты будут собираться в общую базу данных. [16] Формирование программного обеспечения или базы данных, основанных на данных геномной селекции, обусловлено разнообразными факторами. Прежде всего это специфика используемых данных, обуславливаемая небольшими целенаправленными выборками, которые делает пользователь программы. [17] Также на автономность вносимого материала влияет вариативность измеряемых параметров, то есть ученый-селекционер, работающий над созданием нового сорта, будет учитывать его разнообразные свойства (устойчивость к болезням и неблагоприятным условиям среды, количество зеленой массы, урожайность). [18, 19] Еще это может быть разнообразие ответных реакций растений на внешние факторы, нарушающие биохимический цикл на клеточном уровне.

Предполагаемая база данных должна иметь определенное единообразие. Это позволяет избежать разобщенности методик исследования и последующих сложностей интерпретации полученных результатов. [20] Кроме того, обобщенность проектируемой базы данных будет достигаться за счет унификации данных, характеризующих объект исследования.

Внешняя организация базы данных предусматривает четкую структурированность, что крайне сложно добиться в области геномной селекции и первичного семеноводства. [21] Отчеты опытов часто имеют неявную или неправильную структуру. Не всегда содержат полный комплекс показателей, а также достаточно высокую вариабельность значений.

Одним из важных моментов является то, что база данных как предмет интеллектуальной собственности должна иметь защиту от несанкционированного просмотра и копирования, сохраняя при этом возможность легкого доступа легальным пользователям. [22]

Далее, учитывая характерные особенности, можно переходить к конкретным этапам формирования программы, каждый из которых будет иметь свои определенные средства и методы. Первый этап - сбор и накопление данных. Прежде всего, стоит понимать, что всё количество данных - это совокупность сцепленных друг с другом объектов, и рассматривать их необходимо индивидуально, но в связке. Биологическое исследование уже само по себе является неким алгоритмом действий, который изучает качества и функции объекта исследования. Проще говоря, он устанавливает связь между связь между свойством объекта и его значением, при этом должны быть установлены и зафиксированы условия, в которых снимаются измерения. Итак, результаты биологического исследования - набор показателей, который можно точно или примерно разделить на смысловые группы: показатель (простой или сложный, требующий дополнительного описания), свойства - описательные характеристики показателя, его дополнительные качества. Условия проведения исследования подразумевают под собой наиболее полное указание свойств показателя. [23] Объединяя показатели на основании определенных свойств, можно ранжировать группы, выделять разделы. Таким образом, структурно биологическое исследование представляет собой цепочку «ячеек», несущих в себе определенную информацию: раздел - показатель - свойство. Однако, чтобы сохранить информационную целостность и поддерживать наполненность накапливаемых результатов, следует указывать все свойства всех показателей эксперимента. Следующий далее этап обработки данных является подтверждением достаточности набора данных проведенного исследования на основе общепринятых в статистике критериев и формул.

Заключение

Результатом проектирования единой информационной системы станет база данных, обладающая мощной способностью сбора информации. Внесение накопленного материала в общий перечень будет возможно с разных точек доступа учеными, находящихся в разных городах, странах и континентах. Кроме того, важно учитывать, что ученые из разных стран не только говорят на разных языках, но и пользуются различными системами управления базами данных (СУБД). В связи с этим возникает потребность во включении проектируемой базы данных во всевозможные СУБД, то есть в обеспечении ее универсальности.

Формируемый массив данных обладает определенной динамикой. Накопление информации и показателей происходит постоянно. В связи с этим возможность внесения сведений не должно быть ограничено временными рамками.

Универсальность должна поддерживаться и на моменте вывода искомой информации. Обращаясь к материалам, занесенным в базу данных, селекционеры преследуют отличающиеся друг от друга цели: одни намерены вывести короткостебельный сорт, другие стремятся к получению сорта устойчивого к корончатой ржавчине. И те, и другие ученые должны получить на выходе вероятность создания необходимого им сорта.

Сформированные на основе такого универсального подхода базы данных и компьютерные программы найдут применение как в практической биологии для получения комплексных характеристик на основе данных лабораторных и полевых исследований, так и в научно-исследовательской сфере как в информационно-экспериментальной среде формирования научных гипотез, детекции проблем и выявления закономерностей.

Библиографический список

1. Мишечкина, В. С. Цифровизация научных достижений как основа бионформатики в современном мире / В. С. Мишечкина, Н. Н. Колоколова // Эпоха науки.

11

-2022. -№29. - С. 313-320.

2. Дубровин, А. В. Информационная технология для организации банка данных медико биологических исследований // Биотехносфера. - 2010. - №4.

3. Bakker, F.T. (2018). Herbarium Genomics: Plant Archival DNA Explored. In: Lindqvist, C., Rajora, O. (eds) Paleogenomics. Population Genomics. Springer, Cham.

4. Фомина, H. А., Гербарные коллекции в молекулярно-генетических исследованиях / Н. А. Фомина, О. Ю. Антонова, И. Г. Чухина, Т. А. Гавриленко // Turczaninowia. - 2019. - №4.

5. Тоболова, Г. В. Биохимические маркеры в селекции и семеноводстве / Г. В. Тоболова, А. В. Любимова // Сборник статей II всероссийской (национальной) научно-практической конференции "Современные научно-практические решения в АПК", Тюмень, 26 октября 2018 года / Государственный аграрный университет Северного Зауралья. - Тюмень: Государственный аграрный университет Северного Зауралья. - 2018. -С. 145-148.

6. Гулаева, Н. В. Практическое применение молекулярных маркеров в селекции пшеницы (обзорная) / Н. В. Гулаева, Ю. В. Чесноков, С. Н. Шевченко, А. А. Зуева, А. И. Менибаев // Известия Самарского научного центра РАН. - 2018. - №2-4.

7. Bolger ME, Arsova В, Usadel В. Plant genome and transcriptome annotations: from misconceptions to simple solutions. Brief Bioinform. - 2018 - May l;19(3):437-449.

8. Остапенко, А. В. Создание базы данных сортов рода Avena L. На основе изменчивости компонентного состава проламинов / А. В. Остапенко, Г. В. Тоболова // Агропродовольственная политика России. - 2015. - № 4(40). - С. 44-46.

9. Новикова, А. А. Возможности маркер-ориентированной селекции для создания сортов ячменя, устойчивых к биотическим и абиотическим факторам (обзор) / А. А. Новикова, О. В. Богданова // Животноводство и кормопроизводство. - 2021. - Т. 104. -№ 1.-С. 138-148.

10. Поморцев, А. А. Структура и пути формирования полиморфизма гордеинов, контролируемых аллелями гордеин-кодирующих локусов в культурном ячмене (Hordeum vulgare L.) / А. А. Поморцев, А. В. Рубанович, Е. В. Лялина // Генетика. - 2021. - Т. 57. - № 5. - С. 544-556.

11. Сурин, Н. А. База данных селекционно-генетических показателей ярового ячменя Восточной Сибири в СУБД Access / Н. А. Сурин, Л. Н. Шевцова, Н. С. Козулина // Достижения науки и техники АПК. - 2021. - Т. 35. - № 11. - С. 53-58.

12. Rahman М. М., Haq N., Rahman R. М. Application of data mining tools for rice yield prediction on clustered regions of Bangladesh //2014 17th International Conference on Computer and Information Technology (ICCIT). - IEEE, 2014. - C. 8-13.

13. Veenadhari S, Misra B, Singh D. Machine learning approach for forecasting crop yield based on climatic parameters. In: Paper presented at international conference on computer communication and informatics (ICCCI-2014), Coimbatore. 2014.

14. Ng RT, Han J. CLARANS: A Method for Clustering Objects for Spatial Data Mining. In: IEEE Transactions on Knowledge and Data Engineering. 2002; 14(5).

15. Majumdar, J., Naraseeyappa, S. & Ankalaki, S. Analysis of agriculture data using data mining techniques: application of big data. J Big Data 4, 20 (2017).

16. Миронов, В. В. Ситуационно-ориентированные базы данных: современное состояние и перспективы исследования / В. В. Миронов, Н. И. Юсупова, А. С. Гусаренко // Вестник УГАТУ = Vestnik UGATU. 2015. №2 (68).

17. Gutaker RM, Reiter E, Furtwangler A, Schuenemann VJ, Burbano НА. Извлечение ультракоротких молекул ДНК из гербарных образцов. Биотехника. 2017 Февраль 1;62 (2):76-79.

18. Еремин, Д. И. Урожай и качество зерна овса при различном уровне минерального питания / Д. И. Еремин, М. Н. Моисеева, Д. В. Еремина // Достижения науки и техники АПК. - 2022. - Т. 36. - № 9. - С. 48-54.

12

19. Еремин, Д. И. Генетические и агротехнологические особенности формирования посевных качеств овса при различном уровне минерального питания / Д. И. Еремин, M. Н. Моисеева, А. В. Любимова // Аграрный вестник Урала. - 2022. - № 8(223). -С. 27-38. -DOI 10.32417/1997-4868-2022-223-08-27-38.

20. Бословяк, К. А. Проблема обоснованности научных данных / К. А. Бословяк, А. А. Медова // Лесной и химический комплексы - проблемы и решения: Сборник материалов по итогам Всероссийской научно-практической конференции, Красноярск, 0204 сентября 2019 года. - Красноярск: Федеральное государственное бюджетное образовательное учреждение высшего образования "Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева", 2019. - С. 425-428.

21. Мухин, А. М. Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов / А. М. Мухин, М. А. Генаев, Д. А. Рассказов [и др.] // Математическая биология и биоинформатика. -2020. - Т. 15. - № 2. - С. 455-470.

22. Дубровин. A.B. Информационная технология для организации банка данных медико-биологических исследований // Биотехносфера. - 2010. - №4.

23. Баврина, А.П. Современные правила использования методов описательной статистики в медико-биологических исследованиях // Медицинский альманах. - 2020. -№2 (63).

-♦-

i Надоели баннеры? Вы всегда можете отключить рекламу.