ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ
В. В. Решетникова, Г. Н. Апрышко НОМЕНКЛАТУРНО-ХИМИЧЕСКАЯ ИНФОРМАЦИЯ В БАНКЕ ДАННЫХ ПО ПРОТИВООПУХОЛЕВЫМ ВЕЩЕСТВАМ ГУ РОНЦ ИМ. Н. Н. БЛОХИНА РАМН
НИИ экспериментальной диагностики и терапии опухолей ГУ РОНЦ им. Н. Н. Блохина РАМН, Москва
Описаны структура модуля разработанной в НИИ экспериментальной диагностики и терапии опухолей ГУ РОНЦ им. Н. Н. Блохина РАМН базы данных по противоопухолевым веществам, включающего номенклатурные, структурно-химические и физико-химические характеристики веществ, содержание полей базы данных, технологические и организационные аспекты ее заполнения, редактирования и использования.
Ключевые слова: противоопухолевые вещества, экспериментальная химиотерапия опухолей, базы данных.
Результаты тестирования биологической активности около 11 000 веществ, изученных в ГУ РОНЦ им. Н. Н. Блохина РАМН с 1952 г. по настоящее время в качестве потенциальных противоопухолевых лекарств, представлены в формализованном виде в фактографической базе данных (БД), являющейся основной частью Информационной системы (ИС) по противоопухолевым веществам, разработанной в группе Банка данных НИИ экспериментальной диагностики и терапии опухолей ГУ РОНЦ им. Н. Н. Блохина РАМН [1; 2]. Для полноценного использования всей совокупности разнообразной информации из БД в информационном обеспечении разработки новых противоопухолевых лекарств и аналитических исследований в области экспериментальной химиотерапии рака необходимо адекватное представление в электронном виде как биологических данных, так и номенклатурно-химической информации. В настоящей работе представлено описание части БД, содержащей различные номенклатурные характеристики, позволяющие идентифицировать вещество, данные по химическому составу, строению и физико-химическим свойствам.
МАТЕРИАЛЫ И МЕТОДЫ
В качестве источников данных по идентификационным и номенклатурным характеристикам, химической
© Решетникова В. В., Апрышко Г. Н., 2007 УДК 615.277.3:616-006-092.4:681.32
структуре и физико-химическим свойствам потенциальных противоопухолевых веществ использованы первичные документы архива и систематизированная картотека паспортов на вещества ИС по противоопухолевым веществам. При разработке структуры и системы лингвистического обеспечения БД для выбора формы представления данных в электронном виде использовали системный подход, методы информатики и разработки баз данных [6]. БД реализована на персональных компьютерах под управлением операционной системы MS Windows и системы управления базами данных ISIS/ Base, Elsevir MDL [16].
РЕЗУЛЬТАТЫ
Одновременно с передачей образца потенциального противоопухолевого вещества на изучение в подразделения, проводящие биологические испытания, в группу Банка данных для первичной регистрации в ИС и в БД передается паспорт, в котором содержатся формализованные данные по химическому строению, различным названиям и шифрам, позволяющим однозначно идентифицировать объект, и данные по физико-химическим свойствам, необходимые биологам при проведении исследований.
В результате анализа большого числа паспортов, поступавших в ИС в различные периоды времени, выделен комплекс признаков потенциального противоопухолевого вещества, на основе которого разработаны логиче-
ская схема и структура модуля БД по номенклатурнохимической информации.
Структура модуля БД по номенклатурно-химической информации представлена в таблице.
Модуль БД по номенклатурным и химическим характеристикам включает 49 содержательных полей и одно служебное поле, в которое при вводе в БД новой записи автоматически помещается ее порядковый номер. В 43 полях содержатся данные, которые можно получить из паспортов или других первичных документов, в 4 полях — данные, автоматически генерируемые СУБД ISIS/Base после ввода структурной формулы вещества, в 2 полях — данные, которые можно найти на специализированных сайтах в Интернете [12; 13].
При первичной регистрации нового вещества в ИС и, соответственно, в БД ему присваивается идентификационный номер (IDcomp), представляющий собой семизначное число, в котором первые 4 цифры обозначают год регистрации, следующие 3 цифры — порядковый номер регистрации вещества в текущем году. В отличие от других номеров и шифров, IDcomp является «сквозным» регистрационным номером на всех этапах изучения противоопухолевого соединения и позволяет однозначно идентифицировать его.
Поля 3—6, 24, 25 содержат различные шифры и коды, а именно шифры, присвоенные веществу авторами при его синтезе (выделении из природного сырья), номер, присвоенный ему в системе Государственной регистрации новых химических соединений СССР, шифры, присвоенные веществу в подразделениях, проводивших его биологическое изучение. Вводятся также номера NSC (номер Национального института рака США) и CAS (Chemical Abstract Service), если таковые имеются. Номер NSC имеют вещества, которыми ГУ РОНЦ им. Н. Н. Блохина РАМН и Национальный институт рака США обменивались в рамках научного сотрудничества. Поля 13—18 заполняются только для веществ природного происхождения и содержат таксономические данные, характеризующие систематическое положение живого организма, из которого это вещество получено. Поля 19—23, содержат информацию об особенностях сырья, о способе выделения природного вещества и его характеристику.
Поля химического блока содержат данные, характеризующие состав вещества и его физико-химические свойства. Для веществ как синтетического, так и природного происхождения, имеющих точно определенную химическую структуру, важнейшим является поле «structure», содержащее структурную формулу вещества. После ввода в БД структурной формулы автоматически генерируются брутто-формула и молекулярная масса вещества. Сопоставление брутто-формулы и значения молекулярной массы, сгенерированных СУБД ISIS/Base, с соответствующими данными, содержащимися в паспорте, позволяет провести контроль коррект-
ности представленных в паспорте данных по химическому составу.
Дополнительная возможность контроля паспортных данных по составу вещества возникает при сравнении содержания полей «composition_empir», включающего найденные опытным путем данные по элементному составу вещества, и «composition_comp», включающего данные по элементному составу, рассчитанные средствами СУБД ISIS/Base из введенной структурной формулы вещества.
При первичном вводе в БД и редактировании данных номенклатурно-химического блока для веществ как синтетического, так и природного происхождения используется общий интерфейс пользователя или основная регистрационная экранная форма.
Регистрационная экранная форма содержит ячейки, соответствующие всем полям этого блока. Ячейки сгруппированы в соответствии с типами данных, представленных в них, что создает определенные удобства при вводе.
В ряде случаев, например при работе с данными только для экстрактов природного происхождения, не имеющих структурных формул, или, наоборот, только для синтетических веществ с точно идентифицированной структурной формулой, могут быть использованы специализированные экранные формы для природных экстрактов и синтетических веществ. В специализированных формах отражены только те поля БД, которые могут содержать данные для веществ только одного из этих типов.
При вводе, редактировании и поиске данных используются средства системы лингвистического обеспечения БД, разработанной на основе опыта создания компьютерных фактографических БД по биологически активным веществам [3]. Дескрипторные словари системы лингвистического обеспечения состоят из списков нормализованных терминов, составленных по результатам анализа предметной области «Экспериментальная химиотерапия опухолей» и первичных документов, содержащихся в архиве ИС. Мультидисциплинарный характер предметной области обусловил необходимость использования при составлении дескрипторных словарей химического блока разноплановой специальной и справочной литературы [4; 5; 7—11]. Всего при работе с полями, содержащими номенклатурно-химические данные, используются 14 словарей фиксированного или открытого типа. СУБД ISIS/Base не позволяет при вводе данных в поля со словарями фиксированного типа использовать термины, отличные от содержащихся в словарях. Изменение словарей фиксированного типа возможно только с помощью операции изменения структуры БД. При заполнении полей со словарями свободного типа разрешено использование дескрипторов, не содержащихся в словаре, а изменение или добавление в словарь нового дескриптора возможно без изменения структуры БД. В процессе развития БД словари изменяются, удаляются устаревшие термины, добавляются новые.
Таблица
Структура модуля БД по номенклатурно-химической информации
№ п/п Имя поля Содержание поля
1 ID Порядковый номер записи, автоматически присваиваемый программой ISIS/Base
2 ID_comp Идентификационный номер вещества, присвоенный ему при первичной регистрации в ИС РОНЦ РАМН
3 shifr_chem Авторские шифры и коды вещества
4 Code_S Шифр, присвоенный веществу при регистрации в лаборатории экспериментальной химиотерапии
5 Code_U Шифр, присвоенный веществу при регистрации в группе прескрининга in vivo
6 Gosreg_number Номер, присвоенный веществу в системе Государственной регистрации новых соединений
7 other_names_rus Авторские, тривиальные названия, синонимы, торговые марки на русском языке
8 other_names_engl Авторские, тривиальные названия, синонимы, торговые марки на английском языке
9 organization Название организации, из которой вещество поступило на изучение
10 authors Фамилия и инициалы авторов, синтезировавших вещество или выделивших экстракт из природного сырья
11 confidence Уровень конфиденциальности вещества
12 obtaining_technique Способ получения вещества
13 biotype Биологический тип организма — источника выделения вещества природного происхождения
14 family_rus Название семейства, к которому относится организм — источник выделения вещества природного происхождения, на русском языке
15 familyjat Название семейства, к которому относится организм — источник выделения вещества природного происхождения, на латинском языке
16 kind_rus Название биологического вида организма — источника выделения вещества природного происхождения на русском языке
17 kind_lat Название биологического вида организма — источника выделения вещества природного происхождения на латинском языке
18 kind_engl Название биологического вида организма — источника выделения вещества природного происхождения на английском языке
19 harvesting_place Место сбора природного сырья
20 harvesting_time Шифр и/или время заготовки природного сырья
21 raw_materials_supplier Поставщик природного сырья
22 organism_fragment Фрагмент(ы) организма, части растения, использованные при выделении экстракта или его фракций
23 drug_properties Характеристика природного вещества
24 NSC Регистрационный номер, присвоенный веществу в Национальном Институте рака США
25 CAS Регистрационный номер системы Chemical Abstract Service
26 structure Структурная формула вещества
27 *fmla_structure Брутто-формула вещества
28 *mol.weight_sructure Молекулярная масса вещества
29 saltdata Состав сольватной (гидратной) части молекулы вещества
30 IUPAC_autonom Химическое название вещества на английском языке, автоматически сгенерированное программой Autonom, встроенной в СУБД ISIS/Base
31 names_chem_rus Химические названия вещества на русском языке
32 names_chem_engl Химические названия вещества на английском языке
33 chem_class Химический класс
33.1 chem_class_type Химический класс, функциональные группы, входящие в состав вещества
34 composition_empir Процентное содержание химических элементов в молекуле вещества, эмпирически полученное методами физико-химического анализа
35 composition_comp Процентное содержание химических элементов в молекуле вещества, автоматически вычисленное средствами СУБД ISIS/Base
36 stereojsomer Стереоизомер
37 optic_isomer Оптический изомер
38 phys_chem_data Данные физико-химических анализов вещества
39 aggregative_state Агрегатное состояние вещества
40 outward_appearance Внешний вид вещества
41 density Плотность вещества
42 melting_point Температура плавления вещества
43 boiling_point Температура кипения вещества
44 hygroscopic_properties Гигроскопичность вещества
45 stability Стабильность вещества при хранении во внешней среде
46 keeping_conditions Условия хранения вещества
47 solubility Блок данных по растворимости вещества
47.1 solvent Растворитель
47.2 level_of_solubility Степень растворимости вещества
48 additional_comments_ chem Дополнительная информация о регистрационных и номенклатурных характеристиках и физикохимических свойствах вещества, не вошедшая в соответствующие поля
49 references_chem Ссылки на публикации с информацией, соответствующей содержанию регистрационнономенклатурного и химического блоков
При вводе и редактировании данных используются специально разработанные инструкции, содержащие общие и специальные правила.
Общие правила используются при заполнении всех полей БД и касаются использования пробелов, прописных и строчных букв, клавиш различных регистров. Не
рекомендуется изменять авторские номенклатурные данные при вводе в БД, за исключением явных ошибок.
В специальных правилах объясняется, откуда извлекаются и по какому принципу образуются те или иные идентификаторы или формализуются данные, вводимые в каждое конкретное поле. Существенное значение име-
ют рекомендации по поиску с помощью Интернета регистрационного номера NSC, присвоенного веществу при регистрации в Национальном институте рака США [13], если таковая имелась, и регистрационного номера БД CAS, если таковой имеется [12].
В поле «authors» учитываются все соавторы, участвовавшие в синтезе или выделении вещества.
В поле «mnfidenœ» вводятся данные о статусе конфиденциальности вещества строго в соответствии со словарем фиксированного типа «Конфиденциальность». Вещество регистрируют под грифом «Открыто» при наличии публикаций в открытой печати или документа о возможности таких публикаций, подписанного членами Ученого совета и директором НИИ экспериментальной диагностики и терапии опухолей ГУ РОНЦ им. Н. Н. Блохина РАМН и заверенного печатью ГУ РОНЦ им. Н. Н. Блохина РАМН. Остальные вещества имеют гриф «Конфиденциально» или «Для служебного пользования», данные о них могут быть выданы из ИС по запросам только сотрудникам ГУ РОНЦ им. Н. Н. Блохина РАМН или при наличии письменного согласия авторов вещества.
При первичной регистрации веществ с точно определенной химической структурой структурная формула вводится с помощью встроенного в СУБД ISIS/Base редактора структурных химических формул ISIS/Draw либо путем импорта из файлов формата .mol или .sdf. Средства СУБД ISIS/Base обеспечивают при добавлении в БД новой структурной формулы проверку для выявления в БД дублей. Вещества с одной и той же структурной формулой регистрируются с различными идентификационными номерами (IDcomp) в следующих случаях: если соединение было синтезировано в разных организациях, или разными авторами, или при синтезе (выделении из природного сырья) использовались разные методы, а также в случае поступления на изучение разных серий вещества. После ввода структурной формулы средствами СУБД ISIS/Basе генерируется химическое название на английском языке по системе ШРАС с помощью встроенного программного модуля AUTONOM.
В поля «names_chem_rus» и «names_chem_engl» вводятся на русском и английском языках соответственно различные систематические названия вещества, одно из них обязательно по системе ИЮПАК. Каждое название вводится с нового абзаца без использования знаков препинания, разделяющих названия.
В поле «chem_class_type» вводятся несколько различных записей в количестве, соответствующем числу различных химических классов, к которым можно отнести вещество.
Аналогично в поля «solvent» и «level_of_solubility» вводятся несколько различных записей в количестве, соответствующем числу различных растворителей, о растворимости вещества в которых имеются данные.
Для исключения довольно часто содержащихся в паспортах ошибок в таксономических характеристиках
организмов, из которых выделены вещества природного происхождения, особенно в латинских названиях таксонов, перед вводом в БД эти данные подвергаются предварительной проверке с использованием специальных справочников для поиска соответствующих латинских названий в специальной литературе [8; 20] или с использованием ресурсов Интернета [14; 15; 17—19].
В работу со специалистами лабораторий химического профиля ГУ РОНЦ им. Н. Н. Блохина РАМН и ряда других учреждений, сотрудничающих с ГУ РОНЦ им. Н. Н. Блохина РАМН в области создания новых противоопухолевых лекарственных препаратов на основе синтетических веществ и природных экстрактов, введены разработанные в группе Банка данных электронные паспорта. Химикам, имеющим возможность пользоваться СУБД ISIS/Base, предоставляется незаполненная БД формата ISIS/Basе, логическая структура которой полностью соответствует структуре модуля по номенклатурно-химическим данным, вместе с регистрационной экранной формой для ввода данных, де-скрипторными словарями и правилами ввода данных. Химикам, не имеющим возможности пользоваться СУБД ISIS/Basе, на выбор предоставляются бумажные формы паспорта, отображающие пользовательский интерфейс для ввода данных в БД, или электронные паспорта, имеющие формат таблицы Word. В последнем случае к заполненной электронной форме паспорта с текстовыми и числовыми данными прилагается структурная формула вещества на бумаге.
Передача вещества на биологические испытания сопровождается передачей в группу Банка данных для регистрации в ИС по противоопухолевым веществам бумажных вариантов паспортов и файлов с заполненными электронными паспортами на любом удобном для авторов носителе или по электронной почте. Введение в практику электронных паспортов значительно ускоряет и облегчает ввод данных путем импорта в БД и позволяет минимизировать количество ошибок при вводе. Одновременно авторы синтеза веществ получают возможность вести собственные локальные БД по веществам, передаваемым на изучение биологической активности, и могут в свою очередь дополнять их данными по результатам изучения биологической активности, получаемыми из группы Банка данных в электронном виде.
Представленная в БД формализованная информация по номенклатурным характеристикам, химической структуре и физико-химическим свойствам изученных в ГУ РОНЦ им. Н. Н. Блохина РАМН веществ используется в справочно-информационном обеспечении исследований по разработке новых противоопухолевых лекарственных препаратов, для выявления химических классов и групп, перспективных с точки зрения обнаружения активных субстанций в целях разработки на их основе новых эффективных лекарственных препаратов для лечения рака, в исследованиях связи структура—
активность в целях оценки биологической активности новых веществ на основе их химической структуры.
ЛИТЕРАТУРА
1. Апрышко Г. Н. Информационная система по противоопухолевым агентам // Рос. биотер. журн. — 2002. — № 2. — С. 7—10.
2. Апрышко Г. Н. Информационная система по противоопухолевым агентам. Общий обзор // НТИ. Сер. 2. — 2007. — № 1. — С. 18—22.
3. Апрышко Г. Н., Решетникова В. В. Лингвистическое обеспечение электронной базы данных РОНЦ РАМН по противоопухолевым веществам. — М., 2006. — 60 с. — Депонировано в ВИНИТИ РАН 19.07.06, № 976-В2006.
4. Бокий Г. В., Голубкова Н. А. Введение в номенклатуру ИЮ-ПАК: Как назвать химическое соединение. — М.: Наука, 1989. — 184 с.
5. Государственная Фармакопея СССР: 11-е изд. — М.:
Медицина, 1998. — Вып.1: Общие методы анализа. — 1998. — С. 175—176.
6. Дейт К. Дж. Введение в системы баз данных: Пер. с англ. — М.: Диалектика, 1998. — 784 с.
7. Двуязычный информационно-поисковый тезаурус классов органических соединений. — М.: ВИНИТИ, 1987. — 383 с.
8. Мюллер Э., Леффлер В. Микология. Пер. с нем. Тарасовой К. Л. — М.: Мир, 1995. — 343 с.
9. Номенклатурные правила ИЮПАК по химии. Т. 2, полутом 1. — М.: ВИНИТИ, 1979. — 507 с.
10. Номенклатурные правила ИЮПАК по химии. Т. 3, полутом
1. — М.: ВИНИТИ, 1983. — 343 с.
11. Номенклатурные правила ИЮПАК по химии. Т. 3, полутом
2. — М.: ВИНИТИ, 1983. — 403 с.
12. http://www.cas.org/
13. http://www.dtp.nci.nih.gov/docs/dtp_search.html
14. http://www.floranimal.ru/
15. http://www.jcbi.ru/eco1/search.php
16. http://www.mdl.com/products/framework/isis/
17. http://myco.narod.ru/latname.htm
18. http://rwn.by.ru/plants/index_r.html
19. http://rwn.boom.ru/fungi/index_r.html20. Schroeter A. I., Pa-nasiuk V. A. Dictionary of Plant Names. — Koenigstein: Koeltz Scientific Books, 1999. — 1033 p.
Поступила 14.03.2007
V. V. Reshetnikova, G. N. Apryshko NOMENCLATURE AND CHEMISTRY INFORMATION IN THE ANTITUMOR SUBSTANCES DATABASE OF THE N. N. BLOKHIN RCRC RAMS
Experimental Diagnosis and Therapy Research Institute, N. N. Blokhin RCRC RAMS, Moscow
The paper describes module structure of the antitumor substances database developed at the Experimental Diagnosis and Therapy Research Institute, N. N. Blokhin RCRC RAMS; the module contains nomenclature, chemical structural and physico-chemical characteristics of substances, content of database fields, technical and adminastrative aspects of database filling, editing and use.
Key words: antitumor substances, experimental tumor chemotherapy, databases.