ОРИГИНАЛЬНЫЕ СТАТЬИ ТЕХНОЛОГИИ РЕГИСТРАЦИИ... 67
УДК 615.277.3.076:618.32.68 Г.Н. Апрышко ТЕХНОЛОГИЯ РЕГИСТРАЦИИ НОВЫХ ВЕЩЕСТВ В БАНКЕ ДАННЫХ ПО ПРОТИВООПУХОЛЕВЫМ ВЕЩЕСТВАМ НИИ ЭДИТО ОНКОЛОГИЧЕСКОГО НАУЧНОГО ЦЕНТРА ИМ. Н.Н. БЛОХИНА РАМН С ПОМОЩЬЮ «ЭЛЕКТРОННОГО ПАСПОРТА» ГУ РОНЦ им. Н.Н. Блохина РАМН, 115478 Москва, Каширское ш., 24 Резюме Описана современная эффективная информационная технология регистрации новых субстанций, поступающих на биологическое изучение, в Банке данных по противоопухолевых веществам НИИ ЭДиТО РОНЦ имени Н.Н. Блохина РАМН. Технология позволяет максимально стандартизовать представление данных в компьютерной базе данных, сократить время и ошибки при их вводе. Ключевые слова: базы данных, противоопухолевые вещества, экспериментальная химиотерапия опухолей.
Apryshko G.N. THE TECHNOLOGY OF THE NEW SUBSTANCE REGISTRATION IN THE N.N. BLOKHIN RUSSIAN CANCER RESEARCH CENTER RAMS DATABASE ON ANTITUMOR SUBSTANCES WITH THE USE OF “ELECTRONIC PASPORT” Research Institute for Experimental Diagnosis and Treatment, N.N. Blokhin Russian Cancer Research Center RAMS, Moscow Abstract The effective modern informational technology of the new agent registration at the N.N. Blokhin Russian Cancer Research Center Databank on antitumor substances is described. The technology permits to standardize the data presentation in computer Database to the maximum and to reduce the time and mistakes during the data input. Key words; the Databases, antitumor substances, experimental cancer chemotherapy. Введение Около половины всех данных по веществу вводится в Базу данных при его первичной регистра-Для накопления, обобщения и эффективного ции в Банке данных. Эти данные составляют номенк-использования результатов исследований по синтезу, латурно-химический модуль Базы данных [4; 5]. выделению из природного сырья и экспериментальному изучению биологической активности новых Цель работы отечественных противоопухолевых веществ в РОНЦ РАМН создана Информационная система, или Банк Создание современной информационной тех-данных по противоопухолевым веществам. нологии первичной регистрации новых веществ в Это - комплекс архива первичных документов, Банке данных РОНЦ, обеспечивающей правильный и систематизированной картотеки и компьютерной ба- быстрый ввод унифицированной информации в ком-зы данных, которые соответствуют последователь- пьютерную Базу данных в объеме, соответствующем ным этапам создания Банка данных, начатого со сбо- потребностям ее последующего использования, тес-ра первичных документов, продолженного формиро- тирование использования этой технологии для выяв-ванием систематизированной картотеки, содержащей ления ее преимуществ, ограничений и направлений данные, формализованные в соответствии с опреде- совершенствования. ленными правилами, и созданием компьютерной Базы данных, реализованной на IBM-совместимых пер- Материалы и методы сональных компьютерах под управлением операционной системы MS Windows и системы управления При создании и тестировании описанной техноБазами данных (СУБД) ISIS/Base. логии использованы СУБД ISISBase и программа ISI-В настоящее время компьютерная База данных SDraw, Elsevier MDL [6], разработанные ранее струк-имеет объем около 18000 килобайт, содержит хими- тура, интерфейсы пользователя и лингвистические ческие формулы, номенклатурные признаки, физико- сред-ства компьютерной Базы данных по противохимические свойства, результаты изучения биологи- опухолевым веществам РОНЦ РАМН [3-5]. ческой активности около 12000 синтетических веществ и природных экстрактов, изучавшихся в каче- Результаты и обсуждение стве потенциальных противоопухолевых препаратов с 1952 г. по настоящее время [1; 2]. Все вещества, передаваемые на изучение биоНеобходимое условие эффективного использо- логической активности в подразделения НИИ ЭДиТО вания Базы данных для справочно-информационного РОНЦ РАМН, регистрируются в Банке данных по обеспечения разработчиков новых противоопухоле- противоопухолевым веществам. При первичной реги-вых лекарств и аналитических исследований в пред- страции нового вещества ему присваивается уникаль-метной области «Экспериментальная химиотерапия ный идентификационный номер (IDcomp). опухолей», в особенности в системе доэксперимен- IDcomp используется при первичном занесе-тального скрининга потенциальных противоопухоле- нии в компьютерную Базу данных сведений, позво-вых веществ, - ее наполнение корректными унифи- ляющих однозначно идентифицировать вещество и цированными данными по химическому строению, необходимых для проведения корректных биологиче-свойствам и активности веществ. ских экспериментов, а также при последующем вводе
№ 2/том 8/2009 РОССИЙСКИЙ БИОТЕРАПЕВТИЧЕСКИЙ ЖУРНАЛ
Таблица 1
Структура Базы данных Pasport.db (Электронный паспорт)________________________________________
№ п\п Имя поля Содержание поля
1 ID Порядковый номер записи - автоматически создается СУБД ISISBase
2 IDcomp Идентификационный номер - формируется при регистрации по правилу ХХХХУУУ - ХХХХ - год регистрации, УУУ - порядковый номер вещества при регистрации в текущем году
3 confidential Конфиденциальность
4 organization Организация, в которой вещество синтезировано или выделено из природного сырья
5 authors Ф.И.О. химиков, синтезировавших или выделивших вещество из природного сырья
6 obtaining_technique Способ получения
7 shifr_chem Шифр, присвоенный веществу авторами
В names_chem_rus Химические названия вещества по различным химическим номенклатурам на русском языке
9 names_chem_engl Химические названия вещества по различным химическим номенклатурам на английском языке
10 other_names_rus Тривиальное название и синонимы на русском языке
11 other_names_engl Тривиальное название и синонимы на английском языке
12 biotype Тип организма, из которого выделено природное вещество (экстракт)
13 family_rus Семейство организма, из которого выделено природное вещество (экстракт), на русском языке
14 family_lat Семейство организма, из которого выделено природное вещество (экстракт), на латинском языке
15 kind_rus Вид организма, из которого выделено природное вещество (экстракт), на русском языке
16 kind_lat Вид организма, из которого выделено природное вещество (экстракт), на латинском языке
17 kind_engl Вид организма, из которого выделено природное вещество (экстракт), на английском языке
1В harvesting_place Место сбора природного сырья
19 harvesting_time Время сбора природного сырья
20 raw_materials_supplier Поставщик природного сырья
21 raw_materials_description Описание частей организма, послуживших сырьем для выделения природное вещества (экстракта)
22 preparation_description Описание природного экстракта
23 structure Структурная химическая формула
24 *fmla_structure Брутто-формула
25 *mol.weight_structure Молекулярная масса
26 saltdata Сольватная часть молекулы
27 composition_empiric Элементный состав, определенный эмпирическим путем
28 CHEM_CLASSES ХИМИЧЕСКИЕ КЛАССЫ
29 chem_class_name Название химического класса
30 stereo_isomer Стерео изомер (если вещество обладает пространственной изомерией)
31 optic_isomer Оптический изомер (если вещество обладает оптической изомерией)
32 phys_chem_data Перечень имеющихся для вещества результатов физико-химического анализа
33 state_of_aggregation Агрегатное состояние
34 outward_appearance Описание внешнего вида
35 density Плотность
36 melting_point Температура плавления
37 boiling_point Температура кипения
38 hygroscopicity Гигроскопичность
39 stability Устойчивость во внешней среде
40 keeping_conditions Условия хранения
41 SOLUBILITY: РАСТВОРИМОСТЬ
42 solvent Растворитель
43 level_of_solubility Степень растворимости
44 logP Логарифм коэффициента распределения в системе октанол/вода
45 N_O Суммарное число атомов N и О в молекуле
46 H_Donors Число доноров водородных связей в молекуле
47 H_Accept Число акцепторов водородных связей в молекуле
48 Rot_Bond Число вращаемых связей в молекуле
49 PSA Площадь полярной поверхности молекулы
50 additional_comments_chem Дополнительные сведения
51 references_chem Ссылки на публикации (если они есть)
52 certificate_is_formulated ФИО лица, составившего паспорт
53 handed_to_biologists ФИО биологов, которым вещество передавалось для изучения
в Базу данных вновь полученной информации по результатам биологического изучения, редактировании данных, поиске информации и при составлении всех видов отчетных документов по веществу.
Заносимые в компьютерную Базу данных при первичной регистрации вещества сведения извлекаются из паспорта, составляемого химиками - авторами синтеза вещества или его получения из природного источника. В разные годы объем, типы и характер структурирования данных, представляемых в паспорте на бумажном носителе, изменялись незначительно. Эти данные представляют собой номенклатурные признаки и полученные эмпирическим путем химические данные, характеризующие химический состав, строение и физико-химические свойства вещества, в объеме, необходимом экспериментаторам для правильного планирования и проведения биологического изучения и полноценного анализа его результатов.
После первичной регистрации в Банке данных один экземпляр паспорта на бумажном носителе с указанным на нем идентификационным номером и образец вещества передаются для проведения биологических испытаний в соответствующее экспериментальное подразделение, второй идентичный экземпляр паспорта хранится в картотеке Банка данных.
Использование технологии ручного ввода паспортных данных в компьютер в течение ряда лет выявило целый ряд сложностей. Во-первых, ручной ввод данных занимает много времени, во-вторых, он неизбежно сопряжен с субъективными ошибками составителя паспорта и оператора по вводу данных в компьютер. Кроме того, оператор по вводу данных должен обладать достаточно высокой квалификацией в области химии, в особенности по номенклатуре и классификации органических соединений. Только в этом случае он может самостоятельно осуществлять полноценный предмашинный контроль данных, содержащихся в паспорте, и избежать специфических ошибок при вводе химических данных. В противном случае возникает необходимость консультаций с составителями паспорта или независимыми экс-пертами-химиками.
СУБД ВКВаБе после ввода в компьютер структурной формулы автоматически генерирует брутто-формулу и химическое название вещества по ШРЛС (с определенными ограничениями по химической структуре молекулы), рассчитывает молекулярную массу. В случае расхождения сгенерированных данных с данными, имеющимися в паспорте, возникает необходимость корректировки паспортных данных, что также вызывает необходимость дополнительных консультаций с составителями паспорта.
Возможность автоматического импорта данных средствами СУБД ККВаяе из одной Базы данных в другую, широкое внедрение в практику работы химиков компьютерной техники и специализированных про-грамммных средств для обработки химической информации послужило предпосылкой разработки системы «Электронного паспорта» и постепенного перехода при первичной регистрации веществ от ручного ввода данных к использованию импорта данных из «Электронного паспорта».
«Электронный паспорт» является Базой данных формата ККВаяе с названием Раяро^Ь. В структуру Базы данных Pasport.db входят поля регистрационного (номенклатурно-химического) модуля Базы данных по противоопухолевым веществам, то есть она является ее подмножеством.
Кроме полей, содержащих данные, полученные экспериментальным путем, в структуру Базы данных РаяроН.ЛЬ введены также поля, содержащие расчетные параметры, характеризующие так называемые
«лекарствоподобие» или «нелекарствоподобие» вещества. Это 1о§Р (логарифм коэффициента распределения в системе «октанол - вода», характеризует различную растворимость вещества в двух несмешивающихся растворителях); Н_Бопогз (число донорных водородных связей в молекуле); Н_Ассер1 (число акцепторных водородных связей в молекуле); Rot_Bond (число вращающихся связей в молекуле). Для расчета этих данных по структурной формуле вещества могут быть использованы различные прикладные химические программные средства, например, программа ЛСБІаЬ®, которая в настоящее время имеется в пользовании большинства химиков. Структура Базы данных Pasport.db представлена в табл. 1. (см. стр. 68-69)
База данных pasport.db имеет 3 интерфейса пользователя (экранные формы для ввода данных), которые можно загружать в зависимости от особенностей ввода конкретных данных. При составлении паспорта на синтетическое вещество рекомендуется использовать экранную форму «раірог_упГ, паспорта на вещество (экстракт) природного происхождения - экранную форму «раі'рогі паШге"". Эти экранные формы содержат ячейки для заполнения полей с данными для веществ только синтетического или только природного происхождения, соответственно.
Экранная форма «ра,?рог_№Г содержит ячейки, соответствующие всем полям Базы данных pasport.db, и может использоваться при заполнении паспортов на вещества обоих типов. Ее недостатком по сравнению с двумя первыми формами является меньший размер ячеек (из-за одновременного размещения на экране большего количества полей), что несколько затрудняет работу при вводе данных. Интерфейсы пользователя базы данных pasport.db представлены на рисунках 1-3.
Для унификации терминов, используемых при заполнении «Электронного паспорта», ряд полей снабжено словарями (или справочниками), из которых при вводе нужный термин может быть автоматически перенесен в соответствующее поле без ручного набора. Это позволяет значительно ускорить ввод данных и избежать многих ошибок. С целью стандартизации представления данных в «Электронном паспорте» разработана подробная инструкция, регламентирующая ввод данных в каждое из полей «Электронного паспорта».
Специалисты - химики, имеющие программу ШКВаєе и умеющие работать с нею, могут получить в группе Банка данных комплект файлов для заполнения «Электронного паспорта», в состав которого входят незаполненная База данных Pasport.db, три отдельных файла с интерфейсами для ввода данных с расширением фт, текстовые файлы с терминологическими словарями и правилами ввода данных. Эти файлы можно также скачать с сайта РОНЦ РАМН [7]. Консультации по заполнению «Электронного паспорта» можно получить непосредственно в группе Банка данных НИИ ЭДиТО РОНЦ или по электронной почте [email protected].
Исследователи, не имеющие возможности работать с СУБД ІБІБВаяе, но владеющие информационными технологиями, могут подготовить паспорт в виде электронной таблицы текстового формата, строки которой соответствуют полям «Электронного паспорта». Файл с этой таблицей также можно получить в группе Банка данных. Специалисты, не имеющие возможности подготовить паспорта в электронном виде, могут получить в группе Банка данных бумажные бланки, полностью соответствующие интерфейсам заполнения электронных паспортов (см. рис.1-3). В обоих последних случаях химики обеспечиваются инструкцией по заполнению паспортов в бумажном или электронном виде. Заполненные паспорта могут быть переданы в группу Банка данных непосредственно или по электронной почте.
№ 2/том 8/2009 РОССИИСКИИ БИОТЕРАПЕВТИЧЕСКИИ ЖУРНАЛ
№ 2/том 8/2009 РОССИИСКИИ БИОТЕРАПЕВТИЧЕСКИИ ЖУРНАЛ
-VI
М
ю
конфиденциальность
организация
авторы
способ получения
авторекии шифр
паспорт
заполнил
передается
биологам
Юсотр
Таксономия источника выделения вещества (экстракта)
тип
вид (русск.)
вид (лат.)
семейство (русск.)
семейство (лат.)
названия
Химические классы
вид (англ.)
Характеристики сырья
имеющиеся данные ФХА
плотность
агрегатное состояние
т-ра плавления
внешним вид
т-ра кипения
гигроскопичность
место сбора
время сбора
стабильность
условия хранения
поставщик
описание сырья
Растворимость
растворитель
уровень растворимости
описание природного вещества (экстракта)
дополнительная информация
лит. ссылки (если есть)
Рис. 2. Экранная форма «раяроН паШге» для ввода паспортных данных на вещество природного происхождения
№ 2/том 8/2009 РОССИИСКИИ БИОТЕРАПЕВТИЧЕСКИИ ЖУРНАЛ
ID
конфиденциальность
организация
авторы
способ получения
авторский шифр
паспорт заполнил
передается
биологам
IDcomp
Структурная формула
logP
N О
Н Donors
H_Accept
1?о1 Вопс)
РБА
стерео изомер
оптич. изомер
данные ФХА
плотность
т-ра плавления
т-ра кипения
агрегатное состояние
гигроскопичность
внешним вид
стабильность
условия хранения
брутто формула
сольватная часть
мол. масса
Растворимость
элементный состав
химіч. названия по IUPAC и др. номенклатурам
другие названия
растворитель
степень растворимости
Химические классы
Таксономия источника выделения природного вешества
семейство (лат.)
вид (русск.)
семейство (русск.)
вид (лат.)
вид (англ.)
Характеристики сырья
место сбора
поставщик
время сбора
описание сырья
описание природного вещества (экстракта)
дополнительная информаци! лит. ссылки (если есть)
Рис. 3. Экранная форма «раяроП ТоГ” для ввода паспортных данных на вещества как синтетического, так и природного происхождения
В течение 2006-2008 гг. паспорта на синтетические вещества и природные субстанции, поступающие на первичную регистрацию в БД РОНЦ, составлялись химиками - авторами веществ как традиционным способом с использованием бумажных бланков, так и в электронном виде с использованием «Электронного паспорта» или текстовой таблицы при консультировании специалистами группы Банка данных. При первичной регистрации новых веществ в Банке данных использовались как ручной ввод данных, так и импорт данных из «Электронного паспорта».
Значительным преимуществом использования «Электронных паспортов» при первичной регистрации новых веществ для автоматического импорта паспортных данных непосредственно в Базу данных явилась возможность значительного сокращения времени ввода данных. Одновременно значительно уменьшалось число ошибок ввода, что также приводило к дальнейшему сокращению времени на их исправление. Использование терминологических словарей исключало необходимость ручной замены нестандартных терминов унифицированными. Дополнительным преимуществом обеспечения химиков Базой данных Pasport.dЬ является возможность авторам формировать собственную Базу данных по веществам, передаваемым на изучение биологической активности, совпадающую по структуре с Базой данной по противоопухолевым веществам РОНЦ. При этом автор получает дополнительную возможность самостоятельно выявлять уже на этапе составления паспорта возможные ошибки в представлении структурных формул, брутто-формул, химических названий и молекулярной массы веществ, которая обеспечивается указанными возможностями СУБД ISISBase, и сразу, до передачи паспорта в группу Банка данных, корректировать эти данные.
Уменьшение ошибок в этих полях, содержащих ключевые данные, характеризующие строение вещества, способствует более полноценному использованию информации из Базы данных в исследованиях по связи структура - активность и при прогнозировании биологической активности веществ по структуре.
При использовании при регистрации новых веществ заполненной авторами Базы данных РаяроГ:^Ь выявлены различные подходы авторов к построению с помощью программы ISISDraw структурных формул таких сложных веществ как комплексные соединения, сольваты, многокомпонентные системы.
В настоящее время для стандартизации структурно-химической информации, содержащейся в Базе данных по противоопухолевым веществам РОНЦ, разрабатываются единые методические рекомендации для электронного представления структурных формул веществ, с тем, чтобы использовать их уже на стадии подготовки «Электронных паспортов» на новые вещества.
Заключение
Современная информационно-технологическая методика регистрации веществ в Банке данных по противоопухолевым веществам РОНЦ с помощью «Электронных паспортов» значительно ускоряет и облегчает ввод информации в общую компьютерную Базу данных, обеспечивает значительную стандартизацию данных, являющуюся необходимым условием полноценного поиска информации в Базе данных и эффективного использования Базы данных.
Ограничивает использование этой методики недостаточное обеспечение исследователей компьютерной техникой и программами.
Литература
1. Апрышко Г.Н. Информационная система РОНЦ им. Н.Н. Блохина РАМН по противоопухолевым агентам. Общий обзор // НТИ. Сер. 2. - 2007. - №1. -С. 18-22.
2. Апрышко Г.Н. База данных по противоопухолевым веществам НИИ ЭДиТО Онкологического научного центра им. Н.Н. Блохина РАМН. Российский биотерапевтический журнал. - 2008. - №2 - C. 49-53.
3. Апрышко Г.Н., Решетникова В.В. Лингвистическое обеспечение электронной базы данных РОНЦ РАМН по противоопухолевым препаратам. // Рукопись деп. в ВИНИТИ РАН 19.07.06., № 976-В2006. -60с.
4. Апрышко Г.Н., Решетникова В.В. Регистрационно-номенклатурный и химический модули электронной базы данных Информационной системы по противоопухолевым агентам // НТИ. Сер. 2. - 2007. - №6. -С.24-31.
5. Решетникова В.В., Апрышко Г.Н. Номенклатурно-химическая информация в Банке данных по противоопухолевым веществам ГУ РОНЦ им. Н.Н. Блохина РАМН // Вестник РОНЦ. - 2007 - №3. - C.9-14.
6. http://www.mdl.com/products/framework/isis base
7. http://www.ronc.ru/databankgroup
Поступила 29.10.2008