Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
В.К.ФИНН, В.Г.БЛИНОВА, Е.С.ПАНКРАТОВА, Е.Ф.ФАБРИКАНТОВА,
Всероссийский институт научной и технической информации Российской Академии наук, г.Москва
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ.
Часть 2*
В статье представлен метод качественного анализа данных посредством компьютерных интеллектуальных систем и его применение для задач фармакологии и медицинской диагностики.
Часть 1 статьи была опубликована в «ВиИТ», 2006, №5, часть 3 будет опубликована в следующем номере.
2. ПРОГНОЗ ХИМИЧЕСКОЙ КАНЦЕРОГЕННОСТИ
Конечной целью любого исследования химического вещества на канцероген-ность является оценка возможной опасности для человека. Химическое вещество классифицируется как канцероген, если оно вызывает канцерогенный эффект, хотя бы на одном виде животных, хотя бы при одном способе введения.
Ввиду длительности (каждый эксперимент на канцерогенность продолжается 3 года) и высокой стоимости экспериментов на лабораторных животных, помощь исследователю могут оказать интеллектуальные системы, способные аналогично экспертам делать заключения о данных, информация о канцерогенности которых отсутствует.
Знания о химической канцерогенности представлены в виде, отвечающем возможности применения ДСМ-метода, в двух постепенно усложняющихся моделях [1]:
1. модели, учитывающей структуру химического вещества, способ введения в организм, суммарную дозу и вид животного,
2. модели по введению в организм двух химических веществ.
Являясь одной из разновидностей биологических активностей, канцерогенная активность имеет ряд особенностей. Разные виды животных по-разному реагируют на химические вещества с точки зрения канцерогенности; то же можно сказать и о способе введения в организм. Поэтому эти атрибуты необходимо включить в понятие «объект» - в терминологии ДСМ-метода (первая модель, [2, 3]).
Объект, соответствующий исходному описанию конкретного биологического эксперимента, представляет собой следующий кортеж (упорядоченный набор признаков):
<С,^св,ж>, где C - химическое соединение, d - суммарная доза, св - способ введения в организм, ж - вид животных.
Свойство в данном случае одно - результат биологического эксперимента на канцерогенность (K).
Соответствующим образом определяется операция сходства и отношение вложения.
*Работа выполнена при финансовой поддержке РФФИ (проект № 05-01-00914).
© В.К.Финн, В.Г.Блинова, 2006 г.
© Е.С.Панкратова, Е.Ф.Фабрикантова, 2006 г.
Анализ данных
Литературные исходные данные компьютерного эксперимента [4] - результаты 33-х биологических экспериментов на канцерогенную активность с указанием химического вещества, суммарной дозы, способа введения (внутрижелудочный) и вида животных (крыса). В 13 экспериментах был обнаружен канцерогенный эффект, а в 15 не обнаружен. Результаты пяти экспериментов, известные по литературным источникам [4], считались неизвестными для системы.
Пример работы системы:
Соединение введенное внутрижелудочно крысе в суммарной дозе 250 мг/кг веса оказалось канцерогеном.
Оно доопределено положительной гипотезой:
(крыса, внутрижелудочно,200 мг/кг), полученной на двух соединениях:
введенном внутрижелудочно крысе в дозе 18 мг/кг; введенном внутрижелудочно крысе в дозе 200 мг/кг.
Во второй модели ДСМ-метод распространяется на задачу прогнозирования результирующего эффекта от введения в организм двух веществ (эта модель важна для изучения и прогнозирования биологической активности смеси химических соединений).
При этом возможно их одновременное или последовательное попадание в организм. В зависимости от структур исходных соединений и их сочетания может быть несколько типов результирующих эффектов [5, 6]:
www.idmz.ru 2006, №6
ГЧЯЯ
I Ы.МЯЯ
♦ суммирующий эффект - эффект комбинации представляет собой сумму установленных канцерогенных эффектов каждого из канцерогенных веществ;
♦ синергизм - эффект взаимного усиления, значительно превосходящий сумму канцерогенных эффектов обоих канцерогенов, или промоция-коканце-рогенез (усиление канцерогенности слабого канцерогена или канцерогена в неканцерогенной дозе неканцерогенным веществом или слабым канцерогеном; если это вещество вводится одновременно с канцерогеном, то явление называется коканцерогенезом, если после канцерогена, - промоцией);
♦ антагонизм - эффект комбинации не только меньше суммы, но часто и наименьшего из эффектов реагирующих канцерогенных веществ.
Чтобы применить ДСМ-систему для прогнозирования химической канцерогенности при попадании в конкретный организм животного двух веществ с соответствующими способами введения, необходимо определение понятий объекта, его свойств и отношения сходства объектов. Определим объект О как следующий кортеж:
0=<Х1,св1, Х2,св2, ж>, где Xi - химическое вещество, св1 - способ его введения (i=1,2), ж - вид животного.
Свойствами будут эффекты суммирования^^, усиления (Syn или Буппр) и торможения (Ant):
A £ {Add,Syn, Synпр ,Ant}, где А - одно из исследуемых свойств.
Используется следующее утверждение: для конкретного объекта наличие одного из свойств означает отсутствие двух других. Отсюда следует, что отрицательные примеры в смысле терминологии ДСМ-мето-да содержатся в той же БФ. В связи с усложнением понятия объекта в решающих предикатах сходства по-новому определяются операция сходства и отношение вложения при сохранении общего вида предиката.
Результатом работы системы являются пары подструктур с возможно определенными способами введения в организм животного, являющиеся причиной наличия/отсутствия одного из трех свойств, а также прогноз результирующего эффекта введения пары химических соединений [7].
51
Анализ данных
Щр
W-ЩШШ
kJH
и информационные
технологии
3. ТОКСИЧНОСТЬ:
JN СОРЕВНОВАНИЕ В ФРАЙБУРГЕ
Успешность применения интеллектуальной ДСМ-системы для прогнозирования антипродуктивных свойств химических соединений была убедительно продемонстрирована участием Сектора интеллектуальных систем ВИНИТИ РАН в соревновании программных систем для прогноза токсичности, проходившем в рамках международной конференции [8].
С 3-го по 7-е сентября 2001 года в г.Фрайбурге (ФРГ) проходили 5-я Европейская конференция по принципам обнаружения знаний в базах данных (Principles of Knowledge Discovery in Databases, PKDD'2001) и 12-я Европейская конференция по автоматическому обучению (12th European Conference on Machine Learning, ECML'2001).
Группа сотрудников Сектора интеллектуальных систем ВИНИТИ РАН приняла участие в семинаре «Вызов по предсказательной токсикологии» (семинар в рамках объединенной конференции ECML/ PKDD). Перед участниками семинара была поставлена задача - построение модели причины токсичности веществ и предсказание токсичности.
Эксперты по токсикологии: Агентство по защите окружающей среды, Отделение по профилактике, Пестицидам и токсическим веществам (U.S. Environmental Protection Agency, Office of Prevention, Pesticides and Toxic Substances); Национальный институт по стандартам в экологии и здравоохранении (NIEHS).
На семинаре по предсказательной токсикологии Лабораторией интеллектуальных систем был представлен доклад «Предсказательная токсикология на основе ДСМ-метода» (авторы: В.Г.Блинова, Д.А.Доб-рынин, Е.С.Панкратова, В.К.Финн), в котором описывалась стратегия применения ДСМ-метода в сочетании с дескрипторным языком ФКСП к предсказанию токсичности (канцерогенности) веществ, для четырех экспериментальных поло-видовых групп ({сам-ки/самцы}х{мыши/крысы}).
* Гипотезы, которые вкладываются в примеры противоположного знака, не используются.
Организаторами конференции были предложены описания от 120 до 150 положительных примеров (то есть заведомо токсичных соединений с известной структурой) и от 190 до 230 отрицательных примеров (то есть заведомо нетоксичных соединений с известной структурой). Выборка, по которой проводились предсказания, содержала около 200 соединений. Обучающая выборка была составлена по данным Национальной токсикологической программы (National Toxicology Program, NTP), а выборка, для которой проводились предсказания, была составлена по данным Агентства пищи и лекарств (Food and Drug Agency, FDA).
В соревновании программ участвовали 12 исследовательских команд из Австралии, Бельгии, Германии, Новой Зеландии, России, США, Франции и Японии. Каждой команде можно было представить до трех вариантов предсказания по каждой из упомянутых групп. Исследовательскими коллективами использовались различные методы обучения от построения деревьев решений до индуктивного логического программирования.
Предсказания по токсичности, предложенные нашей группой, были основаны на простом ДСМ-мето-де с запретом на контрпримеры.* В отличие от других исследовательских групп, нами предлагался лишь один (безальтернативный) вариант предсказания.
Объектами являлись структуры химических соединений, представленные в виде ФКСП-кодов [9]. Свойство - токсичность химического соединения. Сходство - операция пересечения ФКСП-кодов, представляющих структуры химических соединений.
В табл. 1 и 2 приведены фармакофоры и антифар-макофоры, порожденные ИС-ДСМ.
Качество прогнозирования оценивалось организаторами по числу правильных и неправильных положительных прогнозов токсичности. Результаты, полученные ДСМ-системой, были оценены как наилучшие. Двумя составляющими успеха являются разработанный в ВИНИТИ язык ФКСП-представления химических соединений, а также собственно ДСМ-метод. В связи с этим представляют интерес результаты новозеландской группы, воспользовавшейся нашими ко-
Анализ данных
www.idmz.ru 2006, №6
ГЧЯЯ
I Ы.МЯЯ
Фармакофоры
Таблица 1
Антифармакофоры
Таблица 2
дировками химических соединений в языке ФКСП, но получившей оптимальные прогнозы только в двух из четырех поло-видовых группах. Это является еще одним свидетельством преимущества ДСМ-метода.
Результатам исследования соотношений структура - токсичность спиртов с помощью ДСМ-метода посвящена статья Блиновой В.Г. и др. [10].
4. ПРОГНОЗИРОВАНИЕ ПУТЕЙ БИОТРАНСФОРМАЦИИ
Живой организм нормально функционирует лишь в условиях химического равновесия внутри него, то есть в некоторых интервалах концентраций эндогенных и экзогенных веществ (ксенобиотиков). Основными защитными механизмами поддержания химического равновесия являются метаболизм* и иммунитет, объединенные в единую систему химического гомеостаза [11].
* В работе рассматривается метаболизм химических соединений, не участвующих в процессе обмена веществ организма.
Одной из составных частей метаболизма является биотрансформация, то есть преобразование начального (введенного в организм) вещества в другие соединения, в том числе такие, которые могут быть выведены из организма.
Биотрансформационное преобразование при этом есть преобразование, выполняемое ферментом над своим субстратом (существуют еще ингибиторы ферментов, их активаторы, индукторы). На рис. 1 приведена биотрансформационная сеть (БС) нитра-зепама - психотропного лекарственного вещества из ряда бенздиазепинов.
Решение задач фармакологии и медицины требует учета не только воздействия вводимых химических соединений на организм, но и влияния на них со стороны организма (в частности, учета влияния явления биотрансформации). Например, при исследовании канцерогенности, мутагенности, токсичности зачастую именно под влиянием организма (в процессе биотрансформации) вводимые в него нейтральные вещества приобретают эти свойства (непрямые канцерогены, непрямые мутагены). Кроме
Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
того, на явлении биотрансформации основано действие пролекарств и лекарств с пролонгированным эффектом.
Экспериментальное определение БС химических соединений -это сложный, дорогостоящий, трудоемкий и длительный процесс. Он имеет и этические проблемы, дело в том, что задача использования результатов такого рода экспериментов, проведенных на животных, для прогноза в организме человека не решена - прогноз для человека требует проведения клинических испытаний на человеке. Таким образом, компьютерное определение БС является чрезвычайно актуальной задачей.
Об экспертных системах прогнозирования путей биотрансформации
Из биохимических исследований известно, что БС зависит от вида организма (человек, вид животного, растения), от генотипа организма и его индивидуальных особенностей, а также факторов среды, с одной стороны, и структуры химического соединения, его физикохимических и стереохимических свойств, с другой.
В существующих экспертных системах прогнозирования путей биотрансформации учитывается информация о вводимом химическом соединении (чаще всего только его
* На 2001 год общий словарь для млекопитающих содержал 1467 реакционных преобразований, выполняемых 26 типами ферментов.
Рис.1. Биотрансформационная сеть нитразепама
структура, иногда физико-химические свойства) и только вид организма. При этом вид организма задается набором ферментов и выполняемыми ими биотрансформационными преобразованиями над своими субстратами [12]. В базе знаний («словаре») системы META [13-15] для прогнозирования путей биотрансформации в организме человека содержатся около 800 преобразований. Они имеют вид: «фрагмент, атакуемый ферментом, - фрагмент-продукт», или RC стрелка RC', где RC - реакционный центр, некоторая функциональная группа в структурной формуле химического соединения, RC' - преобразованный RC (см. примеры в табл. 3).*
Таким образом, организм человека задается в системе META именами ферментов и выполняемыми ими преобразованиями. Этот список был составлен экспертами на основе анализа обширного экспериментального материала. В то время, когда создавались рассматриваемые ЭС, обработка экспериментальных данных с целью извлечения из них
Таблица 3
Примеры МЕТА-трансформации и фермента
Тип реакции Пример META-трансформации Пример фермента
Ароматическое гидроксилирование CH=CH-C=CH-<OH> P-450
Эпоксидирование CH=CH-CH-CH-< 1 -O-2> P-450
N - окисление CH2-N-CH3-<2-C->CH2-NO-CH3-<2-C-> P-450 и флавинмонооксигеназа
Анализ данных
знаний целиком возлагалась на человека и оставалась за пределами реализации на компьютере.
Как уже говорилось, процесс биотрансформации - это сеть взаимодействий введенного в организм химического соединения и его метаболитов с ферментами, субстратами которых они являются. Таким образом, центральная проблема при прогнозе путей биотрансформации в экспертных системах - определение субстратами каких ферментов (или субстратом какого фермента) является некоторое химическое соединение (задаваемое своей структурной формулой). В системах XENO [16], METABOLEXPERT [17], META [13-15] субстратом фермента считается химическое соединение, содержащее левую часть преобразования, то есть RC. Таким образом, в этих системах все возможные реакции ферментов с заданным химическим соединением считаются идущими. Поскольку в структурной формуле химического соединения обычно содержится 15-20 RC, на каждом шаге системой META порождается 15-20 метаболитов. Между тем в эмпирических БС на каждом шаге содержится 1-3 метаболита. То есть на самом деле многие RC из присутствующих в структурной формуле химического соединения остаются невостребованными соответствующими им ферментами, некоторых потенциально возможных взаимодействий вещества с ферментами не происходит. Поэтому БС, порождаемые этими системами, содержат много шума. В систему META входят вычислительные процедуры, реализующие методы квантовой химии, которые используются, в частности, для отсечения «лишних» (которые на самом деле не существуют) метаболитов после их генерации. Однако и использование квантовой химии не до конца решает эту проблему, поэтому после порождения БС с помощью правил биотрансформационных преобразований, после использования вычислительных квантово-химических методов для отсечения лишних метаболитов осуществляется дополнительная проверка БС экспертами.
* Термины реактофор и антиреактофор были введены по аналогии с фармакофором и антифармакофором.
www.idmz.ru 2006, №6
ГЧЯЯ
I Ы.МЯЯ
Выявление субстрата фермента (определение условий выполнимости отрансформационного преобразования) в ИС-ДСМ по метаболизму
Для того, чтобы произошло взаимодействие фермента с некоторым химическим соединением (выполнилось биотрансформационное преобразование), это химическое соединение должно быть его субстратом. Как уже говорилось, в существующих экспертных системах прогнозирования путей биотрансформации считается, что если в структурной формуле химического соединения содержится некоторый RC - левая часть преобразования из базы знаний - то оно реализуется: считается, что химическое соединение является субстратом фермента. Нами была сформулирована эмпирическая гипотеза о том, что наличие соответствующего RC в структурной формуле химического соединения является лишь необходимым условием того, чтобы произошло его взаимодействие с ферментом. Достаточным условием выполнения биотрансформационного преобразования являются наличие положительного структурного окружения RC, способствующего взаимодействию химического соединения с ферментом (положительный структурный контекст, окрестность RC), и отсутствие отрицательного, запрещающего окружения.
Если задача составления списка биотрансформационных преобразований была в основе своей экспериментальной, благодаря чему ее смогли решить эксперты без помощи компьютера, то задача определения окрестностей RC - это процедура перебора большого числа вариантов, которая не может быть решена без компьютера. Для ее решения необходимо усиление умственной деятельности человека - образно говоря, в данном случае необходим переход от «светового микроскопа к электронному». Такие задачи решаются средствами искусственного интеллекта, в частности, с помощью интеллектуального анализа данных. ДСМ-метод АПГ как раз и относится к средствам ИАД. Именно с помощью ДСМ-метода порождаются положительные и отрицательные окрестности RC - реактофоры и антиреактофоры,* входящие в порождаемые ДСМ-методом положительные и отрицательные гипотезы о выполнимости исследуемого биотрансформационного преобразования.
Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
Подтверждение предложенного подхода к выявлению субстрата фермента: описание компьютерного эксперимента
Эксперимент 1. Исследовались условия прохождения реакции окисления метиленовой группы CH2 стрелка CHOH, катализируемой ферментом цитохромом P-450. БФ (обучающая выборка) содержала 9 химических соединений из бенздиазепинового ряда с положительным эффектом (исследуемая реакция идет) и 9 соединений из этого же ряда - отрицательных примеров - (исследуемая реакция не идет). Структурные формулы химических соединений были представлены с помощью фрагментарного кода суперпозиции подструктур (ФКСП) [9] в одном варианте эксперимента и в виде графов в другом.*
В обоих представлениях производилось выделение исследуемого реакционного центра CH2 (ведь в структурную формулу химического соединения могут входить несколько одинаковых RC, но имеющих разное окружение). Прежде всего выполнялась операция сходства (отдельно для положительных и отрицательных примеров). Затем выполнялась процедура, соответствующая п.п.в.-1 (индукции). В результате ее выполнения порождались гипотезы, содержащие [^С=СН2)+структурный контекст] для положительного и отрицательного эффектов. Примеры структурных фрагментов, ответственных за прохождение и непрохождение исследуемого преобразования, - реакто-форы и антиреактофоры - приведены в табл. 4.
На основе гипотез осуществлялось прогнозирование прохождения рассматриваемой реакции для 4 соединений. С этой целью выполнялась процедура, соответствующая п.п.в.-2 (аналогия). Результаты доопределения свойств этих четырех соединений, полученные интеллектуальной системой, совпали, во-первых, в обоих вариантах представления данных и, во-вторых, с эмпирическими данными. Эмпирические результаты при этом были известны заранее. Кроме того, этот же массив обрабатывался вычислительной программой, реализующей квантово-химический метод. Результаты и этого варианта прогнозирования совпали с остальными. Проверка выполнения критерия достаточного основания (абдукция) показала, что все примеры в БФ, как положительные, так и отрицательные, объяснены с помощью порожденных гипотез. Эти гипотезы были добавлены в БЗ биотрансформации.
Прогнозирование свойств БС без ее порождения: скрининг химических соединений на образование реакционно-способных метаболитов
Все, что было сказано выше, относится к биотрансформирующимся веществам. Существуют вещества, которые не биотрансформируются. Сильно гидрофильные вещества растворяются и выводятся из организма без участия ферментной системы, они не успевают в нее попасть. Сильно гидрофобные химичес-
Примеры реактофора и антиреактофора
Таблица 4
Пример реактофора Пример антиреактофора
N'c*° „C'H N 'h v° 'ccH / H 'C*° N °
* Дело в том, что кодирование структурной формулы в виде ФКСП-кода (в виде множества) естественно приводит к потере информации, в частности, частично и об окрестности, об окружении RC.
Анализ данных
кие соединения не могут проникнуть в нее сквозь клеточные мембраны. Кроме того, характер процесса биотрансформации, то есть какие RC подвергаются атаке ферментами (а, следовательно, какие реакции присутствуют в БС химического соединения), также определяется гидрофильностью/гидрофобностью начального соединения. При биотрансформации гидрофильных соединений происходит монотонное повышение водорастворимости начального вещества и его метаболитов. Биотрансформация гидрофобных веществ, подготовка их к выведению заслуживают особенного внимания. При биотрансформации таких соединений реализуются биотрансформационные реакции, в результате которых порождаются реакционноспособные метаболиты (например, такой реакцией является реакция эпоксидирования). Реакционно-способные метаболиты способны к сильному, ковалентному взаимодействию с различными структурами организма. Образование реакционно-способных метаболитов при биотрансформации химических веществ и их побочное ковалентное связывание с молекулами и клетками организма являются основной причиной канцерогенности, мутагенности, токсического эффекта, аллергии и других заболеваний [11]. Характер процесса биотрансформации будем называть «стратегией».
Задача прогнозирования стратегии биотрансформации еще до генерации БС, на основе только структурной формулы начального химического соединения, либо совсем не ставится в существующих ЭС, предназначенных для прогнозирования путей биотрансформации, либо решается с помощью вычислительных методов. Между тем такой прогноз является чрезвычайно важным, поскольку он позволяет провести предварительную кластеризацию, скрининг веществ и выделить вещества, которые в процессе биотрансформации могут породить реакционно-способные метаболиты. Использование только вычислительных методов не дает информации о причинах того или иного эффекта, а, следовательно, может мало помочь исследователю, стремящемуся, например, модифицировать структурную формулу вещества с целью изменения стратегии его биотрансформации. С по-
www.idmz.ru 2006, №6
ГЧЯЯ
I Ы.МЯЯ
9 0 9
мощью же ДСМ-рассуждений порождаются фрагменты структурных формул веществ, являющиеся причинами порождения реакционно-способных метаболитов в процессе биотрансформации. Особо подчеркнем, что предлагаемый подход позволяет прогнозировать потенциальную возможность антипродуктивного действия (канцерогенность, мутагенность, токсичность) для каждого конкретного химического соединения. В настоящее время все химические соединения, относящиеся, например, к классам полициклических ароматических углеводородов (ПАУ) и нитрозоаминов, считаются потенциально опасными (непрямыми канцерогенами), хотя и среди них есть соединения, не порождающие реакционно-способных метаболитов в процессе биотрансформации. Подчеркнем, что порождение реакционно-способного метаболита в процессе биотрансформации является необходимым условием для наличия у вещества свойства канцерогенности, а, следовательно, если он не порождается, то свойство канцерогенности у вещества отсутствует (вне зависимости, например, от его дозы и способа введения [11]).
Порождение гипотез об образовании реакционно-способных метаболитов в процессе биотрансформации в ИС-ДСМ
Эксперимент 2. Прогноз образования реакционно-способных метаболитов при биотрансформации полициклических ароматических углеводородов (ПАУ). БФ (обучающая выборка) из работы Дьячкова П.Н. [18] содержала 53 соединения, из них 16 положительных примеров (вещество в процессе биотрансформации порождает реакционно-способный метаболит) и 37 отрицательных примеров (вещество в процессе биотрансформации не порождает ни одного реакционно-способного метаболита). В табл. 5 содержатся некоторые примеры из выборки, в табл. 6 - примеры структурных фрагментов, входящих в положительные и отрицательные гипотезы о порождении реакционно-способных метаболитов.
В работе Flesher J., Horn J., Lehner A. [19] на основе анализа экспериментальных данных о канцерогенности ПАУ экспертами были сформулированы пра-
Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
Примеры структурных фрагментов, входящих в положительные и отрицательные гипотезы о порождении реакционно-способных метаболитов
вила, связывающие фрагменты структурных формул ПАУ с эффектом их канцерогенности.
1. В молекуле высококанцерогенных веществ содержится антраценовая группа (три кольца). В этой группе есть только одно открытое мезо-положение (бенз(а)пирен). Могут быть две такие группы, эквивалентные по симметрии.
2. В молекуле среднеканцерогенных веществ содержится антраценовая группа (три кольца), в которой есть только одно открытое мезо-положе-
ние, но это положение стерически заблокировано расположенным под углом бензольным кольцом или в молекуле содержится антраценовая группа (три кольца), в которой открыты оба мезо-положения.
3. Слабоканцерогенные вещества содержат нафтаценовую группу: четыре линейно расположенных бензольных кольца, в которых открыты мезо-положения, но нет двух или больше L-областей, то есть двух открытых мезо-положений.
Анализ данных
4. Слабо- или неканцерогенные вещества содержат антраценовую группу (три кольца), в которой открыты оба мезо-положения (L-область), но одно из них заблокировано расположенным под углом бензольным кольцом или в молекуле содержатся две или больше L-областей.
Полученные с помощью ДСМ-метода гипотезы о порождении веществами реакционно-способных метаболитов в процессе биотрансформации совпадают с правилами, сформулированными экспертами.
Представление данных и знаний в ИС-ДСМ, прогнозирующей пути биотрансформации
В ИС-ДСМ по биотрансформации должны входить БФ для каждого из 800 биотрансформационных преобразований (см. примеры в табл. 3). Объекты в этих БФ - это структурные формулы химических соединений, представленные в виде множеств - наборов дескрипторов ФКСП - и/или в виде графов.
Проблемно-ориентированная часть базы знаний ИС-ДСМ по биотрансформации содержит:
♦ процедуры определения гидрофильности/ гидрофобности химических соединений для выявления небиотрансформирующихся химических соединений и определения стратегии биотрансформации;
♦ список биотрансформационных преобразований (см. примеры в табл. 3);
♦ гипотезы о необходимых и достаточных условиях прохождения реакций биотрансформации (множество гипотез пополняется в ходе работы ИС-ДСМ);
ЛИТЕРАТУРА
www.idmz.ru , UII 2006, №6 ^
9 0 9
♦ процедуры порождения структурных формул метаболитов по структурным формулам субстратов ферментов и биотрансформационным (реакционным) преобразованиям;
♦ процедуры завершения порождения пути БС: путь считается завершенным, если прошла реакция гидролиза, в результате которой был порожден реакционноспособный метаболит, водорастворимый метаболит (содержащий, например, функциональную группу COOH) и т.д.;
♦ гипотезы о свойствах БС (например, о наличии в ней реакционно-способных метаболитов).
Кроме этого, в БЗ ИС-ДСМ по биотрансформации входят вычислительные процедуры. Совместное использование ИАД (на основе сходства структур химических соединений) и вычислительных методов (например, методов квантовой химии) в ИС-ДСМ для прогнозирования путей и стратегий биотрансформации дает обоим подходам возможности верификации и фальсификации результатов. Для вычислительных методов порождаемые в результате ИАД-подхода гипотезы - причины явлений - предоставляют еще и интерпретацию результатов.
Процесс биотрансформации имитируется ДСМ-рассуждением и процедурами из проблемно-ориентированной части БЗ. В результате имитации образуется результат работы ИС-ДСМ - биотрансформационная сеть (БС) химического соединения в живом организме некоторого вида (в рассматриваемой версии - в организме абстрактного человека).
Подробнее об ИС-ДСМ, прогнозирующей пути биотрансформации, см. в других работах [20-24].
1. Панкратова Е.С. Пути развития ДСМ-системы в различных моделях канцерогенеза//НТИ. - Сер 2. -1993. -№ 1.-С.21-22.
2. Гусакова С.М., Панкратова Е.С. Принципы построения интеллектуальной системы типа ДСМ для прогнозирования канцерогенности химических веществ//НТИ. - Сер.2. - 1996. - № 11. - С. 16-20.
3. Путрин А.В., Панкратова Е.С. Программная реализация интеллектуальной системы типа ДСМ для распознавания химической канцерогенности//НТИ. - Сер.2. - 1997. - № 3. - С.8-11.
4. Chemical induction of cancer: structure basis and biological mechanisms//NJ. - 1982. - Vol. 3a. - 747 р.
5. Arcos J.C., Woo J.-T., Polansky G. Ranking of complex Chemical Mixtures for Potential Cancer HAZARD: Structure of Computerised System-An Outline//Environ.Sci. Hlth. - 1989. - Vol. C7. - №7. - Р.129-144.
Анализ данных
Мр
W-ЩШШ
kJH
I и информационные
технологии
6. ArcosJ.C., WooJ.-T., Lai DJ. Database of Binary combination Effects of Chemical Carcinogens//Environ. ! ^Carcino Reviws. Part C. J. Environ. Sci. Hlth. - 1989. -Vol. C6. - № 1. -164 p.
7. Панкратова E.C. Задача прогнозирования результирующего эффекта от введения в организм двух химических веществ и ее решение средствами ДСМ-системы//НТИ. - Сер.2. - 1995. - № 5.
8. Blinova V.G., Dobrynin D.A., Finn V.K., Kuznetsov S.О. and Pankratova E.S. Toxicology analysis by means of the JSM-method//Bioinformatics, 2003. - Vol. 19. - №10. - Р. 1201-1207.
9. Блинова В.Г., ДобрынинД.А.Язык ФКСП описания химической структуры соединения//НТИ. - Сер.2. - 2001. - № 6. - С.14-21.
10. Блинова В.Г., Добрынин ДА., Жолдакова З.И., Харчевникова Н.В. Изучение соотношений структура - токсичность спиртов с использованием ДСМ-метода//НТИ. - Сер.2. - 2001. - № 10. - С.13-19.
11. Ковалев И.Е., Полевая О.Ю. Биохимические основы иммунитета к низкомолекулярным химическим соединениям. - М.: Наука, 1985. - 304 с.
12. Boyer S., Zamora I. New methods in predictive metabolism//Journal of Computer-Aided Molecular Design. - 2002. - Vol. 16. - Р. 403-413.
13. Klopman G., Dimayuga M., TalafousJ. META 1. A Program for the Evaluation of Metabolic Transformation of Chemicals//J. of Chemical Information and Computer Sciences. - 1994. - Vol. 34. - № 6.
14. Talafous J, Sayre L.M., Mieyal J.J., Klopman G. META 2. A Dictionary Model of Mammalian Metabolism//J. of Chemical Information and Computer Sciences, 1994. - Vol. 34. - № 6.
15. Klopman G., Tu M., Talafous J. META 3. A Genetic Algorithm for Metabolic Transform Priorities Optimization//J. of Chemical Information and Computer Sciences. - 1997. - Vol. 37.
16. Spann M.L., Chu K.C., Wipke W.T., Ouchi G. Use of Computerized Methods to Predict Metabolic Pathways and Metabolites//J. Environ. Pathol. Toxicol. - 1978. - № 2.
17. Darvas F METABOLEXPERT: An expert system for predicting metabolism of substances//QSAR in Environmental Toxicology, 1987.
18. Дьячков П.Н. Квантово-химические расчеты в изучении механизма действия и токсичности чужеродных веществ//Итоги науки и техники. - Сер. Токсикология. - Т. 16. - М.: ВИНИТИ, 1990. -С.1-280.
19. Flesher J., Horn J., Lehner A. Molecular modeling of carcinogenic potential in polycyclic hydrocarbons// J. of Mol. Structure (Theochem). - 1996. - Vol. 362. - P.29-49.
20. Фабрикантова Е.Ф. Применение ДСМ-рассуждений для интеллектуального анализа данных и автоматического порождения гипотез о путях биотрансформации//НТИ. - Сер.2. - 2002. - № 2. - С.8-20.
21. Фабрикантова Е.Ф. Разработка средств представления знаний и архитектуры интеллектуальной системы для прогнозирования путей биотрансформации: Автореф. дис... канд. техн. наук. - М.: ВИНИТИ, 2002.
22. Фабрикантова Е.Ф., Матвеев А.А. Об интеллектуальной системе прогноза путей биотрансформа-ции//Симпозиум «Биоинформатика и компьютерное конструирование лекарств», VIII Российский национальный конгресс «Человек и лекарство», Москва, 4-5 апреля , 2001, Труды конференции, 2001.
23. Матвеев А.А., Фабрикантова Е.Ф. Алгоритмические и программные средства прогнозирования метаболизма//НТИ. - Сер.2. - 2002. - № 6. - С.26-34.
24. Бондарев К.Л., Фабрикантова Е.Ф. Разработка СУБД для регистрации и хранения данных об экспериментах в области физиологической активности веществ и их биотрансформации//НТИ. - Сер.2. -2002. - № 6. - С.45-51.