Научная статья на тему 'Информационно-аналитическая система, предназначенная для конструирования химических соединений'

Информационно-аналитическая система, предназначенная для конструирования химических соединений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
107
20
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А В. Столяренко, В В. Подбельский

Доклад посвящен разработанной информационно-аналитической системы (ИАС), предназначенной для компьютерного конструирования неорганических соединений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информационно-аналитическая система, предназначенная для конструирования химических соединений»

Секция «Проектирование систем»

Информационно-аналитическая система, предназначенная

для конструирования химических соединений

А.В.Столяренко, В.В.Подбельский

Математическое обеспечение систем обработки информации и управления, Московский государственный институт электроники и математики

Телефон: 8-905-533-38-72

Доклад посвящен разработанной информационно-аналитической системы (ИАС), предназначенной для компьютерного конструирования неорганических соединений.

При конструировании еще не полученных соединений-аналогов [1] необходимо решить следующую задачу: найти совокупность химических элементов и их соотношение (т.е. качественный и количественный состав) для создания (при заданных внешних условиях) определенной пространственной молекулярной или кристаллической структуры соединения, позволяющей реализовать необходимые функциональные свойства. Эта задача конструирования новых неорганических соединений может быть сведена к обнаружению зависимостей между свойствами физико-химических систем, в том числе, свойствами соединений, и свойствами элементов, образующих эти системы.

Одной из трудностей, препятствующих широкому использованию систем прогнозирования для компьютерного конструирования неорганических веществ в химической практике, является довольно сложная методика работы с этими системами. Если поиск информации в базах данных обычно является достаточно простой операцией, то подготовка найденной информации для ее анализа с использованием системы искусственного интеллекта требует от пользователя определенной квалификации. Самым перспективным путем решения этой проблемы является создание ИАС, в которой автоматизирована подготовка данных для анализа, визуализация и отображение результатов прогнозирования, хранение полученных закономерностей и прогнозов для дальнейшего использования.

В состав ИАС входят база данных по свойствам неорганических соединений «Фазы», интегрированная с другими БД по свойствам веществ и материалов, база данных по свойствам химических элементов «Элементы», прогнозирующая подсистема, основанная на системе программ искусственного интеллекта, база знаний, подсистема визуализации и управляющий монитор.

В базе знаний (БЗ) хранятся уже полученные закономерности для различных классов неорганических соединений, которые могут использоваться для прогноза фаз и оценки их свойств, если в базе данных нет искомых сведений для конкретной физико-химической системы.

Монитор управляет всем вычислительным процессом и осуществляет интерфейс между всеми функциональными подсистемами, а также теледоступ к системе из сети Интернет. Помимо этого, он следит за тем, чтобы новые экспериментальные данные не противоречили прогнозирующим закономерностям. Такое противоречие он снимает путем переобучения ЭВМ с использованием дополнительных новых данных с последующим занесением обновленной закономерности в БЗ.

Рассмотрим этапы компьютерного конструирования с применением разработанной ИАС (рис. 1).

Первый этап (1) компьютерного конструирования новых соединений - это экспертный анализ информации баз данных по свойствам материалов для электроники и выбор соединений-прототипов. Соединение-прототип - это соединение с уже известными функциональными свойствами, которое используется или перспективно для использования в практической деятельности. Данные о свойствах этого соединения (или соединений) берутся из специализированных БД: Диаграмма, Кристалл и Бапд§ар [2], в которых содержится информация о функционально важных для электроники свойствах веществ. Пусть на основе анализа информации БД «Бапд§ар» и «Диаграмма» для уже используемых соединений-прототипов БЫ383, ТЪСи383, ОаК38е3 были отобраны тройные полупроводниковые соединения-аналоги: АБ3Х3 (X = 8, 8е, Те).

Следующий этап (2) компьютерного конструирования - это выбор в базе данных по свойствам неорганических соединений «Фазы» [3] информации об отобранных в пункте (1) аналогах соединений-прототипов по составу и/или типу кристаллической структуры.

Рис. 1. Этапы компьютерного конструирования с применением ИАС

Соединение-аналог - это известное или неизвестное соединение, близкое по составу или кристаллической структуре соединению-прототипу. Оно может не иметь никаких полезных свойств, а может и иметь. Выбор сведений о соединениях-аналогах необходим для того, чтобы эти сведения позволили «обучить» программы распознавания. Обучение ЭВМ - это процесс разделения объектов на альтернативные классы. Для обучения нужны данные о следующих группах соединений: соединения, полностью аналогичные соединению-прототипу, например, по кристаллической структуре, частично аналогичные, например, только составу, и полностью альтернативные, например, системы, в которых соединение такого состава, вообще, не образуется при определенных условиях.

Например, для упомянутых выше соединений состава АБ383 (А и В - здесь и далее различные химические элементы), в БД «Фазы» запрашивается информация об известных системах с серой, в которых образуются соединения прогнозируемого

состава, и о системах, в которых при нормальных условиях такие сульфиды не обнаружены. Соответственно системы, в которых не образуются сульфиды, образуют альтернативные классы, а системы с образованием соединений - целевой класс.

Каждое химическое соединение описывается в памяти машины в виде набора значений свойств химических элементов (3), входящих в его состав. Данные о свойствах элементов извлекаются из БД «Элементы». Как правило, используется множество самых различных свойств элементов и/или их простых соединений. Результатом этого этапа является матрица, строки которой содержат описания систем в терминах свойств элементов и/или их простых соединений и указания об их принадлежности к тому или иному классу систем (в нашем примере - к классам систем с образованием и без образования соединений состава АБ383).

После предварительной обработки матрицы (например, удаления малоинформативных признаков и заполнения оставшихся в матрице пробелов) осуществляется процесс обучения (4). Используются простые и коллективные методы обучения. Методы получения коллективных решений позволяют объединять исходные алгоритмы распознавания и получать некоторый новый алгоритм. Предполагается, что он будет сочетать в себе достоинства исходных методов и компенсировать недостатки каждого из них. Вообще говоря, коллектив методов распознавания менее подвержен случайным флуктуациям и, таким образом, является более устойчивым. [4]

На заключительном этапе (5) в найденную в результате обучения закономерность подставляются наборы значений свойств элементов - компонентов еще неисследованных систем, и исследователь получает прогноз, будет ли образовываться в данной системе соединение заданного состава или нет.

Результаты прогнозирования оформляются в виде таблицы. На рисунке 2 показаны результаты прогнозирования для описанного выше примера по прогнозированию образования соединений АБ383 (применен метод «линейная машина»). В таблице по горизонтали расположены элементы «Б», а по вертикали элементы «А» из формулы соединения АБ383. В ячейке таблицы на пересечении столбца и строки выводится прогноз для соответствующего тройного химического

соединения. После символа # указывается значение из обучающей выборки, если соединение в ней присутствовало.

Рис. 2. Пример результатов прогнозирования (Образуется-1, Не образуется -2)

Полученные закономерности и уже готовые прогнозы могут сохраняться в Базе знаний для дальнейшего использования в ИАС (6).

Достоинства разработанной ИАС состоят в следующем.

В искомую зависимость можно включить любое количество свойств компонентов (химических элементов или более простых соединений) или функций от этих свойств. При этом ИАС исключает те свойства, которые не влияют на классификацию. Таким образом, разработчик критериев избавляется от трудоемкого процесса отбора свойств компонентов для включения в искомую закономерность.

Хранение классифицирующих закономерностей и прогнозов, а также возможность быстрой коррекции их при появлении новых экспериментальных данных, не подчиняющихся существующим результатам; ИАС снабжена средствами визуализации, позволяющими отображать любую проекцию или сечение многомерного пространства свойств компонентов (рис. 3).

©

®

©

®

1.00

2473,00

24-73,00 2734,20 2995,40 3256,60 3517,80 | 3598,42, Q71 +040.20

3517,80

Рис. 3. Диаграмма распределения соединений

Таким образом, предложенный компьютерный подход превращает процесс разработки эмпирических классифицирующих закономерностей из задачи, решение которой выполняется, в основном, специалистами очень высокой, в технологию, доступную любому специалисту.

При создании ИАС используются следующие инструментальные средства: СУБД MS SQL Server 2000, языки программирования C++, Microsoft C# .NET, JavaScript, VBScript, технология Active-X.

Особенностью программной реализации ИАС является то, что клиентская часть полностью построена на базе Web-интерфейса. То есть пользователи работают с ИАС посредством Web-браузера. Таким образом, пользователю не нужно устанавливать на свой компьютер никаких программ и настраивать их. Также необходимо реализовать возможность добавления новых информационных систем и программ анализа данных в ИАС, то есть система дожна быть легко расширяемой. Для этого необходимо разработать механизм взаимодействия систем анализа данных с ИАС, а также принцип предоставления этими программами доступа к их внутренней функциональности, то есть

организовать интерфейс взаимодействия этих программ анализа данных с ИАС.

При разработке ИАС применение Web-сервисов обусловлено следующими факторами. Пользователи должны иметь возможность запуска длительных серверных процессов. Время выполнения процессов может достигать десятков минут. Процессы могут по желанию пользователя объединяться в цепочки, в которых отдельные процессы выполняются последовательно. Управление запуском и контроль за ходом

выполнения процессов должны осуществляться через Web-интерфейс. При этом отключения от сервера, например, выключение браузера или переход на произвольный адрес, не должны прерывать выполняемые процессы, а при повторном подключении к странице управления должно показываться текущее состояние процессов. Следовательно непосредственное управление процессами должно быть реализовано в виде Web-сервиса, т.к. в перспективе возможно построение альтернативных клиентских интерфейсов (в т.ч. и Windows-программ) или встраивание разработанной функциональности в другие прикладные программы.

Список литературы

1. Киселева Н.Н. Компьютерное конструирование неорганических соединений. Использование баз данных и методов искусственного интеллекта. М.: Наука. 2005. -288 с.

2. N.N. Kyselyova, V.A.Dudarev, A.V.Stolyarenko. The distributed system of databases on properties of Inorganic substances and materials. Int.J."Information Theories & Applications". 2005. V.12. P.21-27.

3. Киселева Н.Н., Подбельский В.В., Столяренко А.В., Мурат Д.П., Дударев

B.А., Земсков В.С. База данных по свойствам по свойствам тройных неорганических соединений «Фазы» в сети Интерет как основа компьютерного конструирования новых материалов. Журнал Информационные ресурсы России, 2006, N.4, с.21-23.

4. Журавлев Ю.И. Корректные алгебры над множеством некорректных (эвристических) алгоритмов. I-III // Кибернетика. Киев. 1977. №4. С. 14-21; 1977. №6.

C. 21-27; 1978. №2. С. 35-43.

i Надоели баннеры? Вы всегда можете отключить рекламу.