Научная статья на тему 'Методы интеллектуального анализа данных при создании баз знаний'

Методы интеллектуального анализа данных при создании баз знаний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
689
180
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ / БАЗА ЗНАНИЙ / ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / DATA MINING / KNOWLEDGE BASE / ARTIFICIAL NEURAL NETWORKS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Абруков Виктор Сергеевич, Абруков Сергей Викторович, Смирнов Александр Вячеславович, Карлович Елена Валерьевна

Представлена методология создания баз знаний с помощью методов интеллектуального анализа данных. Под базой знаний понимается информационно-аналитическое и вычислительное средство, которое содержит в себе все связи между всеми переменными объекта, позволяет вычислять значения одних переменных через другие, определять первые и вторые производные экспериментальных зависимостей, решать как прямые, так и обратные задачи, прогнозировать характеристики и свойства еще не исследованных объектов, параметры технологического процесса для получения объекта с требуемыми характеристиками. Представлены результаты создания базы знаний экспериментальных результатов в области нанотехнологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Абруков Виктор Сергеевич, Абруков Сергей Викторович, Смирнов Александр Вячеславович, Карлович Елена Валерьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA MINING TECHNIQUES AS MEANS OF CREATING KNOWLEDGE BASES

The article presents a methodology of creating knowledge bases by means of data mining. Knowledge Base is understood as an information-analytical and computational tool that contains all the relationships between all the variables of the object, allows to calculate the values of certain variables by means of the others, to determine the first and second derivatives of the experimental dependences, to solve both direct and inverse problems, to predict the characteristics and properties of objects which have not yet been investigated, to predict parameters of technological process for receiving an object with the required characteristics. It also contains the findings concerning creating the knowledge base of the experimental results in the field of nanotechnology.

Текст научной работы на тему «Методы интеллектуального анализа данных при создании баз знаний»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 004.89 ББК 32.973-018

В С. АБРУКОВ, С В. АБРУКОВ, А.В. СМИРНОВ, Е В. КАРЛОВИЧ

МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ СОЗДАНИИ БАЗ ЗНАНИЙ*

Ключевые слова: методы интеллектуального анализа данных, data mining, база знаний, искусственные нейронные сети.

Представлена методология создания баз знаний с помощью методов интеллектуального анализа данных. Под базой знаний понимается информационно-аналитическое и вычислительное средство, которое содержит в себе все связи между всеми переменными объекта, позволяет вычислять значения одних переменных через другие, определять первые и вторые производные экспериментальных зависимостей, решать как прямые, так и обратные задачи, прогнозировать характеристики и свойства еще не исследованных объектов, параметры технологического процесса для получения объекта с требуемыми характеристиками. Представлены результаты создания базы знаний экспериментальных результатов в области на-нотехнологий.

V. ABRUKOV, S. ABRUKOV, A. SMIRNOV, E. KARLOVICH DATA MINING TECHNIQUES AS MEANS OF CREATING KNOWLEDGE BASES Key words: data mining, knowledge base, artificial neural networks. The article presents a methodology of creating knowledge bases by means of data mining. Knowledge Base is understood as an information-analytical and computational tool that contains all the relationships between all the variables of the object, allows to calculate the values of certain variables by means of the others, to determine the first and second derivatives of the experimental dependences, to solve both direct and inverse problems, to predict the characteristics and properties of objects which have not yet been investigated, to predict parameters of technological process for receiving an object with the required characteristics. It also contains the findings concerning creating the knowledge base of the experimental results in the field of nanotechnology.

Введение. Есть несколько важных, на наш взгляд, вопросов, связанных с обработкой, анализом и моделированием экспериментальных данных независимо от того, в какой области науки и техники они получены. Эти вопросы следующие:

- как лучше обобщить экспериментальные данные?

- можно ли их обобщить так, чтобы можно было решать как прямые, так и обратные задачи?

- можно ли их обобщить так, чтобы иметь возможность прогнозировать результаты еще не проведенных экспериментов и определять технологии получения объекта с заранее заданными свойствами?

Есть также другие вопросы: как повысить ценность конкретного эксперимента, как увеличить точность определения первых и вторых производных от экспериментальных зависимостей, как лучше представить эксперимен-

* Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 13-02-97071, р_поволжье_а.

тальные результаты (в том числе результаты численных экспериментов) научной общественности.

Мы считаем, что все эти вопросы можно решить с помощью создания базы знаний. Под базой знаний в области естественных и технических наук мы понимаем информационно-аналитическое и вычислительное средство, которое:

- содержит в себе все связи между всеми переменными объекта;

- позволяет вычислять значения одних переменных через другие;

- позволяет определять первые и вторые производные экспериментальных зависимостей;

- позволяет решать как прямые, так и обратные задачи;

- позволяет прогнозировать характеристики и свойства еще не исследованных объектов;

- позволяет прогнозировать параметры технологического процесса для получения объекта с требуемыми характеристиками.

В данной работе представлены результаты применения методов интеллектуального анализа данных - Data Mining (DM), и в частности искусственных нейронных сетей (ИНС), для создания базы знаний экспериментальных результатов из области нанотехнологий.

Методология. Data Mining в широком понимании этого термина представляет собой комплекс современных средств обработки информации (экспериментальных данных), ее анализа и моделирования. DM включает в себя различные инструменты предобработки данных - очистки (выявление аномалий в данных, выявление дубликатов и противоречий); инструменты предварительного анализа данных (факторный и корреляционный анализ, спектральный анализ), инструменты моделирования (линейная и логическая регрессии, деревья решений, искусственные нейронные сети, самоорганизующиеся карты Кохонена, ассоциативные правила).

В целом - это комплекс методов «обнаружения нетривиальных, практически полезных знаний» в таблицах, базах данных (не путать с базой знаний!), которые широко используются при решении финансовых и экономических задач за рубежом. Интересно отметить, что, по данным литературных источников, 50 из 100 крупнейших банков США уже используют аналитические системы, основанные на этих методах, 50 - планируют внедрить их. Они используются также и в России, например, в отделах Business Intelligence некоторых крупных фирм или в медицине - при диагностике заболеваний, но в значительно меньшем объеме.

Среди средств Data Mining можно особо отметить искусственные нейронные сети (ИНС). ИНС - это уникальный инструмент аппроксимации экспериментальных функций нескольких переменных, и он играет главную роль в создании многофакторных вычислительных моделей экспериментальных данных. В основе их применения лежит теорема известных советских математиков Колмогорова и Арнольда, адаптированная применительно к ИНС теоремой Хехт-Нильсена. ИНС позволяют использовать разнородные (как качественные, так и количественные) данные, «непредставительные» (неполные) выборки, анализировать сильно нелинейные связи. ИНС являются в настоящее время единственным средством аппроксимации многомерных экспериментальных функций с числом переменных более двух.

ИНС имеют преимущества по сравнению с классическими математическими методами вычислений в трех случаях:

1. Когда задача не может быть адекватно формализована, так как она содержит неопределенности (например, нет возможности формализовать задачу даже в виде дифференциального уравнения).

2. Когда задача может быть формализована, но не существует математического аппарата для ее решения (примеры - уравнение Шредингера, уравнение распространения волны горения).

3. Когда задача может быть формализована и есть математический аппарат для ее решения, но осуществление расчетов с помощью доступных вычислительных систем не отвечает требованиям к решению задачи по каким-либо параметрам (например, по времени вычислений, что важно для автоматических систем управления).

Модели характеристик наноматериалов. Наши ИНС-модели основаны на экспериментах по исследованию электрофизических и оптических характеристик наноплёнок линейно-цепочечного углерода (ЛЦУ) с внедрёнными в них атомами металлов и неметаллов (ЛЦУА). Впервые пленки ЛЦУА были получены в Чувашском государственном университете, в межвузовской (ЧГУ-МГУ) лаборатории высоких технологий [3-7], с использованием запатентованной технологии и различных ноу-хау. Они могут представлять большой интерес для элементов твердотельной электроники, фотодатчиков, сенсоров, медицинских приложений и т.д. Примеры применения ИНС в фундаментальных и прикладных исследованиях приведены в [1, 2].

Рассмотрим, как мы проводили моделирование.

Пример использованных данных представлен на рис. 1 (скриншот аналитической платформы Loginom Studio, содержащей все средства Data Mining - см. www.basegroup.ru). Для моделирования были взяты следующие данные: Number of an element 1 и Number of Group of element 1(номер и группа атомов согласно периодической таблице элементов Менделеева, внедренных первыми в пленки ЛЦУ), Number of an element 2 и Number of Group of element 1 (номер и группа атомов согласно периодической таблице элементов Менделеева, внедренных вторыми в пленки ЛЦУ), LCC Film thickness (толщина пленки ЛЦУ), Voltage V (напряжение в вольтах), Current A (электрический ток в амперах).

Рис. 1. Пример данных, использованных для создания модели «Вольт-амперная характеристика пленок ЛЦУА»

Затем была выбрана соответствующая собранной базе данных архитектура ИНС (рис. 2) и проведено ее обучение. Обучение заключалось в том, что различные наборы данных всех столбцов, кроме «Current», подавались на входной слой ИНС (входные данные), а соответствующие значения «Current» устанавливались в выходном слое ИНС и с помощью известного метода обучения ИНС - метода «обратного распространения ошибки» - создавалась вычислительная ИНС-модель, позволяющая определять (прогнозировать) значение «Current» и строить графики зависимости «Current» от любой из входных характеристик.

Рис. 2. Архитектура искусственной нейронной сети -многофакторной вычислительной модели вольт-амперных характеристик пленок ЛЦУА,

решающей прямую задачу.

На черном фоне слева - факторы, определяющие значение электрического тока

Полученная модель используется следующим образом: вводятся значения факторов, и ИНС-модель мгновенно выдает прогноз значения электрического тока и график зависимости тока от любого из факторов. Примеры представлены на рис. 3-6.

Рис. 3. Экран многофакторной вычислительной модели

«Вольт-амперная характеристика пленки ЛЦУА» для случая внедрения атомов кадмия (48) и теллура (52). Над графиком - набор конкретных значений факторов и вычисленное значение тока

Рис. 4. Архитектура искусственной нейронной сети - многофакторной вычислительной модели вольт-амперных характеристик пленок ЛЦУА, решающей обратную задачу

Рис. 5. Экран многофакторной вычислительной модели решения обратной задачи -определение того, какой дополнительно элемент надо внедрить в пленку ЛЦУА, чтобы получить требуемое значение тока при заданном напряжении (в зависимости от толшины пленки ЛЦУ)

Рис. 6. Экран многофакторной вычислительной модели «Вольт-амперная характеристика пленки ЛЦУА» для случая внедрения атомов лития (3) и астата (85). Этот результат -прогноз эксперимента (для этих атомов реальный эксперимент не проводился)

Выводы. Аналогичные результаты получены нами для спектров пропускания из материалов на основе ЛЦУА и для «фотодатчиков» на основе ЛЦУ (создавались различные сэндвичи из ЛЦУ и пленок серебра, кадмия, меди и никеля в различных сочетаниях).

Совокупность всех этих моделей можно представить, как базу знаний характеристик наноматериалов на основе ЛЦУ, которая:

- содержит в себе связи между переменными объекта;

- позволяет вычислять значения одних переменных через другие;

- позволяет решать как прямые, так и обратные задачи;

- позволяет прогнозировать характеристики и свойства еще не исследованных объектов;

- позволяет прогнозировать параметры технологического процесса для получения объекта с требуемыми характеристиками.

Эти модели пока не позволяют определять первые и вторые производные экспериментальных зависимостей, эта задача будет решаться в ближайшем будущем.

Мы приглашаем к сотрудничеству всех, кто заинтересован в создании «локальной» базы знаний своих экспериментальных результатов.

Литература

1. Абруков С.В., Смирнов А.В. Создание базы знаний - новое направление исследований наноматериалов и нанотехнологий // Вестник Чувашского университета. 2013. № 3. С. 52-56.

2. Абруков В.С., Абруков С.В., Карлович Е.В., Семенов Ю.В. База знаний процессов горения: будущее мира горения // Вестник Чувашского университета. 2013. № 3. С. 46-52.

3. Кочаков В.Д., Новиков Н.Д. Интеркалирование серебра в пленку линейно-цепочечного углерода // Вестник Чувашского университета. 2007. № 2. С. 20-25.

4. Кочаков В.Д., Новиков Н.Д. Углеродная электроника // Вестник Чувашского университета. 2007. № 2. С. 25-28.

5. Кочаков В.Д., Новиков Н.Д., Васильев А.И., Смирнов А.В. Элементы электроники на основе пленок линейно-цепочечного углерода // Вестник Чувашского университета. 2011. № 3. С. 194-197.

6. Краснова А.Г., Кокшина А.В., Белова А.В., Кочаков В.Д. Исследование взаимодействия bSe с углеродом в состоянии Spl // Вестник Чувашского университета. 2012. № 3. С. 46-47.

7. Пат. 2360036 РФ, МПК С2ЗС 26/00, С2ЗС 14/06, С2ЗС 14/32, В82В 3/00. Способ получения углеродного наноматериала, содержащего металл / Кочаков В.Д., Новиков Н.Д.; заявитель и патентообладатель. Чуваш. гос. ун-т. № 2007139182/02; заявл. 22.10.2007; опубл. 27.06.2009, Бюл. № 18. 11 с.

References

1. Abrukov S.V., Smirnov A.V. Sozdanie bazy znanii - novoe napravlenie issledovanii nano-materialov i nanotekhnologii [Creation of the knowledge base is a new research direction of nanoma-terials and nanotechnologies]. Vestnik Chuvashskogo universiteta, 2013, no. 3, pp. 52-56.

2. Abrukov V.S., Abrukov S.V., Karlovich E.V., Semenov Yu.V. Baza znaniiprotsessov gore-niya: budushchee mira goreniya [The knowledge base of the combustion processes is a future of the combustion world]. Vestnik Chuvashskogo universiteta, 2013, no. 3, p. 46-52.

3. Kochakov V.D., Novikov N.D. Interkalirovanie serebra v plenku lineino-tsepochechnogo ugleroda [Intercalation of silver into film of linear-chain carbon]. Vestnik Chuvashskogo universiteta, 2007, no. 2, pp. 20-25.

4. Kochakov V.D., Novikov N.D. Uglerodnaya elektronika [Carbon electronics]. Vestnik Chuvashskogo universiteta, 2007, no. 2, pp. 25-28.

5. Kochakov V.D., Novikov N.D., Vasil'ev A.I., Smirnov A.V. Elementy elektroniki na osnove plenok lineino-tsepochechnogo ugleroda [Electronic elements on the basis of films of linear-chain carbon]. Vestnik Chuvashskogo universiteta, 2011, no. 3, pp. 194-197.

6. Krasnova A.G., Kokshina A.V., Belova A.V., Kochakov V.D. Issledovanie vzaimodeistviya PbSe s uglerodom v sostoyanii Sp1 [Investigation of the interaction with carbon PbSe able Sp1]. Vestnik Chuvashskogo universiteta, 2012, no. 3, pp. 46-47.

7. Kochakov V.D., Novikov N.D. Sposob polucheniya uglerodnogo nanomateriala, soderz-hashchego metall [The method of creation of carbon nanomaterial containing metal]. Patent RF, no. 2360036, 2009.

АБРУКОВ ВИКТОР СЕРГЕЕВИЧ - доктор физико-математических наук, профессор, заведующий кафедрой прикладной физики и нанотехнологий, Чувашский государственный университет, Россия, Чебоксары (abrukov@yandex.ru).

ABRUKOV VIKTOR - doctor of physics and mathematical sciences, professor, head of Applied Physics and Nanotechnology Chair, Chuvash State University, Russia, Cheboksary.

АБРУКОВ СЕРГЕЙ ВИКТОРОВИЧ - младший научный сотрудник кафедры прикладной физики и нанотехнологий, Чувашский государственный университет, Россия, Чебоксары (abrukovs@yandex.ru).

ABRUKOV SERGEY - junior researcher of Applied Physics and Nanotechnology Chair, Chuvash State University, Russia, Cheboksary.

СМИРНОВ АЛЕКСАНДР ВЯЧЕСЛАВОВИЧ - инженер кафедры прикладной физики и нанотехнологий, Чувашский государственный университет, Россия, Чебоксары (fizteh21@yandex.ru).

SMIRNOV ALEXANDER - engineer of Applied Physics and Nanotechnology Chair, Chuvash State University, Russia, Cheboksary.

КАРЛОВИЧ ЕЛЕНА ВАЛЕРЬЕВНА - младший научный сотрудник кафедры прикладной физики и нанотехнологий, Чувашский государственный университет, Россия, Чебоксары (lenkabuzuluk@yandex.ru).

KARLOVICH ELENA - junior researcher of Applied Physics and Nanotechnology Chair, Chuvash State University, Russia, Cheboksary.

i Надоели баннеры? Вы всегда можете отключить рекламу.