Научная статья на тему 'О возможности применения абсорбционной спектроскопии с использованием метода распознавания образов для идентификации растительных масел'

О возможности применения абсорбционной спектроскопии с использованием метода распознавания образов для идентификации растительных масел Текст научной статьи по специальности «Математика»

CC BY
122
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСТИТЕЛЬНОЕ МАСЛО / МЕТОД РАСПОЗНАВАНИЯ ОБРАЗОВ / ИДЕНТИФИКАЦИЯ / АБСОРБЦИОННАЯ СПЕКТРОСКОПИЯ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / PRINCIPAL COMPONENT ANALYSIS / EDIBLE OILS / ABSORPTION SPECTROSCOPY / IDENTIFICATION

Аннотация научной статьи по математике, автор научной работы — Конюшенко Игорь Олегович, Немец Валерий Михайлович, Стешенко Кирилл Николаевич, Егорова Наталья Ивановна

Статья посвящена вопросу идентификации сложных смесейуглеводородов — растительных масел — с использованием спектров как единых образов объектов. Показана возможность построения процедуры идентификации объектов группы растительных масел с использованием метода распознавания образов, основанного на проецировании образов объектов обучающего набора масел на плоскость первых двух главных компонент, оценке параметров распределенийплотностейбезусловнойвероятности для каждого из членов обучающейбазы и численном разбиении плоскости главных компонент на области, соответствующие отдельным членам обучающейбазы. Предложенныйметод, в отличие от метода, основанного на теории Байеса, отличается простотой и наглядностью, чему способствует использование двух главных компонент и статическийхарактер разбиения плоскости на области.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Конюшенко Игорь Олегович, Немец Валерий Михайлович, Стешенко Кирилл Николаевич, Егорова Наталья Ивановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Abilities of absorption spectroscopy and pattern recognition for identification of edible oils

The article attempts to identify such complex hydrocarbon mixtures, as edible vegetable oils. The spectra of oils are used as indivisible patterns of objects. It reveals the possibility to construct a procedure for identification of objects from group of edible oils. Absorption spectra in visible region are used as patterns of oils. The pattern recognition method includes calculation of the principal components for learning samples, reflection of the samples on the two principal components plane, estimation of probability density distributions parameters for each member of learning base, and partitioning of principal component plane on regions, corresponding to the members of learning base.

Текст научной работы на тему «О возможности применения абсорбционной спектроскопии с использованием метода распознавания образов для идентификации растительных масел»

УДК 543.42

Вестник СПбГУ. Сер. 4. 2013. Вып. 4

И. О. Конюшенко, В. М. Немец, К. Н. Стешенко, Н. И. Егорова

О ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ АБСОРБЦИОННОЙ СПЕКТРОСКОПИИ С ИСПОЛЬЗОВАНИЕМ МЕТОДА РАСПОЗНАВАНИЯ ОБРАЗОВ ДЛЯ ИДЕНТИФИКАЦИИ РАСТИТЕЛЬНЫХ МАСЕЛ

Введение. Одной из задач, связанных с контролем качества продуктов питания, является установление соответствия тестируемого пищевого продукта марке того или иного поставщика, т. е. его идентификация по производителю. Её решение направлено на выявление фальсифицированной продукции, а также продукции, произведённой с нарушением технологии или утратившей потребительские свойства в связи с неправильным или излишне продолжительным хранением и транспортировкой.

Рассматривая контроль пищевой продукции как задачу аналитической химии, следует отметить, что продукты питания в подавляющем большинстве являются объектами сложного молекулярного состава (ОСМС). Их идентификация по любому параметру является одной из наиболее сложных задач современной аналитической химии и во многих случаях не обладает необходимым уровнем достоверности. Сказанное выше в полной мере относится к классическому варианту спектроскопического решения задачи идентификации ОСМС и, в частности, пищевых продуктов, характеризующемуся необходимостью идентификации всех составляющих образец компонентов, нахождения их концентраций по характерным участкам спектра (масс-спектрометрического, оптического или хроматографического), применения адекватных стандартных образцов состава.

Такие исследования, как показано рядом авторов [1, 2], кроме того, всегда сложны, длительны и дорогостоящи. Ограничения классических спектроскопических подходов обусловлены, как правило, перекрытием отдельных элементов спектра (линий, полос, пиков), отвечающих различным компонентам. Это приводит к неразрешению перекрытых элементов спектра, что не позволяет с достаточной точностью установить концентрации соответствующих компонентов и тем самым идентифицировать объект в целом.

Снизить ограничения классического варианта спектроскопического подхода в решении задачи идентификации ОСМС возможно на основе использования методов распознавания образов. Такой подход состоит в использовании спектра, измеренного в широком диапазоне изменения характерного параметра (удельного заряда, времени удерживания или длины волны), как целостного характеристического образа объекта, который сопоставляется в аналитической системе с образами других ОСМС, полученными в тех же условиях, что и образ тестируемого. Его преимущества по отношению к классическому спектроскопическому подходу состоят в следующем.

Игорь Олегович Конюшенко — кандидат физико-математических наук, Санкт-Петербургский государственный университет; e-mail: [email protected]

Валерий Михайлович Немец — доктор технических наук, Санкт-Петербургский государственный университет; e-mail: [email protected]

Кирилл Николаевич Стешенко — студент, Санкт-Петербургский государственный университет.

Наталья Ивановна Егорова — кандидат физико-математических наук, Военная академия связи им. маршала Советского Союза С. М. Будённого.

© И. О. Конюшенко, В. М. Немец, К. Н. Стешенко, Н. И. Егорова, 2013

1. Не требуется обеспечение максимальной разрешающей способности спектрального прибора, необходимой при решении задачи определения концентраций многих компонентов.

2. Не требуются адекватные стандартные образцы состава. Их роль выполняют образцы ОСМС, для которых доказана принадлежность к определённым маркам (производителям).

3. Аналитическая система имеет предельно простую схему, допускает почти полную автоматизацию исследований.

Безусловно, необходимо понимать, что такой подход имеет свою нишу применения, в которой он проявляет себя наилучшим образом. В том, чтобы очертить эту нишу, состоит стратегическая задача исследований в этом направлении в целом.

Класс исследуемых объектов. В предлагаемой работе исследуются возможности локального решения задачи идентификации ОСМС на примере применения метода распознавания образов с использованием аналитической абсорбционной спектроскопии растительных пищевых масел. Как объект исследования растительные масла представляют интерес, являясь важным пищевым продуктом. Объекты этого класса различаются между собой по природе происхождения и по технологии производства, различной у каждого изготовителя. Имеющийся большой набор объектов (масел), схожих по составу и физико-химическим свойствам, создаёт благоприятную возможность изучить особенности метода распознавания образов применительно к решению задачи идентификации ОСМС на достаточно большой группе схожих между собой объектов. Поскольку растительные масла обладают значительным пропусканием в видимой области спектра, эта область и использовалась для получения характеристической информации, формирующей образы объектов.

Набор исследуемых масел включал 25 объектов, представленных подклассами по технологии производства — рафинированное и нерафинированное, либо по происхождению — подсолнечное, рыжиковое, горчичное, кукурузное или оливковое. Весь набор масел представлен в таблице.

Спектроскопические измерения и их результаты. Измерения спектров пропускания проводились на спектрофотометре СФ-56 (ОКБ «Спектр»), в диапазоне длин волн 300-1100 нм с шагом 1 нм при спектральной ширине щели 3 нм. Для статистической обработки результатов измерений проводились девятикратные независимые измерения спектров пропускания каждого образца растительного масла. Полный набор спектров пропускания, усреднённых по девяти независимым измерениям, приведён на рис. 1. Усреднение проводилось поточечно, так что усреднённая интенсивность пропускания в каждой точке спектра

где I — интенсивность г-го спектра в данной точке. Приведённые на рисунке результаты позволяют лишь в одном случае осуществить идентификацию на основе классического подхода путём обычного визуального сопоставления спектров по параметру рафинированное—нерафинированное, в частности, для подсолнечного масла. Обычное визуальное сопоставление спектров (рис. 2) позволяет надёжно осуществлять идентификацию, поскольку нерафинированные масла заметно выделяются значительным поглощением в синей области спектра. Более сложный характер носят спектры пропускания других масел (не подсолнечных), как это видно на рис. 3, на котором отдельно

г=1

Исследуемые масла

Группа Подгруппа Название Обозначение

Подсолнечное Рафинированное Altero Golden (07.2009) N20

Ideal (07.2009) N15

Ideal (08.2009) N8

Злато (08.2009) N16

Золотая семечка (09.2008) N1

Золотая семечка (01.2009) N3

Золотая семечка (08.2009) N11

Мил opa (07.2009) N17

Олейна (08.2009) N21

Слобода (08.2009) N12

Слобода (09.2009) N14

Нерафинированное Благо (10.2008) N6

Благо (11.2008) N9

Ярославна (08.2008) N13

Самодельное (08.2008) N25

Оливковое Carbonell N10

Iliada Kalamata Ideal N7

Carli N24

Extra Virgin Olive Oil N2

Кукурузное Аведовъ N18

Благо (04/09) N22

Затея (04/09) N5

Затея (07/09) N19

Другие Рыжиковое N4

Горчичное N23

100-,

80-

60-

u

S I

¡ 40-

^

с о а С

20 4

0

подсолнечные раф.

подсолнечные нераф.

оливковые

кукурузные

горчичные

рыжиковое

200

400

"1 1 Г" 600 800 Длина волны,нм

1000

1200

Рис. 1. Спектры пропускания масел, усреднённые по 9 независимым измерениям

100-1

80-

и 60-

я §

а •о

о 40-

а

С

20-

0

200

100

80

» 60-я

I

я а

о ^

о 40-

а

С

20

0

200

рафинированные «Благо» 10/2008 «Благо» 11/2008 «Ярославна» Самодельное

400

~~I 1 Г" 600 800 Длина волны,нм

1000

Рис. 2. Спектры пропускания рафинированных и нерафинированных подсолнечных масел

1200

оливковые кукурузное горчичное рыжиковое

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

400

"1 1 Г" 600 800 Длина волны, нм

1000

1200

Рис. 3. Спектры пропускания неподсолнечных масел

представлены спектры оливкового, кукурузного, рыжикового и горчичного масел. Все они обладают существенным поглощением в синей области, что позволяет отнести их к нерафинированным. Оливковые масла обладают яркими полосами поглощения

в красной области спектра. Это обстоятельство, вообще говоря, свидетельствует о возможности простой идентификации некоторых отдельных групп масел, однако требует дополнительных исследований. В целом же анализ полученных спектров показал, что детальная идентификация отдельных марок масла требует статистической обработки результатов спектроскопических измерений и, в частности, с использованием методов распознавания образов.

О методе распознавания образов. Наиболее распространёнными являются методы, базирующиеся на статистической теории Байеса и на искусственных нейронных сетях (ИНС). Статистический метод более «прозрачен» и теоретически обоснован, в то время как методы ИНС более перспективны, но менее изучены и зачастую слабо теоретически обоснованы.

В наших работах [3, 4] мы чаще использовали статистические методы распознавания в силу их лучшей наглядности. Статистический метод распознавания образов, основанный на теории Байеса, является, по существу, методом проверки гипотез, где в качестве гипотезы последовательно выступают предположения о принадлежности неизвестного образца, который необходимо идентифицировать, к одному из элементов обучающей базы данных. Такой базой данных в нашем случае выступает полная совокупность масел, представленная в таблице вместе с их спектрами. При этом производится поочерёдное вычисление плотностей условных вероятностей для всех гипотез и строится процедура классификатора, относящего неизвестный объект к одному из классов базы данных [5].

Рассмотрим возможность представления образов в двумерном статистическом пространстве. Трудность в этом случае состоит в существенной многомерности исходного пространства, в котором расположены образы веществ. Под размерностью образа, вообще говоря, понимается число факторов, или характерных признаков объекта. Используя значения этих характерных признаков как координаты, можно представить образ объекта как точку в статистическом пространстве. В нашем случае размерность спектра равна количеству точек спектра, в которых производится измерение интенсивности пропускания. Следовательно, размерность используемых образов равна 800.

Для обеспечения максимальной наглядности (визуализации) процедуры идентификации тестируемого объекта исходное многомерное статистическое пространство необходимо преобразовать в новое статистическое пространство, размерность которого была бы не более двух. Основное требование к такому преобразованию состоит в минимальной потере информации, составляющей образ. Осуществить его можно на основе метода главных компонент (МГК), базирующегося на поиске в статистическом пространстве исходной размерности (800 в нашем случае) таких направлений, вдоль которых различия между отдельными элементами обучающей базы максимальны [6]. Проекции координат образов на эти направления (главные компоненты) и будут координатами вектора-образа в новом пространстве. Выбирая удобное количество таких направлений, можно сократить размерность образов, сохранив при этом максимальное количество информации. МГК был применён к совокупности спектров масел из таблицы. Действительно, между всеми полученными 225 спектрами масел имеются различия, обусловленные двумя причинами. С одной стороны, это различия, вызванные экспериментальными случайными ошибками измерений и неоднородностью масла (внутри группы из девяти спектров одного масла). С другой стороны, они обусловлены составами масел. Поскольку процедура идентификации нацелена на поиск различия состава, система главных компонент строится по двадцати пяти усреднённым спектрам. Итог обработки спектров представлен на рис. 4, а, где образы всех 25 объектов представлены на плоскости главных компонент (двумерный случай). На рис. 4, б представлена часть

2

и

Рч

100 ■ 50 ■ 0

-50 ■ -100 ■ -150 ■ -200 -250 -300 ■

■ N1 « N2 о N3

* N4 4 N5 о N6

* N7 о N8 > N9

< N10 о N11 V N12

д N13 о N14 □ N15

ж N16 х N17 * N18

• N19 » N20 < N21

♦ N22 т N23 * N24

• N25

600 -500 -400

~~1—1—I—1—I—

-300 -200 -100 РС1

б

—I—1—I—1—I—

100 200 300

400

10

С2 -10

Р

-20

-30

-40

о о

Л

I" ■

%

< <

<0

< < <

1—1—I—1—I—1—I—1—I—1—I—1—I—1—I—1—I—1—I—1—I

200 220 240 260 280 300 320 340 360 380 400

РС1

Рис. 4. Проекция спектров масел на плоскость двух первых главных компонент (а)

область сгущения (б)

а

0

плоскости главных компонент в укрупнённом масштабе. Сопоставление рис. 1-3 и 4 позволяет убедиться в эффективности применения МГК для сокращения размерности образов.

Идентификация масел. МГК, являясь, по существу, лишь методом некоторого упрощения и визуализации сложных спектроскопических данных, сам по себе не может исполнить роль метода распознавания образов. Действительно, отображая на плоскость образ тестируемого объекта (наряду с образами объектов обучающей группы), весьма сложно сопоставить его положение с распределением на статистической плоскости образов объектов обучающей группы. Можно, например, воспользоваться евклидовыми расстояниями от точки тестируемого до точек обучающих объектов. Однако более наглядным способом идентификации является построение на плоскости совокупности областей, соответствующих объектам обучающей базы. Иными словами, полагаем, что каждой марке масла соответствует определённая замкнутая область на плоскости первых двух главных компонент. Построение такой системы областей позволит по образу тестируемого масла определить объект обучающей базы, которому оно соответствует и тем самым идентифицировать его.

Обсуждая вопрос о способе построения таких областей, прежде всего, примем, что при девятикратном измерении спектра пропускания одного объекта, точки (образы-векторы), соответствующие каждому измеренному спектру, ложатся на плоскость главных компонент по двумерному нормальному закону. Имея девять точек, можно оценить параметры нормальных распределений (математические ожидания и ковариационные матрицы) для всех двадцати пяти масел. Областью, соответствующей одной марке масла, будет та, в которой значение соответствующего ей распределения плотности вероятности максимально по сравнению с распределениями для остальных членов обучающей группы масел. Границы областей находятся численно с помощью математического алгоритма, в основе которого лежит представление статистической плоскости главных компонент совокупностью элементарных ячеек (численный аналог бесконечно малых элементов площади) и расчёт значений плотности вероятности для каждого из двадцати пяти распределений в центре каждой ячейки. Для этого, в первую очередь, производится оценка параметров распределений (обратная к ковариационной матрица А и математическое ожидание а). Далее определяется область пространства, внутри которой имеет смысл поиск границ, отделяющих области друг от друга. Для этого находится самое удалённое от общего центра совокупности всех масел (общий центр в системе главных компонент — это точка (0,0)) распределение, и рассматриваемая область ограничивается удвоенным расстоянием до центра этого распределения. Называем это расстояние Д/2, выделяем в пространстве квадрат со стороной 2Д и разбиваем этот квадрат на сетку с шагом с! (шаг выбирается из соображений скорости подсчёта и необходимой точности определения границ). В центре каждого элемента сетки вычисляется значение каждого из двадцати пяти распределений по формуле двумерного нормального распределения

где А — матрица, обратная к ковариационной матрице от распределения векторов внутри одного класса; х — центр каждого элемента сетки; а — центр распределения внутри одного класса.

Выбрав максимальное из всех полученных значений, относим данный элемент к соответствующей области, информация об этом сохраняется в таблице размерности 2К/й. Сравнивая соседние элементы этой таблицы, делаем вывод о том, является ли соответствующий элемент сетки точкой границы области или внутренней точкой области. Элементы, являющиеся точкой границы, отображаются на плоскости главных компонент, образуя законченную картину линий, разделяющих области, соответствующие элементам базы данных. В случае, когда набор известных масел задаётся таблицей, а взаимное расположение их спектров — на плоскости первых двух главных компонент (см. рис. 4), рассчитанные границы областей образуют картину, приведённую на рис. 5. Её характерной особенностью является наличие обширного пространства, не относящегося ни к одной из областей, — там, где значения оценённых плотностей вероятностей для каждого из распределений находились на уровне, близком к нулю.

Рис. 55. Границы областей, соответствующих маркам масла на плоскости первых двух ГК

Процедура идентификации неизвестного масла по отношению к базе данных выглядит следующим образом. Производится измерение спектра пропускания неизвестного образца в условиях, соответствующих условиям измерения спектров образцов из базы данных. Затем полученный спектр отображается на существующую плоскость главных компонент. Неизвестный образец объявляется с наибольшей вероятностью идентичным тому из известных, в чью область он попал. При попадании в незанятое пространство, не принадлежащее ни одному из известных, образец можно считать неопознанным, так как вероятность его принадлежности к известному чрезвычайно низка. Вопрос о расчёте погрешности процедуры идентификации должен в этом случае, по-видимому, решаться на основании расчёта ошибок первого и второго рода.

Выводы. Проведённые исследования показывают возможность надёжной идентификации растительных масел из рассмотренной в работе группы на основе применения абсорбционного оптического метода в сочетании с методом распознавания образов.

Работа в этом направлении будет продолжена.

Литература

1. Крылов А. И. Разработка и совершенствование методов идентификации и определения органических аналитов в пробах неизвестного состава: дис. ... д-ра хим. наук. СПб., 2012.

2. Савчук С. А. Новые методические подходы к контролю качества алкогольной продукции и к выявлению наркотических веществ в биологических средах хроматографическими и хромато-масс-спектрометрическими методами: дис. ... д-ра хим. наук. СПб., 2012.

3. Борисов В. Б., Киселёв А. М., Конюшенко И. О. и др. Исследование особенностей формирования и возможностей аналитического применения оптических спектральных образов жидких смесей сложных соединений // Вестн. С.-Петерб. ун-та. Сер. 4: Физика, химия. 2010. Вып. 1. С. 53-61.

4. Головин О. Е., КиселёвА. М., КонюшенкоИ. О. и др. Оценка достоверности результата при идентификации смесей органических соединений по оптическим спектрам с использованием распознавания образов // Мат. 8-й Всеросс. конф. по анализу объектов окружающей среды. Архангельск, 2011. С. 29.

5. Фукунага К. Введение в статистическую теорию распознавания образов / пер. с англ. М.: Наука, 1979. 367 с.

6. Дронов С. В. Многомерный статистический анализ. [Б. м.]: Изд-во Алт. гос. ун-та, 2003. 155 с.

Статья поступила в редакцию 29 апреля 2013 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.