Вестник технологического университета. 2015. Т.18, №10 УДК 663.95:658.562.012.7
Н. Н. Умарова, З. Х. Ибрагимова, М. И. Евгеньев
ОЦЕНКА КАЧЕСТВА ЧАЯ ПО РЕЗУЛЬТАТАМ МНОГОМЕРНОГО АНАЛИЗА
Ключевые слова: чай, анализ многомерных данных.
Многомерный анализ данных по содержанию ряда химических элементов, антиоксидантов, цены, способа обработки, страны-производителя в 17 образцах пакетированных и листовых образцов чая показал, что пакетированные чаи содержат большее количество токсичных веществ (свинца и кадмия), чем листовые. Эта связь обнаружена при изучении без фактора «цена». Поэтому скрытой переменной является «способ обработки», связанной с наличием или привнесением загрязнений в процессе обработки чая. Выявлена зависимость между содержанием антиоксидантов и листовым чаем. Это не сказывается по цене, поскольку главные компоненты взаимно ортогональны. Факторный анализ выделил 5 групп факторов, независимых друг от друга (токсичные и эссенциальные элементы, антиоксиданты). Установлена корреляция Ni - Mn - Pb, Cu - Zn, Co -Na, Fe - Cr, витамин С - таниды. Некоторые корреляции требуют дальнейшего изучения.
Key words: tea, multivariate data analysis.
Multivariate data analysis of the content of a number of chemical elements, antioxidants, price, method ofprocessing, manufacturing country in the 17 samples of packaged and leaf teas showed that packaged teas contain large amounts of toxic substances (lead and cadmium) than the sheet. This link is found in the study without the factor "price". Therefore, a hidden variable "processing method" associated with or introducing contamination during processing of tea. The dependence between antioxidants and leaf tea. It has no effect for as low as principal components are mutually orthogonal. Factor analysis identified five groups offactors, independent of each other (toxic and essential elements, antioxidants). A correlation Ni - Mn - Pb, Cu - Zn, Co - Na, Fe - Cr, vitamin C - tannins. Some correlations require further study.
Чай - один из наиболее распространенных напитков у народов, населяющих нашу планету. Высокий спрос на чай приводит к расширению географии распространения чайного растения и увеличению чаепроизводящих стран. В качестве товара чай представляет собой продукт биохимических и физико-химических превращений молодых верхушечных побегов чайного растения (флешей) в процессе их переработки.
Чай является богатым источником минеральных веществ. Биологические ценные вещества чая оказывают антиокислительное действие на жировой и холестериновый обмен.
Целью работы является определение качества чая по результатам хемометрического анализа.
Для исследования были взяты результаты анализа чая, опубликованные в работах [1,2], где было представлено содержание ряда химических элементов, аскорбиновой кислоты, дубильных веществ и флавоноидов. Содержание антиоксидантов полифенольной природы в них определялось методом высокоэффективной жидкостной хроматографии, элементного состава проводилось методом атомно-абсорбционной спектрометрии. Наличие и количественное содержание аскорбиновой кислоты определялось методами, принятыми в биохимии [1,2]. Исследуемые марки чая приведены в табл. 1.
Результаты анализа были собраны в таблицу (рис. 1), состоящую из 17 строк (образцов чая) и 17 столбцов, представляющих собой содержание следующих токсичных и эссенциальных элементов (мг/кг): Си, N1, Мп, гп, Бе, Сг, Со, С4 РЬ, №, а также антиоксидантов - витамина С, флавоноидов, танидов. Кроме того, для полноты анализа были добавлены такие факторы, как цена, способ обработки (или технология обработки), страна-производитель. При этом переменная «способ обра-
ботки» чая была закодирована как: 0 - чай крупнолистовой, 1 - мелколистовой, 2 - гранулированный,
Таблица 1 - Наименование исследуемых марок чая и коды, присвоенные при анализе
Страна-
Наименование производитель Код
чай черный байховый пакетиро- Индия Б.п.
ванный «Беседа»
чай зеленый пакетированный Китай ЗД п.
«Зеленый дракон»
чай зеленый байховый пакетиро- Китай А. п.
ванный «Акбар»
чай зеленый пакетированный Китай Âh п.
«Ахмад»
чай черный байховый пакетиро- Индия ПН п.
ванный «Принцесса Нури»
чай черный байховый гранулиро- Индия ЗЧ г.
ванный «Золотая Чаша»
чай зеленый байховый листовой Китай Âh л.
«Ахмад»
чай черный байховый крупнолис- Индия ПН кл
товой «Принцесса Нури» Пекое
чай черный байховый крупнолис- Индия Р1 кл
товой «Ристон»
чай черный байховый мелколис- Индия Р2 л.
товой «Ристон»
чай черный «Азерчай» Астары Азербайджан Âz1
чай зеленый крупнолистовой Китай С кл.
развесной «Сен-ча»
чай черный крупнолистовой «Howеry ога^е Рекое», «Цейлон- Индия ЦЩ кл.
ский щеголь»
чай черный крупнолистовой «БПтаЬ» Индия Dh кл.
чай черный крупнолистовой байховый «Акбар» Китай А кл.
чай черный «Азерчай» Ленкорани Азербайжан Âz 2
чай зеленый «Азерчай» Ленкора- Азербайжан Âz 3
ни
3 - пакетированный. Переменная «страна-производитель» чая была закодирована как: 0 - Индия, 1 - Китай, 2 - Азербайджан.
1 вит. С 2 3 4 Си 5 № 6 Мп 7 1п 8 Мд 9 Ре 10 Сг 11 Со 12 С6 13 РЬ 14 N3 15 цена 16 17
1 14,2 3 10,1 0,16 0,38 0,2 4.01 3,41 5,6 0,15 0.07 0,07 0,13 0,42 34 3 0
2 144 3.8 9 0,1 0,25 0,11 4.78 3,01 0,61 0,17 0,09 0.08 0,06 1,61 30 3 1
3 13 3.2 10.7 0.13 0.12 0.12 5.6 1 4.3 0.1 0.02 0.01 0.04 0.2 35 3 1
4 13.6 2.8 11 0.04 0,08 0.13 1.23 0.9 1.72 0,02 0.04 0.08 0.08 0.8 43 3 1
5 15,6 2,3 13,1 0,14 0,26 0,15 4.23 1,11 7,02 0,11 0,02 0,13 0,07 0,2 40 3 0
6 20,3 2.9 15,6 0,17 0,15 0,13 3,42 0,6 6,32 0,11 0,02 0.09 0,01 0,05 0,12 30 2 0
7 19 5 3.1 15,5 0,11 0 24 0.12 5.5 2.62 6.75 0.15 0.07 0.07 1.21 98 1 1
8 17.7 3.7 13 0.16 0,36 0.16 3.01 2,61 4.33 0,12 0.06 0.06 0.13 0,61 60 0 0
9 13,1 3,2 15 0,14 0,2 0,14 3.84 1,01 7,42 0,1 0,01 0,01 0,06 0,23 55 0 0
10 15,6 3,6 13,1 0,14 0,25 0,14 5,73 2,78 5,35 0,14 0,07 0,07 0,08 0,9 39 1 0
11 12 2 11 3 0 04 0 05 0.17 1 1 3.41 7 92 0 42 0.01 0 02 0.01 1 11 78 0 2
12 15 6 26 10 1 0,13 0 34 0,12 5 11 0 7 4 12 0 17 0,02 0 07 0,13 04 120 0 1
13 16,7 3,1 11.3 0,07 0,05 0,02 1,01 0,14 2,01 0,06 0,06 0,01 0,01 0,8 190 0 0
14 11 4 14 0,11 0,09 0,03 1.04 0,11 2 0,02 0,02 0,02 0,01 0,58 108 0 0
15 20,2 3.1 16,5 0.04 0,04 0.02 1.03 0.11 3.1 0,04 0.03 0.02 0.01 0.67 104 0 1
16 11,8 2.3 11 0.01 0,38 0.16 5.3 5,71 1.07 0,03 0.01 0,02 0.83 70 0 2
17 12,2 2,5 10 0,03 0,47 0,2 1.04 4,09 1,15 0,03 0,01 0,02 0,09 0,19 65 1 2
Рис. 1 - Таблица исходных данных типа «объект - свойства»
Показатели качества чая условно можно разбить на две группы: объективные показатели - состав чая (столбцы 1-14 матрицы) и экономические показатели (отчасти субъективные) - средняя розничная цена, способ обработки, и страна-производитель (столбцы 15-17). К полученной таблице размерности (17х17) были применены различные методы анализа многомерных данных с использованием пакета прикладных программ 8ш181юа.
Корреляционный анализ
Вначале исследования был применен корреляционный анализ, позволивший выявить наличие связей между показателями качества чая. Обнаружилось, что существуют положительные корреляционные связи выше средней и средней силы между свинцом и никелем (г = 0,85), марганцем и магнием (г = 0,75), цинком и медью (г = 0,69), марганцем и никелем (г = 0,68), кобальтом и натрием (г = 0,68), свинцом и марганцем (г = 0,66), магнием и никелем (г = 0,62), витамином С и танидами (г = 0,57), железом и хромом (г = 0,56), кадмием и свинцом (г = 0,54). Также существуют значимые отрицательные корреляционные зависимости средней силы между страной-производителем и медью (г = - 0,73), способом обработки и ценой (г = - 0,68), ценой и марганцем (г = - 0,66), страной-производителем и фла-воноидами (г = -0,50).
Компонентный или МГК-анализ
Основным методом многомерного исследования данных является метод главных компонент (МГК). Целью МГК является замена исходного описания образцов с помощью большого числа переменных на новую форму, представленную в пространстве меньшего числа главных компонент (новых скрытых латентных переменных). Фактически меняется не только система координат, но еще убирается и шум, описываемый старшими главными компонентами. Метод главных компонент позволяет получить всеобъемлющее представление о структуре данных, которое можно "охватить одним взглядом", используя небольшое число графиков [3-4].
При МГК-моделировании в программе 81аЙ8Иса исходные данные подвергаются автомас-
штабированию, то есть центрированию и нормированию на величину среднеквадратического отклонения (по умолчанию).
При выборе числа главных компонент руководствовались критерием Кайзера [5], по которому величина собственного значения вектора должна превышать 1,0. Как видно из таблицы 2, шесть из шестнадцати главных компонент обладают собственными значениями выше 1. Их мы выбираем в качестве главных компонент.
Таблица 2 - Собственные значения корреляционной матрицы
Собст- Кумуля-
Номер венное % общей тивное Кумуля-
фактора значе- дисперсии собственное тивный %
ние значение
1 4,26 25,08 4,26 25,08
2 3,71 21,83 7,97 46,91
3 2,30 13,53 10,27 60,44
4 1,87 10,98 12,14 71,42
5 1,34 7,86 13,48 79,28
6 1,01 5,94 14,49 85,23
7 0,92 5,42 15,41 90,65
8 0,61 3,57 16,02 94,21
9 0,42 2,45 16,43 96,67
10 0,29 1,72 16,73 98,38
11 0,14 0,82 16,87 99,20
12 0,09 0,52 16,95 99,72
13 0,02 0,15 16,98 99,86
14 0,01 0,07 16,99 99,94
15 0,01 0,06 16,999 99,99
16 0,001 0,01 17,00 100,00
Собственное значение для первого фактора (или главной компоненты) равно 4,26; т.е. доля дисперсии, объясненная первым фактором равна приблизительно 25 %. Второй фактор включает в себя около 22 % дисперсии. Третий фактор включает в себя 14 % дисперсии, на четвертый фактор приходится 11 % дисперсии, на пятый фактор приходится 8 %, на шестой 6 %. Кумулятивный процент объясненной дисперсии составляет 85 %. Остальные факторы содержат не более 15 % общей дисперсии, эти 15 % информации отбрасываются как статистический шум.
Были выведены графики счетов и нагрузок (рис. 2 и рис. 3), которые показывают, как расположены объекты и переменные соответственно в проекционном пространстве новых главных компонент ГК1-ГК2.
На графике счетов в пространстве первых главных компонент (рис. 2) видно, что объекты (чаи) разделились на три группы (кластера). В верхней части пространства компактной группой расположились чаи Азерчай (кластер №1), в левой части пространства - группа из 3-х объектов (кластер №2), представляющих листовые чаи, в правой нижней и центральной части пространства - большая группа из оставшихся чаев, и пакетированных, и листовых, причем пакетированные расположились правее (кластер №3).
6 5 4 3
I 2 £ 1
I 0 -1
Projection of the cases on the factor-plane ( 1 x 2) Cases with sum of cosine square >= 0,00
_ i
........ Az1 о ■ Ah z ----Az3 О ! ! !
ЦЩ.кл. А.кл. Р1кл ' Dh.iin. ° ---1----J-------j--------i. ЗЧ.г А.пС.клЗДп. Б.п. ^.ПН.клрн.п.'"!™"' й>Р2.л.
-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
Factor 1: 25,08% ° Active
Рис. 2 - График счетов на младшие компоненты ГК1-ГК2
Projection of the variables on the factor-plane ( 1 x 2)
с п. 3
Mg
/ о \
Mn
о \
/ Ni
Na ° V
; о Cr
цена О
о
\ ^gZn Pb
о о ;!
Fe Cd о
О
о
тан. _______Co
о флав.
о
вит. С Cu
О
-1,0 -0,5 0,0 0,5 1,0 Active
Factor 1 : 25,08%
Рис. 3 - График нагрузок на первые компоненты ГК1-ГК2
Графики нагрузок показывают, какие переменные и как связаны между собой, что влияет на что. На графике нагрузок (рис. 3) видно, что на первую главную компоненту приходятся большие нагрузки переменных «магний», «марганец», «никель», «кадмий», «таниды», «свинец», «цинк», «способ обработки» и «цена». Видно, что «цена» фактически формирует диагональ со «способом обработки», и одновременно с большинством металлов, в том числе с токсичными Pb и Cd, что означает сильную отрицательную корреляцию этих переменных. Таким образом, первая скрытая переменная - это цена чая и способ (технология) обработки чая, одновременно связанная с содержанием токсичных элементов. Вдоль первой компоненты распределились чаи по технологии обработки: слева - крупнолистовые, посередине - просто листовые, гранулированные, справа - пакетированные. Именно пакетированные чаи содержат большее по сравнению с листовыми чаями, количество загрязняющих токсичных элементов. Вторая главная компонента разделяет чаи по содержанию антиоксидантов, поскольку переменные «таниды», «флаваноиды» и «витамин С» имеют большие нагрузки на нее. Таким образом,
вторую скрытую переменную можно охарактеризовать как содержание антиоксидантов.
Совместное изучение графиков счетов и нагрузок позволяет выявить критерии объединения объектов в кластеры. Так, например, совпадение положения «цены» в левой части графика нагрузок и кластера №2 в левой части графика счетов, свидетельствует о том, что кластер №2 - самый дорогой чай. Одновременно крайние справа члены кластера №3 (пакетированные чаи) будет иметь самую низкую цену. Кроме того, расположение последних объектов совпадает с положением токсичных металлов Pb и Cd на графике нагрузок. Таким образом, можно сделать вывод, что в дешевых пакетированных чаях выше содержание токсичных элементов, а в дорогих крупнолистовых - ниже.
Расположение кластера №1 (Азерчаи) в верхней части свидетельствует о низком содержании антиоксидантов в них, в то же время чаи, расположенные внизу и чуть левее имеют высокое содержание антиоксидантов. Это - кластер №2 и левая и нижняя часть кластера №3.
Далее были выведены графики более высоких счетов и нагрузок. На рис. 4 и рис. 5 представлены проекции наблюдений и переменных в пространстве третьей и четвертой главных компонент ГК3 и ГК4.
Projection of the cases on the factor-plane ( 3 x 4) Cases with sum of cosine square >= 0,00
.....---G-'-
С
Р1.кл
Р2.л. А.кл. о ...... ЦЩк
А.п. Б пР
А.кл.
ЗЧ.г. пнп ~ ....О..П.Н.П.......С.КП... дн.
о ° О ,
ЗДп.
Az3
Az2 Ah.a
Dh.l^.
0 1 2 Factor 3: 13,53%
Рис. 4 - График счетов старших порядков ГК3-ГК4
На графике счетов ГК3-ГК4 уже не видно таких отчетливых групп. Из графика нагрузок (рис. 5) видны большие нагрузки переменных натрия и кобальта на ось ГК3, и переменных железо и хром на ГК4. Исходя из графиков, можно сделать вывод, что в пакетированном чае «Зеленый Дракон» наблюдается высокое содержание кобальта и натрия, наиболее высокое содержание железа и хрома в крупнолистовом чае «Азерчай».
Изучение графиков счетов и нагрузок в проекциях на еще более старшие компоненты (ГК5 и ГК6) показывает, что на пятую и шестую главные компоненты ни одна из переменных не имеет значимых нагрузок (<0,7). Переменная «способ обработки» опять располагает объекты вдоль ГК5, об этом свидетельствует и график счетов: справа -
6
3
4
5
6
пакетированные чаи, слева - листовые. Смысл шестой главной компоненты не ясен, т.к. нагрузки всех переменных менее 0,5. Несмотря на то, что пятая и шестая ГК вместе содержат 14 % всей изменчивости (дисперсии данных), можно считать, что они не приносят сколь-нибудь существенный вклад в понимание структуры данных.
Projection of the variables on the factor-plane ( 3 x 4)
с.обр.
флав.
0,0
Factor 3 : 13,53%
Рис. 5 - График нагрузок старших порядков ГК3-ГК4
Изучение набора данных без экономических показателей (матрица размером 17х14)
В этом случае для анализа использовали данные, содержащие только показатели состава чая, т.е. без показателей «цена», «способ обработки», «страна-производитель». МГК-анализ проводился аналогичным образом, как и в первом случае. Было выбрано пять главных компонент. Доля дисперсии, объясненная пятью главными компонентами, составила 83 %. Внимательное изучение графиков счетов и нагрузок и попарное сравнение их с соответствующими графиками первой части МГК-анализа показала, что разницы в расположении, как объектов, так и переменных практически нет. Следовательно, выводы, полученные в первой части исследования полностью переносятся и на эту часть МГК-моделирования. А именно, первая главная латентная переменная представляет собой способ обработки чая, связанный в свою очередь с содержанием токсичных элементов. Пакетированные чаи содержат больше токсикантов, чем листовые. Вторая скрытая переменная - содержание антиоксидантов.
Факторный анализ
Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. После задания всех переменных для анализа, были получены результаты факторного анализа, и таблица с факторными нагрузками (рис.6).
Variable Factor Loading's (Varimax normalized) [darnye 4ai.sta) Extraction: Principal components [Marked loadings are >,700000)
Factor 1 Factor 2 Factor 3 Factor 4 Factor 5
вит. С 0.066815 0.073259 0 565746 0 187763 0 394864 -0.036889 -0 602235 0.899583| -0.078045
флаа. -0,232569
тан. -0,330201 0.177486 -0.177889 0 043195 0.746142
Си 0,230407 0.905838 -0 149760 0 054076 0 180219
Ni 0.806501 0.198709 -0 083313 -0.05852:6 -0 179343
Мп 0.726070 0.080921 -0.185709 0.493731 -0,302025
Zn 0.346049 0,753871 0.188825 0 198468 0.088824
Mfl 0 573839 -0.070912 0 333646 0 400314 -0 417432
Fe 0.006694 0,358404 -0.246993 0.810535 0,325475
Cr -0.018635 0.025938 0.268953 0.893163 -0.205469
Co 0,258749 0,246543 0,863109 -0 157636 0 148972
Cd 0.645954 0.074467 0.340561 0 052846 0 189431
Pb 0.S04589 0,266277 -0.044771 -0 054514 -0.034522
Na -0 145872 -0 150116 0.951050 0 127333 -0.079616
Expl.Var 3,348015 2,085756 2,334430 2,3172 0 7 1,923826
Prp.Totl 0,239144 0 148983 0 166745 0 165515 0.137416
Рис. 6 -Факторные нагрузки
Выявлены пять общих фактора по методу главных компонент. Новые факторы являются, по сути, линейными комбинациями исходных переменных. Алгоритм извлечения факторов устроен так, что каждый новый извлеченный фактор ортогонален предыдущему, поэтому факторы независимы друг от друга. Для наилучшей интерпретации проведено вращение факторов по типу «варимакс», т.е. проводится процедура вращения пространства с целью максимизировать дисперсию (изменчивость) новой переменной (фактора) и минимизировать разброс вокруг нее. Это аналогично тому, как если бы на диаграмме рассеяния рассматривали линию регрессии как ось X, и повернули ее так, чтобы она совпала с прямой регрессии. Из таблицы факторных нагрузок, приведенной на (рис.6), видно, что фактор 1 имеет высокие факторные нагрузки по следующим коррелированным переменным: «никель», «марганец» и «свинец». В факторе 2 факторные нагрузки падают на переменные «медь» и «цинк»; в факторе 3 факторные нагрузки падают на переменные «кобальт» и «натрий»; в факторе 4 - на «железо» и «хром»; в факторе 5 - на «витамин С» и «таниды». Таким образом, факторный анализ выделил 5 групп факторов, независимых друг от друга (токсичные и эссенциальные элементы, антиоксиданты), а также выявил корреляции N1 - Мп - РЬ, Си - 2п, Со - №, Бе - Сг, витамин С - таниды.
Таким образом, при хемометрическом анализе 17 образцов чая установлено, что пакетированные чаи содержат большее количество токсичных веществ (свинца и кадмия), чем листовые. Это связано, по-видимому, со способом обработки продукта или привнесением загрязнений в процессе обработки чая. Кроме того, листовые чаи содержат большее количество антиоксидантов по сравнению с пакетированными.
Литература
1. Немерешина, О.Н. Содержание водорастворимых анти-оксидантов и микроэлементов в образцах чая/ О.Н. Немерешина, Н.Ф. Гусев, А.В.Филиппова, Химия растительного сырья 2014. № 2 . С. 155-168
2. Гаджиева, С.Р. Исследование и определение тяжелых элементов в чаях Азербайджана атомно-эмиссионной
,0
0,5
0,0
-0,5
-1,0
-1,0
-0,5
0,5
1,0
спектроскопией с индуктивно-связанной плазмой./ С.Р. Гаджиева, А.Г.Гусейинли, И.А. Агаева, У.Н. Рустамова; Научные публикации, 2011. С. 2. 3. Померанцев, А. Л. Хемометрика в Excel (учебное посо-бие)/А. Померанцев А.Л.-Томск: Изд-во Томского политехнического университета, 2014.-435с.
4. Халафян, А.А. Статистический анализ данных./ А.А.Халафян М.: Бином, 2009. - 528 с.
5. Kaiser, H. Quantitation in Elemental Analysis/ ANALYTICAL CHEMISTRY. 1970. V. 42, N 2. P. A26- 38A.
© Н. Н. Умарова - канд. хим. наук, доц. каф. аналитической химии, сертификации и менеджмента качества КНИТУ, nailyaumarova@yandex.ru; З.Х. Ибрагимова - магистрант каф. аналитической химии, сертификации и менеджмента качества КНИТУ, zuhra_ibragimova_14@mail.ru; М. И. Евгеньев - д-р хим. наук, проф. каф. аналитической химии, сертификации и менеджмента качества КНИТУ, evgenev@kstu.ru.
© N. N. Umarova - PhD, Ass. Prof., Department of Analytical Chemistry, Certification and Quality Management KNRTU, nailyaumarova@yandex.ru; Z. Ch. Ibragimova - the masters the same Department, zuhra_ibragimova_14@mail.ru; M. I. Evgen'ev -Dr.SC., Prof., the same Department, evgenev@kstu.ru.