ИДЕНТИФИКАЦИЯ ВЕЩЕСТВ ПО СИЛЬНО ИСКАЖЁННЫМ ОШИБКАМИ ИЗМЕРЕНИЯ СПЕКТРАМ
Васильев Н.С., Морозов А.Н.
Московский государственный технический университет им. Н. Э. Баумана
Аннотация
В работе обсуждаются вопросы обнаружения веществ по их спектрам люминесценции. Рассмотрены случайные ошибки, возникающие в процессе работы измерительной фоточувствительной аппаратуры. Анализируется влияние этих ошибок на корректность работы устройств-анализаторов. Получены соотношения, позволяющие рассчитывать параметры распределения меры схожести SAM (Spectral Angle Mapper) как случайной величины. Проведено сопоставление полученных аналитических зависимостей на примере спектров, зарегистрированных при малых отношениях сигнал/шум. Получено удовлетворительное согласие теории и эксперимента. На основе этого предлагается новый метод идентификации веществ по спектрам, в котором для анализа используется проверка гипотез. Численным критерием в этом методе выступает условная вероятность измерить величину SAM с расхождением большим или равным реализованному в эксперименте. На основе этого метода строится алгоритм идентификации, который применялся для анализа спектров с малым отношением сигнал/шум. Определено, что предложенный способ распознавания спектров позволяет получить ряд преимуществ по сравнению с методом прямого расчёта меры SAM.
Ключевые слова: люминесценция, идентификация, мера схожести, хемометрика, корреляция, распознавание, SAM.
Введение
На сегодняшний день существует большое количество оптических приборов, позволяющих анализировать спектральные свойства света в широком диапазоне длин волн. Часто такие устройства входят в состав систем химического мониторинга окружающей среды. Регистрируемый сигнал содержит полезную информацию, анализ которой позволяет отличать одни вещества от других, тем самым выявлять их присутствие. К примерам можно отнести прибор «FirstDefender RM» фирмы «Ahura Scientific», основанный на Раман-эффекте и позволяющий осуществлять оперативный контроль присутствия опасных для человека веществ на химически вредных предприятиях.
Метод интерпретации зарегистрированных спектров, основанный на сопоставлении их с эталонными, является одним из наиболее распространённых в прикладных задачах спектроскопии. Для этого применяется функция меры схожести, которая характеризует степень совпадения форм экспериментальной и эталонной кривой. Существует большое число выражений, с помощью которых можно задать требуемую меру [1]. Одной из распространённых формул является SAM [1-7] (от англ. Spectral Angle Mapper), которая используется в задачах физики [1-3], машинного зрения [4, 6], фармацевтики [7] и аналитической химии [5].
Анализ влияния шума в зарегистрированном спектре на величину меры схожести SAM проводился ранее в работах [8, 9]. В [8] для определения параметров распределения величины SAM предлагается использовать метод Fisher z-transformation, см. [10, 11]. А в работе [9] для этих же целей предлагался t-критерий Стьюдента. Оба этих способа являются статистическими, что делает невозможным применение их для проведения экспресс-анализа по одному текущему измеренному спектру.
Цель работы заключается в создании эффективного метода идентификации веществ по спектрам в условиях низкого отношения сигнал/шум в них. Для этого решается задача вывода приближённых аналитических выражений для расчёта параметров распределения используемой меры схожести.
1. Теория
1.1. Статистические характеристики нормированного скалярного произведения
Величина нормированного скалярного произведения определяется следующим соотношением:
Р = Р( х, у)=( ХУ)
М-1у|' (1)
Если х и у - две непрерывные функции, определённые на интервале частот [V нсч, Укон ], то для расчёта скалярного произведения используется выражение: V
кон
(х, у) = | ху ^ . Если задано разбиение интервала
нач , Пкон ] точками:
р = {V,. | i = 1.JV, VHa4 < Vl < v2 < • • • < v„ < v_} , то вместо функций рассматриваются вектора с координатами xt = x(v,.) yt = y(v,.), для которых скалярное произведение рассчитывается по формуле:
N
(x, y) = . Для случая N = 2 выражение (1) сов-
,=1
падает с косинусом угла между векторами x и y .
Из определения SAM (1) следует, что при x(v) ° y(v), "v е [Vнач, пкон ] ^ р = 1. И для дискретного случая: x, ° yj, i = 1..N ^ р = 1. Если 3v е [vнач, v„,„ ], т.ч. x(v) ° y(v) ^ р <1. Для дис-
V
кретного случая аналогичное условие можно записать так: 3/(1 < i < N) т.ч. xt ° y ^ р < 1. Равенство SAM единице для идентичных спектров и неравенство для различающихся позволяет использовать эту величину для определения меры схожести или различия в задачах распознавания.
В случае, если в каждой точке разбиения P имеется малая погрешность измерения, то вместо строгого равенства для SAM имеем приближённое: р »1, при
этом погрешность в силу определения (1) может быть только в меньшую сторону.
Если регистрируемые спектры таковы, что с высокой долей вероятности можно считать различия между спектрами, обусловленные случайной погрешностью, много меньше, чем различия, обусловленные различной природой анализируемых веществ, то в этом случае ([6, 12]) можно использовать некотоой порог, при превышении которого спектры будут считаться идентичными. В общем случае определение этих порогов трудоёмкая и технически сложная задача.
Если искажения, вызванные погрешностью измерения спектра, велики, то значения SAM для идентичных веществ могут стать сопоставимыми с соответствующими значениями для неидентичных веществ. Повышением значения порогов можно избежать наличия ложных срабатываний так, чтобы сильно искажённый спектр не отождествлялся ни с одним из эталонных. В результате чувствительность обнаружения веществ прибором уменьшается.
Знание закона распределения SAM как случайной величины при воздействии случайных возмущений в спектре позволяет осуществлять распознавание с заданной оценочной достоверностью результатов.
Исследование измеренных спектров как векторов, координаты которых рассчитаны на некотором разбиении рабочего интервала частот P , требует наличия модели процесса формирования и преобразования погрешностей измерения спектра. Характерным для задач обнаружения малого количества вещества является использование светосильных спектральных приборов, таких как Фурье-спектрометры. В работе авторами рассматривается система, использующая статический Фурье-спектрометр видимого и ближнего ультрафиолетового диапазона [12]. Модель формирования и преобразования шума в спектре должна учитывать ошибки измерения регистрируемой ин-терферограммы и восстановления спектра.
Если интенсивность света измеряется в диапазоне [ zhcm, zkoh ] оптической разности хода лучей в интерферометре, то согласно [13] в каждой точке разбиения О = (Z/. | / = l..K, zHm < Z1 < Z2 < - < zk < Z,ou} интенсивности истинной интерферограммы (I') и зарегистрированной интерферограммы (I) связаны через погрешность dI выражением:
I(z.) = I'(z.) + 5i(Zi), i = 1..K . (2)
При этом система случайных (57 (zi)} величин подчиняется уравнениям:
M(57 (zt)) = 0, i = 1..K ,
(3)
I , если , = ]. М(5, (г,.) •5/ ()) = \ " . ' (4)
[ 0, если , ф ] .
К зарегистрированному спектру применяется Фурье-преобразование, которое в общем случае задаётся соотношением:
x(v) = (1/2я) JI (z)exp(-ivz) dz.
(5)
Фурье-образ от (2) с учётом (3) и (4) в соответствии с [13] позволяет связать на сетке разбиения Р истинный спектр х'(у1), зарегистрированный спектр х(у) и погрешность 5(у,) выражением:
х(п, ) = х'(у,) + 5(п,). (6)
При этом система случайных величин (5(у ,)} имеет следующие моменты:
М(5(у,))= 0, 1 = 1..N, М(52(у ,))= о2, i = 1..N.
В [13] приводится для используемой модели соотношение, связывающее ошибку в измеренной интер-ферограмме с ошибкой восстановленного спектра:
(7)
DB = h(2 N )1/2 DI.
(8)
Воспользуемся для описания ошибки спектра 5(у,) в точках разбиения Р моделью нормально распределённой случайной величины: 5(у,) ~ N(0,о2),, = 1..N . При таком допущении зарегистрированный спектр х может рассматриваться как случайная ^мерная величина (х ~ N(х', Е)) с распределением, задаваемым соотношением:
1 -х-х'/ Е-1( х- х')
Р( x) = -
, x е RN.
(9)
(2p)(N2)| S |1/2
Выясним, какой вид может иметь ковариационная матрица X в выражении (9). Как видно из определения, SAM - это величина, инвариантная относительно перехода в новый ортогональный базис. В двумерном случае это означает сохранение углов при переходе в новую систему координат при преобразовании векторов. Известно [14], что с помощью таких преобразований можно квадратичную форму, стоящую в степени экспоненты в (9), свести к диагональному виду. В такой системе координат ковариационная матрица принимает диагональный вид: X = E^a2, где E - единичная диагональная матрица размера NxN. Тогда всюду ниже считается, что ковариационная матрица
диагональная и величина дисперсии шума постоянна
2
и равна a , если это не так, то указанная операция приводит её к требуемому виду.
Определим спектральную базу эталонных спектров следующим образом: B = {bj i, j = 1.M bt е R+ ("i, j p(b,bj) < 1)} .
Пусть в (1) первая переменная пробегает значения эталонных спектров
(pB = p(B, x) = (p(bj, x), -, p(bM, x))T), тогда получим новое отображение:
рв :Rn ® /r_ul = [-1,1]x-x[-1,1],
(10)
где /-я координата правой части равна БАМ, рассчитанному для 1-го эталонного спектра.
Исходя из предложенной модели, зарегистрированный спектр выражается через истинный по формуле (6). Пусть искомое вещество является одним из эталонных с номером 4, тогда выражение (6) примет вид: х = Ь^ + Ъ. Используя отображение (10), получим
образ измеренного спектра в /[_11]: Р = Рв(х) = (Pl,•••,Рм)Т .
Требуется определить вектор-столбец математических ожиданий и ковариационную матрицу случайной величины р е Ям по известной величине разброса ошибки спектра о2 в предположении, что искомое вещество совпадает с одним из эталонных. Пусть это вещество в эталонной базе спектров под номером X , тогда задача состоит в определении вектора ц мх1
и матрицы К мхм , координаты которых определяются, исходя из следующих выражений:
Цп = М(Рп ), (11)
Кпе = М((Рп_ М(Рп )) • (Ре _ М(р0))). (12)
В приложении (см. п. 5) представлен подробный вывод аналитических выражений для этих коэффициентов.
1.2. Учёт характеристик нормированного скалярного произведения в задаче идентификации
Известно, что заданная ковариационная матрица X и квадратичная форма хТЕ-1 х задаёт метрику
(х, у) = (х _ у)Т Е-1(х _ у) в Я" . Если дан случайный вектор х , для которого известно распределение х ~ NЬ ,Е = Е •о2), то по заданной вероятности Р* можно указать расстояние ё* такое, что выполняется условие: Р(ё"(х,Ь^)> ё*) = Р*. В связи с этим обстоятельством удобно ввести систему классов }, соответствующих каждому эталонному веществу из базы спектров:
= {а\ а е Я" (а, Ьх )< ё*}. (13)
Заметим, что чем выше вероятность Р*, тем меньше расстояние ё*.
По введённой выше системе {№} задачи идентификации веществ может быть сведена к задаче определения принадлежности измеренного спектра одному или нескольким её элементам. Селективность методики идентификации веществ можно определить как минимальную величину Р*, при которой выполнено условие: V/,} = 1.Мп^ = 0 .
Вычислительная сложность задачи определения вероятностей по заданному распределению случайной величины в многомерном пространстве быстро увеличивается с ростом размерности. Предлагается использовать отображение (10) для перехода в про-
странство меньшей размерности, равной числу эталонных спектров.
С учётом полученных выражений для ^ и К случайный вектор Р(х) е Ям можно аппроксимировать нормально распределённой случайной величиной:
^(Р) =
1
- w к-1(р-т)
(2p)(N2)| к |
ре RM. (14)
На практике такое приближение является удовлетворительным для широкого интервала значений величины погрешностей в спектре.
Ковариационная матрица так же, как и в исходном пространстве спектров, задаёт в пространстве SAM метрику:
dM (р(х), р(у)) = (р(х) - р(y))T к-1 (р(х) - р(у)).
По заданному распределению р и данной вероятности P* аналогичным образом можно определить расстояние d**, удовлетворяющее условию:
p(dM (р( х), mx )> d" ) = p*, с помощью которого определяется система классов {W}:
W ={a|dM (р(а),mx)< d"). (15)
Определение границ классов в этом случае требует интегрирования в M-мерном пространстве. Величина M равна количеству веществ в эталонной базе спектров, и их количество может быть велико. Удачным выбором системы координат в пространстве RM сложность задачи интегрирования может быть уменьшена с M до LM, где L - количество точек разбиения для численного интегрирования вдоль одной оси. Такой системой координат будет ортогональная система собственных векторов матрицы к . Растяжением осей можно добиться приведения квадратичной формы (р-тр )T К-1(р-тр) к каноническому виду. Преобразование ФЛ-12 приводит ковариационную матрицу к единичному виду. В новых осях функция распределения случайной величины р(х) примет вид:
ллм
Р(р) =
( (,
erf
ФЛ
(р-mx)
V2
(16)
V V //
Основываясь на проделанных рассуждениях и полученных выражениях для ц и К, предлагается алгоритм идентификации веществ по спектрам, схема которого показана на рис. 1.
Если условие в цикле выполнено более одного раза, то выбирается вещество, для которого величина условной вероятности Р(а|а=Ь,+5) максимальна. В роли порога срабатывания в данном случае выступает величина Р*, по которой в предложенном алгоритме рассчитываются классы {№?}.
e
2
1=0
по спектрам люминесценции
В представленном методе расчёта меры схожести используется величина, которая имеет смысл вероятности. Это качественным образом отличает этот способ от прочих методов, в которых используется мера схожести. Для их применения требуется эмпирически определять пороги срабатывания для каждого эталонного вещества [15]. При этом добавление новых веществ в базу данных может приводить к ухудшению работы всей системы. Предложенный авторами новый способ идентификации веществ, основанный на проверке гипотез, потенциально лишён указанного недостатка. Это позволяет один раз задать порог срабатывания (вероятность ошибки) для всех эталонных элементов спектральной базы данных. При этом введение нового вещества не повлияет на надёжность работы системы в целом.
2. Эксперимент
Использовались спектры, зарегистрированные статическим Фурье-спектрометром, который входил в состав макетного образца прибора, осуществляющего экспресс-анализ присутствия жидких и твёрдых веществ на различных подстилающих поверхностях [16]. Устройство позволяет обнаруживать твёрдые и жидкие вещества в форме остаточных следов на различных поверхностях. Для триптофана обнаружи-тельная способность в зависимости от условий эксперимента может достигать значений до 1 мг на площади 1 м2. Схема установки показана на рис. 2.
Вторичное излучение, которое падает на объектив оптоволоконного зонда 1, собирается оптической системой линз и фокусируется на передний срез оптоволокна.
Оно подключено ко входному коллиматору спектрометра. В качестве подложки 3 использовалась специальная поверхность из непрозрачного не люми-несцирующего стекла. Его рабочий диапазон чувствительности равен интервалу длин волн от 320 нм до
750 нм, который содержит видимый свет и ближнюю ультрафиолетовую область.
Рис. 2. Схема экспериментальной установки: 1 - оптоволоконный зонд, 2 - тестовое вещество, 3 - подложка
Прибор, помимо спектрометра, состоит из источника возбуждающего излучения и оптоволоконного световода с зондом на конце. Последнее устройство позволяет направлять и концентрировать возбуждающее излучение непосредственно на объект исследования и собирать как можно больше рассеянного излучения для анализа. В качестве источников возбуждающего излучения (см. рис. 2) использовались диоды с пиками излучения на длинах волн 280 и 310 нм, а также лазерный источник излучения с длиной волны 266 нм. В качестве тест-объектов 2 использовались вещества: антрацен, POPOP, PPO, стильбен и триптофан. Спектры этих веществ с указанием особенностей их химического строения показаны на рис. 3.
Рис. 3. Спектры люминесценции тестовых веществ,
зарегистрированные с использованием источника возбуждающего излучения лазера, длина волны - 266 нм; по оси ординат откладывается интенсивность в относительных единица
В дальнейшем для краткости эти вещества будут называться «тестовыми веществами». Рассмотренные тестовые вещества являются люминофорами при использовании данных источников подсвечивающего излучения. Как видно из рис. 2, спектры этих веществ в значительной степени перекрываются.
2.1. Численный эксперимент Для выявления возможных ошибок в расчётах, а также для проверки корректности сделанных упрощений при определении математического ожидания и
ковариационной матрицы был проведён численный эксперимент с использованием псевдослучайных величин, соответствующих рассмотренной модели формирования интерферограмм и восстановления спектра. В частности, проверялась справедливость упрощения, в результате которого учитывались 17 из 36 коэффициентов матрицы (21).
На рис. 4 показано три графика зависимости математического ожидания SAM от среднеквадратической ошибки, рассчитанные для веществ POPOP и антрацен и для веществ PPO и антрацен, а также ковариации этих величин. При этом спектр антрацена состоял из эталонного спектра антрацена и аддитивно добавленной случайной ошибки, распределённой по нормальному закону. Величина среднеквадратического отклонения этой ошибки откладывалась по оси абсцисс графиков рис. 2.
0,5 0,4 0,3 0,2 0,1 О
1-ю— О)
\
\
\
ч
10
10"
10"
0,25 0,20 0,15 0,10 0,05 О
(б)
\
\
\
>
10'
10"
10"
10"
10"
10"
-О—П —О—С
/
/
/
/
©
10 10'' 10й
Рис. 4. Кривые зависимости математического ожидания величины нормированного скалярного произведения (ось ординат) от величины среднеквадратического отклонения шума в спектре (ось абсцисс); сплошная кривая рассчитана для веществ РОРОР и антрацен (а) и для веществ РРО и антрацен (б); приведена кривая ковариации указанных
величин (в); точками показаны значения, полученные при численном разыгрывании
Наблюдается совпадение теоретически рассчитанных кривых графиков и экспериментальных точек с точностью до ширины линий (см. рис. 2).
2.2. Физический эксперимент
Известно, что нормально распределённая случайная величина является моделью, которая соответствует реальному объекту с различной степенью точности. Использование алгоритмов распознавания в реальных условиях эксперимента может привести к неудовлетворительным результатам, если параметры ошибок в регистрируемом спектре будут отличаться от предусмотренных моделью.
Апробация осуществлялась на примере более 4000 спектров, зарегистрированных в ходе экспериментов, которые повторяли условия применения прибора. Для каждого из тестовых веществ был зарегистрирован набор спектров, число которых варьировалось от 50
до 300. Величина сигнал/шум, которая рассчитывалась по формуле SNR = Ршум , для всех спектр°в
в наборе была постоянной. Изменение величины SNR осуществлялось с помощью выбора времени накопления сигнала на фоточувствительной матрице статического Фурье-спектрометра. Все прочие условия проведения эксперимента оставались постоянными для всех наборов и веществ.
По измеренным спектрам были рассчитаны статистические значения величины разброса SAM Для удовлетворительного согласия величины дисперсии с теоретически рассчитанной по формуле (23) потребовался пересчёт по формуле: I= kLq, где коэффициент к - неизвестный параметр, который был определён из условия минимального расхождения теоретических кривых и экспериментальных точек. Для спектров, зарегистрированных использованным статическим Фурье-спектрометром, этот параметр равнялся 2,1. На рис. 5 показано математическое ожидание и дисперсия SAM, рассчитанная для зарегистрированного спектра вещества стильбен и эталонного спектра этого же вещества.
2.3. Апробация алгоритмов распознавания
Авторами в работе сопоставлялись два алгоритма распознавания. Первый, далее называемый «№1», предложен ранее в работах [6, 12]. В нём рассчитывалось значение меры схожести с эталонными спектрами, которое затем сравнивалось с пороговым значением. Превышение приводило к распознаванию соответствующего вещества в исследуемом образце. Второй алгоритм использует результаты, полученные в данной статье авторами, и изложен в разделе 1.2. Далее для краткости он будет называться «№2».
В табл. 1 приведены результаты для долей ложных срабатываний и верных срабатываний для спектров всех веществ, полученных от трёх источников возбуждающего излучения. Результаты представлены в виде дроби, где в числителе указана доля ложных срабатываний от общего числа возможных ошибок, а в знаменателе - соответствующая доля верных срабатываний. Верным считалось срабатывание, в результате которого обнаруживается только то вещество, которое служило источником регистрируемого прибором сигнала.
Таблица 1. Результаты распознавания в долях от максимального числа ошибок (числитель) и верных срабатываний (знаменатель)
Диапазон Случай 1 Случай 2
Алгоритм №°1 Алгоритм №№2 Алгоритм №°1 Алгоритм №№2
266 0,13/0,33 0,13/0,49 0,03/0,81 0,01/0,78
280 0,11/0,48 0,11/0,56 0,02/0,78 0,01/0,62
310 0,11/0,51 0,11/0,57 0,01/0,87 0,00/0,79
Если условиям алгоритма идентификации удовлетворило хотя бы одно лишнее вещество, то такое срабатывание считалось ложным и соответствующему счётчику присваивалось число таких (лишних) веществ.
Рис. 5. Кривые зависимости математического ожидания (а) и дисперсии (б) нормированного скалярного произведения (ось ординат) от среднеквадратического отклонения ошибки экспериментального спектра (ось абсцисс); кривые рассчитаны при сопоставлении экспериментального спектра стильбена с его эталонным спектром; сплошная кривая рассчитана теоретически, маркерами отмечены результаты статистического анализа серии экспериментов
Результаты показаны для величин порогов, при которых число верных срабатываний максимально.
Из таблицы (столбец «случай 1») видно, что предложенный авторами алгоритм позволил распознавать больше веществ при одинаковом числе ошибок. Заметим, что в этих экспериментах отношение сигнал/шум варьировалось для различных веществ и находилось в интервале [1,01 _ 1,05].
Часто при работе приборов, предназначенных для автоматической идентификации веществ, в регистрируемом сигнале отсутствует полезная составляющая. Срабатывание в отсутствие полезного сигнала также считается ложным. Был определён порог срабатывания, при котором 98 % спектров, не содержащих полезного, не приводили к срабатыванию.
Результаты для такого случая показаны в таблице (столбец «случай 2»). Здесь использовались спектры с величиной отношения сигнал/шум в интервале [1,04 —1,19]. Из данных таблицы видно, что для «алгоритма №1» доля ложных срабатываний для боль-
шей части экспериментов оказывалась больше, чем для «алгоритма №2». В то же время доля верных срабатываний для «алгоритма №1» оказалась больше. Т.е. «алгоритм №1» позволил распознать вещества в большей части случаев, в то время как «алгоритм №2» давал более надёжные результаты.
Выводы
Авторами рассмотрена одна из часто применяемых мер схожести, которая используется в задачах автоматического распознавания веществ по спектрам. Полученные выражения (22) и (23) позволяют определять параметры распределения меры схожести SAM в зависимости от величины среднеквадратического отклонения ошибок измерения в точках зарегистрированного спектра. Проведённый численный и физический эксперименты показали, что полученные соотношения можно использовать как применительно к модельному, нормально распределённому, так и применительно к реализуемому в эксперименте шуму. Для применения полученных формул к спектрам, регистрируемым в условиях эксперимента, потребовалось введение коэффициента к=2,1, учитывающего отличия шума, реализуемого в спектрах от модельного.
Предложенный алгоритм идентификации веществ по их зарегистрированным спектрам люминесценции использует для анализа условную вероятность для проверки гипотез. Для сравнения рассмотрен существующий метод, в котором рассчитывается мера схожести по формуле SAM. Оказалось: если заведомо известно, что в анализируемом сигнале есть полезная составляющая, то предложенный алгоритм даёт выигрыш в доли верных срабатываний. Если в анализируемом спектре полезный сигнал может отсутствовать, то предложенный алгоритм позволяет добиться меньшего числа ошибок распознавания. Полученные в работе результаты могут быть использованы в методиках автоматического обнаружения веществ по их спектрам в таких задачах, как мониторинг окружающей среды и беспробоотборный химический анализ.
Приложение
Ниже приводится подробный вывод аналитических выражений для расчёта коэффициентов ковариационной матрицы и вектора математических ожиданий величин SAM, применённых для сопоставления эталонных спектров и одного экспериментального. При этом считается, что шум в зарегистрированном спектре аддитивный и стационарный.
В дальнейшем индексы, относящиеся к элементам эталонной базы спектров, обозначаются символами П и 9, а i, j, к, l, m и т.д. отвечают за координаты векторов. Подставив слагаемые х и bn в (1) и выразив величины (х | bh), | х | и | bh | через их координаты, получим:
рХд
Bh / Bhh+(1/Bhh) IPK
4 + 2£ЬхД +
(17)
i=1
i=1
1=1
гДе Вле %■ Заметим, что £
v s2j
подчиня-
ется распределению %2. Как правило [12], количество точек в спектре велико и имеет порядок ~103 точек. Известно [13], что при распределение %2 подчиняется нормальному закону, что позволяет записать приближённые выражения для его математического ожидания и дисперсии:
M ^¿5,2 ^ = "о2, D 52 ^ = 2 "о4. (18)
Это позволяет записать выражения для некоторых слагаемых в (17):
£§Av = «л ~ N(0, s2Bh2h ),
i=i N
(19)
£§2 = g - N ( Ns2,2N s4).
Линеаризация выражения (17) осуществляется стандартным образом. Для этого введём обозначение для подкоренного выражения знаменателя: У = ВХ+ 2аХ + у.
Его математическое ожидание с учётом (19):
= M(У ) = ВХ+о2 N. Что позволяет линеаризовать выражение 1/\/У: уу 1/2 _12ц_3/2 (У_Цу).
Формула для определения нормированного скалярного произведения примет вид:
Р,
= Г 32,
+ aVB I(m-1/2 -i2m-3/2 (y-mr)).
Для упрощения введём коэффициенты:
3 1
4ц = В1лB22 , A22 = 1B22 , A3 = ^ ^ ~ 2^^B2 A = -u-3/2 A = -1 m-3/2
A4 M'Y , A5 2^ Y .
После раскрытия скобок получим линеаризованное выражение для (17):
Р, = F,1 + Fh2ah + Fh3aX + Fh4ahaX + F^g' (20) где
F,1 = Д,1 A3' F,2 = Л^З' Fh3 = Д^Др F,4 = Д 2Д' F,5 = Д1A5 ' F,6 = Д 2Д.
Линеаризованное выражение для вычисления нормированного скалярного произведения (20) позволяет записать линеаризованное выражение для произведения р,ре:
РяРе = X (F,1' Fh2a,' F,3ax' F,4a, ax' F,5 g' Fh6ah У)Г x
x( FM, F^aq, F^, Fq4aqax, Fq5 g, Fe6aeg),
где суммирование осуществляется по всем элементам матрицы размерности 6*6. Анализ этой матрицы показал, что математическое ожидание произведения р,ре может быть рассчитано с высокой точностью
(см. рис. 4) при учёте 17 из 36 коэффициентов (см. раздел 2.1). Получены аналитические зависимости для этих коэффициентов, при этом учитывались следующие приближённые тождества:
M(a,aq ) = B>2, M(a2) = ßx2xG2, M(a,ax ) = Bhs2, M(aea2 ) = R2o2, M(g 2) = N (N + 2)g4, M(a,aqg2) = (N2 + 3N + 11)o6, M(a,aqg) = B2e (N + 2)g4, M(a,gax ) = (N + 2)o4, M(aega2 ) = B22e (N + 2)o4. Окончательное выражение для матрицы 7v,0:
Г FF 121J е1 0 0 V^c2 F^Nc2 0 ^ Г F Л Г F л
0 F22Fe2B23<S 0 0 F22Feé(N+2)B2qS4 0 0
0 F23Fe3B2S 0 0 Fh3Fq6(N+2)B2s4 0 0
F24Fe1B22S 0 0 0 Fh4Fe5(N+2)B?S4 0 FmRd
FhANö2 0 0 F^N+2)Bs4 Fi^Fi5N(N+2)s4 0 F5Nd
0 V FkFh(N+2)BeS4 Fi<F(n+2)B2,s4 0 0 F26Fe6(N2 +3N+11)B2eC6 , V 0 J V 0 J
(21)
для математического ожидания:
UX2 = F21 + F24 Bx2s2 + Fh5 N S2
и для корреляции:
6
Кле = £ ^.
i, j=1
(22)
(23)
Литература
1. Guti'errez-Rodriguez, A.E. New dissimilarity measures for ultraviolet spectra identification / A.E. Guti'errez-
Rodriguez, M.A. Medina-P'erez, J.F. Martinez-Trinidad [et al.] // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). - 2010. - V. 6256 -P. 220-229.
Stephen, S.E. Optimization and testing of mass spectral library search algorithms for compound identification / S.E. Stein, D.R. Scott // Journal of the American Society for Mass Spectrometry. - 1994. - Vol. 5(9). -P. 859-866.
Kruse, F.A. The spectral image processing system (SIPS)—interactive visualization and analysis of imaging
i=1
i=1
i=1
22
2
3
spectrometer data / F.A. Kruse, A.B. Lefkoff, J.W. Board-man [et al.] // Remote Sensing of Environment. - 1993. -Vol. 44(2-3). - P. 145-163.
4. Paclik, P. A study on design of object sorting algorithms in the industrial application using hyperspectral imaging / P. Paclik, R. Leitne, R.P.W. Duin // Journal of Real-Time Image Processing. - 2006. - Vol. 1(2). - P. 101-108.
5. Bodis, L. A novel spectra similarity measure / L. Bodis, A. Ross, E. Pretsch // Chemometrics and Intelligent Laboratory Systems. - 2007. - Vol. 85(1). - P. 1-8.
6. Paclik, P. Dissimilarity-based classification of spectra: computational issues / P. Paclik, R.P.W. Duin // Real-Time Imaging. - 2003. - Vol. 9(4). - P. 237-244.
7. Qun, G. Comparison of several chemometric methods of libraries and classifiers for the analysis of expired drugs based on Raman spectra / Gao Qun, L. Yan, L. Hao [et al.] // Journal of Pharmaceutical and Biomedical Analysis. -2014. - Vol. 94(0). - P. 58-64.
8. Hartstra, J. How to approach substance identification in qualitative bioanalysis / J. Hartstra, J.P. Franke, R.A. Zeeuw // Journal of Chromatography B: Biomedical Sciences and Applications. - 2000. - Vol. 739(1). - P. 125-137.
9. Tan, N. Application of multiple statistical tests to enhance mass spectrometrybased biomarker discovery / N. Tan, W. Fisher, K. Rosenblatt, H. Garner // BMC Bioinformatics.
- 2009. - Vol. 10(1). - P. 144.
10. Fisher, R.A. Frequency Distribution of the Values of the Correlation Coefficient in Samples from an Indefinitely Large Population / R.A. Fisher // Biometrika. - 1915. -Vol. 10(4). - P. 507-521.
11. Fisher, R.A. On the "probable error" of a coefficient of correlation deduced from a small sample / R.A. Fisher // Metron. - 1921. -Vol. 1. - P. 3-32.
12. Кочиков, И.В. Численные процедуры иден тификации и восстановления концентраций веществ в открытой атмосфере при обработке единичного измерения фурье-спектрорадиометра / И.В. Кочиков, А.Н. Морозов, И.Л. Фуфурин // Компьютерная оптика. - 2012. - Т. 36, № 4. - С. 554-561.
13. Глаголев, К.В. Методика получения и обработки спектральной информации с помощью статического фурье-спектрометра / К.В. Глаголев, Иг.С. Голяк, Ил.С. Голяк [и др.] // Оптика и спектроскопия. - 2011. - Т. 110, № 3.
- С. 486-492.
14. Светосильные спектральные приборы / В.А. Вагин, М.А. Гершун, Г.Н. Жижин, К.И. Тарасов. - М.: Наука, 1988. - 332 с.
15. Основы Фурье-спектрорадиометрии / А.Н. Морозов, С.И. Светличный. - М.: Наука, 2014. - 456 с.
16. Голяк, Ил. С. Беспроботборный анализ химических веществ с использованием статического фурье-спектрометра / Ил.С. Голяк, А.А. Есаков, Н.С. Васильев, А.Н. Морозов // Оптика и спектроскопия. - 2013. -Т. 115, № 6. - С. 990-994.
References
1. Guti'errez-Rodriguez, A.E. New dissimilarity measures for ultraviolet spectra identification / A.E. Guti'errez-Rodriguez, M.A. Medina-P'erez, J.F. Martinez-Trinidad [et al.] // Lecture Notes in Computer Science (including subser-
ies Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). - 2010. - V. 6256 - P. 220-229.
2. Stephen, S.E. Optimization and testing of mass spectral library search algorithms for compound identification / S.E. Stein, D.R. Scott // Journal of the American Society for Mass Spectrometry. - 1994. - Vol. 5(9). - P. 859-866.
3. Kruse, F.A. The spectral image processing system (SIPS) -interactive visualization and analysis of imaging spectrometer data / F.A. Kruse, A.B. Lefkoff, J.W. Boardman [et al.] // Remote Sensing of Environment. - 1993. - Vol. 44(2-3).
- P. 145-163.
4. Paclik, P. A study on design of object sorting algorithms in the industrial application using hyperspectral imaging / P. Paclik, R. Leitne, R.P.W. Duin // Journal of Real-Time Image Processing. - 2006. - Vol. 1(2). - P. 101-108.
5. Bodis, L. A novel spectra similarity measure / L. Bodis, Al. Ross, E. Pretsch // Chemometrics and Intelligent Laboratory Systems. - 2007. - Vol. 85(1). - P. 1-8.
6. Paclik, P. Dissimilarity-based classification of spectra: computational issues / P. Paclik, R.P.W. Duin // Real-Time Imaging. - 2003. - Vol. 9(4). - P. 237-244.
7. Qun, G. Comparison of several chemometric methods of libraries and classifiers for the analysis of expired drugs based on Raman spectra / G. Qun, L. Yan, L. Hao [et al.] // Journal of Pharmaceutical and Biomedical Analysis. - 2014.
- Vol. 94(0). - P. 58-64.
8. Hartstra, J. How to approach substance identification in qualitative bioanalysis / J. Hartstra, J.P. Franke, R.A. Zeeuw // Journal of Chromatography B: Biomedical Sciences and Applications. - 2000. - V. 739(1). - P. 125-137.
9. Tan, N. Application of multiple statistical tests to enhance mass spectrometrybased biomarker discovery / N. Tan, W. Fisher, K. Rosenblatt, H. Garner // BMC Bioinformatics.
- 2009. - Vol. 10(1). - P. 144.
10. Fisher, R.A. Frequency Distribution of the Values of the Correlation Coefficient in Samples from an Indefinitely Large Population / R.A. Fisher// Biometrika. - 1915. -Vol. 10(4). - P. 507-521.
11. Fisher, R.A. On the "probable error" of a coefficient of correlation deduced from a small sample / R.A. Fisher // Metron. - 1921. - Vol. 1. - P. 3-32.
12. Kochikov, I.V. Numerical procedures for substances identification and concentration calculation in the open athmos-phere by processing a single ftir measurement / I.V. Kochikov, A.N. Morozov, I.L. Fufurin // Computer Optics. -2012. - Vol. 36(4). - P. 554-561. - ISSN 0134-2452.
13. Glagolev, K.V. Technique for obtaining and processing spectral information with static fourier spectrometer / K.V. Glagolev, Ig.S. Golyak, Il.S. Golyak [et al.] // Optics and Spectroscopy. - 2011. - Vol. 110(3). - P. 449-455.
14. High luminosity spectral instruments / V.A. Vagin, M.A. Gershun, G.N. Zhizhin, K.I. Tarasov. - Moscow: "Nauka" Publisher, 1988. - 332 p. - (In Russian).
15. Basics of Fourier spectroradiometry / A.N. Morozov, S.I. Svetlichny. - Moscow: "Nauka" Publisher, 2014. -456 p. - (In Russian).
16. Golyak, Il.S. Sampling-free analysis of chemical compounds using a static Fourier-transform spectrometer / Il.S. Golyak, A.A. Esakov, N.S. Vasilev, A.N. Morozov // Optics and Spectroscopy. - 2013. - V. 115(6). - P. 884-888.
SUBSTANCE IDENTIFICATION BY ERROR DEFORMED SPECTRA
N.S. Vasil'ev, A.N. Morozov Bauman Moscow State Technical University
Abstract
Substance identification by their luminescence spectra is a highly sensitive and non distraction method. If a signal level is low then recognition errors may occur. The aim of this work was to define the identification algorithm with error probability control. For this purpose, the value of dissimilarity measure in the form of Spectral Angle Mapper (SAM) was analyzed. The relation between errors in measured spectra and the dissimilarity measure distribution was defined. The accuracy of the statistical hypothesis was used in spectral library search. The resulting algorithm was tested on more than 4000 sample spectra. The case when the measured spectra contained a signal of unknown source was analyzed, as well as the case when the measured spectra might contain either a signal or be equal to noise.
Key words: identification; dissimilarity measure; similarity index; match factor; database retrieval; luminescence; chemometrics; spectral library search; spectral angle mapper; SAM.
Сведения об авторах Васильев Николай Сергеевич, 1986 года. Аспирант и ассистент кафедры физики Московского государственного технического университета им. Н.Э. Баумана. Область научных интересов: спектроскопия, распознавание образов. Е-mail: nickliamg@gmail. com .
Nikolay Sergeevich Vasil'ev, born in 1986. Post graduate student, assistant professor in Physics of Bauman Moscow State Technical University. His scientific interests include spec-troscopy and pattern recognition.
Морозов Андрей Николаевич, 1959 года рождения. Доктор физико-математических наук (1994 год), профессор, работает заведующим кафедрой физики Московского государственного технического университета им. Н.Э. Баумана. Область научных интересов: прецизионные измерения, физическая кинетика и спектроскопия.
E-mail: [email protected] .
Andrey Nikolaevich Morozov, born in 1959, PhD (ScD) (1994), prof., a head of Physics department of Bauman Moscow State Technical University. His scientific interests include precision measurements, physical kinetics and spectroscopy.
Поступила в редакцию 22 июля 2014 г.