Классификация сигналов по форме, модель которой определена
эмпирически
А. И. Чуличков1,а, Н. Д. Цыбульская1,6, С. Ю. Шахбазов2
1 Московский государственный университет имени М. В. Ломоносова, физический факультет, кафедра компьютерных методов физики. Россия, 119991, Москва, Ленинские горы, д. 1, стр. 2.
2НИИ ПМТ МИЭМ, Россия, 115054, Москва, Малая Пионерская ул., д. 12.
E-mail: а achulichkov@gmail.com, ь sandratsy@list.ru
Статья поступила 11.11.2009, подписана в печать 21.03.2010
Сигналы заданной формы рассматриваются как элементы линейного подпространства евклидова пространства всех сигналов. Линейные подпространства (называемые формами сигналов) построены на основе измерений серий тестовых сигналов одинаковой формы; измерения сопровождаются ненулевой погрешностью. Построенные формы используются для классификации сигналов неизвестной формы.
Ключевые слова: анализ данных, математическое моделирование, форма сигнала, тестирование, принятие решений.
УДК: 519.95. PACS: 02.50.Le, 06.20.Dk.
Введение
Классификация сигналов на основе эмпирически построенной модели является одним из вариантов известной задачи распознавания образов [1, 2]. Правило классификации конструируется на основе обучающей выборки, при этом успех классификации во многом определяется удачным выбором описания сигналов (набора признаков). Для сокращения размерности пространства признаков обычно применяются методы факторного анализа [3]. Однако иногда уже заранее известно, что вариации сигналов внутри каждого класса определяются изменением небольшого числа параметров (признаков) /1,..., /д?, так что класс с номером А задается множеством сигналов 1/А = {ЛА(/), / € РА}; здесь / — вектор с координатами /1,..., /д?, а ,РА — множество значений векторов-признаков. Множества (или задающее их правило) в морфологическом анализе [4, 5] носят название формы сигналов из класса с номером А, А е А. Например, если анализируемые сигналы есть выходные сигналы датчиков-анализаторов состава смеси газов, то координаты /ь ... ,/д? вектора / есть концентрации газов, а форма отклика датчика определяется оператором Ахф, задаваемым физическими свойствами газов смеси. Для задачи определения состава смеси требуется указать номер смеси АеЛ, значения концентраций / при этом не важны.
В настоящей статье связь признаков / с наблюдаемыми сигналами Ахф построена по обучающей выборке, заданной набором тестовых значений признаков /1, ■ ■ ■ ,//(А) ■ Если сигналы наблюдаются в шуме, то в ряде случаев ЛА(-) можно аппроксимировать линейным оператором Ах, тогда будет линейным пространством значений оператора Ах. Наблюдаемый сигнал рассматривается как вектор «-мерного евклидова пространства Я", формируемый по схеме
£ = ё+ь, = Ах{+ь>. (1)
Здесь предполагается, что Ах — линейный оператор, действующий из Л7-мерного евклидова пространства
Яы в Я", £ с /?" — искаженный случайным шумом V е Я" результат регистрации сигнала g = АА/. По данным ряда тестовых измерений, проведенных для набора /1. ■ ■ ■ .//(А) известных параметров, проверяется гипотеза о линейной связи между векторами / и g = Ах$ и оценивается пространство значений оператора Ах (форма сигналов класса с номером А, АеЛ). Для классификации предъявленного для анализа сигнала из контрольной выборки решается задача проверки гипотезы о принадлежности математического ожидания предъявленного сигнала пространству значений оператора Ах, АеЛ, построенного по тестовым измерениям.
В качестве иллюстрации рассматривается задача определения состава газовой смеси по динамике отклика полупроводникового сенсора. Сенсор представляет собой тонкую пленку, нанесенную на поверхность полупроводника. Пленка меняет электрическую проводимость в зависимости от температуры и количества молекул газов, адсорбированных на поверхность пленки. При известном составе газовой смеси (с номером А) и заданных тестовых концентрациях / входящих в нее газов в вычислительном эксперименте рассчитывается динамический отклик g(t) = Axf, I е [0, Т] сенсора. Для этого решается система уравнений химической кинетики и используется простейшая модель проводимости пленки. Получены условия, при которых оператор ЛА(-) можно считать линейным, показано, что информации, содержащейся в измерениях, достаточно для классификации смесей, но недостаточно для оценки концентраций газов в смеси.
1. Модель схемы измерений
Рассмотрим задачу, в которой для каждого АеЛ известны результаты измерений набора сигналов /= 1,2,... ,/(А)}, отвечающих тестовым значениям векторов-признаков {/А, /= 1,2,... ,/(А)}, и дан результат £ = АА/+ V регистрации контрольного сигнала
неизвестной формы по схеме (1). Требуется определить значение параметра Л € Л формы сигнала АА/.
Зафиксируем значение параметра Л € Л и будем считать, что в схеме измерения (1) линейный оператор Ах неизвестен, вектор / е ограничен: ||/||2 а шум V есть случайный вектор пространства Я" с нулевым математическим ожиданием ЕV = 0 и корреляционным оператором Е е (Лп -¥ Я"). Тестовые (обучающие) измерения проведены по схеме
£А=ЛА/А + ^А, 1=1,...,I. (2)
Значения тестовых параметров {/А, ... ,/А} с , а также результаты {£А,..., £А} с Яп измерений соответствующих им сигналов известны; погрешности измерений Vх в (2) имеют нулевые математические ожидания и заданные ковариационные операторы Ех е (Я" -»• Я"), / = 1,...,/.
Построим матрицы ЕА е (Я7 -¥ Яп), МА е (Я1 -¥ Л") и 21А е (й7 -¥ Яы), определяемые для любого вектора § = (ё1> ■ ■ ■ >ё/) координатного векторного пространства й7 соотношениями
= = ИА£ = ]>>/А,
(=1 (=1 (=1
иными словами, если векторы С Яп,
{г/х,..., Vх) с Яп и {/А,... ,/А} с заданы своими координатами в некоторых ортонормированных базисах, то столбцы матриц операторов ЕА е (й7 -¥ Я"),
МА е (Я7 ^й") и 21А е (Я7 в этих же базисах
равны векторам {£А,... ,£/} С Я", {и\,..., Vх) с Я" и {/А,... ,/А} с соответственно. Тогда схему тестовых измерений можно записать в виде
ЕА = ЛА21А^1МА. (3)
Полученный при контрольном измерении вектор £ есть искаженный шумом г/ результат измерения сигнала АА/ формы Л. Запишем вектор / е в виде / = 21А21А^/+(/^21А21А^)/, где Я1" е (ЯЛ -Я;) -оператор, псевдообратный оператору IIх е (Я7 -¥ Яы) [7, 8]. Здесь первое слагаемое справа есть проекция сигнала / на линейную оболочку тестовых сигналов {/А,... ,/А}, а второе — проекция / на ее ортогональное дополнение в . Далее будем полагать, что вектор признаков / в контрольном измерении является линейной комбинацией тестовых сигналов (в противном случае контрольный эксперимент проводится в ситуации, отличной от проведения обучающего), тогда (/ — ИАИА^)/ = 0. Подставив / = 21А21А^/ в (1), с учетом (3) получим £ = ЛА21А21А^/ +1У = ЕА21А^/ + МАИА^/ + V .
Таким образом, вектор £ можно рассматривать как измерение вектора ЕАПА^/ с погрешностью МАПА^/ + V . Обозначим Вх = ЕАПА^ , <?А = МАПА^ . Тогда
(4)
Здесь линейный оператор Вх известен, а 0А обладает нулевым математическим ожиданием. Математическая модель формы сигнала на выходе измерительного при-
бора Ах, формулируется как линейное подпространство ЯА линейного оператора Вх = ЕАПА^ .
2. Проверка гипотезы о форме измеренного сигнала
Рассмотрим гипотезу, согласно которой в эксперименте (1) производится измерение сигнала, форма которого определяется значением Л. Учитывая тестовые измерения, перепишем (1) в виде (4) и заметим, что в (4) первое слагаемое является вектором пространства значений известного оператора Вх, состоящего из всех линейных комбинаций векторов {£А,...,£А}. Второе и третье слагаемые являются случайными векторами с нулевым математическим ожиданием. Гипотеза, описанная в начале этого пункта, формулируется как гипотеза о том, что вектор £ имеет математическое ожидание, принадлежащее пространству значений линейного оператора Вх, и ковариационный оператор, равный Ех = £=«?А/)«?А/)* + 2х- Здесь Ее - знак условного математического ожидания при условии, что результатом тестовых измерений является Е. Ковариационный оператор случайного вектора £ зависит от неизвестного сигнала /, и если ||/||2 ^ то можно записать оценку для корреляционного оператора Ех из следующих соотношений:
е! =£н«?а/)«?а/Г + £А ^ ||/||2£Н«?а)«?аГ + 174
^ у>2/А + Ех = Ех.
Здесь Iх = Ег((2х)((2х)*, а неравенство для самосопряженных операторов означает, что их разность — знакоопределенный оператор [4].
Действуя на обе части равенства (4) оператором Е,71/2 и обозначив £ = Е,71/2£, г> = Е,71/2г/, Вх = Е^1/2Вх, 0А = Е71:~(2х. V = 0А/+ ¿>, получим | = Вх) + 0А/ + V = (Рх + (I - Рх)) (ВА/ + г>), где РХ = ВХ(ВХ) — оператор ортогонального проецирования в Я" на пространство значений оператора Вх, г> — случайный вектор с нулевым математическим ожиданием, корреляционный оператор которого не превосходит единичный.
Теперь вектор | можно представить в виде суммы двух взаимно ортогональных векторов £ = рА| + (/ _ РА)|, причем первый их них в случае, когда £ является результатом измерения сигнала заданной формы, имеет математическое ожидание ВА/, принадлежащее образу шара {||/||^<£>} при отображении Вх, а второй — нулевое математическое ожидание и корреляционный оператор, не превосходящий проектор (I - Рх). Поэтому если математическое ожидание
вектора = (I - РА)| отлично от нуля, то сигнал £ не может считаться результатом измерения сигнала заданной формы.
Воспользуемся последним утверждением для проверки гипотезы о форме регистрируемого сигнала, сведя задачу к проверке статистической гипотезы о равенстве
нулю математического ожидания вектора Для характеристики согласия результата измерения £ с этой гипотезой воспользуемся неравенством Чебышева.
тА
Пусть £ — реализация случайного вектора 77А, обладающего нулевым математическим ожиданием и корреляционным оператором £. Фиксируем и оце-
~ А 2
ним вероятность Р(||г?А||2 > ||| || ) ^
получить результат, согласующийся с гипотезой хуже,
чем |А; здесь 1г £ — след линейного оператора £. Если эта вероятность мала, то предположение о равенстве нулю математического ожидания вектора |А будет несостоятельно и гипотезу о том, что зарегистрированный сигнал £ имеет заданную форму, следует отвергнуть как несостоятельную. В нашем случае известна
оценка корреляционного оператора вектора £ , поэтому
£||?7Л||2 _
trE
P(\\V
А ||2
|1А|2) < —ÍL
■ р)
A112
хАц2
(5)
где к\ — размерность пространства значений оператора Вх = £АПА^ . Заметим, что более тонкую оценку согласия гипотезы о форме сигнала, измеряемого в (1), можно получить, учтя неравенство ||/||2 ^ у>2.
~А ц2
Итак, чем меньше величина «а(0 = « — £ || . тем менее правдоподобно утверждение, что £ есть результат измерения сигнала, форма которого описывается параметром Л. Величина «а(0 носит название надежности гипотезы [7, 8] и имеет смысл вероятности получить результат хуже, чем согласующийся с гипотезой. Принцип максимальной надежности в принятии гипотезы состоит в том, что форме сигнала £ приписывается тот номер Л класса, для которого аА(£) максимальна [7]. Поэтому надежность, близкая к единице, свидетельствует о достаточно высокой вероятности получить результат Л при верной гипотезе.
Если для всех классов надежность мала, то это свидетельствует о том, что анализируемый сигнал, скорее всего, не принадлежит ни к одному из выбранных классов. Кроме того, если для нескольких гипотез их надежности близки к максимальной, то это свидетельствует о недостаточной информативности измерений для решения задачи классификации.
3. Проверка линейности оператора АА( )
Если Ах — линейный оператор и п > р\ = = ш1п{Лг,/(Л)}, то оператор АХПХ имеет ранг не больше р\. Это означает, что столбцы матрицы линейного оператора АХПХ в любом ортонормированном базисе должны лежать в линейном подпространстве Я" размерности не выше рА. Так как, согласно (3), наблюдению доступен только оператор £А, отличающийся от АХПХ на случайный оператор (^МА), то для того чтобы существовал линейный оператор, осуществляющий связь между векторами {/А,...,/А} и математическим ожиданием векторов {£А, ■ ■ ■, £/}, нужно, чтобы существовало такое линейное подпространство в Я" размерности не выше рА, что расстояние до него столбцов матрицы оператора £А может быть объяснено наличием шума МА. Критерием согласия гипотезы
п
о линейности ЛА(-) служит величина ^ /З2, где /3,-,
;=Рл
j = I,... ,п — сингулярные числа оператора Ех, упорядоченные по невозрастанию. В соответствии с понятием эффективного ранга набора данных [9] эта величина есть суммарное расстояние векторов {£А, ■ ■ ■, £/} от ближайшего к ним рА-мерного линейного подпространства R". Повторив рассуждения предыдущего пункта,
п
найдем, что величину ^ /З2 следует сравнивать с вели-
/=РА
чиной р2(МА) суммы квадратов проекций векторов Vх из (2) на ортогональное дополнение к линейной оболочке первых рА векторов сингулярного базиса опе-
п
ратора Ех в пространстве Rn: чем меньше Щ по
/=РА
сравнению с р2(МА), тем более правдоподобна гипотеза о линейности ЛА(-) [7].
4. Исследование возможности определения состава газовой смеси на основе модели, восстановленной из тестовых измерений
Предложенный метод был использован для исследования возможности определения состава и концентрации смеси газов с помощью сенсоров на основе полупроводниковых пленок. Контроль за составом смеси осуществляется на основании измерения сигнала, проводимого по схеме (1). В данном случае значение параметра А отвечает за «качественные характеристики» изучаемого процесса — состав смеси, а значение параметра / — за концентрации входящих в смесь газов.
Для решения задачи была использована модель полупроводникового газочувствительного сенсора на основе тонких пленок SnC>2, меняющих свою проводимость при контакте с тем или иным газом из-за адсорбции молекул газа на поверхности пленки и изменении температуры [6]. Система дифференциальных уравнений, соответствующая кинетике реакции, имеет вид
dio -si = (Sq _ [(r_s] _ [x_0-_s]). hPX
dt
dt
d\0~-S]
dt
где [O"-5
кислорода,
сr-S] - [X-0
¿rx-cr-s
>1/2 O,
51
(6)
= 0,
t=o
dt
= 0,
t=o
- поверхностная концентрация ионов связанных с центром адсорбции 5, [Х-0~-5] — поверхностная концентрация газа X, адсорбированного на ионе кислорода в центре адсорбции, 5о — максимально возможное число центров адсорбции, Ро2 — концентрация кислорода, Рх — концентрация газа X, к, — скорость реакции.
Проводимость б пленки обратно пропорциональна концентрации адсорбированных ионов кислорода О--51 + [Х-0~-51:
С0- =
G(C0-,T) =
£
+ f(T).
(7)
(1 + гС0-)
Здесь е — диэлектрическая постоянная полупроводни ка, г — константа, функция /(71) = «(71 — 7о) модели рует температурную зависимость проводимости.
После решения задачи (6)-(7) отклик датчика на измеряемую смесь был получен в виде зависимости проводимости пленки от времени £(/), I = ...../90.
В вычислительном эксперименте рассматривались смеси, состоящие из одного, двух и трех газовых компонентов (использовались характеристики водорода, пропана и СО). Результаты расчетов рассматривались как результаты измерений откликов датчиков на тестовые параметры, задаваемые концентрациями компонентов смеси. Для каждой смеси из Л компонентов, Л = 1,2,3, были вычислены выходные сигналы £А(0.
/ = ...../до. Рассматривались серии экспериментов
с разным количеством тестов, от 2 до 5.
Для каждого Л= 1,2,3 и для каждой серии с заданным числом тестов вычислялись сингулярные числа матрицы £А. Во всех случаях квадрат первого сингулярного значения матрицы £А отличался от суммы квадратов следующих за ним на четыре порядка, что свидетельствует о том, что эффективная размерность множества тестовых сигналов с относительной точностью 104 равна единице. Это говорит о возможности линейной аппроксимации оператора ЛА(-) в каждом тестовом эксперименте.
30 40 50 60 Время, отн. ед.
АттА™
для
Рас. 1. Сингулярные векторы матрицы Е И одно-, двух- и трехкомпонентных смесей (А = 1,2,3) и различного числа I тестовых сигналов
-0.099 -0.100
30 40 50 60 Время, отн. ед.
Рис. 2. Сингулярные векторы матрицы 5АПА^ для однокомпонентного газа (А = 1) и различного числа I тестовых сигналов
Далее исследовались одномерные подпространства пространства значений операторов £АПА^ , соответствующие их максимальному сингулярному значению. На рис. 1 для каждого А = 1,2,3 приведены графики главных сингулярных векторов операторов (£АПА^);. Сингулярные векторы для различного числа / тестовых сигналов (в рамках одного А) близки между собой настолько, что их различение не представляется возможным. На рис. 2 отдельно приведен график сингулярных векторов матрицы (£АПА^); для однокомпонентного газа.
Из рис. 1, 2 видно, что подпространства, задающие форму сигналов, существенно отличаются для разных составов смеси (т. е. от класса к классу), однако незначительно изменяются при изменении числа тестовых измерений в каждом фиксированном классе. Это свидетельствует о том, что оператор ЛА(-) можно с высокой точностью аппроксимировать линейным оператором при отличных от нуля концентрациях газов смеси, однако в окрестности нуля эта аппроксимация перестает быть справедливой.
Если считать, что измерения сигнала на выходе датчиков производились с погрешностью, которая в рамках критерия (5) не позволяет отличить сигналы, приведенные на рис. 1 при заданных А, но позволяет различать их для разных А, то можно утверждать, что точность определения формы сигнала согласована с точностью измерения сигнала на выходе датчика. Следовательно, на основе измерений выходных сигналов газочувствительного сенсора можно указать состав смеси, но не концентрацию, составляющих ее газов, так как в эксперименте для этого недостаточно информации.
Заключение
В настоящей работе дано решение задачи анализа состава смеси в случае, когда математическую модель формы сигнала газочувствительного сенсора можно аппроксимировать линейной или кусочно-линейной зависимостью выходного сигнала от откликов сенсора на «чистые» компоненты смеси. Также приведен пример применения метода оценки формы сигналов для различения составов смеси газов с помощью полупроводниковых газочувствительных датчиков на основе тонких пленок БпОг- Показано, что в рассматриваемом случае можно по форме определять «качественные» характеристики сигналов, состав газовой смеси, но не их концентрации, так как в экспериментальных данных для этого недостаточно информации. Рассмотренный пример демонстрирует возможность применения предложенной методики для линейной аппроксимации нелинейных моделей формы, построенных на основе моделирования тестовых измерений в вычислительном эксперименте.
Работа выполнена при финансовой поддержке РФФИ (грант № 08-07-120-а).
Список литературы
1. Журавлев Ю.И., Рязанов В.В., Сенько О.В. «Распознавание». Математические методы. Программная система.
Практические применения. М., 2006.
2. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск, 1999.
3. Ким Дж.О., Мъюллер Ч.У., Клеша У.Р. и др. Факторный, дискриминантный и кластерный анализ. М., 1989.
4. Пытьев Ю.П., Чуличков А.И. Морфологические методы анализа изображений. М., 2009.
5. Pyt'ev Yu.P. II Pattern Recognition and Image Analysis. 1993. 3, N 1. P. 19.
6. Nakata S., Takemura K., Ney a K. // Sensors and actuators. В (chemical). 2001. 76. P. 436.
7. Пытьев Ю.П. Методы математического моделирования измерительно-вычислительных систем. М., 2004.
8. Чуличков А.И. Основы теории измерительно-вычислительных систем. Тамбов, 2000.
9. Pyt'ev Yu.P., Pyt'ev A.Yu. 11 Pattern Recognition and Image Analysis. 1997. 7, N 4. P. 393.
Classification signals by empirical defined shape A.I. Chulichkov'", N.D. Tsybulskaya1 ' , S.Yu. Shahbasov
1 Department of Computer Methods in Physics, Faculty of Physics, M. V. Lomonosov Moscow State University, Moscow 119991, Russia.
2 Research Institute of Advanced Materials and Technology, Moscow State Institute of Electronics and Mathematics (Technical University), (RIAMT MIEM), 12 Malaya Pionerskaya str., Moscow 115054, Russia. E-mail: a achulichkov@gmail.com, bsandratsy@list.ru.
The signals with identical shapes are examined as elements of linear subspace of all signals Euclidean space. Linear subspaces (called the shapes of signals) are constructed on the basis of measurements series tests signals with identical shape; measurements are executed with errors. The constructed shapes are used for classification of unknown signals.
Keywords: data analysis, mathematical modeling, signal shape, testing. PACS: 02.50.Le, 06.20.Dk. Received 11 November 2009.
English version: Moscow University Physics Bulletin 5(2010).
Сведения об авторах
1. Чуличков Алексей Иванович — докт. физ.-мат. наук, профессор, профессор; тел.: (495) 939-41-78, e-mail: achulichkov@grnail.com.
2. Цыбульская Надежда Дмитриевна — аспирант; тел.: (495) 939-41-78, e-mail: sandratsy@list.ru.
3. Шахбазов Сергей Юрьевич — канд. физ.-мат. наук, директор НИИ ПМТ МИЭМ.