Новый подход к автоматизированному выявлению шаблонов в телеметрических сигналах на основе декомпозиции на эмпирические моды

Клионский Д. М.; Орешко Н. И.; Геппенер В. В.

УДК 621.391

НОВЫЙ ПОДХОД К АВТОМАТИЗИРОВАННОМУ ВЫЯВЛЕНИЮ ШАБЛОНОВ В ТЕЛЕМЕТРИЧЕСКИХ СИГНАЛАХ НА ОСНОВЕ ДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ

В статье представлен новый метод обработки нестационарных сигналов сложной внутренней структуры — декомпозиция на эмпирические моды. В силу наличия важнейших для практики свойств — локальности и адаптивности — появляется возможность высокоточного решения многочисленных задач, которые можно условно разделить на три группы: предварительная обработка, анализ внутренней структуры и интеллектуальный анализ сигналов. Рассматривается подход к анализу внутренней структуры сигналов с использованием теории регрессии и методов дискриминантного анализа. Важнейшим преимуществом является возможность автоматизации нового подхода. Рассматриваемая задача включает в себя выделение шумовой компоненты, характерных сигнальных компонент (шаблонов) и тренда. Описан способ классификации извлекаемых из сигналов эмпирических мод. Эффективность подхода проиллюстрирована на примере широко используемых в телеметрии мультигармониче-ских сигналов.

Ключевые слова: адаптивность, эмпирическая мода (ЭМ), декомпозиция на эмпирические моды (ДЭМ), ЭМ-шаблон, шумовая ЭМ, трендовая ЭМ, классификационная статистика, регрессионный подход, мультигармонический сигнал.

Актуальность технологии обработки сигналов на основе ДЭМ

Большинство реальных сигналов, рассматриваемых в самых разных областях знаний и в рамках различных научных направлений (обработка речи, телеметрии, биомедицинских, акустических, метеорологических, сейсмических и др. типов сигналов), чаще всего являются нестационарными по своей природе, что проявляется в непостоянстве их отдельных характеристик во времени. У многих из на сегодняшний день существующих подходов при практическом использовании наблюдается ряд существенных недостатков. Например, широко распространенный классический анализ Фурье из-за своей относительной простоты вычислений (формулы Парсеваля, Планшереля, наличие быстрых вычислительных алгоритмов) практически сразу после своего появления стал доминировать над всеми другими методами анализа сигналов и применяться ко всем типам сигналов. Несмотря на то, что преобразование Фурье [4] применяется пи условиях, обычно выполняемых на практике (условия Дирихле, абсолютной интегрируемости), существует несколько существенных ограничений, накладываемых на сигналы, для которых вычисляется это преобразование. Суть этих ограничений состоит в том, что сигналы должны быть строго периодическими функциями или содержать т.н. повторяющиеся паттерны (фрагменты одной обшей природы, при этом не обязательно являющиеся идентичными), т.к. в противном случае анализ в частотной области даст неверную интерпретацию результатов. Также необходимо, чтобы сигналы обладали свойством стационарности по отношению к ряду характеристик (среднее значение и пр.).

Однако анализ Фурье неэффективен при исследовании сигналов с изменяющимся частотным содержанием (например, ЛЧМ-сигнал, из Фурье-спектра которого нельзя сделать вывода о линейном законе изменения частоты), т.к. тригонометрический базис содержит функции с не изменяющейся во времени частотой, в то время как сигналы могут включать в себя компоненты, занимающие разные частотные полосы. Кроме того, возникают сложности при необходимости определения основных

Д. М. Клионский Н. И. Орешко В. В. Геппенер

1) Санкт-Петербургский государственный электротехнический университет “ЛЭТИ” им. В.И. Ульянова-Ленина

2) Научно -инженерный центр Санкт-Петербургского электротехнического университета

e-mail: [email protected]; reshko@nic. spb. ru; [email protected]

диапазонов концентрации энергии (на основе классической Фурье-периодограммы и ее модификаций), которая рассеивается по достаточно широкому диапазону частот, создавая порой ложную картину распределения энергии по частотам. Функции тригонометрического базиса (и некоторых других часто используемых базисов) не обладают временной локализацией (не обеспечивают качественного временного разрешения), что весьма существенно для нестационарных сигналов, т.к. требуется локализация особенностей, моментов резких изменений.

Получившие в последнее время широкое распространение частотновременные методы (класс Коэна и пр.) [4] дают заметные преимущества по сравнению с классическим анализом Фурье, однако с их помощью невозможно напрямую, без привлечения дополнительных средств, получить мультимасштабное представление сигнала (в виде совокупности компонент с разным разрешением), которое требуется для понимания его внутренней структуры. Для повышения точности и достоверности анализа нестационарных сигналов, включая решение важнейшей и первичной задачи предварительной обработки, необходим специальный подход, обладающий свойством адаптивности к каждому конкретному рассматриваемому сигналу. Из известных на сегодняшний день подходов дискретное вейвлет-преобразование на основе схемы диадического банка фильтров [4] частично удовлетворяет данному требованию, а также многим другим, представляющим исключительную практическую ценность, а именно: хорошо разработанный математический аппарат, наличие быстрых вычислительных алгоритмов (для повышения оперативности вычислений), широкий класс решаемых задач. В силу особенностей конструирования вейвлет-базиса (на основе масштабных растяжений и сдвигов вдоль временной оси материнской функции-вейвлета) появляется возможность адаптивно обрабатывать сигналы путем довольно точного учета локальных временных особенностей. Но главная проблема, порой затрудняющая их эффективное практическое применение, — наличие большого многообразия и неочевидность выбора вейвлета для решения конкретной задачи. Как один из выходов можно предложить перебор вейвлет-функций (если нет других эвристических критериев выбора базиса), однако эта процедура может оказаться весьма затратной по времени и количеству вычислений. В целом следует признать, что вейвлет-преобразование в настоящее время играет одну из ведущих ролей в обработке сигналов в силу наличия большого многообразия специально разработанных базисов и применимости к различным важным практическим задачам [4]. Подчеркнем еще раз, что основная трудность применения вейвлет-преобразования — необходимость наличия априорных сведений (о виде базиса, его особенностях и свойствах и пр.), что зачастую вызывает трудности.

В настоящей статье будет подробно рассмотрена новая высоко адаптивная технология анализа и обработки сигналов - декомпозиция на эмпирические моды (ДЭМ) [1-3]. ДЭМ, обладая практически всеми известными достоинствами вейвлет-разложения (наиболее существенный недостаток ДЭМ — отсутствие полной теоретической базы - проблема, над которой сейчас ведется активная работа), при этом свободен от данного недостатка. Другими словами, разложение по этой системе функций с целью последующего анализа проводится с учетом локальных особенностей (таких как экстремумы и нули сигнала) и внутренней структуры (наличия трех основных типов компонент — шумовых, трендовых и сигнальных) каждого конкретного сигнала. Сами функции формируются, а правильнее сказать, извлекаются непосредственно из исходного сигнала, следовательно, такой базис всегда уникален, апостериорен и высоко адаптивен. Термин “базис” здесь использован не совсем корректно, поскольку, согласно определению, базис — линейное независимое множество функций, линейная оболочка которого образует все линейное пространство, в котором этот базис используется. Здесь, однако, линейная независимость не является строго доказанной, поэтому такой базис является эмпирическим, аппроксимативным и составляет своего рода “строительные блоки” для представления сигналов. Далее под “базисом” применительно к ДЭМ будет как раз пониматься именно

такой аппроксимативный базис. Технология обработки сигналов на основе ДЭМ в настоящее время получила широкое распространение при решении многочисленных задач предварительной обработки сигналов, основные из которых следующие: очистка сигналов от шума, выделение тренда, анализ степени хаотичности на основе оценивания показателей Херста, Гельдера и фрактальной размерности, проведение мультиразрешающего анализа (исследование тонкой структуры сигналов и их глобального поведения в целом; анализ свойств отдельных компонент) и мультиполос-ного анализа (исследование сигналов в различных частотных полосах), выделение шаблонов в сигналах и их классификация.

Процесс формирования базисных функций на основе специальным образом разработанного алгоритма не исчерпывает всю технологию, а является лишь первым ее начальным этапом. Далее по найденным базисным функциям формируется частотно-временное представление сигналов - т.н. спектр Гильберта-Гуанга [1-3]. Такое представление на частотно-временной плоскости получается путем вычисления мгновенных частот каждой базисной функции, их специальной нормировке и нанесения рассчитанных значений на итоговую трехмерную диаграмму. Такое частотновременное распределение позволяет еще и получить информацию об амплитуде, которая отображается соответствующим цветом (поэтому данное распределение, хотя и отображается как двумерное на плоскости, на самом деле является трехмерным: “вре-мя-амплитуда-частота” или “время-энергия-частота”). Спектр Гильберта-Гуанга, с одной стороны, аналогичен широко известным в частотно-временном анализе распределениям, но он конструируется на основе адаптивно сформированного базиса, что позволяет рассчитывать на более точные результаты при дальнейшем анализе. Приведем основные задачи, решаемые путем исследования построенного спектра Гильберта-Гуанга: выявление скрытых в шумах модуляций сигнала, идентификация частотных и временных диапазонов концентрации энергии, классификация сигналов по спектру Гильберта-Гуанга, расчет на основе спектра Гильберта-Гуанга маргинального спектра, являющегося аналогом частотного спектра Фурье для нестационарных сигналов, расчет на основе спектра Гильберта-Гуанга мгновенной плотности энергии, позволяющей наглядно выявлять изменения энергетических соотношений в сигналах.

После проведения предварительной обработки и анализа самой структуры сигнала следует третий, завершающий, этап интеллектуального анализа, который осуществляется на основе специальной технологии Data Mining [3]. Интеллектуальный анализ ориентирован на добычу из “сырых” исходных данных (прошедших, однако, этап предварительной обработки) новых, нетривиальных, практически полезных и поддающихся интерпретации человеком-экспертом знаний. Кроме того, задачи интеллектуального анализа должны быть автоматизированы, чтобы, по возможности, исключить эксперта из непосредственного процесса извлечения знаний, а привлечь его лишь на стадии интерпретации результатов. Data Mining использует представление сигналов в виде некоторых абстрактных структур — моделей — которые, вместе с тем, должны обеспечивать необходимую точность и достоверность результатов и отражать основные закономерности, свойственные некоторому явлению или процессу. Задач интеллектуального анализа довольно много, при этом основные из них, решаемые с помощью технологии ДЭМ, следующие: выявление участков в сигналах, обладающих однородными свойствами (сегментов), упрощение описания исходного сигнала, заданного в виде набора пар “временной отсчет — сигнальный отсчет” и устранение избыточности путем объединения отсчетов в однородные сегменты, поиск и объединение в группы (кластеры) ранее выделенных сегментов, построение временных шаблонов с учетом их упорядоченности во времени.

Понятие эмпирической и характеристической моды. Алгоритм ДЭМ

Переходя к описанию самой технологии ДЭМ и ее практических приложений, первое, что необходимо сделать — дать строгое определение понятиям “эмпирическая мода” и “характеристическая мода”. Эмпирическая мода (английское на-

звание IMF — Intrinsic Mode Function) [1-3] — функция, заданная непрерывно на интервале существования сигнала или дискретно в виде вектора отсчетов, имеющая в общем случае произвольную форму и аналитическую запись (если таковая существует), которая, однако, должна непременно удовлетворять двум необходимым условиям:

1) Общее суммарное число максимумов и минимумов такой функции (т.е. общее число экстремумов) должно быть строго равно числу нулей функции (в дискретном варианте задания нули могут быть найдены с использованием различных алгоритмов интерполяции) либо отличаться от числа нулей не больше, чем на единицу:

N + N - = N ± 1 или N + N - = N , (1)

max min -‘■'zero max min zero' v /

где Nmax, Nmin, N'zero — соответственно, число максимумов, минимумов и нулей функции, не считая краевые отсчеты сигнала, которые в некоторых случаях могут оказаться единственными экстремумами сигнала (случай монотонно возрастающей или убывающей функции на всей ее области определения).

2) Локальное (мгновенное) среднее значение функции, определенное как полусумма двух огибающих, верхней, интерполирующей найденные локальные максимумы и нижней, интерполирующей найденные локальные минимумы, — должно быть меньше или равно заранее определенного порогового значения rj, зависящего от машинной точности s и погрешностей, связанных с получением, преобразованием и передачей сигнальной информации. В качестве средства интерполяции чаще всего используются кубические сплайны, причина предпочтения которых приведена ниже. Добиться точного равенства нулю локального среднего значения в каждый момент времени невозможно по ряду объективных причин. К их числу относятся вычислительные погрешности (связанные с особенностями машинной арифметики с плавающей запятой), плохая обусловленность систем уравнений, на основе которых осуществляется расчет коэффициентов сплайнов, а также особенности самого сигнала (например, краевые эффекты — сильные осцилляции интерполирующей функции на краях, из-за которых вблизи краев локальное среднее может отличаться от нуля). Аналитически данное условие записывается в виде:

0.5 • [U(k) + L(k)] <r, к = IN , (2)

где U (k) и L(k) — значения верхней и нижней огибающих сигнала в k -й момент времени ( k -номер отсчета сигнала), N - общее количество сигнальных отсчетов, r — некоторый порог, устанавливаемый обработчиком-экспертом и обычно принимающий близкие к нулю значения.

Равенство числа экстремумов и числа нулей с точностью до 1 необходимо для того, чтобы ЭМ была узкополосной функцией (это дает преимущества при частотной локализации), т.к. мера узкополосности связана с числом экстремумов и нулей [2].

Условие, касающееся равенства нулю полусуммы двух интерполированных огибающих, имеет свою физическую интерпретацию. Из него следует, что ЭМ является стационарной функцией относительно своего локального среднего значения, которое неизменно и равно нулю (точнее, меньше некоторого порога) в любой момент времени. Кроме того, для достижения этого условия ЭМ должна иметь положительные значения в точках максимумов и отрицательные значения в точках минимумов, т.к. иначе для отдельных моментов времени условие может не выполниться. Наконец, важно отметить, что ЭМ в общем случае обладает одновременно и амплитудной и частотной модуляциями. Закон амплитудной модуляции может быть установлен из огибающих, полученных интерполяцией экстремумов или на основе преобразования Гильберта, а закон частотной модуляции устанавливается на основании закона изменения мгновенной частоты. В качестве информативного параметра на спектре Гильберта выступает цвет (определяемый значением наносимой абсолютной величины), т.к. именно по его изменениям можно определить соответствующие зависимости (изменение амплитудных соотношений, частотные модуляции и пр.).

Понятие огибающей, введенное для определения ЭМ, всегда рассматривается с учетом выбранного вида интерполяции. Как было сказано, используется в основном кубическая сплайн-интерполяция. У сплайнов вообще и кубических в частности есть ряд преимуществ по сравнению с другими функциями, обладающими, как и они, высокой степенью гладкости. Во-первых, по сравнению с классом полиномиальных функций, у сплайнов нет эффекта “раскачивания” — сильных осцилляций интерполирующей функции между узлами интерполяции в случае, если фрагмент имеет заведомо не полиномиальную природу. Но самым важным является то, что кубический сплайн минимизирует колебательное поведение функции — т.е. из всех дважды дифференцируемых, непрерывных на некотором интервале функций, интерполирующих заданную совокупность точек кубический сплайн меньше всего осциллирует [6]. Помимо интерполяционных сплайнов возможно также применение сглаживающего сплайна, т.е. функции, которая не будет гарантированно проходить через все узлы интерполяции. Эта методика весьма эффективна в том случае, если данные заведомо содержат погрешности и ошибки, а операция сглаживания позволяет уменьшить их влияние.

ЭМ должна обладать некоторой симметрией относительно оси времени, которая подразумевает наличие чередующихся локальных максимумов и минимумов, а интенсивность чередования определяется конкретной функцией. Между локальным максимумом и минимумом, как правило, располагается хотя бы один нуль функции, который в дискретном случае рассчитывается с помощью алгоритмов интерполяции. Примерами ЭМ являются гармонический сигнал, ЛЧМ-сигнал, Гауссов радиоимпульс, периодическая последовательность прямоугольных импульсов. Описание самого алгоритма ДЭМ, позволяющего получить набор компонент из исходного сигнала, приведено в [1-3].

Классификация ЭМ на основе физической интерпретации ДЭМ

При решении любой задачи из числа указанных ранее, необходимо предварительное проведение классификации всех извлеченных из сигнала ЭМ с целью выяснения их физического смысла — задача, ранее не рассматривавшаяся отдельно в рамках данного метода либо решаемая лишь для узкого класса сигналов без необходимого математического обоснования. Далее сказанное будет проиллюстрировано соответствующими примерами с участием мультигармонических сигналов (представляющих собой сумму нескольких элементарных гармоник), широко используемых в современной телеметрии. Для абсолютно произвольного сигнала все ЭМ можно разбить на две большие категории:

1) Основные ЭМ (включая шумовые ЭМ и ЭМ-шаблоны);

2) Трендовые ЭМ (включая компенсирующие ЭМ и истинные трендовые ЭМ).

Основные ЭМ в разложении всегда имеют четкий физический смысл и отражают внутреннюю структуру и особенности, свойственные данному конкретному сигналу. К их числу относятся шумовые ЭМ и ЭМ-шаблоны. Появление в разложении первых объясняется наличием в исходном сигнале шума, а вторые связаны непосредственно с самим полезным сигналом и входящими в него компонентами. В качестве примера, поясняющего сказанное, можно привести следующий: при разложении мультигармонического сигнала с аддитивным шумом получается несколько шумовых ЭМ (они располагаются на начальных уровнях и их число определяется интенсивностью шума, его частотными свойствами и общим числом отсчетов) и ЭМ-шаблоны (в разложении следуют за шумовыми ЭМ), к числу которых относятся соответствующие элементарные гармоники, образующие незашумленный мультигармо-нический сигнал. Понятие “ЭМ-шаблон” подразумевает некоторую функцию, характерную для данного типа сигналов, например, любую из элементарных гармоник для мультигармонического сигнала или, например, ЛЧМ-сигнал и элементарную гармонику в случае наличия их аддитивной смеси с шумом.

Трендовые ЭМ являются медленно меняющимися функциями (обычно описываются полиномами невысокой степени или экспоненциальной функцией), характеризующими изменение во времени локального среднего значения сигнала. Среди них, согласно вышеприведенной классификации, выделяют истинные трендовые ЭМ (всегда имеющие физический смысл), описывающие истинную динамику среднего значения и т.н. компенсирующие ЭМ, которые могут возникать в разложении в том случае, если тренд в сигнале отсутствует. Истинные трендовые ЭМ появляются, например, при разложении суммы гармонического сигнала и полиномиального тренда. Компенсирующие (ложные) ЭМ — результат несовершенства самого алгоритма ДЭМ, критериев остановки процесса отсеивания, неточностей при вычислениях (ошибок округления и пр.). Их появление не связано с какими-либо физическими или математическими особенностями рассматриваемых сигналов, а объясняется только лишь несовершенством вычислительной процедуры. Компенсирующие ЭМ обычно создают избыточность в разложении, а их название объясняется тем, что в сумме они дают функцию, очень близкую к нулю, т.е., по сути, компенсируют друг друга. Одной из наиболее типичных причин появления компенсирующих ЭМ являются побочные эффекты интерполяции огибающих — такие как появление “всплесков” (overshoots), сильные осцилляции вблизи концов сигнала (краевые эффекты). Для частичного преодоления вышеперечисленных проблем существуют специальные методы [2]: подавление краевых эффектов с помощью зеркального отображения экстремумов, наиболее близко расположенных к границам сигнала, тестирование различных критериев остановки процесса отсеивания, уточнение местоположения экстремумов для построения огибающих и пр.

На рис. 1 показан пример декомпозиции мультигармонического сигнала, состоящего из двух элементарных гармоник (сам исходный сигнал показан первым) в смеси с аддитивным гауссовским шумом.

1000 2000 3000 4000 5000

£1

6000 7000 8000

_0.о

i 005’*'1<№~№-Ф'

1 p'00 л~v^^'vVVДДfVVw>'W^ДД^■^^л^^<V^.л»-4Ллw^л^W\ЛAl^‘,l^'W^■-^/^—чЛА/\Длл/уу-/ч.^лл/^\М^^ i

® 0.1 E -0.

. 0.1 )

г -о.? E

Рис. 1. Пример декомпозиции мультигармонического сигнала

Амплитуды гармоник одинаковы и равны 1, а частоты отличаются в 2 раза — такое соотношение взято для иллюстрации структуры диадического банка фильтров, которая присуща ДЭМ. Из картины разложения видно, что гармоники извлекаются друг за другом в порядке уменьшения их частоты (ЭМ № 7 и 8 соответственно). В общей сложности извлечено 10 ЭМ и результирующий остаток. Первые шесть ЭМ являются основными, или, более точно, шумовыми, их появление обусловлено наличием шума. Далее также идут основные ЭМ, относящиеся к категории ЭМ-шаблонов, — две элементарные гармоники. Наконец, две последние ЭМ и результирующий оста-

ток — компенсирующие ЭМ (в исходном сигнале отсутствует тренд). Такое название обусловлено еще и тем, что в сумме они дают функцию, очень близкую к нулю во всех точках, т.е., по сути, компенсируют друг друга. Компенсирующие ЭМ создают избыточность разложения.

Новый подход к выявлению шаблонов в сигналах и идентификации компонент на основе теории регрессии

Рассмотрим новый подход к выявлению всех рассмотренных типов ЭМ с целью идентификации шумовой составляющей, характерных сигнальных составляющих и тренда. Для этого модель исходного сигнала представим в следующем виде:

5 = хр + е , (3)

где 5 — исходный сигнал, х — матрица регрессоров, р — вектор неизвестных коэффициентов, определяющих удельный вес регрессоров при описании исходного сигнала и подлежащих оцениванию, е — белый гауссовский шум с параметрами N (0; и2).

Теперь, используя результат разложения с помощью ДЭМ, запишем связь между всеми извлеченными ЭМ и исходным сигналом на основании свойства полноты разложения:

М -1

5 (к) = £ С (к) + ГМ (к), (4)

1=1

где гМ (к) - результирующий остаток в разложении. Из первого слагаемого правой части можно выделить отдельно самую первую ЭМ, которая будет являться аппроксимацией шума, присутствующего в сигнале поскольку в силу наиболее сильно выраженного по сравнению со всеми остальными ЭМ высокочастотного характера первую ЭМ можно трактовать как приближение исходного шума:

М -1 М -1

5(к) = с (к) + £ с, (к) + Гм (к) = е(к) + £ с г (к) + Гм (к). (5)

1=2 1=2

Теперь сделаем еще одно уточнение. Поскольку точная сходимость суммы всех ЭМ и результирующего остатка к исходному сигналу математически строго не доказана (эта сходимость рассматривается в инженерном смысле, т.е. абсолютная разность между исходным сигналом и суммой всех извлеченных ЭМ есть малое число, обычно порядка 10-16...Ю-10), введем некоторые весовые коэффициенты для каждой ЭМ (по умолчанию все веса единичные), которые будем определять в соответствии с МНК и которые должны улучшить точность восстановления. Тем самым должна улучшиться точность представления исходного сигнала полученными из него же компонентами:

М-1 М-'1

5(к) = с (к) + X (к) + Рм См (к) = е(к) + £ Ргсг (к) + Рм См (к), (6)

=2 =2

где р — вектор весовых коэффициентов. Выражение (6) можно переписать в более общем векторно-матричном виде:

5 = Ср + е , (7)

где С — матрица, в столбцах которой хранятся отсчеты ЭМ (число столбцов на единицу меньше общего числа функций в разложении, т.к. первая ЭМ выступает как аппроксимация исходного шума и не включается в эту матрицу). МНК-оценка вектора коэффициентов р определяется формулой:

р = (СТС)-1 СТ5 . (8)

Введение данных весовых коэффициентов и их дальнейшее вычисление (например, по МНК) может использоваться не только для повышения точности при восстановлении сигналов, но и для придания ДЭМ смысла "базиса”. Ведь, как было сказано, базис из ЭМ является апостериорным, следовательно, для каждого сигнала он индивидуален и, будучи полученным однажды, он не может использоваться для представ-

ления другого сигнала. Однако при работе с однотипными сигналами (например, гармоники с разными амплитудами, но одинаковыми частотами) данные весовые коэффициенты могут применяться для получения нового базиса из старого путем умножения ранее извлеченных компонент на найденные веса. Для коэффициентов можно сформировать интервальную оценку, т.е. найти границы интервала, в который конкретный коэффициент регрессионной модели попадает с заданной доверительной вероятностью Р. Можно показать, что границы доверительного интервала (ДИ) определяются следующим образом:

А - tr&У(CCT )-1 ; А + ty&у(CCT )-1 }

(9)

где Д, Д - истинное значение коэффициента и его оценка соответственно.

В классической задачи регрессии после нахождения соответствующих коэффициентов модели иногда осуществляется их проверка на значимость, по результатам которой конкретный элемент модели с проверяемым коэффициентом либо сохраняется, либо исчезает. Аналогично эту задачу можно решить для всех найденных весовых коэффициентов. Для этого рассмотрим две альтернативные гипотезы, одна из которых предполагает незначимость данного коэффициента модели (нулевая гипотеза Н0), а вторая, соответственно, его значимость (ненулевая гипотеза Н1), т.е. его от-личность от нуля. В данной ситуации нулевая гипотеза отвергается, поскольку все коэффициенты являются априорно значимыми, отличными от нуля, т.к. все ЭМ с теми или иными весами участвуют при восстановлении исходного сигнала. Однако нижеприведенную статистику, изначально предназначенную именно для проверки значимости коэффициентов модели, можно рассматривать как классификационную (т.е. как некоторую функцию, связанную с исходными данными), а рассчитываемые с ее помощью значения распределять по группам (каждая группа будет соответствовать одному из типов ЭМ) на основе некоторой дискриминирующей процедуры, например, кластер-анализа. Сама статистика имеет вид:

(10)

где V — матрица ковариаций ЭМ, определяемая как V = CCT (при вычислении статистики используются диагональные элементы матрицы, обратной к ковариационной), сге — среднеквадратическое отклонение (СКО) шума, которое можно определить по первой ЭМ с использованием, например, робастной медианной оценки [1,4], устойчивой к наличию погрешностей и аномальных ошибок в данных. Ниже (табл. 1) проиллюстрирован пример расчетов для мультигармонического сигнала, показанного на рис. 2 (частоты гармоник образуют геометрическую прогрессию со знаменателем 2; При разложении сигнала было получено 12 компонент). Медианная оценка СКО шума по первой ЭМ составляет 0.2876.

Исходя из полученных значений классификационной статистики можно сделать вывод, что 6,7,8 ЭМ (соответствующие трем элементарным гармоникам, выделенным в порядке уменьшения их частоты) являются значимыми, т.е. относятся к ЭМ-шаблонам, в то время как остальные являются незначимыми и относятся либо к шумовым, либо к компенсирующим (это видно по сильно отличающимся значениям статистики).

Рис. 2. Мультигармонический сигнал, состоящий из трех элементарных гармоник (слева) и его копия с аддитивным гауссовским шумом N(0;0.32) (справа)

Таблица 1

Значения статистики Т1 для всех выделенных из сигнала ЭМ

Номер ЭМ Коэффициенты Р , вычисленные по МНК V Нижняя граница ДИ Верхняя граница ДИ Длина ДИ Т • 10~4

2 0.9557 0.0067 0.9448 0.9667 0.0219 0.1658

3 0.9075 0.0126 0.8869 0.9282 0.0413 0.0792

4 0.8944 0.0205 0.8606 0.9282 0.0676 0.0471

5 0.9867 0.0046 0.9792 0.9943 0.0151 0.2564

6 0.9982 0.0002 0.9978 0.9986 0.0008 4.9331

7 1.0022 0.0003 1.0017 1.0026 0.0009 4.6289

8 0.9998 0.0003 0.9994 1.0003 0.0009 4.4683

9 1.0003 0.0206 0.9665 1.0341 0.0676 0.0588

10 1.0290 0.0332 0.9744 1.0836 0.1092 0.0385

11 1.0487 0.1121 0.8643 1.2331 0.3688 0.0119

12 1.0540 0.0618 0.9523 1.1556 0.2033 0.0217

Для автоматического проведения данной классификации можно воспользоваться одним из алгоритмов кластер-анализа, например, алгоритмом к-средних (к-теапэ) с числом кластеров, равным 2. Число 2 выбрано для того, чтобы в итоге получить две независимых группы компонент: ЭМ-шаблоны, выделенные в табл. 1 жирным шрифтом, и остальные компоненты (трендовые и шумовые). Также можно использовать специальные алгоритмы (например, основанные на критериях качества разбиения), позволяющие определить число кластеров вместо того, чтобы задавать его самим. Такая процедура может быть необходима для более тщательного анализа компонент, например, если требуется более тонкое разделение внутри группы ЭМ-шаблонов. Результаты кластеризации на основе значений статистики соответствуют высказанным предположениям: компоненты с 6-й по 8-ю относятся к одному кластеру, а все остальные — к другому. В некоторых случаях, для более детальной классификации, можно задать число кластеров, равное 3 с целью выделить три типа ЭМ: шумовые, ЭМ-шаблоны и компенсирующие ЭМ.

Ниже, на рис. 3, показан результат восстановления незашумленного мульти-гармонического сигнала, полученного в результате суммирования 6-й, 7-й и 8-й компонент разложения. На основании данного графика и его сравнения с графиком на рис. 2 можно сделать вывод о высокой точности восстановления полезного сигнала (прослеживается лишь незначительное влияние краевых эффектов).

Помимо значений статистики Т1, можно назвать еще один способ классификации ЭМ, а именно длина ДИ для соответствующих регрессионных коэффициентов, которая, как видно из табл. 1, наименьшая именно для ЭМ-шаблонов, что выделяет последние из общего набора компонент. Таким образом, длина ДИ может служить еще одним описательным признаком, использующимся при кластер-анализе.

В случае необходимости различения шумовых и трендовых компонент (если значения классификационной статистики оказываются для них близкими и кластер-анализ не позволяет их различить), возможно использование показателя Херста Н [1,5], характеризующего степень регулярности функции и ее склонность к хаотическому поведению. Данная величина заключена в пределах [о;1] и имеет два характерных диапазона значений. При 0 < Н < 0.5 . компоненты являются антиперси-стентными (с неустойчивым трендом, с кратковременной памятью), т.е. наблюдается т.н. тенденция возврата к среднему. Значения из данного диапазона имеют все шумовые ЭМ. При 0.5 < Н < 1 компоненты является персистентными (с устойчивым трендом, с долговременной памятью), т.е. если имелась тенденцию к возрастанию (убыванию), то она будет сохранена и в дальнейшем на некотором промежутке. Чем ближе значение Н к 1, тем сильнее выражена данная тенденция и тем дольше она сохраняется. Трендовые компоненты имеют показатель Херста, заключенный в этом диапазоне. Наконец, еще одним средством различения компонент является энтропия Шеннона, которая для шумовых компонент, как для более хаотичных и близких к случайным, дает значения, большие, чем для трендовых.

Особенности современной телеметрии

Существует несколько основных способов классификации телеметрических (ТМ) сигналов [7], однако наиболее часто используемой является их классификация по скорости изменения во времени, в соответствие с которой они делятся на медленно и быстро меняющиеся сигналы (ММС и БМС). Основное количественное отличие между ними состоит в разных эффективной ширине спектра. При этом качественного отличия может не наблюдаться, т.к. они могут описывать работу одного и того же сложного динамического объекта (СДО) [7].

ММС являются в телеметрии наиболее многочисленными и характеризуются спектром частот, группирующимся в диапазоне от о до нескольких десятков Гц, т.е. спектр сосредоточен в области низких частот. Во временной области такие сигналы, как правило, представляют собой набор фрагментов с определенным монотонным поведением, которое обычно достаточно точно описывается полиномом невысокой степени (3-5) без учета влияния присутствующего в сигнале шума. Такие сигналы являются персистентными (с устойчивым трендом), т.е. если сигнал имел тенденцию к возрастанию (или убыванию), то наверняка он ее сохранит и в дальнейшем. Показатель Херста таких сигналов лежит в пределах 0.5 < Н < 1. Чем ближе значение Н к 1, тем сильнее выражена общая монотонная тенденция и тем дольше она сохраняется. К данной категории сигналов относятся температурные параметры, давления, скорости потоков жидкостей и газов, линейные и угловые перемещения частей некоторого объекта со временем, скорости и ускорения объектов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

БМС имеют частотный спектр, более широкий, чем ММС. Верхние граничные частоты могут достигать значений нескольких десятков и сотен кГц. Во временной области такие сигналы являются сильно осциллирующими и резко меняющимися, часто имея шумоподобный вид. С точки зрения анализа регулярности, данные процессы являются антиперсистентными (с неустойчивым трендом), т.е. наблюдается т.н. повсеместная тенденция возврата к среднему. Если, например, сигнал является монотонно возрастающим в течение некоторого промежутка времени, то затем неизбежно наступит монотонное убывание сигнала — это как раз будет гарантировать примерное равенство среднего значения в любом сечении сигнала. Значения показателя Херста для них лежат в пределах 0 < Н < 0.5. БМС составляют значительно меньшую группу, чем ММС. Они отражают сложные осциллирующие процессы, протекающие в различных системах. В качестве примеров можно привести вибрации конструкций корпуса летательных аппаратов, пульсации давления в камере сгорания двигателей, акустические и аэродинамические нагрузки и пр.

Регрессионный подход, направленный на автоматическое выделение шаблонов в сигналах, а также на идентификацию трех ранее представленных типов компонент, может применяться и к БМС, и к ММС для решения этих задач. Однако в каждом конкретном случае шаблоны являются различными по своей природе и соответственно получаемые результаты должны быть отдельно проанализированы.

Заключение

В данной статье представлен новый подход к анализу нестационарных сигналов сложной внутренней структуры — декомпозиция на эмпирические моды. Описаны идеи, заложенные в его основу, а также основные преимущества по сравнению с существующими методами анализа нестационарных сигналов. Рассмотрена задача классификации компонент, получаемых при применении и ДЭМ к сигналу, которая, во-первых, позволяет понять внутреннюю структуру самих сигналов, а во-вторых, идентифицировать различные типы компонент. Идентификация проводится на основе теории регрессии и дискриминантного анализа, что позволяет добиться ее автоматизации. Кроме того, значения специальной классификационной статистики, показателя Херста и энтропии Шеннона могут использоваться в качестве вспомогательных признаков для различения компонент.

Поддержка

Настоящая работа поддержана грантом 2009 года для студентов, аспирантов вузов и академических институтов, расположенных на территории Санкт-Петербурга, выделенным Комитетом по науке и высшей школе Санкт-Петербурга.

Литература

1. Клионский, Д.М. Декомпозиция на эмпирические моды и ее использование при анализе дробного броуновского движения [Текст] / Д.М. Клионский, Н.И. Орешко, В.В. Геп-пенер / / Цифровая обработка сигналов. - 2008. - № 3. - с. 37-45.

2. Huang, N.E. Hilbert-Huang Transform and Its Applications [Text] / N.E. Huang, S.S. Shen // World Scientific. - 2005.

3. Klionsky, D.M Empirical mode decomposition in segmentation of slowly and fast changing non-stationary signals [Text] / D.M. Klionsky, V.V. Geppener // Proceedings of PRIA Conference, Yoshkar-Ola, Russia. - 2007.

4. Малла, С. Вейвлеты в обработке сигналов / С. Малла. // изд. М.: МИР. -2005. - 671 с.

5. Петерс, Э. Э. Фрактальный анализ финансовых рынков / Э.Э. Петерс. // изд. М.: Интернет-Трейдинг, 2004. - 304 с.

6. Мэтьюз, Д. Г. Численные методы. Использование Matlab / Д.Г. Мэтьюз, К.Д. Финк // изд. дом “Вильямс”, Москва-Санкт-Петербург-Киев. - 2001.

7. Назаров, А.В. Современная телеметрия в теории и на практике / А.В. Назаров, Г. И. Козырев, И. В. Шитов / / СПб.: Наука и Техника. - 2007. - 672 с.

Аннотация научной статьи по математике, автор научной работы — Клионский Д. М., Орешко Н. И., Геппенер В. В.

Похожие темы научных работ по математике , автор научной работы — Клионский Д. М., Орешко Н. И., Геппенер В. В.

Текст научной работы на тему «Новый подход к автоматизированному выявлению шаблонов в телеметрических сигналах на основе декомпозиции на эмпирические моды»