Научная статья на тему 'Адаптивные методы и алгоритмы разделения смеси сигналов с независимыми компонентами'

Адаптивные методы и алгоритмы разделения смеси сигналов с независимыми компонентами Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
157
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СМЕСИ СИГНАЛОВ / ПЕРВИЧНЫЕ КОМПОНЕНТЫ / НЕЗАВИСИМОСТЬ / АДАПТИВНЫЕ МЕТОДЫ / АЛГОРИТМЫ / SIGNAL MIXTURES / GENERATING SIGNALS / INITIAL COMPONENTS / INDEPENDENCE / ADAPTIVE METHODS / ALGORITHMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Малыхина Галина Фёдоровна, Меркушева А. В.

Рассмотрены методы и алгоритмы, предназначенные для разделения смеси сигналов из независимых компонент (первичных сигналов, образующих смесь). Реализация методов ориентирована на нейронные сети. Приведены модели нейронных сетей, правила для адаптивного метода их обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Малыхина Галина Фёдоровна, Меркушева А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ADAPTIVE METHODS AND ALGORITHMS FOR SEPARATION OF SIGNAL MIXURE WITH INDEPENDENT COMPONENTS

Methods and algorithms that are intended for separation of signal mixture of independent components (initial signals generating the mixture) are discussed. Methods realization is oriented on neural networks. The models of neural networks and the rules for their adaptive learning are discussed.

Текст научной работы на тему «Адаптивные методы и алгоритмы разделения смеси сигналов с независимыми компонентами»

ISSN 0868-5886 НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2010, том 20, № 3, c. 35-48 - ОБРАБОТКА СИГНАЛОВ, ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ =

УДК 621.391; 519.21; 519.245

© Г. Ф. Малыхина, А. В. Меркушева

АДАПТИВНЫЕ МЕТОДЫ И АЛГОРИТМЫ РАЗДЕЛЕНИЯ СМЕСИ СИГНАЛОВ С НЕЗАВИСИМЫМИ КОМПОНЕНТАМИ

Рассмотрены методы и алгоритмы, предназначенные для разделения смеси сигналов из независимых компонент (первичных сигналов, образующих смесь). Реализация методов ориентирована на нейронные сети. Приведены модели нейронных сетей, правила для адаптивного метода их обучения.

Кл. сл.: смеси сигналов, первичные компоненты, независимость, адаптивные методы, алгоритмы

ВВЕДЕНИЕ

Основы методов разделения смеси сигналов (РСС) и восстановления первичных сигналов (ПС), входящих в состав смеси с неизвестным составом, проанализированы в [1-5]. Рассмотрено несколько методов РСС: декорреляция сигналов и использование статистик второго порядка; последовательное выделение ПС; извлечение ПС из смеси типа свертки; использование критерия независимости и вида распределения сигналов, а также модифицированного градиента в алгоритме РСС [4-9].

Многообразие подходов к РСС делает целесообразным анализ системы адаптивных алгоритмов для нейронных сетей (НС), используемых в этой задаче. Алгоритмы имеют преимущество по эффективности, простоте и форме реализации. Некоторые из них удобны для РСС в случае, когда анализируемые сигналы зашумлены, существенно различаются по величине или когда количество ПС и их статистические свойства неизвестны.

ОСНОВЫ ИСПОЛЬЗОВАНИЯ НС ДЛЯ РСС

Для нейронной сети (НС) с рекуррентной структурой и при линейном смешивании ПС адаптивное правило обучения использовано Коммо-ном, Джуттен и Хераулт (Common, Jutten, Hérault) [10]. Сигналы xi(t) на сенсорах информационно-измерительной сети (ИИС) определяются соотношением

,(t) = Х> л(t), i = 1,2,...,n,

(1)

где

^ — неизвестные параметры; sJ■ (V) — неизвестные

ПС, для которых предполагается независимость1-1 и нулевое среднее. Рекуррентная НС (рис. 1) описывается соотношениями, имеющими (в векторно-матричной форме) вид

y(t ) = x(t ) - W(t ) y(t ), x(t ) = Hs(t). Из (2) следует, что y(t ) = [I + W(t )]-1 x(t )

(2)

где W =

w,

w-,

12 0

w,,

W-,

W,„

w„

0

При этом параметры сети Му (при м>и = 0)) адаптируются так, чтобы наблюдаемые сигналы х() образовали оптимальную оценку ПС: £ ] (V) =

= У] (V) = х^ - ^ Мр y(í). Оптимальные веса соответствуют статистической независимости сигналов у1 (V) на выходе НС.

1) Единственной априорной информацией является независимость ПС. Это означает, что плотности распределения вероятности р(у) сигналов у, и у] являются мультипликативными: р(у, у]) = р(у,)' р(у), т. е. все кова-риации Е{/(у, )g(у})} -Е{/(у,)} • E{g(у})} равны нулю а

все дисперсии Е{/(у, ^ (у,)} - Е{/(у,)} • Е^ (у,)} — не нулевые.

0

x

a

б

Рис. 1. Блок-схемы рекуррентной НС (а) и НС с прямым распространением сигнала (б)

При нулевых средних значениях ПС обобщенная корреляционная матрица дляЛу) и g(y1) (различных передаточных функций нейронов (ПФН) сети) является диагональной матрицей:

Rfг = Е{{ (у (у )} - Е^ (у )} • E{gT (у )} =

E{fy )g(y )} - E{fy )} • E{g(y )}

E{fy )g(y,)} - E{fy )} • E{gy )}

(3)

Следует отметить, что если плотность распределения каждого ПС является четной2), то для нечетных функций ЛО и g(•) элементы типа Е{ Л (у,)} • Е{% (у}) в ковариационной матрице (3)

равны нулю. Вместе с тем общим условием для статистической независимости сигналов являются равные нулю (или очень малые) значения кросс-кумулянт высокого порядка.3

2) Четная функция fx) не изменяет своего значения при замене знака аргумента (т. е. f-x) = fx)), а нечетная функция при этом изменяет знак: f-x) = - Ax).

3 Кумулянты являются статистиками высокого порядка, которые формализованно определяются как коэффициенты разложения в ряд Тейлора совместной характеристической функции произвольного набора вероятностных переменных, в том числе временных отсчетов (по крайней мере локально) стационарного случайного сигнала [11]. Так, для набора переменных {z1,z2,...,zn}

их (общая) кумулянта k-го порядка (k = k1 + k2 +... + kn)

определяется соотношением

На основе критерия независимости ПС предложено адаптивное правило обучения НС [10]:

dj) dt

= M) f (y (t)) • g (y j (t))..

(4)

Кум.

zi , zo

, z" =

j )

к д ц/(ю1 ,a2,...,a )

dzki д zk2 д zk

L/^t i W ¿j 2 • • • n

W1 =W2 =... = Wn =0

где

,®2,-,®и) = Е{ехрУ • («21 + «2^2 +... + ]} — характеристическая функция и Е — символ математического ожидания. Для набора п вероятностных (случайных) стационарных переменных ^ (^)} {=12 п

кросс-кумулянта (С) п-го порядка представляется в виде

С (г,,г2,...,т ,) =

= Кум.[ ^), + тД 2з(г + Т2),..., 2п (Г + Тп-1)].

0

0

Наблюдаемые

Рис. 2а. Структура операций при восстановлении сигналов на основе НС [8]

где Ау) и g(y) — нечетные ФПН вида Ау) = у3 и g(y) = tg(10y) для ПС с субгауссовым распределением и Ау) = tg(10y) и g(y) = у3 — для ПС с над-гауссовым распределением ПС.4)

Алгоритм обучения в векторно-матричной форме имеет вид:

^^ = Ж )f [у(! )^Т[у(!)], (5)

а!

где

f (у) = [ А (я), А (у2),..., А ( уп )]т, g(y) =[ g(Уl), g(у 2 Х..^ g( у„ )]Т

при условии, что Е^(у)} = 0 или Е^(у)} = 0. Чтобы удовлетворить этим условиям (для несимметричных распределений), используются нелинейные ФПН в виде Ау,) = ф(у), g(yi) = у,, и вид функции ф(у) подбирают по виду предполагаемого распределения ПС. Схема РСС на простой структуре НС при двух ПС ^ и s2) и функциональная схема алгоритма для нее показаны на рис. 2а и 2б.

4) Субгауссова и надгауссова — это соответственно "сплющенная" плотность распределения с модой меньше, чем у гауссовой, и плотность распределения с более острой вершиной (т. е. с большей модой), чем у гауссовой плотности распределения.

Соотношение (3) отражает практический критерий независимости выходных сигналов НС. При плохо масштабированных сигналах (когда величины ПС отличаются во много раз) этот критерий оказывается недостаточно эффективным. В этом случае используется дополнительное условие для нормализации дисперсий: Е{А(yi)g(у,)} = (часто принимают все Л = 1).

Модель [10] улучшена использованием рекуррентной структуры НС, где каждый нейрон имеет обратную связь на себя (ми Ф 0) и на все остальные нейроны (рис. 1, а). Эта сеть описывается со-

п

отношением у1 (!) = х1 (!) - ^(!)у (!) . Критерий

з -1

независимости и нормализация дисперсий позволяют получить алгоритм обучения НС в реальном времени

^^ = Ж)[Л - А[у, (!)] • g[у, (!)]],

- (6)

—р- = Ж)А[у, (!)] • g[у. (!)] для , Ф ]. а!

и представить его в векторно-матричной форме:

Неизвестное смешивание сигналов источника

Рис. 2б. Функциональная схема алгоритма РСС для НС по модели [10]

^ = МО [Л - Г[у(0кт[у(0]], (7)

где Л = Диаг.{Л1 Л2 ....,Л2}.

Условие нормализации дисперсий ( Е{/(у,)g(у,)} = 1)

существенно улучшает функционирование НС, особенно при плохом масштабировании ПС, когда смешивающая матрица Н имеет очень большой разброс собственных значений, т. е. близка к сингулярной.

Обучающий алгоритм (6), (7) эффективен для хорошо обусловленных задач РСС, однако НС, показанная на рис. 1, а, и алгоритм ее обучения требуют на каждой итерации обращения матрицы

в (2). Кроме того, предусматривается равенство числа ПС и количества сенсоров.

НС С ПРЯМЫМ РАСПРОСТРАНЕНИЕМ СИГНАЛА И АЛГОРИТМЫ ОБУЧЕНИЯ

Рассмотрим восстановление формы ПС, используя НС с прямым распространением сигнала (НС без обратных связей), рис. 1, б. При этом тре-

буется найти веса Wj сети, для которых она определяет оптимальную оценку ПС:

= у(0 = Щ=1 w]x(0, (] = 1,2,...,п). (8)

При РСС реализуются преобразования х(0 = ) и у(() = Wx(t) = W • №(0, где Н = Ипхп — неизвестная (п х п) -матрица; W = [w]nхn — (п х п) -матрица адаптивных параметров (синаптических весов) НС; в(0 = [¿1(0,. ., ¿п (0]т — неизвестный вектор независимых ПС; х(0 = [х^),..., хп^)]т — вектор (наблюдаемых) сигналов на сенсорах ИИС; у(0 = [уДО,. ., Уп(0]т — вектор желаемых сигналов на выходе НС. Компоненты у(0 должны быть независимыми, и это достигается при оптимальной величине параметров НС. РСС реализуется, когда составная матрица G) = W(t)Н содержит только по одному элементу в каждой строке и столбце, т. е. является матрицей перестановок.

НС с прямым распространением сигнала (НС_ПРС) (рис. 1, б) эквивалентна рекуррентной сети при выполнении условия W(t) = [I + )]-1, или равноценного условия

Неизвестно

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 3. Функциональная блок-схема локально адаптивного алгоритма (10) для НС_ПРС

W(t) = W(t )-1 -1.5)

Дифференцирование W(t) дает соотношение

&М = -1 -1)=- W-1 dWW-1

или с учетом (7)

W -

W-1 = М0[Л - f [у(^ )^т[у (0]].

Отсюда следует соотношение (9), для которого используется начальное условие W(0) = I:

а^

=) [л - {[у(()] gт у(^ э]]^^). (9)

а^

= )[Л - {[y(í)] gту(0]],

■ ж) [] - /[у С)]g[уС)]]

Соотношение (9) представляет алгоритм обучения НС_ПРС. Свойства его сходимости такие же, как у алгоритма (7), а сложность незначительно выше. Показано, что множители W(t) не влияют на точку равновесия НС, а только на "траекторию" обучения, ведущую к ней. Поэтому (9) можно использовать в упрощенном виде, где единичная матрица I заменяет W(t):

(5] — символ Кронекера: 5] = 1 только при 1 = ], иначе 5,] = 0). Функциональная схема алгоритма (10) показана на рис. 3 и в более детальной форме — на рисунке в Приложении. Этот алгоритм хорошо работает при отношении энергий ПС, не более чем 1 : 10, т. е. при среднем уровне плохой обусловленности данных.

При плохой обусловленности задачи РСС может применяться метод на основе модификации алгоритма (9). При этом вместо скалярной скорости обучения используется матрица обучения ц0(1 )W), где ц0(1) — скаляр. Алгоритм обучения определяет правило обновления параметров НС_ПРС в виде

ащо

= ^0(0[Л - Чу^Чу«]^). (11)

Скалярный вид алгоритма (11)

^](г) =

(10) = Ц0(Г) []] - /[у,(0]£! 1 WP] (0g[yp(0]"

(12)

или в скалярной форме

5) Эти условия требуют, чтобы матрицы

W(/) +1 и W(/) не были сингулярными (их определители ф 0).

соответствует дискретной форме этого алгоритма, представленной соотношением

w ] ^ +1) = w ] ^) +

Неизвестные

Алгоритм обучения

xt(k) 0_

xm(k) ,' w

$ Ш)

y(k)

g (y(k))

gm (ym(k))

Рис. 4. Функциональная схема алгоритма (11) обучения НС_ПРС. а — для непрерывного времени, б — для дискретного времени

+^(k) \5jXj - f[yt (k)]£m=1 wpj (k)g[yp (k)]] .6) (13)

6) Если дополнительно принять, что предварительно осуществлено преобразование отбеливания сигналов на сенсорах x1=Qx (после этого WTW = I), то получается нелинейное РСС в виде AW = (y)[xT - f T(y)W]. При допущении, что в процессе обучения НС выполняется ограничение WTW = I, этот алгоритм приближенно соответствует правилу Кардосо и Лахельда (Cardoso, Laheld) [12].

Функциональная схема алгоритма (11) показана на рис. 4, а, а ее дискретный вариант на рис. 4, б.

МОДИФИКАЦИЯ МЕТОДА РСС НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ МНОГОСЛОЙНОЙ НС

Улучшению гибкости и эффективности метода РСС способствует применением многослойной НС (МНС). Рост эффективности обеспечивается, в частности, разнообразием алгоритмов и формой

а

б

ФПН в каждом из слоев НС. Кроме того, для осуществления РСС и последовательного извлечения на разных слоях отдельных ПС, которые различаются статистическими свойствами, МНС позволяет комбинировать метод статистик второго порядка с методом статистик высокого порядка [11, 13]. Последовательные слои отчасти независимы: после сходимости параметров первого слоя может происходить настройка параметров второго.

Для структуры МНС, включающей (условно) К слоев, обновление параметров в слое р осуществляется локальным обучающим правилом (14). Его скалярная форма определяется соотношением

(15):

dW(р)^) _

dt "

_ мо [ л( р) - (fp [у(р)ттр [у(рчо]) ] (14)

(р _ 1,2,...,К); ) _

dt

_ МОр)р[у(р)(0] • gp[у(р)(0])], (15)

где Л(р) — диагональная матрица (обычно Л(р) = I), а скобки ^ означают оператор статистического усреднения.

Локально-адаптивное обучающее правило дискретного времени, связанное с (14) и (15), имеет вид (соответственно в векторно-матричной и скалярной формах):

W(р)(к +1) _ W(p)(k) +

+1(р)(к)[Л(р) [у(р)(к)]• gр[у(р)(к)])] (16) (р _ 1,2,...,К);

т ^(к +1) _ ^(к) +

+Чр(к)[б^р) -(fp[у(р)(к)]• gp[у(р)(к)])].7) (17)

Использование МНС обеспечивает лучшие результаты (сравнительно с простой структурой НС) при плохо обусловленной задаче РСС, т. е. при плохом масштабировании ПС и слишком большом разбросе собственных чисел смешивающей матрицы Н.

7) Обучающее правило (17) может использоваться как для МНС_ПРС, так и для элементов (субмоделей) НС с рекуррентной структурой.

АЛГОРИТМЫ ДЛЯ АНАЛИЗА РСС, УСТОЙЧИВЫЕ К ШУМУ

Проанализированные выше алгоритмы несмотря на простоту и хорошее функционирование основаны на интуитивно-эвристическом подходе. Формализованный подход к получению робастных (устойчивых к шуму) алгоритмов анализа независимых компонент основан на методе итеративного обращения обобщенной ковариационной матрицы: Rм _ Е^(у^р(у)}.

Элементы итеративного метода обращения матрицы ковариаций [7, 13, 14]

Допускается, что при оптимальной разделяющей матрице W, ковариационная матрица равна единичной, т. е. R^ (W) _ I. Диагонализация может рассматриваться как неявное обращение матрицы. Так, если определить новую нелинейную функцию выходов системы РСС Му) _ W^(у) и новую обобщенную матрицу ковариаций R(W) _ E{h(y(у)} _ W-1Rм _ HRм (W),

то диагонализация R^ (W) эквивалентна следующему обращению: К^ ^ _ I ^ МС _ К-,(МС). Неявное обращение К -1(WS) не может быть выполнено непосредственно из-за незнания ^у) и g(y) при оптимальной разделяющей матрице W¡,. Вместо этого обращение выполняется итеративно: для разделяющей матрицы W(l) на 1-м шаге

итерации принимается, что _ К^ ^(1)). Тогда более удобно явно оценить смешивающую матрицу Н(1) _ W 1 (I), чем разделяющую матрицу W(l). Это достигается минимизацией (изменяющейся со временем) функции стоимости (ФС), определенной выражением

Ф(Н(1+1)) _||К« - Н(1)||2, (18)

где У — символ нормы матрицы.

Таким образом, используется процедура с двумя фазами: "назад" и "вперед". Оценка Н(1+1) на основе минимизации (18) используется затем для оценки новой ковариационной матрицы и построения обновленной функции стоимости Ф(Н(1 + 2)), а минимизация Ф(Н(1 + 2)) дает Н(1 + 2) и т. д.

Н(1) _ W-1(l) входит в функцию стоимости

Ф( Н(1 +1)) квадратично, поэтому минимум ФС определяется итеративным соотношением

]Н(/ +1))=H(l) + r( R^) - H(l )), которое может также быть представлено в виде

H(l +1)) =

= (1 -r)H(I) + rRg = 1Я(/)( I-,(I - / ). (19)

Из второй части соотношения (19) следует, что Н(/ +1) = W-1 (I +1) может интерпретироваться как

оценка Rhg . (Это согласуется с отмеченной выше оценкой Rhg для смешивающей матрицы Н). В алгоритме (19) можно использовать смешивающую матрицу W(l) (а не H(l ) = W-1(l )). Обращение (19) (в предположении, что матрица (i -,(I - R/g )) не сингулярная) приводит к со-

отношению

(20)

W(l +1) = W(l ) + rç(I - R^Wtf ).

9)

(22)

Получение устойчивого алгоритма анализа независимых компонент на основе обобщенного м-градиента

Семейство алгоритмов для анализа независимых компонент (АНК) в несколько менее общей форме может быть получено при использовании обобщенной формы м-градиента (ОФМГ):

AW = -4

™ WT D,(y)W, cW

(23)

W(i+1) = [i -4(1 )(I - Rf )]-1 W(i), в котором

R *=( 1/n )! NJf (y(l )(k )) • gT(y(l )(k ))}

y(l )(k ) = W(l ) x(k ).

Устойчивость алгоритма (20) обеспечивается выбором малого значения параметра п скорости

обучения НС [15]: r(l)<—^—1-.8) При этом

I|RRfg) - ill

условии в соотношении (20) возможно обращение матрицы и, следовательно, представление этого обращения в виде ряда [16]:

1 ) (1 - Rg )

= ХZo- R/>))' -1 + 4(l)(I - / (21)

Использование (21) в (20) позволяет получить достаточно простой устойчивый алгоритм обучения:

где J(y,W) — выбранная функция стоимости, Di(y) — масштабирующая положительно определенная диагональная матрица.

ОФМГ (так же как м-градиент) обеспечивает устойчивый градиентный спуск для поиска локального минимума функции стоимости (ФС). Так, если ФС имеет вид:

J (У, W) = - log | Det(W) | -X П=1 E{log(q,- (y,))}, (24) то градиент этой ФС определяется соотношением dJ (y, W)

cW

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- = -WT + E{f (y)xT } ,

где

f (у) = [ /Л у1), /2( у2),..., /п ( уп )]т пРи л Су) = - (у, VdУl.

Следовательно, применение ОФМГ приводит к дискретной форме анализируемого выше обучающего алгоритма (см. выражение (11)):

AW(l) = ф) [ Л(1) - ({[у (I )]gт [у (I )]) ] W(l),

где Л т= Dl(y) и §(у) = ут Dl(y) = [^ОО, g2(У2), ..., gn(Уn)] .

В случае симметричной функции распределения ПС, нечетности ФПН (/(у,)) и при

Dl = Диаг.{(|у1|р) ,(Ыр) ,...^|уп1р)} получается

медианное обучающее правило при р = -1:

AW(l) = ф) [ Л(1) - ({[у(1)] • [^п(у)т ]) ] W(l), (25)

смешивающей матрицы

H(k +1) = Jî(k ) [I -4(k )(I - R®)] и

) Это условие влечет отсутствие сингулярности матрицы I - ф) (I - И/' ) и возможность ее обращения.

9) Применение итеративного варианта обращения И™ позволяет получить алгоритм эквивалентный (22) в виде W(l +1) = W(l) + ф )[I - W(l)&£]. Аналогично с

помощью итеративного обращения матриц получены дуальные формы адаптивных алгоритмов для оценки

H(k +1) = U(k )

I +

4(k) (I - RЯ

и для оценки разделяющей матрицы W:

W(k +1) = [l + 4(k)(I - Rg )] W(k) и

W(k +1) = [i - n(k)(I - R/g» )]-1 W(k), где R/g) = (1 +4of(y(k))• gT(y(k)) [17, 18].

и

где sign(y) = ^п(у1)^п(у2),..-^п(уи )]т. Такой обучающий алгоритм с ФПН в виде знаковой функции вполне устойчив к аддитивному шуму.

Практическая форма реализации алгоритма

Обобщенная ковариационная матрица , полученная в робастном (т. е. устойчивом к шуму) обучающем алгоритме (19) и (22), может быть оценена как статистическое среднее на основе доступных (поступающих) выходных данных НС. Имеются две возможности.

- Адаптация в реальном времени, при которой матрица К^ заменяется своей выборочной оценкой (в РВ) для каждого дискретного момента времени, т. е. К^ * f(у(1 )) • gT(y(1 )).

— Адаптация по группе данных, когда статистическое среднее заменяется скользящим средним = (1 + ^ • f (у(1 ))gт(у(1 )(k)) .

При этом предполагается стационарность на блоке наблюдений из L отсчетов.

Значение параметра п выбирается так, чтобы обеспечить устойчивость алгоритма и одновременно достаточную скорость его сходимости. Для обучающего алгоритма в РВ (11) с оценкой ковариационной матрицы по текущему отсчету НС:

W(k +1) = [I - п (I - f (у ^)^т (у ^))) ]-1 W(k) (26) при условии, что gT (у^(у) < 0 , параметр скорости

обучения r <

1

i+|gT(y)f (y)l

W(k +1) = (1 + ) I-r

f(y)gT(y) 1 + )ogT(y)f (y )

W(k ).

(

W(k +1) =

1 -r

I -f(y)gT(y) 01 + )ogT(y )f (y)

л

W(k). (27)

сти обучения r(k)=

)o

1 + )ogT(y (k ))f (y(k ))

. Для па-

раметра n используется и более осторожная оценка:

V(k ) =

)o

1 + )o gT(y(k))f(y(k))

(28)

■ Робастный алгоритм обучения НС. Соотношение (22), отражающее обучающий алгоритм НС, служит основой для ряда прикладных схем РСС, позволяет интерпретировать их как способ итеративного обращения обобщенной корреляционной матрицы и получать адаптивные алгоритмы РВ, а также применять обучение по группе отсчетов с выхода НС.

1. При выборе ^у) = g(y) = у, Л = I и нормализованного параметра скорости обучения п по (28) адаптивный алгоритм (22) переходит в алгоритм декорреляции сигналов [7, 18]:

W(k +1) = W(k ) + ro

I

yy

1 + r>y T y

W(k). (29)

2. Если использовать динамическую оценку (адаптивного значения) п по (28) и положить g(y) = у, то алгоритм (22) упрощается к выражению (30), которое является вариантом алгоритма на основе м-градиента:

I - f (y) y T

W(k +1) = W(k ) + Vo--W(k ).

1 + ry Tf (y)

(3o)

При использовании ro = r/ (1 -)) соотношение (26) приобретает вид

W(k +1) = (1 + ro)[I - rof (y (k ))gT (y(k ))]-1 W(k ),

а применение матричной формы для обращения бинома приводит к выражению

Поскольку при малых значениях г/0 можно пренебречь ее степенями, выше первой, то нормализованная форма алгоритма (19) выражается соотношением:

Более полная характеристика его содержится в [8, 15] и [19].

3. Адаптивное правило обучения, представленное соотношением (22), порождает группу прикладных алгоритмов расширенного анализа смеси и идентификации ПС.

В процедуре разделения смеси, реализуемой матрицей W, выделяются две стадии: W = Wa. Первая матрица реализует декорреляцию входных (для НС) сигналов, т. е. диагонализацию симметричной корреляционной матрицы Я^ . Это достигается с помощью (29). Вторая матрица Wb выбирается так, чтобы диагонализировать матрицу К^ . Это выполняется с использованием схемы РВ, соответствующей (22):

Wb (k +1) = Wb (k ) + ro

I - f (y) gT(y) 1 + ro |gT(y)f (y )

Wb (k). (31)

Выражение (27) может интерпретироваться как алгоритм (22) с самоадаптацией параметра скоро-

Для объединения (29) и (31) в рекурсивное соотношение для общей размешивающей матрицы W необходимо, чтобы составляющие ее компоненты (Wb и Wa) были ортогональны с точностью

до п. Это реализуется заменой I - Г (у) gт(y) ее проекцией на пространство кососимметрических матриц [12, 15]. Полученный таким методом алгоритм имеет вид

(

Wb (k +1) =

r f(у)gT(y) - g(y)fT(y) 2 1+ Г0 |gT(y)f(y)|

Л

Wb (k).

Выполнение комбинации соотношения (29) и преобразованной формы (31) в общую размешивающую матрицу W(k + 1) = Wb(k + 1) Wй(k + 1) приводит к соотношению:

.10)

W(k +1) =

1 +Г0

I

■yy

1+ Г0 УтУ

r f (у) gT(y) - g(y) f T(y) 2 1 + Гс |gT(y )f (y)|

Л

W(k).

(32)

Алгоритм (32) обеспечивает расширенный анализ смеси и идентификацию ПС на основе НС с адаптивным изменением параметра скорости обучения; разработка его выполнена Кардосо и Лахельдом (Cardoso J.F., Laheld D.L.) [12].

■ Нелинейный алгоритм анализа главных компонент смеси. Если ограничиться только ортогональными размешивающими матрицами W, то алгоритм (22) становится аналогом нелинейного алгоритма анализа главных компонент (АГК), полученного ранее Каруненом, Вигарио и Ойа (Ka-hrunen, Vigario, Oja) [21]. Сначала переопределяется обобщенная (нелинейная) ковариационная матрица: R k = (f (y) • gT (y)) +1, где f(y) — нечетная функция, а g(y) = f(y) - y. После этого реализация алгоритма (22) в реальном времени сводится к итеративному выполнению соотношения

W(k +1) = W(k) - r f (y)g T (У) W(k) = = W(k)-rf (y) (f T(y) - y T W(k)).

(33)

10) При его получении выполняется преобразование с точностью до первой степени (малого значения) параметра п скорости обучения НС.

Статистические особенности ПС также обычно неизвестны. В условиях, когда число сенсоров ИИС (т) превышает количество ПС (п), возможны три различных подхода к решению этой усложненной задачи.

- Применение АНК или робастной ортогонали-зации. Ортогонализация использует разложение по сингулярным числам для матрицы, которая образована набором векторов с компонентами из сигналов, регистрируемых сенсорами ИИС [7]. Ортогонализация служит для определения числа ПС и одновременно для сведения смешивающей матрицы к квадратной матрице размера п х п .

- Извлечение ПС последовательно (один за другим) до тех пор, пока не будет выделено нужное количество сигналов [9, 22].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Непосредственное использование разделяющей нейронной сети с количеством выходов, равным числу сенсоров. При этом разделяющая матрица — квадратная и обратимая.

Для рассмотренных подходов к РСС при условии т > п получение разделяющей матрицы W основано на использовании алгоритма

AW(k) =r(k) (Л(k) - R(fg>) W(k),

(35)

где

С учетом ортогональности размешивающей матрицы (т. е. Wт(k)W(k) = I) соотношение (33) преобразуется к виду

W(k +1) = W(k)-ф (у) (у т - Г т(у^)) (34)

и представляет нелинейный алгоритм АГК.

■ Адаптация алгоритма АНК при неизвестном числе ПС и их статистической особенности. На практике число ПС часто бывает неизвестным и может изменяться со временем.

Л« = (1 -ф)Л(*-1) + ф Диаг.{Г (у(^т(у(^)}, = (1 -ф + ф (y(k))gт(y(k)),

а Диаг.{И} — диагональная матрица с элементами, стоящими на диагонали матрицы И.

В случае отсутствия шума и когда число сенсоров больше количества ПС, некоторые выходы НС автоматически устанавливаются в нуль, если они ниже некоторого порогового значения. Так что при отсутствии шума (избыточные) (т - п) выходных сигналов у, в процессе адаптивного обучения НС приближаются к нулю и только п сигналов на выходе НС будут соответствовать восстановленным ПС.11)

Для малой величины аддитивного шума и т > п алгоритм (35) может оказаться нестабильным: при большом количестве итераций норма матрицы W

11) Обычно принимается, что матрица W квадратная, т. е. число выходов разделяющей системы равно числу сенсоров ИИС, но на практике число ПС может быть и меньше, чем число сенсоров (m > n). Такая модель оправдана тем, что количество ПС может изменяться с течением временем. Кроме того, практически аддитивный шум может рассматриваться как дополнительный неизвестный ПС, так что разумно этот сигнал шума тоже извлекать из смеси. Заметим также, что в (36) символ tr(A) означает след, т. е. сумму диагональных элементов матрицы A (от англ. trace — след).

(36)

начинает возрастать. Чтобы избежать этого достаточно использовать модификацию алгоритма "с фактором забывания у" в виде

AW(k) = г,(к) (Л(к) - Я £ - у (к )1т ) W(k),

где у(к) = tг|^т(к) (Л(к) - И<£>) W(£)].

Этот алгоритм стабилизирует норму матрицы W(k), т. е. || W(k)|| = 1, если || WT(0)|| = 1.

Как отмечено выше, векторная форма функций Лу(£)] и g[y(k)] использована для обозначения

f (у) = ШуЛ У2( У2),..., /п (у )]т и

g(y) = [ё (У1 X &2 (У2 ),..., ёп (Уп )]т.

Если измеренные сигналы х(к) содержат смеси как с подгауссовым, так и с надгуссовым распределениями ПС, то сохранение стабильности алгоритма обеспечивает ПФН с переключением

(У,) =

ёг (У, ) =

|>,(уг) для к4 (Уг) > 5, [у, в другом случае;

[Уг для к4(Уг ) >-5,

№ (Уг) в другом случае,

(37)

где к4(уг) = (Е{у4}/Е2{у,2}-3) — нормализованная величина эксцесса; 5 > 0 — маленькое значение порога; <рДyi) — нелинейная функция, зависящая от распределения ПС [8]. В качестве ПФН возможен выбор таких функций, как ^ (у{) =

= Ъшкфу) или V (Уг) = ^п(Уг )ехр(-0г 1 у |) при вг > 0.

Алгоритмы обучения (35)-(37) отслеживают и оценивают статистические характеристики каждого сигнала на выходе НС и в зависимости от знака и величины нормализованного эксцесса автоматически выбирают (или переключают) подходящую нелинейную ПФН такую, которая обеспечивает успешное выделение всех негауссовых ПС. Это становится возможным, т. к. нормализованный эксцесс служит мерой отличия распределения сигнала от гауссовой формы. В описанном методе ПФН "активационная функция" НС выбрана в виде нелинейности, которая адаптивно изменяется со временем.

ЗАКЛЮЧЕНИЕ

Проанализированы методы и алгоритмы, которые служат для разделения сигналов, образующих смесь, и ориентированы на нейронные сети (НС). Дана трактовка нескольких подходов к разделению сигналов смеси (РСС) и рассмотрена группа адаптивных алгоритмов обучения НС, основанных на использовании декорреляции, статистик второго порядка и модифицированного градиента. Выделены алгоритмы для выполнения РСС при наличии зашумленных сигналов, сигналов с большим разбросом величин или при условии, когда количество первичных сигналов (ПС), образующих смесь, и их статистические свойства неизвестны.

— Для НС с рекуррентной структурой и с прямым распространением сигнала приведено адаптивное правило Коммона, Джуттен и Хераулт для обучения НС разделению линейно смешанных сигналов и способ выбора нелинейной функции преобразования нейронов (ПФН). Приведено обобщение структуры НС для разделения смеси произвольного числа ПС и модификация метода РСС на основе использования многослойной НС.

— Показано, что формализованный подход к получению алгоритмов, устойчивых к шуму, основан на методе итеративного обращения обобщенной ковариационной матрицы К ^ (W) =

= Е^ (у^т(у)} и что возможность такого обращения и стабильность процесса обучения НС гарантируются выбором достаточно малого параметра

скорости обучения п: ц(1)<|| -11|-1, который

меняется на каждом шаге итеративного процесса обучения.

— Дано определение и трактовка понятий м-градиента и обобщенного м-градиента. Рассмотрен метод формирования робастного алгоритма анализа независимых компонент (АНК) на основе обобщенного м-градиента.

— Сформированы основные положения практической реализации адаптивных алгоритмов для РСС на основе НС: робастного алгоритма обучения НС (устойчивого к зашумленности измеряемых сигналов), алгоритма АНК при неизвестном числе ПС и их статистической особенности.

— Методические основы представления адаптивных алгоритмов РСС (в том числе алгоритмов реального времени) базируются на разработках Ху, Принсайра, Ву, Сичоки, Тавонмаса, Кардосо, Лахельда, Крусеза, Кастедо и Дугласа.

Приложение

РАСШИРЕННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА ВЫПОЛНЕНИЯ ЛОКАЛЬНО АДАПТИВНОГО АЛГОРИТМА ОБУЧЕНИЯ НС_ПРС

Алгоритм обучения

СПИСОК ЛИТЕРАТУРЫ

1. Pope K.J., Bogner R.E. Signal Separation: Linear Instantaneous Combinations // Digital Signal Processing. 1996. V. 6. P. 5-16.

2. Weinstein E., Oppenheim A.F., Feder M., Buck J.R. Iterative and Sequential Algorithms for Multy-Sensor Signal Enhancement / IEEE Transactions on Signal Processing. 1994. V. 42, N 4. P. 846-859.

3. Меркушева А.В. Нейросетевые методы обработки сигналов в информационных системах: Элементы структуры, принципы обучения и мера многообразия отображений информации // Информационные технологии. 2005. № 3. С. 9-20.

4. Karhunen J., Joutsensalo J. Representation and Separation of Signals Using Nonlinear PCA Type Learning // Neural Networks. 1994. V. 7, N 1. P. 113-127.

5. Малыхина Г.Ф., Меркушева А.В. Концепции информации и энтропии в нейросетевых методах анализа сигналов в ИИС // Информационные технологии. 2005. № 12. С. 26-36.

6. Douglas S.C., Cichocki A. Neural Networks for Decor-relation of Signals // IEEE Transaction on Signal Processing. 1997. V. 45, N 11. P. 2829-2842.

7. Меркушева А.В., Малыхина Г.Ф. Методы и алгоритмы разделения смеси сигналов: Применение де-корреляции и статистик второго порядка / Научное приборостроение. 2009. T. 19, № 2. С. 90-102.

8. Малыхин В.М., Меркушева А.В. Методы и алгоритмы разделения смеси сигналов II. Применение м-градиента к анализу независимых компонент // Научное приборостроение. 2009. T. 19, № 4. C. 8395.

9. Малыхин В.М. Выделение сигналов из их смеси каскадной нейронной сетью // Сб. материалов XVI Международной конференции по вычислительной механике и современным прикладным программным системам (ВМСППС'2009). М.: Вузовская книга, 2009. С. 512-515.

10. Common P., Jutten C., Herault J. Blind Separation of Sources: Problem Statement // Signal Processing. 1991. V. 24. P. 11-20.

11. Малыхина Г.Ф., Меркушева А.В. Сеть с симметричной функцией преобразования нейронов на основе статистик высокого порядка (СВП) для снижения шума нестационарного сигнала // Научное приборостроение. 2008. Т. 18, № 4. С. 129-136.

12. Cardoso J.F., Laheld D.L. Equivariant Adaptive Source Separation // IEEE Transaction on Signal

Processing. 1996. V. 44, N 12. P. 3017-3030.

13. Cichocki A., Thavonmas R. On-Line Algorithm for Signal Extraction of Arbitrary Distributed, but Temporally Correlated Sources Using Second Order Statistics // Neural Processing Letters. 2000. V. 12, N 1, August. P. 91-98.

14. Xu D., Principe J.C., Wu H.-C. Generalized Eigen-decomposition with an On-Line Local Algorithm // IEEE Signal Processing Letters. 1998. V.5, N 11. P. 298-301.

15. Cruces S., Cichocki A., Castedo L. An Iterative Inversion Approach to Source Separation // IEEE Transactions on Neural Networks. 2000. V. 11, N 6. P. 14231427.

16. Голуб Дж., Ван Лоун У.Матричные вычисления. М.: Мир, 1999. 548 с.

17. Cichocki A., Unbehauen R. Robust Neural Networks with On-Line Learning for Identification and Separation of Sources // IEEE Transactions on Circuits and Systems. I: Fundamentals of Theory and Applications. V. 43, N 11. P. 894-906.

18. Cichocki A., Unbehauen R., Rummert E. Robust Learning Algorithm for Separation of Signals // Electronic Letters. 1994. V. 30, N 17. P. 1386-1387.

19. Amari S. Natural Gradient Works Efficiently in Learning // Neural Computation. 1998. N 10. P. 271-276.

20. Amari S., Cichocki A. Adaptive Signal Processing — Neural Network Approaches // Proceedings of IEEE. 1998. V. 86. P. 1186-1187.

21. Kahrunen J., Oja E., Wang L., Vigario L., Joutsensa-lo J. A Class of Neural Networks for Independent Component Analysis // IEEE Transaction on Neural Networks. 1997. V. 8, N 3. P. 486-503.

22. Картамышев А.В., Малыхин В.М., Малыхина Г.Ф., Меркушева А.В. Выделение сигналов из их смеси (элементы алгоритмов и нейросетевых структур) // Научное приборостроение. 2010. T. 20, № 1. C. 96112.

СПбГТУ, Санкт-Петербург

Контакты: Малыхина Галина Фёдоровна, [email protected]

Материал поступил в редакцию 5.04.2010.

ADAPTIVE METHODS AND ALGORITHMS FOR SEPARATION OF SIGNAL MIXURE WITH INDEPENDENT COMPONENTS

G. F. Malykhina, A. V. Merkusheva

SPbSTU, Saint-Petersburg

Methods and algorithms that are intended for separation of signal mixture of independent components (initial signals generating the mixture) are discussed. Methods realization is oriented on neural networks. The models of neural networks and the rules for their adaptive learning are discussed.

Keywords: signal mixtures, generating signals, initial components, independence, adaptive methods, algorithms

i Надоели баннеры? Вы всегда можете отключить рекламу.