Метод повышения эффективности процедур анализа независимых компонент и обращения свертки при восстановлении формы сигналов по измерению их смеси

Меркушева А. В.; Малыхина Галина Фёдоровна

ISSN 0868-5886

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2011, том 21, № 3, c. 103-117

МАТЕМАТИЧЕСКИЕ МОДЕЛИ =

УДК 681.51; 621.391; 519.21

МЕТОД ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ПРОЦЕДУР АНАЛИЗА НЕЗАВИСИМЫХ КОМПОНЕНТ И ОБРАЩЕНИЯ СВЕРТКИ ПРИ ВОССТАНОВЛЕНИИ ФОРМЫ СИГНАЛОВ ПО ИЗМЕРЕНИЮ ИХ СМЕСИ

Рассмотрена концепция, порождающая единую точку зрения на различные алгоритмы разделения смеси сигналов (РСС), включая операцию обращения многоканальной свертки первичных сигналов. Анализируется метод оценивающих функций, позволяющий объяснить структуру различных адаптивных алгоритмов, реализующих оценку размешивающей матрицы и восстановление формы сигналов, исходя из измерений их смеси. Различие большинства алгоритмов связано с выбором оценивающих функций. Задача РСС сформулирована на основе полупараметрической статистической модели и семейства оценивающих функций. На основе понятий теории группы Ли анализируется геометрическая структура множества фильтров.

Кл. сл.: смеси сигналов, многоканальная свертка, разделение сигналов, алгоритмы, критерии эффективности, размешивающая матрица, группа Ли, КИХ-фильтры, геометрические структуры

ВВЕДЕНИЕ

Ранее рассмотрены методы разделения смеси сигналов, анализа независимых компонент, а также процедуры, обратной относительно смешивания сигналов, выполненного на основе совместной свертки [1-5]. Проанализированы как алгоритмы реального времени (РВ), так и алгоритмы обучения с формированием обучающей выборки. Большая часть алгоритмов РВ методом простого усреднения может быть преобразована в алгоритмы с обучающей выборкой. Некоторые алгоритмы позволяют извлекать из смеси все компоненты одновременно (параллельно), другие — выделяют первичные сигналы (ПС) смеси один за другим (последовательно).

Эта статья отражает поиск единой концепции, которая позволит объяснить большинство алгоритмов со статистической точки зрения. В ней введен метод оценивающих функций, который объясняет общие структуры в большинстве существующих алгоритмов разделения смеси сигналов (РСС). Для этой цели использована геометрия информации и определены оценивающие функции (ОФ) в полупараметрических статистических моделях, которые включают неизвестные функции как параметры (Цханг, Амари, Сичоки (Zhang, Amari, Cichocki) [6]). Различие в большей части существующих алгоритмов РСС состоит только в выборе оценивающих функций. Ниже в терминах ОФ приведен анализ точности алгоритмов и анализ их устойчивости. Это позволяет конструировать различные адаптивные методы для выбора

неизвестных параметров, включенных в ОФ и контролирующие точность и устойчивость. При этом метод Ньютона выводится автоматически с помощью стандартизованных оценивающих функций.

В рамках полупараметрической модели и семейства ОФ будет сформулирована стандартная задача РСС (или задача анализа независимых компонент (АНК)). После этого для задач РСС при линейной смеси и при смеси в форме свертки обсуждается и получает дальнейшее расширение вопрос о сходимости и эффективности оценивания при обучении нейронной сети (НС) методом обучающей выборки и методом м-градиента. На основе структуры типа группы Ли представлены геометрические свойства многообразия КИХ-фильтров и сформулирована задача восстановления сигналов при их взаимном смешивании в форме свертки. Затем анализируется эффективность оценивания при обучении с использованием выборки и использовании м-градиента.

ОЦЕНИВАЮЩИЕ ФУНКЦИИ ДЛЯ МЕТОДА АНАЛИЗА НЕЗАВИСИМЫХ КОМПОНЕНТ

Понятие оценивающей функции удобно ввести на простой модели смешивания сигналов:

х(к) = Щк) + у(к),

где Н — неизвестная смешивающая матрица; si и Sj — независимые компоненты сигнала s(k) (каждая из которых может быть коррелированной по

времени); число первичных сигналов (т. е. размерность s(k)) равно п; число детекторов информационно-измерительной системы (ИИС), регистрирующих сигналы смеси, в общем случае равно т, так же как размерность сигнала смеси х. В анализируемой здесь системе РСС принимается, что т = = п, а вектор шума V пренебрежимо мал. Если матрица W (размерности п х п) является предполагаемой размешивающей матрицей — у(к) = Wx(k) (т. е. у(к) — вектор-сигнал такой, что его компоненты у (к), i = 1,...,п — независимые случайные ПС), — то при обучении W обновляется по правилу

W(k + 1) = W(k) + ^(х(к), W(k)), (1)

где п — скорость обучения (которая может зависеть от к); F(x, W)eЯnxn; F(x,W) — матрица-функция такая, что W(k) сходится к истинному решению. Обычно F зависит от х через у(к) = = Wx(k) и при этом имеет форму F(y)'W, как в случае с м-градиентом [7].

Предложены различные виды F, которые во многих (но не во всех) случаях получены как градиент функции стоимости — градиент критерия, который должен минимизироваться. Функциями стоимости могут быть, например, кумулянты высокого порядка, энтропия, отрицательный логарифм функции правдоподобия. Во многих случаях алгоритмы включают свободные параметры, а иногда свободные функции, которые должны быть адекватно выбраны или определены адаптивно. Поскольку функция плотности вероятности (ФПВ) распределения первичных сигналов, образующих смесь, обычно неизвестна, то нет возможности обойтись без использования таких свободных параметров.

Существуют условия, которым должна удовлетворять функция F для того, чтобы алгоритм сходился к истинному решению. Истинное W должно быть точкой равновесия динамического соотношения (1). Но (1) является стохастическим дифференциальным уравнением, поэтому для математического анализа более удобно использовать его форму с непрерывным временем:

± W(t) = ц. F[x(t), W(t)]. (2)

И поскольку х(0 — стохастический процесс, его ожидаемая величина определена соотношением

± W(t) = ц. E{F[x(t), W(t)]}. (3)

ш

Условием, что истинное решение W определяет равновесие в (3), является соотношение (4)

ЕЩх^)} = 0, (4)

где математическое ожидание Е берется по х = Нб.

Функция F(x,W), удовлетворяющая (4) для истинной (желаемой) матрицы W и условию Е^(х, W') }Ф 0 для ложной матрицы W,, называется оценивающей функцией. Это определение введено по отношению к полупараметрической статистической модели. Теория оценивающих функций приводит к выводу, что обучение с выборкой (при достаточной ее величине) дает сходимость к истинному решению. Кроме того, преимущество использования полупараметрической модели состоит в том, что для задачи РСС она позволяет не оценивать мешающие параметры, т. е. ФПВ первичных сигналов, образующих смесь.

Полупараметрическая статистическая модель

Задача РСС может быть сформулирована в рамках ее статистической интерпретации. Если фактическая ФПВ сигнала si равна ri и компоненты si линейно независимые, то совместная функция плотности вероятности (ФПВ) вектора-сигнала s определяется соотношением

г (8)=Пг ^). (5)

¿=1

Вектор наблюдений х является линейной функцией 8 (т. е. х = Нб и 8 = Н-1х = Wx), поэтому выражение ФПВ х через W = Н-1 имеет вид:

р(х, W, г) = det |W|•r(W х). (6)

Поскольку ФПВ г неизвестна (кроме того, что она удовлетворяет (5)), то модель вероятности (6) для х включает два параметра: W, который требуется оценить, и неизвестный параметр-функцию г = г\...гп ("мешающий параметр"), о котором можно пока не заботиться. Такую статистическую модель, включающую (бесконечную) степень свободы в виде функции, можно назвать полупараметрической. В общем случае оценка W — достаточно трудная задача именно из-за неизвестной функции г. Однако преимущество использования полупараметрической модели состоит в том, что для задачи РСС (включая смеси со сверткой) она позволяет не оценивать мешающие параметры, т. е. ФПВ первичных сигналов, образующих смесь.

Метод получения оценок с помощью анализа полупараметрической статистической модели использует основные понятия концепции информационной геометрии.1"1 Последующее изложение построено на выводах и следствиях полупарамет-

1)1 Модель, концепция и методы информационной геометрии разработаны Амари, Дугласом и Сичоки (Aman, Douglas, Cichoci [8]), Каванобе (Kawanabe [9]) и Нагао-кой (Nagaoka [10]).

рической статистической модели, концепции информационной геометрии и прямых результатов работ, указанных в приведенной выше ссылке.

Оценивающей функцией является функция (с матричным значением) F(x,W) = от ар-

гументов х и W, не включающая мешающего параметра г. Эта функция удовлетворяет соотношениям:

1) Ew,r{F(x,W')} = 0 при W' = W, (7)

2)Е№г{Е(х,W,)Ф0 при W, ФW, (8)

где — символ математического ожидания,

определяемого по плотности вероятности (6). Кроме того, накладывается требование, чтобы (7) выполнялось для всех г вида (5). Индексы а, в, с и другие (здесь и далее) представляют компоненты первичного и восстановленного векторов-сигналов, т. е. s и у.

В отдельных случаях вместо 2) необходимо выполнение более мягкого условия, которое состоит в том, чтобы матрица К в (9) не была вырожденной:

2) К = ^ {^Г(х, Ч (9)

Другими словами, условие 2) выполняется только локально. Следует отметить, что К — линейный оператор, отображающий матрицу на матрицу. Компоненты К имеют вид

Км = {щ^ ^ ^, (10)

где Жг]- — элементы W; индексы г, у, а, Ь и др. соответствуют представлению компонент наблюдаемого сигнала х. Удобно использовать индексы А, В,... для представления пар индексов (а,Ь), (у) и др. Тогда для А = (а,Ь), В = (с,г) К имеет матричное представление К = [КА в ], которое действует на (Жв) = (Жу) по правилу: KW =

= £КАВ^В = £К*Ь,уЩу . Обратный относительно

В г ,у

К оператор определяется обратной матрицей К = [ Кав ].

Если имеется оценивающая функция (ОФ) F(x,W), то для наблюдаемых данных х(1),...,х(Ж) оценка величины с использованием этой обучающей выборки определяется уравнением

N

£ Е{х(к), W} = 0.

к=1

Оно получено заменой математического ожидания в (7) суммой наблюдаемых величин. Так же

как обучающий алгоритм в РВ определен выражением (1), уравнение для оценки по выборке выполняет свою роль без использования неизвестной ПРВ r ("мешающего параметра"). Так что правомерны две задачи:

1. Существует ли оценивающая функция, которая работает без знания r.

2. Каким образом найти "хорошую" ОФ F (в то время как их достаточно много).

Допустимый класс оценивающих функций

Алгоритмы, предложенные Джутен и Хераулт (Jutten, Hérault [11]), Беллом и Сейновским (Bell, Sejnowski [12]), Амари (Amari [13]), Кардосо и Ла-хельдом (Cardoso, Laheld [14]), Ойа и Каруненом (Oja, Kahrunen [15]), использовали различные ОФ, найденные на основе эвристик. Они получались и хорошие, и плохие. ОФ F лучше, чем F', когда ожидаемая ошибка оценки разделяющей матрицы W, полученная по F, меньше, чем полученная по F'. Но может случиться, что F лучше, чем F', при условии, что истинное (неизвестное) распределение — r(s), но F' лучше, когда это распределение — r'(s). Следовательно, вообще говоря они не сравнимы. Семейство (или класс) ОФ считается допустимым, если в этом семействе содержится (и ее можно найти) эквивалентная или лучшая ОФ сравнительно с любой ранее выбранной ОФ. Целесообразно ограничиться рассмотрением допустимого класса ОФ.

Амари и Кардосо (Amari, Cardoso [16]) с использованием геометрической теории информации [17], [18] показано, что множество ОФ в виде

(x,W) = I - ф(у)ут (или в покомпонентной форме) (11)

Fj(x,W) = ôj - фСуОу)

дает допустимый класс (множество) ОФ, где ф(у) = [ф\(У\), ф2(У2),..., фп(Уп)]Т включает произвольные нетривиальные функции çj(yj). Можно показать, что это действительно ОФ. Когда W — истинное решение, то yj и yj являются независимыми. Поэтому для любого r выполняется соотношение

Er,w№, (yj)yj} = (yj)} •E{yj} = 0 при j * j.

Но, когда W не является истинным решением, это соотношение в общем случае не выполняется. Для диагональных элементов (т. е. при i = j) E(9i(yj)yj} = 1, и это определяет величину восстановленного сигнала yj. Поскольку амплитуда сигнала может быть произвольной, то можно положить диагональные элементы Fjj тоже произвольными (включая элементы типа Fjj = 0).

Рассмотрим типичные примеры ОФ. Положим,

что я(б) = П п= Я (sI■) — неверно определенная ФПВ 8, отличающаяся от реальной ФПВ г (б) = П п= Г ^). Отрицательный логарифм функции правдоподобия для х (при ФПВ я(б)) имеет вид

р(х, W) = -det| ^ "X п=1!о8 Я (У,),

где у, — ¿-я компонента от Wx (зависящая от х и от W). Критерий минимизации р интерпретируется как минимизация энтропии, или максимизация правдоподобия. Положим, что % (у{) =

= ——^ я (у.). Градиент р дает ОФ в виде

Е(х, W) = = w-T -%(у)хт.

Можно показать, что Е — ОФ. Однако, когда Е есть ОФ, то Ё(у) = Е (х, W)WT W = [I -%(у )у T]W также является ОФ. При этом выполняются соотношения: Е{Ё(у)} = 0 и {Е{ Ё(х, W)} = 0.

Для истинного распределения компонент сигнала б в виде ПРВ г, лучший выбор ф, (, = 1, 2,., п) обеспечивает полученное Пхамом (Pham [19]) выражение

% =" Г (s). ds

Показано также, что Е(х, W) и Ё (у) связаны линейно и оценивающие их уравнения дают одно и то же решение, поэтому их можно считать эквивалентными ОФ.

В качестве общего случая целесообразно рассмотреть произвольный (обратимый) линейный оператор R(W), действующий на матрицах. Когда Ё(х, W) является ОФ-матрицей,

R(W) • F(x, W) также будет ОФ-матрицей, поскольку E w,r {R( W) • F(x,W)} = = R (W)Ewr{F(x,W)} = 0.

(11)

Кроме того, Ё(х, W) и R(W) • Ё(х^) являются эквивалентными в том смысле, что выведенные оценки в точности одинаковые, т. к. оба уравнения (12) и (13) дают одно и то же решение (пренебрегая произвольным масштабированием и изменением порядка компонент сигнала, восстановленного из смеси):

X ^ Ё[х(к), W] = 0, (12)

X Г=1R( W) • Ё[х(к )^)] = 0. (13)

Это определяет эквивалентный класс ОФ, т. к. при осуществлении оценивания по выборке эти ОФ по существу равноценны.

Однако две эквивалентных ОФ Ё(х, W) и R(W) • F(x,W) дают различные динамические свойства при обучении нейронной сети в РВ, т. е. динамические свойства алгоритмов (14) и (15) для оценки W в РВ полностью различны:

W(k + 1) = W(k) + пЁ(х(к), W(k)), (14)

W(k +1) = W(k) + ц • R (W(k)) • Ё(х(к),W(k)). (15)

При этом, чтобы получить хороший алгоритм РВ для получения размешивающей матрицы, необходимо вместо (1) рассматривать расширенную форму ОФ R( W) • Ё(х^).

Стандартизованная ОФ и адаптивный алгоритм Ньютона

Динамика обучения в виде

ДW(k) = W(k + 1) - W(k)=ц • Ё[х(к), W(k)] • W(k) (16)

может быть ускорена на основе использования метода Ньютона, который определяется соотношением

АХ(к) = ц • К-1 [W(k)] • Ё[х(к), W(k)].

Поскольку К-1Е является эквивалентной ОФ относительно Ё, то видно, что метод Ньютона определяется с помощью ОФ Ё*(х, W) = = К-1 (W) • Ё(х, W). Метод Ньютона сходится линейно. Решение, получаемое этим методом, всегда устойчиво, потому что гессиан Е*является единичной матрицей. Это следует из соотношения

К• = Е= е{Е} + К-1 о К = I.

ах J ах

Стандартизованная ОФ-матрица F* описывается выражением

Kb = СаЬ {kb • ^ • Pa (Ja ) • УЬ - РЬ (УЬ ) • Уа } , С * Ь (17)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

включает параметры а2 и ka, которые обычно известны [14], [16], [20]. Они зависят от статистических свойств первичного сигнала sc , т. е. от компонент первичного сигнала s, образующего смесь. С параметрами аа и kb связан параметр саЬ =

=-1-. (Напомним, что а и Ь — буквен-

7 7 2 2 1 J

kch -1

ные обозначения индексов, об использовании которых было сказано выше).

Для выполнения метода Ньютона необходимо использовать адаптивный алгоритм, который оценивает параметры. Это не только ускоряет сходимость, но и автоматически обеспечивает устойчивость решения. Если ) и ka ^) — оценка параметров в дискретный момент времени k, то для обновления параметров может использоваться адаптивное правило вида

ka (к +1) = (1 (к) + %фа( уа (к)),

+ 1) = (1 -^оК2^) +Щ Уa2(k),

где По — параметр скорости обучения. При этом в качестве диагонального элемента матрицы F возможно использовать Faa = 1 - у2. Тогда восстановленный сигнал будет нормализован: К = 1, так что Е* принимает упрощенный вид:

F* = —-

1

kakb

{kb 'Фа (Уа ) • УЬ - Фь (Уь ) ' Уа }, a * Ь (18)

Метод адаптивного выбора функции ф

Величина ошибки оценки W зависит от вида Е(х,W)или Е*(х,W), т. е. от функций ф. Хотя

стандартизованная ОФ Е* улучшает устойчивость и сходимость решения, ошибка алгоритма при обучении с использованием выборки и в режиме реального времени зависит от ПРВ ф. Снижение величины ошибки достигается адаптивным методом выбора ф.

Если для получения ф использованы данные фактической ПРВ первичных сигналов, то оцененное значение \ является оценкой максимального правдоподобия и оно эффективно в том смысле, что (асимптотическая) ошибка минимальна. Но установить ПРВ сигналов источника трудно, поэтому используется параметрическое семейство ПРВ ф: фа = фа(у; ©„) для каждой компоненты sa сигнала источника (ПС) s, а обновление параметра ©п осуществляется по соотношению

А© =п ^.

а 0 5©а

Существует несколько моделей выбора фа. Смесь гауссианов — один из методов для аппроксимации распределений сигнала. Это — параметрическое семейство

*( у;©) = 1 :=1 V, ехр {-}

где © состоит из численных значений vi ^ и К. Отсюда выводится соответствующая параметри-

ческая плотность ф(у;0). Такая модель ПРВ включает "надгауссову" (обостренное) и "подгауссову" (сплющенное) плотности распределения. Более простой метод состоит в использовании семейства обобщенных распределений Гаусса: q( y; ©) =

= c • exp | y |® J , где © — единственный настраиваемый параметр. Это семейство также покрывает надгауссову и подгауссову плотности. Адаптивные нелинейные активационные функции, используемые в алгоритмах анализа независимых компонент, в этом случае имеют вид q( y; ©) = = c • sign(y)| y |0—', где c — положительная константа масштаба.

Другая форма экспоненциального семейства ПРВ предложена Цхангом (Zhang et al. [20]). Она тоже объединяет три вида типовых распределений вероятности (гауссово, надгауссово и подгауссово распределения) и имеет вид qa (5,8а) =

= exp |8T g(s) — w(8a )J, где 8а — канонические параметры, g(s) — адекватная вектор-функция, а Y(8a) определяет нормализацию распределения. Плотность вероятности фа, соответствующую этому распределению, дает выражение

Фа (у) = ^"Tl0g qa (У, 8а ) = 8! • g' (y). dy

В [20] предложено использовать также трехмерную модель (вектор распределений): g(y) = [log seсh(y), — У4, — y2]T или g (y) = = [tanh(y), y3, y]T . Такой векторной модели соответствуют типичные виды показанных выше плотностей, т. е. модель Цханга также определяет надгауссову, подгауссову и гауссову плотности распределения. При этом фа (у) является их линейной комбинацией, объединяющей все случаи. Параметр 8a адаптивно определяется по соотношению

8a (k + 1) = 8a (k) — Г1(к) • [ g( ya (k)) + E{g( ya )}] ,

где E{g(ya )}может также быть оценено адаптивно.

ОЦЕНИВАЮЩИЕ ФУНКЦИИ В СЛУЧАЕ ШУМА

При анализе случая с наличием шума х = Н + + V, где V — вектор шума при измерении сигналов смеси, полагается, что шум гауссов с некоррелированными компонентами и что его ковариационная матрица RVV — диагональная:

^ = Е^т} = Диаг.К,к22,..Ки2}.

Кроме того, чтобы фиксировать масштаб первичных сигналов, образующих смесь, принимается, что Е^,2} = 1.

Размешивающая матрица W = Н- определяет оценку у первичного вектора сигнала б: у = W'x.

С учетом принятых условий (и обозначений) справедливо соотношение: у = б + Wv = б + V , где V = Wv — вектор шума, у которого компоненты коррелированные. В случае наличия шума функции типа Е = I — ф(у)у в общем случае не являются ОФ. Действительно, даже если у выведено из реальной размешивающей матрицы W, то все же Е{1 - ф(у)ут} Ф0, т. к. у, и уу не являются больше независимыми, даже когда W = Н-1. Однако даже для случая наличия шума существуют ОФ.

Для истинного значения размешивающей матрицы W = Н-1 слагаемое с шумом V = Wv имеет (как и V ) гауссово распределение. Для ковариационной матрицы V преобразованного шума V справедливо соотношение V = Е^т} = = E{WvvT Wт} = WRVVWT.

При анализе возможных видов ОФ для условий наличия шума Каванабе и Муратой (Kawanabe, Murata [21]) в качестве наиболее простого варианта найдена функция-матрица Е(у, W), элементы (Ксъ) которой определяются выражением

Къ (у, ^ = у3 уь - 3 • ^ • ус • уь -- 3 • ^ъ • у2 + 3 • ^ • ^ъ,

где \аЪ — элементы матрицы V. Причем показано, что при W = Н-1 выполняется Е{Е(у, W)} = 0, т. е. найденная функция-матрица Е(у, W) является ОФ. Следовательно, адаптивный обучающий алгоритм (19) эффективен даже при значительном гауссовом шуме:

АW(k) = W(k +1) - W(k) =

быть получена методом, подобным рассмотренному выше случаю без шума.

ОЦЕНИВАЮЩИЕ ФУНКЦИИ ДЛЯ КОРРЕЛИРОВАННЫХ ПО ВРЕМЕНИ СИГНАЛОВ ИСТОЧНИКА

Независимые сигналы источника смеси (или первичные сигналы (ПС)) во многих случаях бывают коррелированными во времени. Если известен этот факт, процедура РСС становится проще (даже если не известны точные значения временных коэффициентов корреляции). Для алгоритма разделения смеси в таком случае достаточно корреляций второго порядка. Полное представление о методе РСС для описанных условий дает анализ моделей первичных сигналов.

Модель первичных сигналов

Для взаимно независимых ПС источника si (, = = 1 , ...,п) принимается линейная стохастическая модель:

^(к) = Х ,(к - Р) + е (к),

р=1

(20)

где Li — параметр, определяющий конечный интервал временной корреляции , -го ПС;2) е, — независимые, одинаково распределенные (со средним, равным нулю) элементы временного ряда "обновления" 3). Элементы этого ряда могут быт гауссовы или негауссовы. Здесь достаточно принять, что для них выполняются условия:

Е{е,(к)} = 0; Е{е,(к)£] (к)} = 0

при , Ф у или к Ф к.

Введение оператора сдвига z"1 (такого, что zлsi(k) = si(k - 1)) преобразует соотношение (20) к виду:

= ц(к)• у(к),W(k)] • W(k). (19) А,(х1)^,(к) = е,(к), где А,(z-1) = 1 -X' с,р z"р .

Когда ковариационная матрица шума измерения неизвестна, необходимо произвести ее оценку. С использованием метода факторного анализа Икедой и Тойамой (Ikeda, Хоуата [22]) получено адаптивное правило для определения недиагональных элементов матрицы V:

Усъ(к + 1) = (1 - По) ^съ(к) + По ус(к)уъ(к),

где По — параметр скорости обучения.

К сожалению, обучающий алгоритм (19) не всегда обладает устойчивостью. Устойчивость обеспечивается только при использовании стандартизованной ОФ Е*, которая реализуется адаптивным методом Ньютона. При этом ОФ Е* может

При использовании обращения полинома А, ПС представляется в виде

s1 (к) = [Д-1^-1)] •е (к), где Д-1^-1) = Y^Jap • z"Р

Функция А-1 (г"1) представляет импульсный отклик, с помощью которого , -й источник ПС sг■(k)

2) Конечное значение Ь, соответствует авторегрессионной модели порядка Ь, .

3) Такой ряд часто (например, при описании алгоритмов теории фильтров Калмана и других рекуррентных конструкций) называют рядом инновации, а элементы этого ряда просто инновациями.

определяется по е^к) и соответственно набор ^■(к)} определяется по сигналам {е. (к)}. При этом если г, (е.) — ПРВ для е. (к), то условная плотность ПРВ Si(k) (условная относительно прошлых значений сигнала) представляется в виде

Р{ ^ (к Ж (к -1), sI. (к - 2),...} =

= Г | sl(к) - Xа^(к - р)| = г {А(г-1)s .(к)}. (21)

Поэтому для вектора сигналов источников 8(к)=[?1(к),...^„(к)]т в момент (к) условная плотность вероятности определятся соотношением

р{8(к )|s(k - 1), 8(к - 2),...} =

= Пr {[A(^"Ж(к)}.

Удобно (для краткости) ввести обозначения (23)

£ = [Si,S2,...,Sn ^

A (z-1) = Диаг.{ 4(z-1),..., An (z-1)},

(23)

..., х(^} их совместная плотность распределения получается из (25) и соотношений sk = Wxk, где W = Н-1. Эта совместная плотность имеет вид (26) и определяется размешивающим матричным параметром W = Н-1 и мешающими параметрами А и ПРВ {г1}1=1,., дг модели источника сигналов:

p{xi,..., x N, W; A, r} =

N

= Det|W|N Пrk{A(z-1)Wxk}.

(26)

к=1

(22)

Оценки максимального правдоподобия

Если представить (на момент), что r и A известны, то для того, чтобы оценить W, будет возможно использовать метод максимального правдоподобия (МП). Логарифм МП, полученный на основе (26), имеет вид:

P(N)(x1,..., Xn ; W, A, r) = =-log p{x1,..., X N; W, A, r} =

г (в) = П Г (е),

I=1

8 (к, пред) = {8(к -1), s(k - 2),...},

а также сокращения в форме (24) там, где это не будет затруднять их понимание:

= 8(к), хА = x(k), ук = y(k) = W(k). (24)

При этом соотношение (22) принимает вид

р{8(к) ^,пред.)} = г{А^-1)8(к)}.

Совместная плотность вероятности набора {8(1),8(2),...,8(Д)} представляется в форме:

р ( 8(1), 8(2),..., 8( N) ) =

N N

= П p{s(k)|s(k, пред)} = П r{A(z-1) 8(к)}, (25)

к=1 к=1

где при к < 0 полагаем 8(к)равным нулю. (Практически при к < 0 8(к) не равно нулю, так что (25) является приближением, которое выполняется асимптотически, т. е. для больших значений Д).

Модели источника (ПС) определяются п функциями г. (е.) и п функциями, обратными относительно функций импульсного отклика А. Процедура РСС извлекает независимые сигналы из их мгновенной линейной смеси х(к) без знания точной формы г. (е) и А. Можно сказать, что г. (е) и А. следует трактовать как неизвестные и мешающие параметры.

Для данных N наблюдений смеси {х(1), х(2),...

= - N • log | W | -X log r {A(z-1) Wxk } =

k=1 N

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

= - N • log|W|-X log r {A(z-1)y k },

(27)

k=1

где yk = Wxk . Оценка МП W максимизирует приведенную выше функцию правдоподобия при данных N наблюдений x1,..., x N.

Полагая p(yk, W) = - log r {A(z-1 )yk } , можно видеть, что p зависит не только от yk, но (из-за оператора A(z-1) ) зависит также от прошлых значений yk_i,yk_2,... Кроме того, p функционально зависит от W только посредством набора yk . Это позволяет представить p(Nl в виде

N

p( N) =- N • log|W|-£ p(y k, W).

k =1

Малое изменение dp, связанное с малым изменением W (от W до W + dW), определяется выражением

dp = -p (Ay k )Td(Ay k),

a

(28)

где p (y) =--log r(y)— вектор. Теперь, по-

%

скольку d(Ayk) = A dyk и dyk = dWxk = dXyk, то справедливо соотношение dp = ^r(Ayk) A dXyk . А это приводит к скорости функции МП на единицу изменения dX:

ap(N) ap

(N)

ax

aW

W = £[I -P (Ay k )A} yT ],

(29)

k=1

где рг А — вектор-столбец с компонентами

Далее, поскольку ф в компонентной форме —

dp = ^ с рйХ у, то йр/dX — матрица с элементами

Су. Следовательно, фг (Ау)Аут в компонентах представляется в виде ф, (А, (/" )у,)А, (/"

др

Если положить — = Г (у, г, А) = I -

дХ

-{рг (Ау) • А}ут, то уравнение правдоподобия (с учетом сокращений (24)) приобретает форму

X F(y t ,W; г ,A)=0,

(30)

k=1

а решение \ уравнения (30) дает оценку максимального правдоподобия размешивающей матрицы.

Оценивающие функции

Поскольку ПРВ сигналов источника {г,} и фильтры {А,(2-1)}неизвестны, нет практической возможности использовать рассмотренные выше оценивающие функции F, которые зависят от г и А . Поэтому целесообразно выполнить поиск ОФ в классе функций вида

F(y,W, q,B) =

dp(y,W, q,B) dX

= I-w {(B(z-1)y)• B(z-1)}• yT

(31)

си имеют различные спектры, т. е. передаточные функции А,(г1) различны.

2. Когда некоторые сигналы имеют одинаковые спектры, распределения г, этих сигналов — негауссовы, кроме одного сигнала.

В целом эти условия порождают общую формулировку: когда удовлетворяются условия, определяющие возможность идентификации, минимальный допустимый класс оценивающих функций является линейной комбинацией недиагональных элементов матрицы F(y,W, q,В) , в которой q и В произвольные. Оценивающее уравне-^Г(ук q,B) = 0 .

Адаптивный обучающий алгоритм на основе такой ОФ принимает вид (32), а в более общем случае при использовании стандартизованной ОФ принимает вид (33):

А\(к) = т](к )Г[ у (к),\(к) ] • \(к), (32)

AW(k) = rj(k )F* [ y(k), W(k)].

(33)

Стандартизованная оценивающая функция и метод Ньютона

Если взять обратимый (т. е. не сингулярный) матричный оператор й(\) = ), который может зависеть от тогда F и Г = й • F — эквивалентные оценивающие функции (ОФ). Одна ОФ 1* из класса эквивалентных функций, которая удовлетворяет условию

где q — любое (фиксированное) независимое распределение; матрица B(z-1) = Диаг. {^(z1),..., 5„(z-1)}

L

с фиксированными фильтрами Bi (z-1) = X bp z- p .

p=o

Это — оценивающая функция (при любых q и B), т. к. она удовлетворяет соотношению EWrA [F(y,W, q,B)] = 0 для любых сигналов источника, имеющих независимые распределения компонент, и фильтров A(z-1). Когда истинный мешающий параметр г = q и A = B(z-1), то F(y,W, q,B) является функцией МП. Однако даже если q и B определены неверно, это соотношение может служить в качестве ОФ.

Условия, определяющие возможность идентификации

Более последовательно и корректно условия возможности идентификации W установлены Тон-гом (Tong et al. [23]) и Комоном (Common [24]). Должно выполняться (по крайней мере) одно из двух условий:

1. Все независимые сигналы — источники сме-

K" = E

5F* SX

= единичный оператор (оператор тождественности),

называется стандартизованной ОФ [25]. При этом если задана ОФ 1, то ее стандартизованная форма определяется выражением

г=*-,г • где *=Е {!}.

Теперь можно вычислить

* = Е {дПу^^Б)

1 дХ

при истинном решении \ = Н-1. Переписывая Г = др/дХ (или йр = - *(йХ) +[р(уу)т В^-1)]йХу в компонентной форме, где положено у = [ В(е-1)]у), можно вычислить дифференциал второго порядка, который представляется в виде выражения:

d2p = d

X W(У, )Ь грУу (k - Р)

V ^ J, р

dX J =

= X Ф№)ЬчУт(к - р) • Ьщу, (к - р)дХшдХу

., j,m,q,k

+ X Ф,(У, )ЪщУт (к - ,

., у ,т,к

+

* 2=Е

X ьу (к - р)

р=0

равна к.. .. =

, I, 1 + т1

часть КдА для А = (. у) и А' = (у. ) равна:

КАА' = С У

(34)

к* * '

-1

-1 к*2

где ф( у) = ф у)/4у.

Для истинного решения получается соотношение

Е {ф' (й) УуУт} = Е {Ф( У) уу} = а

если не выполняется . = у = т, и d2p =

= ХЕ{ф'ХУ,)У2}№)2 +ХЕ{Ф(У,)у,}dXjХ +

+ХЕ|ф(у,)[ХЬрУу(к-р)]21(dXj)2.

I р=о ]

Следовательно, квадратичная (относительно набора dXj) форма ф2 распадается на диагональные члены X А"^! + 1)(dXй)2 и на матрицы более низкого порядка (2 х 2), состоящие из dXj и

(. Ф '): X {к*^)2 + dXj'dXjI }. В этих мат>* У

рицах использованы обозначения:

тг =^{ф(У г )У2 } ; к. = Е {

где с.. = —-=-.

' 'ку ¿1 - 1

Кроме того, элементы стандартизованной матрицы-функции F* (у, W) определяются в виде

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

F = с.[-к.ё%ф(У,)У(.) + Ф.(У.)У(')];

^ = ^{1 -Ф(У,)У, }, где У') = В,(г-1)У.. mi +1

Соответствующий алгоритм обучения, использующий метод Ньютона, определяется соотношением

AW = ^ F*(y, W).

(35)

Если положить F(у) = 1 - У,2, то восстановленные сигналы удовлетворяют условию Е{ У ,2} = 1. В этом случае диагональные члены равны 2XIdX2, а диагональные члены (2 х 2)-матриц равны

к.сг 2 (dX .. )2 + к .dX .. dX' .,

, у V у ) , у

где к = Е {ф(У ,)У ,}.

Из проведенного анализа получается условие устойчивости алгоритма: AW = ^(у, W)W .

Таким образом, решение для разделяющей матрицы W асимптотически (т. е. для большой выборки сигналов смеси) устойчиво только при условии: т +1 > 0, к. > 0, к.к <у2<у2 >1 .

Обратная матрица К"1 имеет ту же структуру, что и К . Ее диагональная часть Кдд при А = (!,!)

1

а ее (2 х 2)-диагональная

ПОЛУПАРАМЕТРИЧЕСКИЕ МОДЕЛИ МНОГОКАНАЛЬНОГО РСС ДЛЯ СВЕРТКИ ПС

В работах [4], [5] развит анализ моделей, алгоритмов и нейросетевых структур, решающих задачу РСС для линейного смешивания ПС. Задача РСС для смесей ПС со сверткой значительно сложнее, и попытки ее решения наметились только после использования нового подхода на основе модернизированной формы градиента [7]. Развитие более совершенного метода РСС (на основе обращения операции многоканальной свертки (ООМС)) связано с появлением элементов теории геометрических структур на многообразиях фильтров [Цханг, Сичоки, Амари [26]).

Геометрические свойства многообразия КИХ-фильтров, основанные на структуре группы Ли, позволяют формулировать задачу РСС при многоканальной свертке ПС в рамках полупараметрической модели, что позволяет вывести семейство ОФ для разделения сигналов из их многоканальной свертки. При этом полезен анализ эффективности приближенной оценки W(z) по выборке на основе использования ОФ. Кроме того, в [20] и [26] показано, что при определенных условиях (отсутствия так называемой сингулярности W0) обучение алгоритма как по выборке, так и на основе м-гра-диента обладает высокой эффективностью.

Элементы формализации задачи и обозначений

В качестве модели смешивания ПС в форме многоканальной свертки рассматривается линейная инвариантная по времени система (ЛИВС):

х(к) = XP=0 Н р 8(к - р),

(36)

1

-л2

где Нр — (п х п)-матрица смешивающих коэффициентов при временной задержке р (называемая импульсным откликом на время р); =

= [у^), s2(k),..., s„(k)]T — п-мерный вектор сигналов источника (с нулевым средним и идентично распределенными компонентами); х(^) = = [х^), х2(к),..., х„(^]т — п-мерный вектор сигналов сенсоров ИИС. Для простоты будет использоваться обозначение Н^) = ХР-о Н р z-р , где z —

переменная z-преобразования. H(z) может быть названо смешивающим фильтром. В задаче РСС для ПС в форме многоканальной свертки смешивающий фильтр неизвестен, а целью задачи является восстановление сигналов источника (ПС) с использованием только сигналов сенсоров х(^) и некоторой информации относительно распределений ПС.

ООМС для реализации РСС осуществляется с помощью другой (отличной от (36)) ЛИВС общего вида, т. е. "неказуальной" системы:

у^)Wp - р),

где у(£) = |у:(£), у2(&),..., у#)]т — п-мерный вектор выхода; Wp — (п х п)-мерная матрица коэффициентов (при временной задержке р), компоненты которой являются параметрами, определяемыми в процессе обучения соответствующего алгоритма.

Матричная передаточная функция размешивающих фильтров представляется в виде

w(z)=х;=-м wp • z- р.

Цель ООМС состоит в получении выходных сигналов у(к) размешивающей модели максимально взаимно ("пространственно") независимыми и с независимыми, но одинаковыми распределениями по времени. Для этого используется полупараметрическая модель, с помощью нее создается семейство ОФ, после чего строятся эффективные обучающие алгоритмы для определения параметров разделяющего фильтра W(z).

На практике ООМС выполняется с использованием КИХ-фильтра, т. е. фильтра с конечной импульсной передаточной функцией: W( z) =

= Х Ь_0 Wp • z- р , где Ь — максимальный порядок

(длина) разделяющего фильтра в ООМС. Альтернативно, можно использовать неказуальной фильтр симметричной формы W( z) =

=Х

Ь/2

р=-Ь/2

^ • z-

Геометрические структуры многообразия КИХ-фильтров

При создании обучающего алгоритма использование оптимизации функции стоимости на осно-

ве м-градиента эффективно лишь для задачи итеративной оценки параметров. Для случая оптимизации функции стоимости, включающей КИХ-фильтр как целое (т. е. весь набор его параметров), метод м-градиента не оптимален. Поэтому при создании эффективных обучающих алгоритмов для получения оценки параметров размешивающего фильтра полезно рассмотреть подход на основе геометрических свойств многообразия КИХ-фильтров.

Множество М (Ь) всех КИХ-фильтров W(z) длины Ь (с ограничением, что матрица W0 обратима)

М (Ь) = | W(z) = Х Wp Z-р, det(W0 Ф 0}

имеет размерность п2(Ь + 1). В общем случае умножение двух фильтров в М (Ь) приводит к увеличению длины у результирующего фильтра. Поэтому, чтобы использовать возможные геометрические структуры в М (Ь), которые приведут к эффективным обучающим алгоритмам для W(z), следует определить алгебраические операции фильтров по концепции операций в группе Ли.4

Использование м-градиента для РСС с операцией, обратной многоканальной свертке (ООМС)

Группа Ли имеет важное свойство — она допускает инвариантную метрику. С использованием структуры группы Ли можно получить м-градиент

4) Для многообразия М (Ь) операции в группе Ли имеют своеобразную форму. Умножение ® и операция обращения J определены следующим образом. Для W(z),

Нг) е М (Ь): WJ ф = Zр=0^^ • z-p ; W(z)® H(z) =

= ХЬр=0 Х р=0 WpН(р-9^-р , где ^^ рекуррентно определено выражениями: Wp¡ = Wl-1; W^=-Хp1 ^р-А^-1, р = 1,2,...,Ь . С этими операциями как W(z) ® Н^), так и Wp остаются в многообразии М (Ь). При этом М (Ь)

(с введенными выше операциями) образует группу Ли. Единичным элементом в группе Е^) является единичная матрица I. Фактически умножение двух в группе Ли W(z) и Нф е М (Ь) — это усеченная (до порядка Ь) форма обычного умножения, т. е. W( z) ® Н^) = = [W(z) • Н(2)\ь, где ^ф]— оператор усечения такой, что любые члены порядка выше Ь в матричном полиноме W(z) опускаются. Если для W(z) величина Ь берется достаточно большой, то флюктуации будут незначительными. Однако умножение в смысле группы Ли дает G(z) = W(z) ® Н^) = I. Далее будет рассматриваться объединенная передаточная функция (в смысле группы Ли) С( 2) = W(z) ® Н( 2).

р

функции стоимости yo(W(z)), определенной на многообразии М (Ь):

Vр^^)) = 5р(W(z)) ® W(z) = Vp(W(z)) ® W(z),

ах^)

нием:

.5)

dX(z) = dW(z) ® WJ (z) = [dW(z)W-1 (z)]Ь. (37)

Альтернативно м-градиент может быть выражен в виде

V p(W(z)) = Vp(W(z)) ® WT (z-1) ® W(z).

Однако оценивать м-градиент значительно легче при введении (неголономной) дифференциальной переменной dX(z), определенной приведенным

выше соотношением. Вычисление

жет быть выполнено двумя способами: 1. Оценить его по соотношению

5p(W(z))

мо-

Эp(W(z)) Эp(W(z))

СХ(7)

а^)

® WT(z"1).

М (Ь), можно выразить

Ф№))

5Х„

íдp(. ЭД)^ ^Х р, ]

Из этого следует, что

ap(X(z))

ахф

= Хь ap(X(z))z-

Х р=0 ах

5) Эту переменную называют неголономной — обеспечивающей дополнительную связь.

лен соотношением

8¥р_

ах.

Для любой матрицы

г, /

Е

пхпхпхп пхп

Жр

где dX(z)— переменная, определенная соотноше- ах

Р имеет вид

_аЕр

ах.

р=х „

ар„

ах.

р

операция Поэтому

производная

аЕ(у, X(z))

является оператором,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

аx(z)

отображающим М (Ь) на М (Ь), который представляется в виде соотношения

аЕ(У,ВД) ,(1) р хЬ.^Р2-р.

аx(z)

ах„ г

2. Непосредственно вычислить его с использованием свойства dy(k) = dW(z)x(k) = dX(z)y(k). Из этого выражения видно, что дифференциал dX(z) определяет изменения, которые переносятся каналом РСС на сигнал выхода у(^). Это свойство является основным фактором, влияющим на вывод обучающихся алгоритмов для модели разделения сигналов при ООМС.

Принимая, что dX(z) = Х р_0 dXр z-р е М (Ь) и что dX(z)— функция стоимости, определенная на

для любого фильтра Р^) е М (Ь).

На основе элементов проведенного выше анализа осуществлено построение обучающихся по м-градиенту алгоритмов для ООМС . Для выполнения адаптивного обучения в РВ использована функция стоимости в виде

3 (у, W(z)) = Е^(у, W(z))} =

= -г( У,)},

где г(у) — оценка для реальной функции ПРВ сигналов источника.

Оценка полного дифференциала ф(у^^)) имеет вид

dp(y, W(z)) =

= d (-^еГО|-Х n=1log Ч( У,) ) =

= - tr(dWo Wo1) + ФT(y)(y)Tdy, (39)

где 1х — след матрицы, ф(у) — вектор нелинейных активационных функций с компонентами ф,(у,)

%(У 1) = -

dlog г 1 (У :>_ г'Л У 1)

d У,

г,( у, )

Оценивающая функция для ООМС обозначена, как Е(у, X(z)) = Хр-0Ер (у, X(z))z-р, где Ер е Rп*п, р = 0,1,2,...,Ь — матричные функции на

аЕ

М (Ь). При задании р и г производная —— явля-

ахг

ется четырехмерным тензором, который опреде-

Введение неголономной дифференциальной связи по типу (37) позволяет преобразовать (39) к выражению, имеющему форму ф(у^^)) = = —г (ах0) + ф^^ф^ф'у. При этом как следствие получается соотношение, определяющее компоненты м-градиента:

аp(y,W(z))

ах р

р = 1,2,..., Р.

= -д0 р I + ф%)у^ - р),

(40)

После этого с использованием метода (м-) градиентного спуска получается эффективный обучающийся алгоритм в РВ, имеющий вид

р

А^ (к ) --Цк )X ;„ W„ (к )

= 1(к) X I - ф(у(к))ут(к - q)]W,_q (к) (41)

для р = 1,2,...,L,

где п — параметр скорости обучения. В частности, обучающийся алгоритм для W0 имеет выражение

AW0(k) = 1(к)[1 - ф(у(к))у т(к )^0(к). (42)

Альтернативно может быть использован адаптивный алгоритм с обучением его на выборке измерительных сигналов смеси, т. е. сигналов с сенсоров ИИС:

AWp (к) = 1(к )X I - Rфky)(q)]Wp_q (к), (43)

где Rфky) (q) = (1 - 1^фку-1) (q) + 1сф(у(к ))ут (к - q).

Алгоритмы на основе м-градиента (41) и (43) обладают свойством получать решение для размешивающей матрицы W с примерно равной скоростью для ее компонент. Упомянутым свойством обладают алгоритмы, динамическое поведение которых зависит от общей передаточной функции (ПФ) G(г) = W(г) ® Н(г), а не от ПФ смешивающего фильтра Н^). Фактически, обучающийся алгоритм (41) обладает этим свойством в смысле группы Ли. Так, если написать (первую часть) (41) по правилам группы Ли и умножить обе части этого соотношения на смешивающий фильтр Н^) (по правилам группы Ли), то будет получено выражение

(44)

мость

ах^)

где Сф = W(z) ® H(z).

Поскольку из (40) видна формальная независи-аР(у^))

ах„

от смешивающего канала H(z),

F(x(k), W(г)) = X;=0ф(у(к)) у(к - р)т z-р -1, (45)

где у(к) = XL_0Wpх(к - р); ф — вектор данной активационной функции; соблюдается условие, что оператор производной К =

ГЩх, W(z))) = Е |-1 обратим. ОФ является эффек-

[ ах^) ]

тивной, когда дополнительно к этому выполняется соотношение = ф,(у ,)у ,-1 [26], [27].

Оператор производной К(г) = Е-

аР(х, W(z)) |

это фильтр тензорного типа. Он может быть представлен в форме К^) = XЬ 0Kpz-р , где

КмМ= Е{ф(У.(кЩ(к-р)}*й8тт +8т8]180р .

Кроме того, при выполнении условия к ,Ф 0, к к у* ,2 -1 Ф 0, т 1 +1Ф 0 производная

оператора К^) обратима. В последнем условии использованы обозначения, введенные Цхангом:

т, = Е{ уф(у г)}, кг = Е{ф( у)} , * 2 = Е{ у,2}. (46)

Су =[кк, *2*2 -1]-1, 1 = Е{ф(у.)}.

(47)

то динамические свойства алгоритма (44) зависят от G(z), а сам алгоритм обладает тем же свойством, как у алгоритмов (41) и (43).

Другое важное свойство алгоритма (42) состоит в том, что он поддерживает обратимость матрицы W0, если начальное значение W0 обратимо [27].

ОЦЕНИВАЮЩИЕ ФУНКЦИИ И СТАНДАРТИЗОВАННЫЕ ОЦЕНИВАЮЩИЕ ФУНКЦИИ ДЛЯ РСС НА ОСНОВЕ ООМС

Наиболее выигрышной является ОФ, которая представлена соотношением

Метод, основанный на полупараметрической модели, для получения оценки параметров ^-пре-образования) размешивающей матрицы, использу-

ZN

F(x(k), W(z)) = 0. При достаточно большом значении N оценка W(z,k) сходится к фактическому размешивающему фильтру, причем для этого не требуется знания ПРВ сигналов источника г(8). ОФ не является единственной, т. к. для любого обратимого оператора R(z) (отображающего М(Ь) на М(Ь)) R (z)F(x,W(z)) — также ОФ. При этом, как было установлено, две ОФ эквивалентны в том смысле, что выведенные из них оценки размешивающей матрицы по алгоритму с обучающей выборкой совершенно одинаковы. Однако анализ алгоритма РВ показывает, что динамика обучения различается и, следовательно, целесообразно вводить ОФ, которая обеспечит более эффективный и устойчивый обучаемый алгоритм. Для этой цели вводится концепция стандартизованной ОФ. ОФ называется стандартизованной, если оператор производной

К( г) = Е

Щх, w(z))

. авд ,

является единичным опе-

ратором. Далее, если оператор K(z) обратим, то для любой ОФ F(x,W(z)) преобразование оператором К"1^), т. е. K"1(z)F(x, W(z)), является стандартизованной ОФ.

Кроме того, при эффективной ОФ в форме (45) соответствующее выражение стандартизованной ОФ имеет вид

г(х, w(z)) = х ьр__0 е*(х, w(z))z - р,

(48)

где

1

= —-{%(У,-)у,- -1} для г = 1,2,•••,п; т1 +1

Ку = Ср {к )у, - V (Ур)У} Для г * .

К р = Щ( У г ) Уу(к - Р)/(кг°) ) Для Р

Использование стандартизованной формы ОФ имеет определенные преимущества при получении алгоритма с обучением в РВ для оценки размешивающей матрицы. Алгоритм обучения на основе использования м-градиента определяется соотношением

ДW(z) = -ц- F*(x, W(z)) ® W(z)• (49)

Этот алгоритм обучения при выполнении условия (47) приводит к устойчивому равновесию, которое обеспечивает получение правильного решения для размешивающей матрицы W(z) = Н Для выполнения обучающего алгоритма (49) требуется в РВ оценивать статистики (46) и (47). В частности, если ПС бинарные (принимающие значения 1, -1), то вычисление таких статистик для стандартизованной ОФ достаточно просто. Если принять в качестве активационной функции кубическую функцию <р,(У г) = У,3, то статистики оцениваются по соотношениям: тг = 3, к, = 3, а2 = 1, у. = С-1 = 8 .

Поэтому стандартизованные ОФ могут быть получены в явном виде.

Повышение эффективности при использовании оценок с обучающей выборкой

Показано, что мгновенная замена Vгj (N1 ковариационной матрицы Е{УУр} (г * р) при больших

значениях выборки ПС убывает со скоростью 1/Ы2. Это свойство называется повышением эффективности при соответствующем оценивании. Цхангом [6], [26] показано, что это свойство сохраняет справедливость при РСС с операцией, обратной относительно многоканальной свертки ПС.

Положим, что F*(x, W(г)) — это стандартизованная оценивающая функция

Е{АХн (х, к) ® AXN (х, к) = N & (^ + О ^ где & = К -1 (z)G(z)K "т (z) =

= Е {Е* (х, W(z)) ® Е*т (х, W(z))}.

Тогда коэффициенты (z) выражаются соотношениями:

а,31 = С а С 1 ^ кИ к 1р для г * р, р *1,1 * П

Л СЛ к^21Р ^ ' )} для * * Л

т +1

И.

г<* _ г Л

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

,7 ,7 —

Р, и,Л '

для р > 1, г,р = 1,2,...,п.

Используя для Е*(х, W(z)) соотношение (48), путем прямых вычислений может быть получен результат, который формулируется следующим образом. Оценка по выборке является эффективной при выполнении условия 1г = Е{^г(5г)} = 0 для г = 1, 2, ..., п.

Из результатов анализа, проведенного в этом и двух предшествующих разделах, следует, что для повышения эффективности при оценке по выборке и по алгоритму на основе м-градиента требуется выполнение одного и того же условия: 1г = = Е^,-)} = 0 для г = 1, 2, ..., п. Но поскольку в качестве активационной функции нейронных сетей, с помощью которых реализуются алгоритмы, применяются кубическая функция или гиперболический тангенс, то обе эти функции удовлетворяют требуемому условию.

ЗАКЛЮЧЕНИЕ

Рассмотрены оценивающие функции и метод полупараметрической модели для разделения сигналов смеси (РСС), когда смесь реализована в форме многоканальной свертки первичных сигналов (сигналов источника). Для метода определения размешивающей матрицы W (обратной относительно Н — матрицы, смешивающей ПС) проанализирована сходимость и условия, обеспечивающие повышение эффективности оценок W как при использовании алгоритма, обучаемого по выборке, так и алгоритма РВ на основе м-градиента.

На первом этапе задача РСС при смеси в форме многоканальной свертки ПС сформулирована в рамках концепции полупараметрической модели, семейства оценивающих функций и стандартизованных оценивающих функций. Преимущество метода, основанного на полупараметрической модели, состоит в том, что в задаче РСС она избавляет от оценки мешающих параметров, т. е. от плотностей вероятности распределения сигналов источника. Из анализа теории оценивающих функций следует, что оценки размешивающей матрицы алгоритмом, обучаемым по выборке (если объ-

ем ее достаточно велик), сходятся к реальному решению. При этом, если удовлетворены условия устойчивости, то обучение алгоритма на основе м-градиента также приводит к сходимости к реальному решению независимо от плотности распределения первичных сигналов. Повышение эффективности обоих алгоритмов обеспечивается при выполнении определенных локальных условий.

В статье рассмотрены основные элементы двух математических концепций, использованных для целесообразной формы описания действий на многообразии матричных передаточных функций (МПФ) и на многообразии КИХ-фильтров. Это — операции МПФ на группе Ли и геометрические структуры многообразия КИХ-фильтров.

Идея, концепция и метод использования полупараметрической статистической модели, а также семейства оценивающих функций разработаны Цхангом, Амари, Сичоки [6], [26], Дугласом [8], Нагаоки [10], Пхамом [18], Каванабе, Муратой [21], Икеда, Тойамой [22], Тонгом [23].

СПИСОК ЛИТЕРАТУРЫ

1. Chen T.-P., Amari S., Lin Q. A unified algorithm for principal and minor component extraction // Neural Networks. 1998. V. 11. P. 385-390.

2. Choi S., Cichocki A. Separation of non-stationary sources in noisy mixtures // Electronic Letters. 2000. V. 36. P. 848-849.

3. Малыхина Г.Ф., Меркушева А.В. Адаптивный алгоритм на основе рекуррентной сети для задачи восстановления формы линейно смешанных сигналов // Нейрокомпьютеры. 2006. № 7. С. 3-13

4. Меркушева А.В., Малыхина Г.Ф. Восстановление формы линейно смешанных сигналов на основе адаптивного алгоритма рекуррентной сети // Научное приборостроение. 2005. Т. 15, № 3. С. 94-107.

5. Малыхина Г. Ф., Меркушева А.В. Метод анализа независимых компонент для восстановления формы сигналов по их смеси // Информационные технологии. 2008. № 9. С. 39-42.

6. Zhang L., Amari S., Cichocki A. Semi-parametric model and super efficiency in blind de-convolution // Signal Processing. 2001. V. 81, N 12. P. 2535-2553.

7. Малыхин В.М., Меркушева А.В. Методы и алгоритмы разделения смеси сигналов. II. Применение м-градиента к анализу независимых компонент // Научное приборостроение. 2009. Т. 19, № 4. С. 120-132.

8. Amari S., Douglas S.C., Cichocki A. Information geometry of source de-convolution // Mathematical Theory of Networks and Systems, MTNS 98, Padova, Italy, July 1998.

9. Amari S., Kawanabe MInformation geometry of estimating functions in semi-parametric models // Bernulli. 1997. V. 3, N 1. P 29-54.

10. Amari S., Nagaoka H. Methods of information geometry (Translations of Mathematical Monographs. V. 191). AMS & Oxford University Press. 1999. 205 p.

11. Jutten C., Herault J. Blind separation of sources. I. An

adaptive algorithm based on neuro-mimetic architecture // Signal Processing. 1991. V. 24, N 1. P. 1-10.

12. Bell A.J., Sejnowski T.J. Learning and higher order structure of natural sounds // Neural computation in neural systems. 1996. N 7. P. 261-266.

13. Amari S., Cichocki A., Yang H.H. A new learning algorithm for blind signal separation // Advances in Neural Networks Information Processing Systems / D.S. Touretzky, M.C. Mozer, E.E. Hasselmo (eds). Cambridge: MIT Press, 1996. V. 8. P. 757-763.

14. Cardoso J.-F., Laheld B.H. Equivariant adaptive source separation // IEEE Trans. Signal Processing. 1996. V. 44, N 12. P. 3017-3030.

15. Oja E., Karhunen J. Signal separation by nonlinear hebbian learning // Computational Intelligence — a Dynamic System Perspective. NY.: IEEE Press, 1995. P. 83-97.

16. Amari S., Cardoso J.-F. Blind source separation: semi-parametric statistical approach / IEEE Trans. Signal Processing. 1997. V. 45, N 11. P 2692-2700.

17. Amari S., Kawanabe M. Estimating functions in semi-parametric models // Estimating Functions (Monograph Series). IMS, 1998. V. 32 / Basawa I.V., Godambe V., Teylor R. (eds). P. 65-80.

18. Pham D.-T. Separation of instantaneous mixture of sources via an independent analysis // IEEE Trans. Signal Processing. 1996. V. 44, N 11. P. 2768-2779.

19. Amari S., Chen T.-P., Cichocki. A. Stability analysis for adaptive blind source separation // Neural Networks. 1997. V. 10, N 8. P. 1345-1351.

20. Zhang L., Amari S., Cichocki A. Equi-convergence algorithm for blind separation of sources with arbitrary distributions // Bio-Inspired Applications of Connec-tionism. Springer, Granada, Spain, 2001. V. LNCS 2085 / Mira J., Prieto A. (Eds). P. 626-833.

21. Kawanabe M., Murata N. Independent component analysis in presence of Gaussian noise based on estimating functions // Proceedings of the Second Workshop on Independent Component Analysis and Blind Signal Separation, 2000. P. 39-44.

22. Ike da S., Toyama K. Independent component analysis for noisy data - MEG data analysis // Neural Networks. 2001. V.13, N 10. P. 1063-1074.

23. Tong L., Liu R.W., Soon V.C., Huang Y.F. Indeterminacy and identifiability of blind identification // IEEE Trans. Circuits and Systems. 1991. V. 38, N 5. P. 499509.

24. Common P. Independent component analysis, a new concert // Signal Processing. 1998. V. 36, N 3. (Special Issue on Higher Order Statistics). P. 287-314.

25. Amari S. Estimating functions for independent component analysis for temporally correlated signals // Neural Computation. 2000. V. 12, N 9. P. 2083-2107.

26. Zhang L., Cichocki A., Amari S. Geometrical structures of FIR manifolds and their application to multichannel blind de-convolution // Proceeding of Int. IEEE Workshop on Neural Networks for Signal (NNSP'99), Madison, USA, August 23-25, 1999. P. 404-312.

27. Yang H.H., Amari S. Adaptive on line learning algorithm for blind separation: Maximum entropy and minimal mutual information // Neural Computation. 1997. N 9. P. 1457-1482.

Контакты: Малыхина Галина Фёдоровна, [email protected]

СПбГПУ, Санкт-Петербург

Материал поступил в редакцию 24.01.2011.

METHOD OF EFFICIENCY INCREASING FOR INDEPENDENT COMPONENTS AND CONVOLURION ANALYSIS PROCEDURES THAT ARE USED FOR SIGNAL FORM RECONSTRUCTION ON THE BASE

OF MIXTURE MEASUREMENS

A. V. Merkusheva, G. F. Malychina

SPbSPU, Saint-Petersburg

The conception is considered that generate unified view-point on different algorithms for signal separation (including de-convolution of multi-channel mixtures) on the base of signal mixture measurements. Estimating functions method is considered that give the possibility to explain the structure of different adaptive algorithms that realize de-separating matrix estimation and signal form reconstruction using only mixture measurements. The problem of signal mixture separation is formulated on the base of semi-parametric statistical model and estimating functions family. In terms of Li group formulation there is filter manifold considered.

Keywords: signal mixtures, multi-channel convolution, signal separation, algorithms, efficiency criteria, de-mixing matrix, Li group, FIR filters, geometrical structures

Аннотация научной статьи по математике, автор научной работы — Меркушева А. В., Малыхина Галина Фёдоровна

Похожие темы научных работ по математике , автор научной работы — Меркушева А. В., Малыхина Галина Фёдоровна

METHOD OF EFFICIENCY INCREASING FOR INDEPENDENT COMPONENTS AND CONVOLURION ANALYSIS PROCEDURES THAT ARE USED FOR SIGNAL FORM RECONSTRUCTION ON THE BASE OF MIXTURE MEASUREMENS