УДК 510.8
БЕСПЕРЕБОРНАЯ КРОСС-ВАЛИДАЦИЯ ОТБОРА ПРИЗНАКОВ В ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ
О.В. Красоткина, В.В. Моттль, Н.А. Разин, Е.О. Черноусова
В статье рассматривается оценивание линейной регрессионной зависимости с помощью критерия, штрафующего сложность модели двумя способами: в виде суммы квадратов (l2 -норма) и в виде суммы модулей (ll-норма) компонент вектора
параметров. Вклад в критерий каждого из слагаемых регулируется двуми струкутрными параметрами. Как правило, выбор этих параметров осуществляется эмпирическими методами оценивания обобщающей способности модели, типа ресэмплинга, что неизбежно сопряжено с вычислительной сложностью таких методов. В статье предлагается беспереборный способ вычисления критерия перекрестной проверки (в анлглоязычной терминологии - «leave-one-out»), что позволяет выбрать структурные параметры, избежав трудоемких вычислений.
Ключевые слова: регуляризация задачи оценивания регрессионной зависимости посредством критерия «Elastic Net», разбиение множества признаков, отбор признаков, беспереборный метод вычисления перекрестной проверки («leave-one-out» показателя).
Критерий «Elastic Net» был предложен в 2005 году авторами Zou и Hastie [3] как обобщение регуляризации типа Лассо [1], а именно совмещение штрафов в виде суммы абсолютных значений и в виде суммы квадратов коэффициентов регерессионной модели. Такой метод стал широкоиспользуемым применительно к задачам машинного обучения бдагодаря его свойству отбора признаков, осуществляемому посредством введения l1 штрафного слагаемого, в результате которого неинформативным признакам модели приписываются нулевые значения.
В этой статье рассматривается задача оценивания линейной регрессионной зависимости. Для определения обобщающей способности модели и последующего выбора структурных параметров используется процедура перекрестной проверки. Однако предлагается алгоритм позволяющий избежать основной недостаток методов типа «ресэмплинга» - многократного обучения по выборкам меньшей размерности.
Пусть имеется центрированная и нормированная следующим образом обучающая совкупность
Первоначально при использовании критерия «Elastic Net», или согласно [3] его простой версии («Naive Elastic Net», или NEN), решалась
{(xj,yjX j ^..^NK Xj =(xij ••• Xnj)T G Rn, yj e R
N N N
(1)
задача оценивания действительнозначного вектора коэффициентов
Т т
а = (й?1 • • • ап) е Кп регрессионной модели Дх) = ах путем минимизации
выпуклого функционала:
п _ п N п _
^ЫЕЫ(а I ^Ь12) = 12 Ёа/ + 11 Ё I а I + Ё (У/ - Ёа1*у) = ...
/=1 /=1 7=1 /=1 (3)
12aT a + liPaPi + (y - Xa)T (y - Xa) ® min(a),
y = (У1 L yN) є RN, X = (x1 L xN)T(NXn\
^,12= (<^f,11,12 , i є 1) = argmin JNEN(a I 12) є Rn.
(4)
4^2 v ьЛ1>Л2
Основная версия «Elastic Net» [З] (EN) отличается от простой (З) только в штрафном слагаемом квадратичного вида:
n * 2 n N n 2 JEN(a I ^Ь12) = 12 Z(ai -a*) + 11 Z I ai I + Z (yj - Zaixij) =
i=1 i=1 j=1 i=1 (5)
12(a -1XTy)T (a - -1 XTy) + liPaPi + (y - Xa)T(y - Xa) ® min(a),
NN
€11,12 = (<€i',11,12,i є 1) = argmin JEN(a 1^b12) є Rn, (б)
* t
где a =(1/N)X y - вектор предварительных оценок коэффициентов регрессии, полученный по шкалированным данным (2). Заметим, что это есть не что инное, как ковариация наблюдаемых данных
*
a
' * і N Л
ai = — Z У iXij, i = 1,...,n i N= j j
= — XTy є Rn. (7)
N
V ^ 1 /
Введение в слагаемое, отвечающее за квадратичную регуляризацию, такого рода смещения объяснялось в [3] как декорреляция векторов признаков для обучающей совокупности (х 7,7 = 1,..., N). КЕК (3)
является частным случаем основного критерия (5) с нулевым вектором
*
смещения а = 0. Несложно показать, что обе версии ЕК являются критериями типа Лассо.
Основное внимание в нашей статье уделяется характеристическому свойству критерия (5) - разбиению множества коэффицинтов регрессии на три класса: с отрицательными, положительными и нулевыми значениями.
В разделе 1 описанное разбиение, полученное при фиксированных 1 и 1 в точке минимума критерия ЕК, рассматривается как вторичный параметр регуляризации, который в свою очередь окончательно завершает процесс отбора признаков. При фиксированном разбиении критерий ЕК является квадратичной функцией по активным (ненулевым) коэффициентам регрессии.
В разделе 2 описанные выше свойства критерия позволяют
получить беспереборный способ вычисления метода однократной перекрестной проверки («leave-one-out» или LOO), избежав таким образом его основного недостатка, связанного с вычислительной трудоемкостью. Этот подход хорошо известен и широко используется в математической статистике [4], но требует более детального изучения применительно к рассматриваемой задаче.
Результаты численного моделирования представлены в разделе 3. Предложенный метод проверяется на тех же модельных данных, что и в статье [3].
1. Оптимальное разбиение множества коэффициентов регрессии: нечисловой стуктурный праметр
Рассмотрим обучающую совокупность {(x j, yj), j = 1,..., N},
центрированную и нормированную согласно (2). Обозначим через I = {1,..., п} - множество, с помощью которого индексируются
действительнозначные признаки, то есть Xj е R, i е I, в частности Xj-eR. Критерий EN (5) представляет собой выпуклую функцию Jen(а I ll,12): RN® R, точка минимума которой является вектор
регрессионных коэффициентов 12 = (<€' 1 12, i е 1) (6), полученный по
1 5 2 5 1 2
обучающей выборке.
Согласно [3], в точке минимума критерия EN множество признаков I={1,... , п} разбивается на три непересекающихся подмножества, соотвествующие отрицательным, положительным и нулевым значениям оценок коэффициентов регрессии:
^,12 ={i е 1: aj,i1,i 2<0}
^Л2 ={i е 1 %1,12=0!>1=111,12 UV2 и€1,12. (8)
2={i е 1 <€',Х1,Х 2>0}’
В дальнейшем нам потребуются следующие обозначения:
п
10
10
11,12
%
+
11,12
11,12
11,12
°2 Л1’Л2 Л1^2
п = 4^,12 + 2 = 2 + ^1,12 + 2,
для соответствующего числа нулевых, отрицательных и положительных значений коэффициентов регрессии, а также общего числа пассивных и активных регрессоров, согласно разбиению (8). Такое разбиение есть неотъемлемая часть результата работы, например, хорошо известного алгоритма LARS-EN [3], являющегося обобщением алгоритма LARS,
первоначально разработанного для решение задачи типа Лассо - частного случая БК с 12= 0 [2].
Таким образом, основопологающей задачей БК-регуляризации является нахождение подмножества активных (т.е. ненулевых)
коэффициентов регрессии I-. 1~ и 1+ 1 , другими словами, отбор
1 2 11,12
информативных признаков. Так как само разбиение (8) явным образом зависит от параметров 11 и 12, вполне естесственно рассматривать его как вторичный нечисловой структурный параметр задачи регрессионного оценивания.
При фиксированных значениях структурных параметров (11,12) и вместе с ними соответствующем разбиение (8), критерий БК (5) является строго квадратичной функцией по активным коэффициентам регрессии:
JEN(ai, 1 ї 10 1о I °Ь12) = °2 Z (ai-a*f - °1 Z ai + °1 Z ai +
1 2 Ії1°1,12 іє1°-і,і2 ^
N 2 ro * 1 N
alxli) ® min(al, i ї 1 . ), al = —
,12
J=1 ії€° ° * 2
1l,12
2 £0 * 1
Z(yj - Z aixij) ® min(ai, l ї # ), ai = — Z yjxij.
і=i J ії1° ° J °1,12 Nj=iJ J
°i,i 2
Введем для удобства следующие обозначения:
(10)
a°1 ,°2 = ( ai ’1Є 111,12 ) є Rn°1,12’ xJ,°l,°2 = (xli ’1Є 1°1,12) є Ri€l1,12’ (11)
X 11,° 2 =(*i-*N )T (Nx€°1,°2).
«°1,°2= Ь >1 ї 1°01,12 J є R °1,l2> ~i=
+ 1, l є 1<+ r. , °1,° 2
-1 1 є V2’
(12)
a*1,12 =іa*’1 ї 111,12) є Rn°1,12. (1З)
Теорема 1. Решением задачи обучения EN (5) является вектор
€°112= (a °i 12, і є 1 )є Rn, полученный, согласно разбиению (8), объединением вектора і2= ^ 12, і ї 11 і J є R^1,12 и нулевых
компонент ^€ Її 12 = 0, і є 11 і j . В свою очередь, вектор a^i 12 есть
решение системы из /€і112 линейных уравнений с таким же числом переменных:
(X1b12X1l,12 +12Ч,12 ^ = X 1і,і2У-1T~1l,1212~*. (14)
В действительности, решать систему уравнений (14) восе не нужно,
вектор €1b12=(ai, 1 є 1) є Rn находится любым подходящим алгоритмом
минимизации выпуклой функции (5). При этом Теорема 1 позволяет рассматривать оптимальное разбиение множества признаков как вторичный нечисловой структурный параметр, зависящий от (Її, 12), правильность выбора которого мы и будем проверять с помощью процедуры LOO.
Чем больше подмножество отброшенных признаков 10 1 £ 1, тем
меньше сложность класса регрессионных моделей, заданного критерием (10). В частности, алгоритм LARS-EN [З] выдает на выходе разбиение множества признаков, полученное согласно параметрам (Її , 12).
2. Беспереборный метод перекрестной проверки нечислового структурного параемтра - разбиения множества признаков
Предположим, что задача EN (5) решена для заданной обучающей выборки (1) и при фиксированных значениях струкутрных параметров (1l, 12), тогда вектор оценок коэффициентов регрессии €іі 12 = (a, і є 1)
(б) вместе с разбиением множества признаков (8) уже известны. Среднее значения квадрата ошибок в оценивании регрессионной зависимости задается следующим образом:
S(ii,i2)=NJZ^U- (15)
€j,11,12 = yj - Z ^Л^12 xij = yj - x j ,12 = yj - •€/',11,ї2. (1 б)
іїк л 11,ї 2
Для теоретического применения LOO процедуры к критерию обучения (10), регуляризованному структурными параметрами (їі, 12) и соответствующим разбиением множества признаков (8), необходимо N раз выполнить следующую последовательность шагов:
1) удалить один из объектов, например, k -ый вектор признаков x k, из обучающей совокупности (1), пересчитать значение вектора
*(k )
первоначальных оценок в (10) и (1З): a^ =(1/(N-1))Zj=1 j^кУjxjj,
2) оценить коэффициенты регрессии в соответствии с измененным N 2
слагаемым ^у=1 .ф^(у^-...) в формуле (10) из оставшегося множества
€(k) = С) i Ф € 1 е R^b12-
a11,i2 {ai,11,12, Ф %,12)е R -
3) вычислить ошибку предсказания на удаленном объекте
^1^1 2 = yk - ^1^1 2-
Наконец, усреднить квадрат ошибок по всей обучающей выборке k = 1,..., N.
Окончательное значение LOO критерия S'lOO (1l, 12) в отличие от (15) дает эмпирическое значение риска для оцениваемой регрессионной зависимости по единственно доступной наблюдателю обучающей совокупности:
sloo(11,12) = ) ’ (17)
^1^= yk - ykk11,12= yk - 2. (18)
Заметим, что удаление из исходной обучающей совокупности (1) одного из объектов нарушает центрированность и нормироанность данных (2). На самом деле, на каждом этапе процедуры LOO для вычисления
ошибки dkl 1 (17) нужна перенормировка новой обрезанной выборки.
Однако, для упрощения изложения мы не будем здесь этого делать.
3. Эффективное вычисление метода LOO
Казалось бы, для вычисление ошибки (18) на каждом шаге процедуры LOO требуется отдельно решить задачу (10) со
N 2
скорректированным слагаемым £ ^(yj-...) . К счастью,
квадратичный вид критерия (10) позволяет избежать многократное решение оптимизационнной задачи для вычисление LOO ошибки (17). Этот факт, используемый нами для быстрого вычисления LOO в задачах с квадратичным критерием обучения, хорошо изучен в литературе [4]. Нашей целью является детализация этого подхода к частному случаю оценивания регрессионной зависимости путем EN-регуляризации.
Следующая Теорема 2 показывает, что значения регрессионных
остатков 2 <18> в (17>- вычисляемые в ходе процедуры LOO, можно
выразить через соответствующие остатки €k 112 (16), вычисляемые по
полной исходной обучающей выборке.
Теорема 2 Предположим, что задача EN (5) решена для исходной обучающей совокупности при каких-то значениях структурных
параметров 11 и 12, т.е., наименьшие значения ошибок €k 112 (16), а
также разбиение множества признаков 12 ЦЦ i i (8)
известны. Тогда применение LOO процедуры (17) к критерию (10) можно записать в следующем виде для соответствующей наивной (3) и основной (5) версии EN:
с е л2
1 N
slon (ibi2)=^ s
Nk=i
dk ,11,12 1 - qk ,;цд2
(NaiveElasticNet),
(19)
■fOo ( ^2)=N N
N k =1
€k,11,12 + N^-112 iyk4k,11,12- hk,11,12 )
1 qk,1i,A,2
(ElasticNet), (20)
где а - вектор предварительных оценок коэффициентов регрессии по исходной обучающей совокупности (7),
qkДіД2 xT iXTb12X ^іД2 +12*nli,l2
hkД і Д2 xT (XX1 ,12 X Л2 +12 In1b12
(x Ti,i
Из X 1l ,12
формул (21)
2
ясно,
1~ xk,
1~*
a.
(21)
что обращать
матрицу
+ l2 Inl ,l ) нужно всего лишь раз при оценивании
o2 -4^2
коэффициентов регрессии по исходной обучающей выборке; далее остается только применить результат вычисления на каждом шаге к = 1,...,N. Эффективность предложенного метода очевидна.
4. Экспериментальные данные
Для того чтобы продемонстрировать эффективность обоих версий нашей беспереборной LOO процедуры [3] по сравнению со стандартным подходом Лассо, в этой главе мы приводим результаты экспериментов, проведенных на тех же синтетических данных, которыми пользовались в своей статье Zou и Hastie [3].
В точности тем же способом, что и Zou и Hastie, мы сгенерировали случайную выборку {(x j, y j), j = 1,..., N} согласно модели:
y = Xa + оє, y, є є RN, a є Rn, є :N(0, I)
(22)
T
где матрица X = (xi -x n ) (Nxn) построена из независимых случайных
Т
векторов-столбцов X j =( Х\ j ••• Хщ ) є Кп, в свою очередь имеющих
нормальное распределение с ковариационной матрицей [Соу(і,I), і,I = 1,...,п], Соу(і,і) = 1.
Аналогично [3] было проведено четыре типа экспериментов,
94
2
конечно, отличавшихся от исходных в силу специфики LOO процедуры. В статье [3] синтетические данные в каждом типе эксперимента состояли из обучающей выборки и независимых проверочной и тестовой выборок соответствующих размеров NtrlNvailNjest. В отличие от [3], для
применения процедуры LOO мы рассматривли объединение обучающей и проверочной выбороки.
В остальном сценарии проведения четырех типов экспериментов ничем не отличались от [3]:
1) мы сгенерировали 50 выборок из 401200 наблюдений и
использовали 8 предикторов: xj =(Х1 j ••• xgj) - с ковариацией
Cov(i, l) = 0.5|j-l. Мы положили
a = (3.0,1.5,0.0,0.0,2.0,0.0,0.0,0.0)e R8.
2) изменили вектор параметров, положив ai = 0.85 для всех i .
3) мы сгенерировали 50 выборок из 200l400 наблюдений и
использовали 40 предикторов x j = (Х1 j • • • Х40 j) с ковариацией
Cov(i,l)=0.5 . Мы положили
a = (0.0,...,0.0,2.0,...,2.0,0.0,...,0.0,2.0,...,2.0)e R40,
\________j \______j \_______j \________j
10 10 10 10
4) мы сгенерировали 50 выборок из 100l400 наблюдений и
использовали 40 предикторов. Мы положили a = (3.0,...,3.0,0.0,...,0.0)e R40,
15 25
0=15. Предикторы x = (Х1 ••• Х40) генерировались следующим образом:
Xj =z1+ , Z1: N(0,1), i=1,...,5,
Х\ =z2+ej, Z2 : N(0,1), i=6,...,10,
^ =z3+ еХ, z3 :N(0,1), j=11,...,15, х1 : N(0,1), i.i.d., i = 16,...,40.
Такая модель состоит из трех одинаково значимых групп, по пять предикторов каждая, и из 25 чисто шумовых признаков.
Для каждой из 50 случайных выборок в каждом из четырех типов эксперимента мы дважды решили задачу по критерию NEN (3) и EN (5), используя алгоритм LARS-EN [3 - 4].
Каждый раз обучение запускалось при фиксированном значении параметра регуляризации l2 . Параметр регуляризации l1 после решения задачи оптимизации принимал n +1 значение (n есть полное число переменных в модели данных (22)), полученное алгоритмом при выполнении процедуры последовательной регуляризации (в англоязычной терминологии: «regularization parth»). Уменьшение значений I1
eX : N(0,0.01),i.i.d.,
определялось по соответствующей последовательности из n +1 разбиения множества признаков (8)-(9), начиная с ^ = I, Пц ^ = 0, заканчивая
10 1 = ^, ПИ%112 = n. В дополнение к этому мы меняли заранее
установленный параметр l2 .
В первой части эксперимента для выбора структурных параметров модели использовалсь метод LOO. Во второй части - метод однократной перекрестной проверки (в англоязычной литературе «one-fold cross validation» или 1-CV). Результирующая ошибка считалась на тестовой совокупности.
В таблице представлены результаты описанных выше четырех экспериментов, усредненные по 50 случайно сгенерированным выборкам. Как и ожидалось, проверка предварительных значений пары структурных параметров (l1, l2 ) с помощью LOO процедуры в терминах среднего квадрата ошибок на тестовой выборке оказывается лучше процедуры 1-CV.
Результаты экспериментов
Результаты экспериментов
Версия EN критерия/способ выбора структурного параметра Номер серии экспериментов
1 2 3 4
NEN, 1-CV 3.47 3.40 16.S0 24.21
NEN, LOO 3.33 3.29 16.79 19.20
EN, 1-CV 3.44 3.44 17.45 24.21
EN, LOO 3.33 3.29 16.79 19.20
Заключение
Мы предложили вычислительно эффективный беспереборный алгоритм подсчета LOO критерия для задачи регуляризации EN [4], позволяющий оценивать обобщающую способность модели для настройки параметров. Для этого мы рассматривали разбиение множества признаков в точке минимума критерия EN, как вторичный нечисловой параметр регуляризации.
Предложенный метод был экспериментально проверен на точно таких же моделях, как и в статье [4]. Мы заключили, что точность обоих методов одинакова, с небольшим преимуществом LOO процедуры. Однако
вычислительные затраты существенно меньше при применении беспереборного метода вычисления LOO критерия.
Список литературы
1. R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, Vol. 58, Issue 1, 1996, pp. 267288.
2. B. Efron, T. Hastie, I, Johnstone, R. Least angle regression. The Annals of Statistics, Vol. 32, 2004, pp. 407-499.
3. http://www-stat.stanford.edu/: tibs/glmnet-matlab/
4. http ://cran.r-proj ect. org/ web/packages/ elasticnet/index.html.
4. H. Zou, T. Hastie. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, Series B, Vol. 67, Part 2, 2005, pp. 301-320.
5. R. Christensen. Plane Answers to Complex Questions. The Theory of Linear Models. Third Edition. Springer Verlag, New York, Inc.,2010.
Красоткина Ольга Вячеславовна, канд. физ.-мат. наук, доц., [email protected], Россия, Тула, Тульский государственный университет,
Моттль Вадим Вячеславович, д-р техн. наук, проф.,, [email protected], Россия, Москва, Вычислительный центр российской академии наук,
Разин Николай Алексеевич, аспирант, [email protected], Россия, Москва, Московский физико-технический институт (государственный университет)
Черноусова Елена Олеговна, аспирант, [email protected], Россия, Москва, Московский физико-технический институт (государственный университет)
A NON-ENUMERA TIVE CROSS-VALIDATION OF FEATURE SELECTION IN LINEAR
REGRESSION MODELS
O.V.Krasotkina, V.V.Mottl, N.A.Razin, E.O.Chernousova
We consider the problem of estimation of linear regression via criterion, which has two penalization parts: lx - and l2 -norms of the vector of parameters. Two regularization parameters control the contribution of each penalty to criterion. Usually, choosing these parameters is done via empirical methods of estimathion of the generalization performance such as resampling, whish result in computing complexities. In the article it is considered a non-enumerative method of computing the leave-one-out error rate for tuning structural parameters.
Key words: Elastic Net regression, partitioning of the feature set, feature selection, non-enumerative leave-one-out.
Krasotkina Olga Vyacheslavovna, candidate of technical science, docent, [email protected], Russia, Tula, Tula State University,
Mottl Vadim Vyacheslavovich, doctor of technical science, professor, [email protected], Russia, Moscow, Computing Center of the Russian Academy of Sciences,
Razin Nikolay Alexeevich, PhD student, nrmanutd@gmail. com, Russia, Moscow, Moscow Institute of Physics and Technology (State University),
Chernousova Elena Olegovna, PhD student, lena-ezhova@rambler. ru, Russia, Moscow, Moscow Institute of Physics and Technology (State University)
УДК 621.391.6:621.396.13
ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАДИОКАНАЛА СВЯЗИ С БЕСПИЛОТНЫМИ ЛЕТАТЕЛЬНЫМИ АППАРАТАМИ
А.В. Полынкин, Х.Т. Ле
В настоящее время наблюдается большой интерес к комплексам воздушного наблюдения и мониторинга природной среды и технических объектов с использованием малогабаритных беспилотных летательных аппаратов (БПЛА). Эффективность их применения в значительной мере зависит от характеристик устройств радиосвязи БПЛА и наземного пункта управления (НПУ). Поэтому актуальной задачей является оптимизация радиолиний управления и передачи данных, т. к. она способствует увеличению дальности связи и повышению качества передачи информации. Для решения данной задачи необходимо исследование характеристик радиоканала связи с БПЛА.
Ключевые слова: беспилотный летательный аппарат, наземный пункт управления, целевое оборудование, многолучевость, замирание сигнала.
1. Основные требования к системам связи с БПЛА
Линия радиосвязи летательного аппарата (ЛА) и наземного пункта управления обеспечивает в общем случае двухсторонний обмен информацией между бортовой и наземной аппаратурой. Основными задачами, решаемыми указанной линией связи, являются:
в направлении НПУ-ЛА - передача командной информации для осуществления управления полетом ЛА и работой целевого бортового оборудования;
в направлении ЛА-НПУ - передача телеметрической информации, передача информации, полученной с помощью целевого оборудования (фотоснимки, ТВ изображения и др.).
Радиолинии НПУ-ЛА и ЛА-НПУ существенно различаются по пропускной способности:
Радиолиния НПУ-ЛА представляет собой узкополосный канал свя-