Научная статья на тему 'Корректировка погрешности вычисления коэффициентов корреляции при малых выборках'

Корректировка погрешности вычисления коэффициентов корреляции при малых выборках Текст научной статьи по специальности «Математика»

CC BY
483
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДИЧЕСКАЯ ОШИБКА / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / МАЛАЯ ВЫБОРКА / ОБРАБОТКА БИОМЕТРИЧЕСКИХ ДАННЫХ

Аннотация научной статьи по математике, автор научной работы — Кулагин В. П., Иванов А. И., Кузнецов Ю. М., Серикова Ю. И.

Показано, что вычисление математических ожиданий, стандартных отклонений и коэффициентов корреляции дает значительные ошибки при использовании малых выборок. Ошибка вычисления коэффициентов корреляции существенно больше, чем ошибки вычисления математических ожиданий и стандартных отклонений. Причиной ошибок является квантование континуумов исходных данных через их представление небольшой выборкой. Приводятся графики распределения вероятностей появления ошибок квантования, а также ошибок, возникающих при вычислении коэффициентов корреляции на малых выборках. Полученные значения показывают наличие существенных методических погрешностей, возникающих при измерении коэффициентов корреляции. При малых выборках методическая погрешность значительна, однако она быстро уменьшается с ростом объема тестовой выборки. Предложено корректировать методическую погрешность в аддитивной и/или мультипликативной форме.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кулагин В. П., Иванов А. И., Кузнецов Ю. М., Серикова Ю. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Корректировка погрешности вычисления коэффициентов корреляции при малых выборках»

стем ЖАТ, можно обосновывать и принимать управленческие решения, связанные с управлением ресурсами и рисками в области систем обеспечения движения поездов.

ЛИТЕРАТУРА

1. ГОСТ Р 54505-2011. Безопасность функциональная. Управление рисками на железнодорожном транспорте.

2. Горелик, А.В. Методы анализа безопасности функционирования систем железнодорожной автоматики и телемеханики / Горелик А.В., Журавлёв И.А., Тарадин Н.А. // Надёжность. - 2011. - №1.

3. Горелик, А.В. Модели и методы анализа надежности и эффективности функционирования объектов инфраструктуры железнодорожного транспорта / Горелик А.В., Журавлев И.А., Веселова А.С. // Надежность и качество: труды Международного симпозиума: в 2-х т./ под ред. Н.К. Юркова. - Пенза: Информационно-издательский центр ПензГУ, 2014 - С. 174-176

4. Горелик, А.В. Анализ надежности элементов транспортной инфраструктуры на основе имитационного моделирования / Горелик А.В., Журавлев И.А., Тарадин Н.А., Веселова А.С. // Надежность и качество: труды Международного симпозиума: в 2-х т./ под ред. Н.К. Юркова. - Пенза: Информационно-издательский центр ПензГУ. Т.1, 2015 - С. 120-122

5. Методика оценки рисков, связанных с функционированием систем железнодорожной автоматики и телемеханики ОАО «РЖД» // утв. 21.11.2015 г. старшим вице-президентом ОАО «РЖД» Гапановичем В.А.

6. Артемов И.И. Прогнозирование надёжности и длительности приработки технологического оборудования по функции параметра потока отказов / И.И. Артемов, А.С. Симонов, Н.Е. Денисова // Труды международного симпозиума Надежность и качество. 2010. Т. 2. С. 3-7.

7. Горелик А.В. Оценка рисков, связанных с функционированием систем железнодорожной автоматики и телемеханики / Горелик А.В., Болотский Д.Н., Веселова А.С., Журавлёв И.А. и др. // МИИТ - Москва, 2015. - 16 с. - Деп. в ВИНИТИ 10.11.15 № 187-В2015.

УДК: 621.3.088

Кулагин1 В.П., Иванов2 А.И., Кузнецов1 Ю.М., Серикова3 Ю.И.

1МИЭМ НИУ ВШЭ, Москва, Россия

2АО «Пензенский научно-исследовательский электротехнический институт, Пенза, Россия

3ФБГОУ ВО «Пензенский государственный университет», Пенза, Россия

КОРРЕКТИРОВКА ПОГРЕШНОСТИ ВЫЧИСЛЕНИЯ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ ПРИ МАЛЫХ ВЫБОРКАХ

Показано, что вычисление математических ожиданий, стандартных отклонений и коэффициентов корреляции дает значительные ошибки при использовании малых выборок. Ошибка вычисления коэффициентов корреляции существенно больше, чем ошибки вычисления математических ожиданий и стандартных отклонений. Причиной ошибок является квантование континуумов исходных данных через их представление небольшой выборкой. Приводятся графики распределения вероятностей появления ошибок квантования, а также ошибок, возникающих при вычислении коэффициентов корреляции на малых выборках. Полученные значения показывают наличие существенных методических погрешностей, возникающих при измерении коэффициентов корреляции. При малых выборках методическая погрешность значительна, однако она быстро уменьшается с ростом объема тестовой выборки. Предложено корректировать методическую погрешность в аддитивной и/или мультипликативной форме.

Ключевые слова:

методическая ошибка, коэффициент корреляции, малая выборка, обработка биометрических данных.

Введение

В настоящее время активно идут процессы по созданию программируемых автоматов, способных безошибочно узнавать своего хозяина и автоматически обучаться на малом числе примеров биометрического образа человека-хозяина. За рубежом для этой цели используют, так называемые, «нечеткие экстракторы» [1,2,3].

В России эти же задачи решаются с использованием искусственных нейронных сетей [4,5]. Нейросетевые преобразователи биометрии в код доступа почти во всех отношениях оказываются лучше «нечетких экстракторов». Единственный показатель, по которому «нечеткие экстракторы» превосходят нейронные сети - это объем обучающей выборки.

Настраивать «нечеткие экстракторы» удается даже на одном примере распознаваемого биометрического образа, тогда как при обучении нейросе-тевого преобразователя алгоритмом ГОСТ Р 52633.5-2011 [5] требуется порядка 20 примеров биометрического образа «Свой».

Данная задача особенно актуальна при работе устройств обнаружения и распознавания опасных газовоздушных смесей, использующих нейросетевой аппарат искусственного интеллекта запаховых образов химических веществ.

Обычно стандартный алгоритм обучения [5] устойчив и имеет линейную вычислительную сложность. Низкая вычислительная сложность стандартного алгоритма обучения и его высокая устойчивость обусловлены тем, что он не является итерационным. Алгоритм построен на вычислении весовых коэффициентов нейронной сети путем преобразования математических ожиданий биометрических параметров и их стандартных отклонений:

E(v) = - х v ni=i

o-(v) =

' I

— X (E(v) - v n - 1 i-i

где л-число примеров в обучающей выборке.

Предположительно стандартный алгоритм обучения искусственных нейронных сетей [6] может быть улучшен, если он будет усовершенствован путем использования большего числа статистических параметров. В частности ожидается, что дополнительно при обучении нейронных сетей можно будет использовать коэффициенты парной корреляции биометрических данных [6]:

, , -V (E(v-) - v-,) ■ (E(v2) - v2 )

r(v-9 v2) = -7--—Г-

n i=i a(vi) ■a(v2)

(2)

Дополнительный учет коэффициентов корреляции, как дополнительных контролируемых биометрических параметров, позволяет увеличить число входов нейронной сети с величины N до величины Ы2/2. Так при числе контролируемых биометрических параметров N=400 появляется теоретическая возможность перейти от нейронных сетей с 4 00 входами к нейронным сетям с 80 000 входами.

К сожалению, на малых тестовых выборках, состоящих из п ~ 21 примеров, ошибки вычисления коэффициентов корреляции (2) оказываются велики. Причина больших ошибок кроется в том, что при вычислении коэффициентов парной корреляции каждый из четырех используемых статистических моментов Е(У\), Е(у2), ), сг(к2) имеет собственную погрешность вычисления

AE(vl), АЕ(у2 ), Aa(vl), Aa(v2)

Любые

вычисления

n

ошибки входящих в них вели-

склонны накапливать чин.

На рисунке 1 приведены распределения значений коэффициентов корреляции, полученные при разных размерах тестовых выборок.

тет с амплитудой каждого скачка

- ДР(Ду) = — 21

0.5

0.2

-0.2

Р(\') 1

3 л _ : й

ад , /А Ни

V

-1

0

1

Рисунок 1 - Распределения значений коэффициентов корреляции, для выборок из 7, 9, 16, 21 примеров при двух заданных значениях коэффициентов корреляции г = 0 и г = 0.5

Из рисунка 1 видно, что методические ошибки, обусловленные малым размером тестовой выборки, могут быть весьма значительны. Так при 21 примере в тестовой выборке и отсутствии корреляции между параметрами вычисления по формуле (2) вместо ожидаемого значения г = 0 можно получить значения г = ±0.65. Чем больше число примеров в выборке, тем точнее результат расчетов, однако увеличивать размер выборки не всегда возможно. Как следствие, актуальной становится задача повышения устойчивости вычислений по формуле (2) либо поиск других более устойчивых формул для оценки парной корреляции для малых выборок биометрических данных.

Шумы квантования, возникающие из-за малого числа примеров в тестовой выборке

Биометрические данные по своей природе континуальны (непрерывны). Многие из них хорошо описываются нормальным законом распределения значений. Когда мы представляем континуум возможных значений всего 21 примером, возникает ошибка квантования статистических функций. В верхней части рисунка 2 приведен график ступенчатой эмпирической функции вероятности биометрического параметра Р(у). График монотонно рас-

Рисунок 2 - Эффекты квантования непрерывной функции вероятности при представлении континуума данных 21 примером

В нижней части рисунка 2 приведена ошибка квантования или шум квантования непрерывных данных. Очевидно, что влияние шумов квантования может быть снижено путем применения специальных алгоритмов уменьшения (подавления) шумов.

По сути дела, каждый из известных критериев проверки статистических гипотез можно рассматривать как некоторый способ подавления шумов квантования. В этом смысле можно сравнивать между собой различные статистические критерии по их способности подавлять шумы квантования. Можно предположить, что одномерные алгоритмы снижения влияния шумов квантования [7,8,9] могут быть обобщены до двухмерных алгоритмов более устойчивого вычисления коэффициентов парной корреляции. Таких алгоритмов вычисления коэффициентов корреляции может быть создано достаточно много. Так как каждый такой алгоритм вычисления коэффициентов корреляции будет иметь собственную погрешность, появляется возможность направленного поиска наиболее устойчивых алгоритмов вычислений, способных эффективно противодействовать шумам квантования.

Оценка методической ошибки

Используя формулу (2), проведем вычисления, меняя значения коэффициента корреляции г при разных значениях размера выборки п. Усредненные результаты одного миллиона вычислений приведены в таблице 1.

Значения математических ожиданий Е(г) при разных размерах тестовой выборки п.Таблица №1

п Число степеней свободы (размер тестовой выборки)

7 8 9 10 11 12 14 16 21 32 64

Равная коррелирован-ность данных (г) 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01

0.1 0.092 0.092 0.093 0.094 0.095 0.095 0.096 0.096 0.097 0.098 0.099

0.2 0.185 0.186 0.189 0.189 0.189 0.191 0.193 0.194 0.195 0.197 0.198

0.3 0.278 0.281 0.284 0.286 0.287 0.288 0.290 0.292 0.294 0.296 0.298

0.4 0.373 0.377 0.379 0.382 0.384 0.386 0.388 0.390 0.393 0.396 0.398

0.5 0.467 0.473 0.476 0.479 0.481 0.483 0.485 0.487 0.491 0.494 0.497

0.6 0.567 0.572 0.575 0.578 0.581 0.582 0.585 0.588 0.591 0.594 0.598

0.7 0.667 0.672 0.676 0.679 0.681 0.683 0.686 0.688 0.691 0.695 0.698

0.8 0.771 0.775 0.778 0.781 0.783 0.785 0.787 0.789 0.792 0.795 0.797

0.9 0.883 0.886 0.888 0.890 0.891 0.892 0.894 0.895 0.897 0.898 0.899

0.99 0.988 0.988 0.989 0.989 0.989 0.989 0.989 0.99 0.99 0.99 0.99

Из таблицы 1 видно, что заданные при моделировании значения коэффициента корреляции (левый столбец таблицы) существенно отличаются от математических ожиданий результатов моделирования. Данная методическая ошибка уменьшается с увеличением размера тестовой выборки (разность соответствующих значений левого и правого столбцов таблицы 1стремится к нулю).

Построчная корректировка методических ошибок Рассмотрим метод коррекции методической ошибки. Если рассматривать строки таблицы 1, то

можно заметить, что значения элементов строки удобно аппроксимировать гиперболой степени 1.5:

Дг(п) = ^ + (3)

Мультипликативная корректировка методической ошибки может быть выполнена на основе выражения (4):

г(п) = г(п)-\\ + а + -^ | , (4)

где г (л) - значение коэффициента корреляции, вы- фициента корреляции с учетом компенсации мето-численное по формуле (2), г(п)- значение коэф- дической ошибки. Результаты аппроксимации данных

гиперболой приведены в таблице 2. Данные аппроксимации методической ошибки гиперболой Таблица 2.

при объемах выборки от 7 до 64 примеров

г(п) 0.01 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.99

— 0.00 0.0008 0.0013 0.0008 0.001 0.002 0.002 0.002 0.002 0.0003 0.00

— 0.00 0.18 0.29 0.45 0.5 0.6 0.6 0.6 0.52 0.3 0.035

В итоге можно отметить, что корректировка методической погрешности вычислений возможна как при использовании соответствующих корректирующих таблиц, так и при использовании аналитической аппроксимации в виде гипербол.

Корректировка методической ошибки при фиксированных объемах тестовой выборки

Рассмотрим другой способ корректировки методической ошибки, основанный на аппроксимации значений столбцов таблицы 1. На рисунке 3 приведены соответствующие графики.

Приближение данных численного моделирования осуществлено с использованием взвешенной функции бета-распределения:

Ar = sign(r) —--—-— • Irlа • -1 - Irl)—

а!—\ 11 V П)

(5)

Данные о параметрах аппроксимации методической ошибки вида (5) для разных размеров выборки п приведены в таблице 3.

Из рисунка 4 видно, что корректировка с использованием аппроксимации (5) позволяет уменьшить методическую ошибку от 5 до 10 раз, если применять аддитивную коррекцию:

чЯ-(аг + /? + 1)! ! (л |

r(ri) = r(ri) + sign(r)~

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а\\ — \

•|r(n)|а-{1 - |r(n)|)—

Объединение корректора методической погрешности (4) по строкам таблицы 1 с корректором методической ошибки (6) по столбцам этой же таблицы позволяет получить двухмерный цифровой корректор методических погрешностей определения коэффициентов корреляции, вычисляемых на малых тестовых выборках объемом от 7 до 64 примеров. Заключение

Чем меньше выборка примеров, представляющих биометрический образ, тем больше амплитуда шумов квантования. Чем выше размерность решаемой задачи, тем эффективнее оказываются предложенные в данной статье процедуры подавления случайных составляющих погрешностей наблюдаемых значений параметров. Приведенные примеры показывают, что методическая составляющая погрешности вычисления коэффициентов корреляции может быть снижена в 5-10 раз.

Данные аппроксимации методической ошибки Таблица 3.

взвешенным бета-распределением для разных объемов выборки.

Рисунок 3 - Примеры графиков методических ошибок (аппроксимация дана пунктиром) как функции значений коэффициентов корреляции

n 7 8 9 10 11 12 14 16 21 32 64

— 0.021 0.018 0.0166 0.0147 0.013 0.0114 0.010 0.0084 0.0061 0.0043 0.0021

а 2.45 2.45 2.45 2.45 2.45 2.45 2.45 2.45 2.45 2.45 2.45

— 6 CD 1 1.88 1.90 1.93 1.96 CD 9 1 1.99 2.11 2.04 2.06 2.08

После корректировки методической погрешности доминирующей оказывается случайная погрешность. Предположительно, что и случайная составляющая погрешности измерения коэффициентов корреляции может быть снижена. Ожидается, что удастся создать корректор в виде низкочастотного фильтра, сглаживающего скачки шума квантования исходных данных по аналогии со сглаживанием ступенек гистограмм [10].

Данная работа проводится при финансовой поддержке государства в лице Минобрнауки России (уникальный идентификатор RFMEFI60815X0003).

ЛИТЕРАТУРА

1. Y. Dodis, L. Reyzin, A. Smith Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy, Data April 13, In EUROCRYPT, pages 523-540, 2004.

2. Ramirez-Ruiz J., Pfeiffer C., Nolazco-Flores J. Cryptographic Keys Generation Using FingerCodes. //Advances in Artificial Intelligence - IBERAMIA-SBIA 2006 (LNCS 4140), p. 178-187, 2006

3. Feng Hao, Ross Anderson, and John Daugman. Crypto with Biometrics Effectively, IEEE TRANSACTIONS ON COMPUTERS, VOL. 55, NO. 9, SEPTEMBER 2006.

4. Волчихин В.И., Иванов А.И., Фунтиков В.А. Быстрые алгоритмы обучения нейросетевых механизмов биометрико-криптографической защиты информации. Монография. Пенза-2005 г. Издательство Пензенского госуниверситета, 273 с.

5. ГОСТ Р 52633.5-2011 «Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа».

6. Иванов А.И., Ложников П.С., Качайкин Е.И. Идентификация подлинности рукописных автографов сетями Байеса-Хэмминга и сетями квадратичных форм. «Вопросы защиты информации» №2 2015 г., с. 2834

7. Болл Руд и др. Руководство по биометрии. / Болл Руд, Коннел Джонатан Х., Панканти Шарат, Ратха Налини К., Сеньор Эндрю У. // Москва: Техносфера, 2007. -368 с., (перевод с английского).

8. Серикова Н.И., Иванов А.И., Качалин С.В. Биометрическая статистика: сглаживание гистограмм, построенных на малой обучающей выборке. /Вестник СибГАУ 2014 № 3(55) с.146-150

9. Волчихин В.И., Иванов А.И., Серикова Н.И., Фунтикова Ю.В. Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных // Известия высших учебных заведений. Поволжский регион. Технические науки. - Пенза: ПГУ, 2015 - №2. - С. 86 -91.

i Надоели баннеры? Вы всегда можете отключить рекламу.