Использование космических^средств, технологий и геоинформационны^систем для мониторинга и моделирования природной среды
УДК 519.24
НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН В УСЛОВИЯХ БОЛЬШИХ ВЫБОРОК*
А. В. Лапко1, 2 а, В. А. Лапко1, 2
1Институт вычислительного моделирования Сибирского отделения Российской академии наук Российская Федерация, 660036, г. Красноярск, Академгородок, 50/44 2Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
аЕ-таП: [email protected]
Предлагается непараметрический алгоритм автоматической классификации больших массивов статистических данных. Его синтез основан на декомпозиции исходных статистических данных и использовании ядерных оценок плотности вероятности.
Ключевые слова: автоматическая классификация, большие выборки, ядерная оценка плотности вероятности, дискретизация области значений многомерных случайных величин, данные дистанционного зондирования.
NONPARAMETRIC ALGORITHM OF AUTOMATIC CLASSIFICATION OF A MULTIDIMENSIONAL RANDOM VARIABLES IN LARGE SAMPLES
A. V. Lapko1, 2 а, V. A. Lapko1, 2
institute of Computer Modeling Siberian Branch of the Russian Academy of Sciences 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation 2Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation ""E-mail: [email protected]
A nonparametric algorithm for automatic classification of large-scale statistical data is proposed. Its synthesis is based on the decomposition of the initial statistical data and the use of kernel density estimate.
Keywords: automatic classification, large samples, kernel density estimate, discretization of the range of values of multidimensional random variables, remote sensing data.
Алгоритмы автоматической классификации широко используются при создании математического обеспечения аппаратно-программных комплексов обработки данных дистанционного зондирования природных объектов. В работах [1; 2] под классом понимается множество значений случайных величин, соответствующих одномодальному фрагменту плотности вероятности в пространстве признаков анализируемых объектов. Для оценивания плотности вероятности используется непараметрическая оценка плотности вероятности типа Розенблатта-Парзена.
В работе [3] обоснована возможность решения задачи автоматической классификации в рамках задачи распознавания образов с помощью итерационной процедуры последовательного непараметрического оценивания байесовских уравнений разделяющих поверхностей между классами. Цель данной работы состоит в обобщении полученных результатов на условия больших выборок с использованием методики дискретизации области значений случайных величин.
Дискретизация области значений многомерной
случайной величины х = (xv, v = 1, kI позволяет ис-
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-01-00251.
ходную информацию V = (X,' = 1, п | большого объёма п преобразовать в массив данных V = (7'', Р1, ' = 1, N|. Здесь 7'' - центр ' -го интервала дискретизации; Р1 - оценка вероятности принадлежности случайной величины х этому интервалу, А N - количество интервалов дискретизации.
Для восстановления плотности вероятности р (х) предложена статистика [4]
1 N к ( х _ 71 \
р (,..., Хк X Р' Пф5-^ , (1)
п ^ ^ 1 с ;
У=1
где ядерные функции Ф(uv) удовлетворяют условиям положительности, симметричности и нормированно-сти, а су, V = 1, к - коэффициенты их размытости.
Из анализа асимптотических свойств р (х) получена формула оптимальной дискретизации области значений многомерной случайной величины [5].
Решетневскуе чтения. 2018
Предлагаемый алгоритм автоматической классификации основан на выполнении следующих действий:
1. Провести анализ массива данных V и исключить информацию её элементов Si, для которых Р' = 0. Полученный массив преобразованных данных обозначим через V , количество их элементов как N, а множество их номеров через I.
2. Обнаружить элемент Sq из V с максимальной частотой Pq = тах Pi, который отнести к классу .
¿=1, N
3. Определить множество смежных к Sq элементов S(у) = ^', ' е 11 (q)), ближайших к нему на расстоянии длинны интервала дискретизации РУ по каждому признаку ху, V = 1, к. При этом должно соблюдается условия Р' < Рч , ' е 1Х (у) , ' Ф q .
Множество элементов S (q) отнести к классу Ц
и положить Рч = 0 .
4. Провести анализ каждого элемента из множества S (д) по аналогии с этапом 3. Пусть элемент Sr принадлежит множеству S (q). В соответствии с рекомендациями этапа 3 определим новые элементы класса Ц.
Значения соответствующих им частот Рг в массиве данных V обнуляются. Выбирается новый элемент Sr из массива S ^) и описанная процедура этапа 3 повторяется для всех его элементов.
Если на первом этапе к классу ^ отнесён элемент
Sq, то при реализации этапа 2 классу Ц будут отнесены элементы с номерами I (у). Анализ этих элементов в соответствии с используемым правилом этапа 3 позволяет определить множество номеров элементов дискретизации 11 {2}, которые будут отнесены
к классу Ц .
5. Следуя предложенной выше методике, осуществить анализ элементов дискретизации с номерами I {2}. Пусть элемент Sr е I {2} . Тогда, используя правило классификации типа (2) при ' е I \ ^) ( 11 {2}). Можно обнаружить множество элементов дискретизации пространства признаков с номерами 11 {3} , принадлежащих классу Ц .
6. Предложенный выше процесс автоматической классификации продолжается до тех пор, пока на его X -этапе множество I {X} будет определено как пус-
тое. В этом случае множество элементов дискретизации /1 = ^/1 (q)[_J /1 {e}| образует первый класс Ц .
7. Исключить элементы с номерами /1 из массива данных V . Обозначим полученные данные через Vj.
8. Обнаружить множество элементов дискретизации принадлежащих второму классу Q2. Для этого в соответствии с этапами 1 - 6 провести анализ массива данных V2 = (x', P', i e / \ /1).
9. Процесс автоматической классификации про-
M
должается до тех пор, пока J /j = I.
j=j
Библиографические ссылки
1. Цыпкин Я. З. Основы теории обучающихся систем. М. : Наука, 1970. 251 с.
2. Васильев В. И., Эш С. Н. Особенности алгоритмов самообучения и кластеризации // Управляющие системы и машины. 2011. № 3. С. 3-9.
3. Лапко А. В., Лапко В. А., Хлопов А. Н. Непараметрический алгоритм автоматической классификации статистических данных // Изв. вузов. Приборостроение. 2011. Т. 54, № 4. С. 72-78.
4. Лапко А. В., Лапко В. А. Регрессионная оценка многомерной плотности вероятности и её свойства // Автометрия. 2014. Т. 50, № 2. С. 50-56.
5. Лапко А. В., Лапко В. А. Выбор оптимального количества интервалов дискретизации области значений двухмерной случайной величины // Измерительная техника. 2016. № 2. С. 14-17.
References
1. Tsypkin Ya. Z. Osnovy teorii obuchayushhikhsya sistem [Fundamentals of the theory of learning systems]. Moscow, Nauka Publ., 1970. 251 p.
2. Vasil'ev V. I., Ehsh S. N. [Features of self-learning and clustering algorithms]. Upravlyayushhie sistemy i mashiny. 2011. No. 3. P. 3-9. (In Russ.)
3. Lapko A. V., Lapko V. A., Khlopov А. N. [Non-parametric algorithm of automatic classification of statistical data]. /zvestiya vuzov. Priborostroenie [Journal of Instrument Engineering]. 2011. Vol. 54, No. 4. P. 73-79. (In Russ.)
4. Lapko A. V., Lapko V. A. Regression estimate of the multidimensional probability density and its properties. Optoelectronics, Instrumentation and Data Processing, 2014. Vol. 50, No. 2. P. 148-153.
5. Lapko A. V., Lapko V. A. Selection of the optimal number of intervals sampling the region of values of a two-dimensional random variable. Measurement Techniques. 2016. Vol. 59, No. 2. P. 122-126.
© Лапко А. В., Лапко В. А., 2018