УДК 004.6
МНОЖЕСТВЕННЫЙ БИНАРНЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ БИНАРНЫХ ДАННЫХ
П. М. Винник1, М. В. Кобелев2, М. С. Краенков3
1 Балтийский государственный технический университет «ВОЕНМЕХ» им. Д. Ф. Устинова, Санкт-Петербург, Россия
2 3Пензенский государственный университет, Пенза, Россия
2 [email protected] 3 [email protected]
Аннотация. Рассматривается задача создания максимально быстрого и точного метода выявления принадлежности того или иного объекта конкретному типу на основе совокупности признаков, принимающих одно из двух значений - 0 или 1. Решение данной задачи непосредственно связано с вопросом обработки большого количества статистических данных, а также организации дальнейшего быстрого и простого доступа к результатам без повторного анализа. Представлен способ обработки данного типа входных данных.
Ключевые слова: дискриминантный анализ, бинарные данные, метод перебора, метод главных компонент, статистика
Для цитирования: Винник П. М., Кобелев М. В., Краенков М. С. Множественный бинарный дискриминантный анализ бинарных данных // Вестник Пензенского государственного университета. 2024. № 4. С. 27-30.
Введение
В настоящее время практически во всех сферах социально-экономических направлений приходится иметь дело с большим объемом данных, полученных в результате статистического наблюдения. Ввиду их объема (например, в [1] упомянут анализ 116 наблюдений, каждое из которых имело по 54 676 признаков) приходится каким-либо образом увеличить простоту их восприятия, доступа к ним, с целью понижения затрат ресурсов как человеческих, так и машинно-вычислительных.
Но практически невозможно сразу сказать, каким образом можно систематизировать исходные данные и быстро получать доступ к нужной информации, поэтому приходится разрабатывать различные алгоритмы обработки данных.
В данной статье рассмотрен множественный дискриминантный анализ такого набора входных данных, значение каждого из признаков которых является бинарным.
Постановка задачи
Пусть существует некоторая таблица, заданной размерности, столбцы которой указывают на признаки, а строки же - на конкретные наблюдения, в дальнейшем будем называть их образцами. Все образцы делятся на «типы», включающие в себя от одного до некоторого количества образцов.
© Винник П. М., Кобелев М. В., Краенков М. С., 2024
27
Задача состоит в быстром предсказании, к какому именно типу относится выбранный образец только на основе признаков, задающих его.
В отличие от стандартных задач дискриминации в этой задаче не ставится задача определения типа, к которому принадлежит новый, не входящий в совокупность образец.
С целью применения вычислительных методов изначальная таблица представляется в виде ^ I, а, а ^
матрицы А —
"41 "1н
а2,
V К
размерностью т х (п +1), где т - количество образцов, п - ко-
личество различных признаков, t/ - тип образца. В свою очередь, т образцов делятся на Ь типов, количество которых может варьироваться от Ь — 2 до Ь — т.
Метод главных компонент
В ходе решения задачи была предпринята попытка использования метода главных компонент (МГК) в одной из его вариаций [2, 3]. Для реализации использовался пакет MATLAB.
Суть метода заключается в понижении размерности входных данных с минимальной их потерей. С его помощью, действительно, получалось определить принадлежность образца типу. Но, во-первых, МГК базируется на весьма сложных вычислительных процедурах поиска собственных чисел и векторов матрицы крайне большой размерности, а, во-вторых, наличие достаточно большого количества типов и необходимость их полного разделения приводит к необходимости рассмотрения проекций множества многомерных точек на различные координатные плоскости, что малонаглядно. Ввиду указанных трудностей от этого метода пришлось отказаться и отдать предпочтение более универсальному методу, который помог бы в решении задачи и избежал недостатков метода главных компонент.
Можно предположить, что неудача с МГК обусловлена самим бинарным характером данных: сам МГК работает с количественными значениями признаков, следовательно, не учитывает их бинарный характер.
Множественный метод бинарной дискриминации бинарных данных
Идея метода состоит в том, что бинарность значений признаков позволяет по каждому образцу найти число Т, двоичным разложением которого является набор значений признаков данного образца. Например, строкой значений признаков образца является а/Ч,К,...,а.п. Тогда
Т — а/1 + 2а;.2 + К 2па/п . Если образцам разных типов соответствуют одинаковые числа, то эти
типы неразделимы. Полное разделение типов означает, что каждому типу соответствует свое число. Очевидно, в идеале нужно искать такой набор ¡1, К, ^ признаков, для которых получаемые по бинарному набору а^,..^; числа Т для всех типов различны, причем такой (оптимальный)
набор может содержать существенно меньше признаков, чем всего имеется в наличии. Суть метода заключается в снижении количества признаков до минимального, с помощью которого можно было бы однозначно определять принадлежность образца, путем отсеивания малозначимых или бесполезных для разделения признаков. Одним из возможных решений является перебор всевозможных наборов признаков и выделение из них наборов, разделяющих все типы (или большинство типов) и включающих в себя наименьшее возможное количество признаков.
Так как сложность алгоритмов перебора - 0(п!), время их реализации велико. Однако процедуру перебора нужно проводить лишь единожды для конкретного набора данных, а затем лишь
оперировать с признаками оптимального набора, что очень сильно упрощает работу с образцами в дальнейшем. В целях сокращения времени перебора было использовано несколько способов, с помощью которых удалось сократить время поиска решений. Для ускорения работы программы, реализующей указанный перебор наборов, было проведено ее распараллеливание [4]. Оно сократило время работы программы примерно в 20 раз. Введение побитовых сравнений [5] позволило еще более ускорить перебор.
В результате выполнения перебора получаем сокращение количества признаков до некоторого неизвестного заранее значения. Так как это минимально возможное необходимое количество данных, то работа алгоритма заканчивается на данном этапе.
Представление каждого типа в виде числа, получаемого из бинарных значений отобранных признаков, существенно упрощает работу с данными для пользователя и позволяет ее автоматизировать.
Практическое применение
Таблицы бинарных данных могут возникать в огромном количестве областей, где происходит работа с человеком. Дискриминантный анализ таких таблиц может быть применен в любой сфере с качественным характером данных: социология, экономика, медицина. Такой анализ позволяет снизить время поиска информации, а следовательно, и увеличить продуктивность работы. Еще одним немаловажным достоинством этого анализа является способность к прогнозированию исходов на основе меньшего количества признаков.
Заключение
Все статистические данные изначально получаются опытным путем, следовательно, ненулевой является вероятность ошибки при получении значения того или иного признака. Этот вопрос планируется изучить в дальнейшем с применением того же дискриминантного анализа. Также стоит вопрос в создании такого метода поиска оптимального набора, который сможет работать без полного перебора всех возможных наборов признаков. Планируется также оптимизировать распараллеливание программ, реализующих указанные методы.
Список литературы
1. Бартош М. С., Масич И. С. Прогнозирование событий на основе объектов с большим количеством признаков // Решетневские чтения : материалы XXVII Междунар. науч.-практ. конф., посвящ. памяти генерального конструктора ракетно-космических систем, академика М. Ф. Решетнева. Красноярск, 2023. С. 47-49.
2. Айвазян А. С., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. М. : Финансы и статистика, 1989. 609 с.
3. Эсбенсен К. Анализ многомерных данных. Избранные главы. Черноголовка: Изд-во ИПХФ РАН, 2005. 160 с.
4. Параллелизм в алгоритмах - выявление и рациональное его использование. Возможности компьютерного моделирования. URL: https://habr.com/ru
5. Степанов А. Н. Архитектура вычислительных систем и компьютерных сетей. СПб. : Питер, 2007.
509 с.
Информация об авторах
Винник Петр Михайлович, доктор технических наук, доцент, заведующий кафедры «Высшая математика», Балтийский государственный технический университет «ВОЕНМЕХ» им. Д. Ф. Устинова.
Кобелев Михаил Владимирович, студент, Пензенский государственный университет. Краенков Марк Станиславович, студент, Пензенский государственный университет.
Авторы заявляют об отсутствии конфликта интересов.