Группировка признаков без построения факторов групп

Двоенко Сергей Данилович; Пшеничный Денис Олегович; Хандельянц Филипп Александрович

Key words: Hand detection, One-class classification, Pixel classifier, Support Vector Data Description (SVDD), Structure transferring filter, Skeleton comparison.

Kopylov Andrej Valerievich, candidate of technical sciences, docent, and. kopylov@gmail. com, Russia, Tula, Tula State University,

Seredin Oleg Sergeevich, candidate of mathematical sciences, docent, osere-dinayandex. ru, Russia, Tula, Tula State University,

Kushnir Olesja Aleksandrovna, assistant, kushnir-olesya@,rambler. ru, Russia, Tula, Tula State University,

Gracheva Inessa Aleksandrovna, postgraduate, gial509a mail. ru, Russia, Tula, Tula State University,

Larin Aleksandr Olegovich, ekzeboxagmail. com, Russia, Tula, Tula State University

УДК 004.93

ГРУППИРОВКА ПРИЗНАКОВ БЕЗ ПОСТРОЕНИЯ ФАКТОРОВ ГРУПП

С.Д. Двоенко, Д.О. Пшеничный, Ф.А. Хандельянц

В задачах группировки существует проблема интерпретации факторов групп, так как они являются синтетическими признаками. Обычно определяется представитель группы как признак, наиболее коррелирующий с ее фактором. Тогда разбиение на группы интерпретируется прямо в терминах исходных признаков. Предложен новый подход для выбора признаков, адекватно представляющих факторы групп без их непосредственного вычисления. Данный подход основан на построении оптимальной последовательности главных миноров корреляционной матрицы признаков. Показано, что предложенный подход позволяет формировать как начальное решение для других алгоритмов группировки, так и может применяться самостоятельно для оценки числа групп и построения содержательных группировок.

Ключевые слова: группировка, кластер, метрика, корреляция, собственное число, собственный вектор, минор.

Введение. В интеллектуальном анализе данных предполагается, что экспериментальные сведения об изучаемом явлении представлены как результаты измерений в виде матрицы данных X(N, n), где N - число измерений, n - число измеряемых характеристик. Каждое измерение характеристик изучаемого явления рассматривается как объект w е W, который процессом измерения помещен в n - мерное признаковое пространство и представлен в нем вектором-строкой Xi = (xzl,... Xin), i = 1,... N . Матрица

T

данных представляет собой множество из N строк X(N, n) = (xi,... xn) , расположенных друг под другом.

Согласно гипотезе компактности предполагается, что объекты образуют к локальных сгущений (классы, кластеры, таксоны), которые следует выделить (отделить друг от друга), т.к. они предположительно характеризуют различные состояния изучаемого явления.

С другой стороны, совокупность измерений одной характеристики образует вариационный ряд, т.е. признак, представленный наблюдениями

X] = (Х1 ],.. ХЩ ). Тогда матрица данных представляет собой множество

из п вариационных рядов-столбцов X(N, п) = (Х^,...Хп).

Согласно гипотезе скрытых факторов считается, что их поведение определяет соответствующие «глубинные» свойства объекта исследования, которые проявляются через измеренные признаки как его реакции на внешние воздействия. Факторы проявляются через измеряемые признаки и различным образом влияют на эти признаки. Зависимость признаков от некоторого фактора определяет похожесть их поведения, т.е. похожесть изменений значений соответствующих вариационных рядов. Предполагается, что существует Ь таких факторов , которым должны соответствовать группы признаков О^, г = 1,... Ь .

Очевидно, что объективная закономерность, скрыто присутствующая в изучаемом явлении, обязательно проявится в результатах обработки различными методами и алгоритмами, основанными на различных предположениях о нем. Таким образом, необходимо расширять разнообразие интеллектуальных методов обработки данных. Актуальность новых подходов вполне очевидна, особенно в связи с накоплением больших объемов экспериментальных данных и развитием методов обработки данных, представленных парными сравнениями.

1. Задача группировки признаков. Задача группировки признаков имеет самостоятельное значение и может решаться разными способами.

Относительно факторов делается важное предположение, что, в идеале, они независимы. Статистический смысл независимости факторов означает, что соответствующие вариационные ряды наблюдений, будучи построенными, окажутся некоррелированными. Это означает, что такие

т

скрытые признаки можно представить наблюдениями = (/ц,... /N1) , г = 1,... Ь, которые формируют систему ортогональных векторов.

Если сначала определяются факторы, то потом определяются признаки, подверженные их влиянию в наибольшей степени (задача факторного анализа и проблема вращения для определения факторных нагрузок и получения т.н. «простой» факторной структуры). Проблема заключается в том, что ортогональное вращение факторов не совсем адекватно решает проблему получения простой структуры. Поэтому приходится применять косоугольное вращение, что усложняет модель факторного анализа, т.к. факторы уже не являются независимыми [1, 2].

Если сначала выделять группы сильно коррелирующих признаков, где признаки из разных групп почти не коррелируют, то потом можно построить представляющие эти группы факторы. При таком решении, в частности, проблема простой факторной структуры для косоугольной системы факторов решается автоматически, хотя сами факторы несколько отличаются от классических. В этом случае решается, например, известная задача экстремальной группировки [3]. Следует отметить, что данная задача решается также и для центроидных направлений.

В обоих вариантах задачи группировки возникает проблема содержательной интерпретации полученных факторов или соответствующих групп признаков. Фактор группы, все-таки, является синтетическим признаком, интерпретация которого может быть затруднена. Поэтому часто применяется следующий прием.

После выделения групп признаков и построения соответствующих им факторов в каждой группе определяется т.н. «представитель» группы, как наиболее сильно коррелирующий с фактором группы признак. Далее рассматривается только множество таких признаков-представителей.

В этом случае задача группировки также решает и другую известную задачу сокращения размерности признакового пространства. Эта задача также имеет самостоятельное значение. В данном случае получается сокращенное и содержательно интерпретируемое признаковое пространство. Важное свойство такого подпространства очевидно: эти реальные признаки коррелируют между собой в наименьшей степени и лучше всего могут представить скрытые факторы. Совсем упрощая, их даже часто рассматривают как факторы. При таком подходе все преобразования, выполняемые в соответствии с факторной моделью, являются промежуточными, т.к. в итоге выбираются некоторые исходные признаки.

Здесь предлагается подход, который позволит выбрать подмножество исходных признаков, обладающих аналогичными свойствами, не требуя построения собственных или центроидных направлений в качестве промежуточного этапа преобразований.

2. Метрические нарушения конфигураций элементов. Задача группировки (выделения факторов) решается для матрицы взвешенных скалярных произведений признаков X], ] = 1,... п, т.е. для матрицы Я(п, п)

корреляций вариационных рядов наблюдений. Для определения свойств факторов сами наблюдения X(N, п) уже не нужны. Поэтому в факторном анализе оценка значений факторов как восстановленных наблюдений является отдельной и дополнительной задачей.

Это замечание особенно актуально в связи с развитием современных подходов, опирающихся на данные об объектах исследования, представленных только в виде парных сравнений. В этом случае предполагается, что реальные признаки существуют, но для измерения уже недоступны.

42

Считается, что от измеренных признаков остались лишь матрица расстояний В( N, N) или скалярных произведений С (N, N) между объектами и матрица корреляций Я(п, п) между признаками.

Развитие этих методов показывает, что нужно обеспечить вложенность экспериментальных наблюдений в соответствующее метрическое (евклидово) пространство признаков и применить модификации алгоритмов кластер-анализа и группировки, не требующих матрицы данных X .

Проблема метричности конфигурации элементов известна и рассматривается, например, в задаче шкалирования [4]. Ее конечной целью является восстановление хорошо интерпретируемых признаков в явном виде, как представленных соответствующими измерениями. Если этого не требуется, то задачи кластеризации и группировки можно решить и без непосредственного восстановления собственно значений признаков.

В частности, такой подход позволяет для решения задач кластеризации и группировки применять одни и те же алгоритмы, рассматривая объекты или признаки просто как элементы множества, погруженные в соответствующее метрическое пространство [5].

Если элементами множества являются признаки, то, исходя из смысла похожести вариационных рядов, рассматривают модули или квадраты коэффициентов корреляций в матрице Я(п, п). Если изначально рассматривается некоторая функция парных сравнений, имеющая смысл близости > 0; I,] = 1,... п, то ее рассматривают как положительные вариации

(корреляции, если они нормированы).

На практике часто в полученных конфигурациях элементов имеются метрические нарушения. Причины этого различны. Поэтому одной из актуальных задач современного анализа данных является восстановление метричности данных. Именно в этом случае применение упомянутых выше алгоритмов является математически корректным.

Известно, что нарушения метричности конфигураций приводят к появлению отрицательных собственных чисел в матрице скалярных произведений между элементами множества. В случае множества признаков это относится к матрице корреляций Я(п, п). Если ее собственные числа упорядочить по убыванию Л-1 >... >1п, то можно считать, что пространства размерностей, соответствующих отрицательным собственным числам не существуют в том смысле, что в них для наблюдений не выполняется, например, теорема Пифагора, или, в общем случае, теорема о косинусах, могут быть нарушены неравенства треугольника и т.д.

Тогда результаты обработки, вообще говоря, следует признать недостаточно корректными, где уровень некорректности определяется математической некорректностью результата.

Известно, что дисперсия данных - это размерность п пространства признаков. Для устранения в R(п, п) отрицательных собственных чисел

обычно применяют известное дискретное разложение Карунена-Лоэва. Из всех элементов матрицы R(n, п) «послойно» исключают вклады собственных векторов (направлений), соответствующих отрицательным собственным числам (в этом случае также будем говорить, что это - «вклады» собственных чисел).

В факторном анализе матрица т.н. «остаточных» корреляций Rq (п, п) определяется после послойного устранения вкладов первых д

собственных векторов, соответствующих собственным числам, упорядоченным по убыванию. Естественно, что ёй Rq (п, п) = 0.

Здесь удобно применить этот термин к результату устранения вкладов д отрицательных собственных чисел, которые оказываются последними в упорядочении. У такой матрицы остаточных корреляций Rq_(п, п)

также ёй Rq_ (п, п) = 0 . После устранения вкладов д отрицательных собственных чисел матрица остатков Rд _ (п, п) становится ненормированной (и более того, некорректной), где Гц > 1, I = 1,... п. Но тогда, строго говоря, в

п

данных «ниоткуда» появляется добавочная дисперсия, т.к. ^ Гц > п . Фор-

I=1

мально из Rд _ (п, п) можно получить корректную корреляционную матрицу с единичной главной диагональю, просто пронормировав ее.

Очевидно, что нормировка уничтожает сведения о доле внесенной дисперсии. Поэтому в общем случае появление новой дисперсии в данных после нормировок матрицы корреляций невозможно проконтролировать. Это нежелательно, когда решается задача группировки признаков.

По-видимому, эта проблема не столь принципиальна при наличии признакового пространства, т.е. матрицы данных X(N, п). В этом случае можно построить матрицу т.н. «вычисленных признаков» У(N, т), где т = п _д < п и 1 >... >1 т > 0, как проекций векторов-объектов из X на т первых собственных направлений. В пространстве вычисленных признаков наблюдения-строки у| = (уц,... У1т) образуют метрическую конфигурацию, что позволяет корректно решать задачи группировки, кластеризации, визуализации и т.д.

С другой стороны, в линейной факторной модели существуют известная проблема определения общностей (вкладов общих факторов в дисперсию данных). Например, в методе главных факторов после редукции R(n, п) с целью устранения дисперсий характерных факторов редуцированная матрица Я(п, п) оказывается ненормированной, т.к. Гц < 1, I = 1,...п

из-за уменьшенных значений ее диагональных элементов. Это - известная в факторном анализе проблема определения общностей, теоретического решения которой не предлагалось. Есть лишь эмпирические рекомендации по оценке величины общностей.

Отметим, что эмпирические рекомендации часто приводят к появлению отрицательных собственных чисел в редуцированной матрице Я (п, п), т.е. к метрическим нарушениям конфигурации множества.

Чтобы избежать этого, при построении главных факторов приходится лишь «слегка» редуцировать диагональные элементы корреляционной матрицы, обычно в значительно меньшей степени, чем по эмпирическим рекомендациям. Вообще-то, это означает, что доля дисперсии в данных, объясняемая общими факторами, очень высока. Как в этом случае интерпретировать соотношения общностей и характерностей с точки зрения факторной модели - это другая проблема.

Следует отметить, что проблема общностей возникает и для цен-троидных факторов. Центроидные направления отличаются от собственных направлений, но эмпирический принцип выбора общностей также приводит к появлению отрицательных собственных чисел, т.е. к нарушению метричности конфигурации элементов множества.

3. Оптимальная последовательность признаков. В отличие от процедуры Карунена-Лоэва авторами был предложен другой метод так называемой «индивидуальной» корректировки лишь некоторых (или всех) парных сравнений некоторых элементов множества с остальными элементами для восстановления нарушенной метрической конфигурации, при котором сохраняется дисперсия данных [6, 7].

В данном методе наличие собственных чисел в матрице £(п, п) взвешенных скалярных произведений, где ¿ц = 1,1 = 1,... п, связывается не с

послойным ее разложением на вклады соответствующих собственных векторов (чисел), а с индивидуальными вкладами самих элементов множества. В качестве такой матрицы можно взять, например, матрицу Я(п, п) корреляций, модулей или квадратов корреляций признаков.

Пусть дана симметричная нормированная матрица £(п, п). Согласно критерию Сильвестра, матрица £(п, п) квадратичной формы положительно определена, если все ее главные миноры £к = £ (к, к), к = 1,... п положительны ёе £к > 0, где £1 = £ (1,1) = ¿ц = 1. Согласно следствию из закона инерции Сильвестра число д отрицательных собственных чисел совпадает с числом смен знаков детерминантов в последовательности £о = 1, £1, £2,... £п = £ (п, п). Легко увидеть, что значения главных миноров (их детерминанты) в нормированной £ убывают, начиная с единицы. При

наличии отрицательных собственных чисел последовательность главных миноров оказывается знакопеременной, где значения главных миноров постепенно уменьшаются по модулю.

Известно, что одновременная перестановка двух строк и двух соответствующих столбцов в S не изменяет ее собственных чисел. Такая перестановка соответствует перестановке двух элементов множества.

Определим такой порядок элементов множества, чтобы смены знаков значений главных миноров в последовательности Sk, k = 1,...n происходили в ее конце. Если матрица S(n, n) ранга n имеет q отрицательных собственных чисел, то тогда в идеальном случае главный минор Sn _q+ впервые окажется отрицательным det Sn_q + < 0, а знаки последующих

q _ 1 миноров будут чередоваться.

Естественно считать, что именно в этот момент к = n _ q +1 очередной элемент множества щ, представленный своими парными сравнениями Ski = sík, i = 1, .. n с остальными, внес метрическое нарушение в уже построенную конфигурацию. Нарушение можно устранить одним из предложенных нами ранее способов коррекции его парных сравнений, получив положительное значение текущего главного минора Sk [6,7].

Следующий минор Sk+1 снова окажется отрицательным и потребует исправления. Всего потребуется скорректировать парные сравнения для q элементов множества. В этом смысле отрицательные собственные числа оказываются связанными с конкретными элементами множества или, другими словами, оказываются «локализованными» в матрице парных сравнений.

Рассмотрим процедуру, которая позволит получить оптимальную последовательность элементов множества. Известно, что определитель матрицы S(n, n) равен произведению ее собственных чисел. Если он отрицателен, то количество собственных чисел нечетно, если положителен, то -четно.

Рассмотрим главные миноры Sk, к = n,...1 в обратном порядке. Определим в матрице Sk такую строку и столбец i, что значение дополнительного минора (Sk )i, 1 £ i £ к, образованного при их удалении, сменит знак по сравнению с Sk и окажется максимальным по модулю. Если знак не изменяется, то просто найдем такой дополнительный минор без смены знака. Пусть u - общее число таких шагов без смены знака дополнительного минора до локализации всех q смен знаков главных миноров.

Последовательность поочередно отброшенных строк и столбцов формирует оптимальную последовательность главных миноров Sk, k = 1,...n (и элементов множества, последовательно формирующих те-

кущие миноры), в которой впервые отрицательный минор встретится не ранее, чем в момент п _ д _ и +1. Это означает, что полученная перестановка формирует такую матрицу £(п, п), у которой придется корректировать парные сравнения не более, чем у д + и последних элементов множества в оптимальной последовательности. В общем случае при неоптимальной последовательности элементов приходится корректировать значительно большее число элементов множества, т.к. каждая очередная коррекция обычно порождает шлейф дополнительных коррекций.

Легко увидеть, что при отсутствии метрических нарушений будет получена локально оптимальная последовательность главных миноров ^, к = 1,... п, где их значения, оставаясь неотрицательными, убывают наиболее медленно (почти).

Рассмотрим матрицу корреляций К(п, п). Можно заметить, что значение ёе! К зависит от степени «ортогональности» конфигурации системы признаков: чем «ортогональнее» система признаков, тем ближе значение детерминанта к единице, и - к нулю в противном случае. Для п = 2 это

очевидно, т.к. ёе! К = 1 _ г . Для п = 3 в этом нетрудно убедиться, т.к.

2 2 2

ёе! К = 1 + 2Г12Г13Г23 _ г^ _ Г13 _ Г23, рассмотрев возможные значения парных коэффициентов корреляций, которые соответствуют конфигурациям без метрических нарушений, и т.д. С увеличением размерности п это эмпирическое свойство преимущественно сохраняется в целом, но, естественно, появляются возможности для взаимной компенсации достаточно высоких корреляций в усложняющихся формулах вычислениях детерминантов, тем более, для корреляций со знаками.

В этих условиях оказывается, что для метрически корректной матрицы К(п, п) оптимальная последовательность главных миноров 8к, к = 1,... п, где = 1 и 8п = Я(п, п), определяет локально оптимальную последовательность вложенных подмножеств «наиболее ортогональных» признаков. В начале такой оптимальной последовательности расположены «наиболее ортогональные» друг к другу и к остальным признаки, а к концу последовательности выстраиваются все «менее ортогональные» к остальным признаки, выбранные в последнюю очередь.

Корреляционная матрица К(п, п) имеет статистический смысл, поэтому будем говорить об оптимальной последовательности наименее коррелированных вложенных подмножеств признаков. Отсюда легко увидеть, что первые т признаков в оптимальной последовательности должны образовать наименее коррелирующее подмножество из всех п признаков, которое содержательно удобно интерпретировать как множество представителей т групп признаков.

Таким образом, процедура построения локально-оптимальной последовательности признаков позволяет решить задачу группировки на т групп (редукции размерности) без построения собственных направлений (для квадратов корреляций) или без построения центроидных направлений (для модулей корреляций).

4. Начальные разбиения в алгоритмах группировки. Ранее было показано, что алгоритм экстремальной группировки на модулях коэффициентов корреляций («модуль») эквивалентен алгоритму А-средних, который представлен в модифицированной форме для обработки близостей [5]. Такая модификация эквивалента классическому алгоритму А-средних для матрицы данных X в том смысле, что «внезапное» погружение элементов множества в пространство признаков не изменит результат разбиения. Алгоритм «модуль» строит центроидные факторы в задаче экстремальной группировки признаков.

Алгоритм экстремальной группировки на квадратах коэффициентов корреляций («квадрат») строит первые главные компоненты для каждой группы сильно коррелирующих признаков. Тем самым решается задача факторного анализа как задача построения главных компонент или главных факторов для, соответственно, нередуцированной Я(п, п) или редуцированной Я(п, п) матриц корреляций.

Как и все процедуры кластер-анализа и группировки, процедура построения оптимальной последовательности также является локальной. Эксперименты показывают, что локальность процедуры построения оптимальной последовательности того же свойства, что и у процедур кластер-анализа и группировки. В частности, ожидаемым свойством оптимальной последовательности признаков обычно является устойчивое выделение от двух до пяти наименее (почти) коррелирующих признаков.

Таким образом, в силу локальности свойств процедур экстремальной группировки процедура построения оптимальной последовательности имеет самостоятельное значение в задаче группировки признаков.

Известно, что в процедурах с локальными свойствами важной проблемой является поиск начального решения (разбиения). Например, в задаче экстремальной группировки считается, что центроидные решения являются хорошим началом для группировок по собственным направлениям.

Поэтому оптимальная последовательность признаков рассматривается как другой способ получения начального решения для алгоритмов экстремальной группировки, которое для заданной матрицы Я(п, п) является единственным. Это свойство представляется наиболее интересным.

5. Программа экспериментов. Пусть число групп признаков Ь за-

ь

ранее задано О^, I = 1,... Ь, где | О^ | = п, ^ п = п, г(Xj, ^)- корреляция

г=1

Т Т

фактора ¥ = (/ц,... ) с признаком Х- = (х-,... хщ-) . Для количественной оценки качества группировок рассмотрим известные критерии 1д

для алгоритма «квадрат» и для алгоритма «модуль»:

1 2

1д = II г2(Xj,¥),

I=1 jeGi Ь

1м = II |г(Х-,¥)|. i=1

Алгоритмы экстремальной группировки имеют следующий общий

вид:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Начальный шаг. Для Ь групп указать какое-либо разбиение.

Шаг к.

1. В каждой группе Gi, образующей подматрицу Я(щ, щ), i = 1,... Ь

построить фактор ¥i = (/ц,... /ш)Т как главный или центроидный факторы, или как первую главную компоненту.

2. Просмотреть все признаки и перенести каждый из них в ту группу, с фактором которой он коррелирует сильнее всего: Х- & Gp, если

Х-, ¥р) > Х-, ¥i), i = 1,... Ь . Здесь близость Х-, ¥р) представлена

как s(Xj, ¥р) = | г(Х-, ¥г) | или s(X-, ¥р) = г2(Х-, ¥г).

3. Перейти к шагу к = к +1, если группы изменились, иначе стоп.

В данной работе программа экспериментов была направлена на исследование свойств оптимальной последовательности признаков, представляющей как начальное решение для алгоритмов экстремальной группировки, так и применяемой самостоятельно.

Рассматривались следующие начальные решения: первые Ь признаков в оптимальной последовательности, Ь минимально коррелирующих признаков как явная классическая альтернатива им, просто первые Ь признаков, случайно отобранные Ь признаков. Эти начальные решения порождали начальные разбиения для алгоритмов «квадрат» и «модуль» в смысле критериев 1д и 1м. Очевидно, что первые два начальных решения

являются хорошими (оптимальными), вторые два - нет. Эксперименты это подтвердили, поэтому далее представлены результаты только для оптимальных начальных решений.

Определение числа кластеров К является хорошо известной проблемой кластер-анализа. Одним из эвристических приемов для его выбора является определение границы, начиная с которой, убывание критерия кластеризации до нуля (средневзвешенная дисперсия кластеров) при изменении К = 1,... N резко замедляется, где N - число объектов.

В задаче группировки при изменении числа групп L = 1,... n критерии группировки Iq и Im возрастают до n, где n - число признаков.

В этом случае также рассматривают границу, начиная с которой, возрастание этих критериев резко замедляется.

В оптимальной последовательности главных миноров Sk, k = 1,... n, их значения, оставаясь неотрицательными (если потребовалось, то после коррекции), убывают наиболее медленно. В этом случае график изменения их значений приобретает характерный вид, когда значения на центральном участке графика резко падают. В этом случае аналогичное эвристическое предположение о числе групп признаков предполагает рассмотрение области резкого падения значений главных миноров.

Предполагается, что при оптимальном числе групп получаются хорошо содержательно интерпретируемые факторы, характеризующие их.

6. Группировка экономических показателей. Массив представляет собой данные Организации экономического сотрудничества и развития (Organization for Economic Cooperation and development, OECD) [8] из сводного отчета за 2013 г. (Fastbook Country Statistical Profiles - 2013 edition) по 13 экономическим показателям 13 стран мира: Австралия, Франция, Германия, Италия, Япония, Корея, Мексика, Турция, США, Китай, Индонезия, Россия, ЮАР.

Представлены следующие показатели.

1. ВВП на душу населения (долл.).

2. Рост реального ВВП (%).

3. Прибыль, полученная в сельском хозяйстве, охоте и лесном хозяйстве, рыбалке (%).

4. Прибыль, полученная в промышленности, включая энергетические отрасли (%).

5. Прибыль, полученная в оптовых и розничных продажах, отелях, ресторанах, ремонте, транспорте (%).

6. Прибыль, полученная в финансовом посредничестве, недвижимости, арендных и деловых услугах (%).

7. Реальная прибыль, полученная в сельском хозяйстве, охоте и лесном хозяйстве, рыбалке (%).

8. Реальная прибыль, полученная в промышленности, включая энергетические отрасли (%).

9. Реальная прибыль, полученная в оптовых и розничных продажах, отелях, ресторанах, ремонте, транспорте (%).

10. Реальная прибыль, полученная в финансовом посредничестве, недвижимости, арендных и деловых услугах (%).

11. Общее потребление энергии (ТВт-ч).

12. Электричество, производимое ядерной энергетикой (ТВт-ч).

50

13. Доля электричества, производимого ядерной энергетикой, от общего объема (%).

Значения показателей прибыли в различных сферах активности представлены как с учетом общего уровня цен (реальная прибыль) в результате процессов инфляции-дефляции, так и без учета общего уровня цен (прибыль). Другие показатели связаны с уровнем ВВП и потреблением энергии. Статистические связи между уровнем ВВП, прибылью и энергетическими затратами представлены корреляционной матрицей Д(13,13).

Как сказано выше, по значениям главных миноров для экономических показателей можно предположить, что число групп составляет 4 - 5.

Оптимальная последовательность признаков, построенная по матрице квадратов корреляций экономических показателей, имеет вид [8,5,13,9,11,4,7,12,3,1,10,6,2].

Оптимальная последовательность признаков, построенная по матрице модулей корреляций экономических показателей, имеет вид [10,8,5,13,12,4,11,9,2,7,3,6,1].

Результаты группировок показаны в табл. 1 и 2. Для каждого числа групп показаны начальные решения как представители, выбранные по разным принципам (минимально коррелирующие признаки и первые признаки из оптимальной последовательности). Также показаны результирующие группы и их представители.

Изменение хотя бы одного начального представителя после перегруппировки означает, что начальное разбиение было улучшено. Если представители не изменились, то начальное разбиение не улучшилось. Номера представителей выделены жирным шрифтом.

Рассмотрим табл. 1. Для разбиения на три группы признаков результат по критерию 1д неудовлетворителен. А именно, для начального

разбиения по минимальным корреляциям признаки 2 и 8 после перегруппировки попали в разные группы.

В то же время для начального разбиения по оптимальной последовательности эти два признака после перегруппировки оказались вместе в одной отдельной группе. Такая же ситуация сохраняется и для четырех групп признаков (в таблице не показана).

Но для пяти групп признаков результаты двух группировок практически одинаковы.

А именно, представители разных групп для обоих вариантов начального разбиения обязательно входят в состав разных групп и после перегруппировки. В частности, признаки 2 и 8 также входят в составы разных групп в обеих группировках.

В обоих случаях начальные группировки были улучшены, причем начальные представители остались в своих группах, даже если для них после перегруппировки были выбраны новые представители. Сами результирующие группировки минимально отличаются друг от друга признаком 12.

Такой результат хорошо соответствует ранее сделанному формальному предположению о пяти группах экономических показателей. Состав полученных групп позволяет содержательно интерпретировать их следующим образом (в порядке перечисления в табл. 1 показаны признаки, присутствующие в составе соответствующих групп одновременно в обоих разбиениях):

1) прибыль в промышленности с учетом энергозатрат (8);

2) прибыль в торговых и транспортных услугах (5);

3) прибыль в производстве натуральной продукции с учетом энергозатрат (7, 13);

4) ВВП и прибыль во всех сферах активности (1, 2, 3, 4, 6, 9, 10);

5) Общее потребление энергии (11).

Рассмотрим табл. 2. Для разбиения на три группы по критерию ¡м результаты похожи в том смысле, что все представители разных групп находятся в разных группах до и после перегруппировки. Для разбиения на четыре группы результат неудовлетворителен, т.к. в одной группировке признаки 5 и 11 представляют разные группы, а в другой группировке признаки 5 и 11 располагаются вместе и образуют отдельную группу.

Для пяти групп признаков разбиения полностью совпадают, где признак 12 находится в одной группе вместе с признаком 11. Таким образом, и в этом варианте подтвердилась ранее предложенная интерпретация групп признаков (порядок перечисления групп соответствует табл. 1).

Рассмотрим качество группировок. В табл. 3 показано, что для пяти групп начальное разбиение, полученное по оптимальной последовательности признаков, лучше, чем по минимальным корреляциям.

Этот результат имеет самостоятельное значение, если экстремальная группировка по критерию «квадрат» не применяется.

В табл. 4 также показано, что для 4-й и 5-й групп экстремальная группировка по критерию «модуль» не улучшила начальное разбиение. В этом случае разбиение, полученное по оптимальной последовательности признаков, также имеет самостоятельное значение, т.к. сразу формирует окончательную группировку. Отметим, что в данном случае оптимальная последовательность формирует множество признаков, наиболее адекватно соответствующих предположению о наименьшей коррелиро-ванности.

Таблица 1

Группировки экономических показателей по критерию ¡д

Число групп Мин. корр. Представители Группы Опт. послед. Представители Группы

3 7 7 7 8 13 8 2 2 8

11 11 5 11 12 5 5 5 11

6 10 1 2 3 4 6 9 10 13 3 1 3 4 6 7 9 10 12 13

5 8 8 8 8 8 8

5 5 5 5 5 5

7 7 7 13 13 13 7 12 13

6 10 1 2 3 4 6 9 9 10 1 2 3 4 6 9 10

11 11 10 11 12 11 11 11

Таблица 2

Группировки экономических показателей по критерию ¡м

Число Мин. Пред- Группы Опт. Представи- Группы

стави-

групп корр. тели послед. тели

3 6 10 1 2 3 4 6 9 10 10 1 1 2 3 4 6 9 10 12 13

7 7 7 8 13 8 7 7 8

11 11 5 11 12 5 5 5 11

4 6 10 1 2 3 4 6 9 10 10 10 1 2 3 4 6 9 10

7 7 7 8 13 8 8 8

5 5 5 5 5 5 11

11 11 11 12 13 13 7 12 13

5 6 10 1 2 3 4 6 9 10 10 10 1 2 3 4 6 9 10

8 8 8 8 8 8

5 5 5 5 5 5

7 7 7 13 13 7 7 13

11 11 11 12 12 11 11 12

Таблица 3

Качество группировок по критерию ¡д

Число групп Мин. кор реляции Опт. последовательность

Начальное разбиение Результат Начальное разбиение Результат

3 5,1537 7,1308 3,5312 6,4304

5 7,0055 8,8924 7,1196 8,8002

Таблица 4

Качество группировок по критерию ¡м

Число групп Мин. корреляции Опт. последовательность

Начальное разбиение Результат Начальное разбиение Результат

3 9,0739 9,0739 8,5066 8,8205

4 9,7296 9,7296 9,9426 9,9426

5 10,521 10,521 10,521 10,521

Заключение. При решении задачи группировки возникает проблема содержательной интерпретации полученных факторов и групп признаков. Признаки, объединяемые в группы, обычно поддаются содержательной совместной интерпретации. Но факторы групп является синтетическими признаками, интерпретация которых может быть затруднена.

После выделения групп и построения факторов часто в каждой группе определяется ее представитель, как наиболее сильно коррелирующий с фактором группы признак. Такие представители позволяют содержательно интерпретировать группировку в терминах исходных признаков.

При таком подходе все преобразования, выполняемые в соответствии с факторной моделью, являются промежуточными, т.к. в итоге выбираются представители из исходных признаков.

В данной работе предложен подход, позволяющий выбрать подмножество из исходных признаков, способных адекватно представить скрытые факторы, не требуя построения собственных и центроидных направлений в качестве промежуточного этапа преобразований. Данный подход основан на построении оптимальной последовательности признаков. В начале такой оптимальной последовательности расположены наименее коррелированные друг с другом и с остальными признаки, а к концу последовательности выстраиваются все более коррелированные с остальными признаки, выбранные в последнюю очередь.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Предложенный подход позволяет формировать начальное решение для других алгоритмов группировки и может применяться самостоятельно для оценки числа групп и построения содержательных группировок.

Список литературы

1. Harman H.H. Modern Factor Analysis. 3rd ed. University of Chicago Press. 1976. 508 p.

2. Lawley D.N., Maxwell A.E. Factor Analysis as a Statistical Method. 2nd ed. London: Butterworth. 1971. 117 p.

3. Lumelskii V.Ya. Parameter Grouping on the Basis of the Square Coupling Matrix // Automation and Remote Control. 1970. №1. P. 117 - 127.

54

4. Cox T.F., Cox M.A.A. Multidimensional Scaling. 2nd ed. Chapman and Hall/CRC. 2000. 328 p.

5. Двоенко С.Д. Кластеризация множества, описанного парными расстояниями и близостями между его элементами // Сибирский журнал индустриальной математики. 2009. Т.12. №1. С.61 - 73.

6. Двоенко С.Д., Пшеничный Д.О. Устранение метрических нарушений в матрицах парных сравнений // Известия Тульского государственного университета. Технические науки. Тула: Изд-во ТулГУ, 2013. Вып. 2. С.96 - 104.

7. Двоенко С.Д., Пшеничный Д.О. О локализации отрицательных собственных значений в матрицах парных сравнений // Известия Тульского государственного университета. Технические науки. Тула: Изд-во ТулГУ, 2013. Вып. 2. С. 94 - 102.

8. OECD Statistics - OECD, 2013-2014 [Электронный ресурс] URL: http://stats.oecd.org/ (дата обращения 31.08.2016).

Двоенко Сергей Данилович, д-р физ.-мат. наук, проф., dsdatsu.tula.ru, Россия, Тула, Тульский государственный университет,

Пшеничный Денис Олегович, асп., denispshenichnyayandex.com, Россия, Тула, Тульский государственный университет,

Хандельянц Филипп Александрович, студент, kratos679@gmail. com, Россия, Тула, Тульский государственный университет

FACTORLESSFEATURE GROUPING S.D. Dvoenko, D.O. Pshenichny, F.A. Khandeliants

There is a problem of group factors interpretation, since they appear to be synthetic features. Group representatives are usually defined as features most correlated with its group factors. Hence, groups are interpreted directly in terms of initial features. The new approach is proposed to specify features, which represent factors correctly without factors to be calculated themselves. This approach is based on the optimal sequence of correlation matrix minors. According to this approach, the initial partitioning for other algorithms can be defined. Also standalone results can be deliveredfor grouping andfor number of groups evaluating.

Key words: grouping, cluster, metrics, correlation, eigenvalue, eigenvector, minor.

Dvoenko Sergey Danilovich, doctor of physic-mathematical science, professor, dsd@,tsu. tula.ru, Russia, Tula, Tula State University,

Denis Olegovich Pshenichny, postgraduate, denispshenichnyayandex.com, Russia, Tula, Tula State University,

Filipp Aleksandrovich Khandeliants, student, [email protected], Russia, Tula, Tula State University

Группировка признаков без построения факторов групп Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Двоенко Сергей Данилович, Пшеничный Денис Олегович, Хандельянц Филипп Александрович

Похожие темы научных работ по математике , автор научной работы — Двоенко Сергей Данилович, Пшеничный Денис Олегович, Хандельянц Филипп Александрович

FACTORLESS FEATURE GROUPING

Текст научной работы на тему «Группировка признаков без построения факторов групп»