Научная статья на тему 'О локализации отрицательных собственных значений в матрицах парных сравнений'

О локализации отрицательных собственных значений в матрицах парных сравнений Текст научной статьи по специальности «Математика»

CC BY
395
66
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТРИКА / ДЕТЕРМИНАНТ / СКАЛЯРНОЕ ПРОИЗВЕДЕНИЕ / РАССТОЯНИЕ / БЛИЗОСТЬ / СХОДСТВО / РАЗЛИЧИЕ / СОБСТВЕННЫЕ ЧИСЛА / METRICS / DETERMINANT / SCALAR PRODUCT / DISTANCE / SIMILARITY EIGENVALUES

Аннотация научной статьи по математике, автор научной работы — Двоенко Сергей Данилович, Пшеничный Денис Олегович

В интеллектуальном анализе часто вместо результатов измерений исходных признаков на объектах данные сразу же представлены парными сравнениями объектов между собой. В отсутствие исходных признаков условием корректного погружения множества в метрическое пространство является неотрицательная определенность матрицы парных близостей его элементов друг к другу. В этом случае близости интерпретируются как скалярные произведения. Предложено корректировать нарушенную метрику путём минимальных изменений элементов матрицы парных сравнений с использованием оптимальной перестановки её строк и столбцов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON LOCALIZATION OF THE NEGATIVE EIGENVALUES FOR MATRICES OF PAIRWISE COMPARISONS

In data mining, the pairwise comparisons of objects are often used instead of initial features measuring. If initial features are not presented, the correct immersion of a set in some metric space is possible only for a nonnegatively definite matrix of pairwise similarities to each other of the set elements. In this case, similarities are scalar products. Here it is proposed to adjust the violated metrics by minimal corrections of the matrix elements based on the optimal permutation of rows and columns of the matrix.

Текст научной работы на тему «О локализации отрицательных собственных значений в матрицах парных сравнений»

2012. С. 95-101.

4. Ивутин А.Н., Дараган Е.И. Построение схемы распараллеливания последовательного алгоритма программы // ИзвестияТулГУ. Серия: Технические науки. Вып. 5. Тула: Изд. ТулГУ, 2012. С. 101-109.

5. Ивутин А.Н., Дараган Е.И. Автоматизированый анализ последовательного кода программы // Известия ТулГУ. Серия: Технические науки. Вып. 10. Тула: Изд. ТулГУ, 2012. С. 184-189.

6. Ивутин А.Н., Дараган Е.И. Построение схемы распараллеливания последовательного алгоритма программы // ИзвестияТулГУ. Серия: Технические науки. Вып. 5. Тула: Изд. ТулГУ, 2012. С. 101-109.

Дараган Евгений Игоревич, аспирант, evgenie. daragan@,mail. ru, Россия, Тула, Тульский государственный университет

THE SYSTEM PERFORMANCE ANALYSIS SOFTWARE E.I. Daragan

The features of the analysis of the performance of code programs. Described is a method implementation and evaluation of the cost of operations code for the abstract computing system.

Key words: program code, the cost of the operation.

Daragan Evgeniy Igorevich, postgraduate, evgenie. daragan@mail. ru, Russia, Tula, Tula State University

УДК 004.93

О ЛОКАЛИЗАЦИИ ОТРИЦАТЕЛЬНЫХ СОБСТВЕННЫХ ЗНАЧЕНИЙ В МАТРИЦАХ ПАРНЫХ СРАВНЕНИЙ

С.Д. Двоенко, Д.О. Пшеничный

В интеллектуальном анализе часто вместо результатов измерений исходных признаков на объектах данные сразу же представлены парными сравнениями объектов между собой. В отсутствие исходных признаков условием корректного погружения множества в метрическое пространство является неотрицательная определенность матрицы парных близостей его элементов друг к другу. В этом случае близости интерпретируются как скалярные произведения. Предложено корректировать нарушенную метрику путём минимальных изменений элементов матрицы парных сравнений с использованием оптимальной перестановки её строк и столбцов.

Ключевые слова: метрика, детерминант, скалярное произведение, расстояние, близость, сходство, различие, собственные числа.

Введение. Рассмотрим экспериментальные данные, представленные парными сравнениями элементов конечного множества между собой в виде квадратной матрицы. Если она положительно определена, то её определитель и все собственные значения положительны. Следовательно, суще-

94

ствует множество систем ортогональных координат с общим центром, которые можно получить друг из друга вращением их координатных осей.

В координатном пространстве элементы множества представлены как векторы, где близости между ними вычисляются как скалярные произведения векторов, а различия - как расстояния, обычно евклидовы. В этом случае, согласно известной теореме косинусов, расстояния могут быть пересчитаны в скалярные произведения и наоборот.

Если матрица парных сравнений положительно определена, то мы полагаем, что элементы множества погружены в неизвестное нам метрическое пространство, размерность которого не превышает ранга матрицы.

Обычно после того, как измерены парные близости, над ними производятся стандартные преобразования для получения симметричной нормированной матрицы с единичной главной диагональю. Например, такая матрица взвешенных скалярных произведений описывает экспериментальные данные в факторном или корреляционном анализе, когда элементами множества являются сами признаки.

После стандартных преобразований или даже изначально матрица парных сравнений может оказаться неположительно определённой и иметь отрицательные собственные значения. Поэтому в общем случае необходимо все-таки обеспечить последующее погружение элементов множества в соответствующее метрическое пространство.

Вообще говоря, становится очевидным, что такая задача должна решаться перед собственно анализом данных и, что более важно, вообще перед процессом измерения. Это - одна из современных проблем мультимодальной регистрации [1], например, в медицинских приложениях [2].

Пусть неположительно определённая матрица парных близостей получена обычным способом. Ее можно привести к положительной определённости путём декомпозиции в соответствии с её собственными значениями и последующим удалением из матрицы вкладов отрицательных собственных значений [3].

Это хорошо известный подход, основанный на процедуре дискретного разложения Карунена-Лоэва [4, 5], который обычно применяется для сокращения размерности пространства исходных признаков путем устранения, например, наименьших собственных значений, включая и отрицательные, если они имеются.

Необходимо отметить, что решение задачи Карунена-Лоэва для исходных признаков позволяет поместить объекты в ортогональное пространство только синтетических признаков, образованное соответствующими собственными векторами. Если же имеется только матрица взвешенных скалярных произведений (корреляций), то при том же размере ее ранг понижается, т.к. удаленные собственные значения теперь оказываются в ней нулевыми. Если же элементами множества являются объекты, то нулевой детерминант матрицы их парных сравнений не позволит матема-

тически корректно применить специально разработанные «беспризнако-вые» алгоритмы распознавания и кластерного анализа [6, 7].

Также следует отметить, что в задаче Карунена-Лоэва мы не можем контролировать масштаб корректировки данных, так как все определяется величиной собственных значений.

Таким образом, для имеющейся неположительно определённой матрицы парных сравнений требуется минимальным образом изменить её некоторые элементы так, чтобы она стала положительно определённой, а метрика была восстановлена. В этом случае ранг матрицы парных сравнений не понижается и соответствует ее размеру.

Задача коррекции. Пусть задана нормированная и симметричная матрица £(п, п) парных сравнений элементов множества между собой. На её диагонали стоят единицы, все недиагональные величины симметричны и по модулю меньше единицы. Пусть матрица £ является матрицей некоторой квадратичной формы.

Для определения, является ли она положительно определённой, применяется критерий Сильвестра: матрица квадратичной формы положительно определена тогда и только тогда, когда все её главные миноры положительны [8].

Согласно следствию из закона инерции Сильвестра число отрицательных собственных значений V в матрице £ в точности соответствует числу перемен знака в последовательности главных миноров матрицы £: £1 = 1, £2,..., £п = £ (п, п). Данная последовательность получается при просмотре элементов множества в некотором порядке и формировании на каждом шаге к очередного минора £к для уже просмотренных элементов.

Можно показать, что одновременная перестановка двух строк и двух соответствующих столбцов не меняет собственных значений матрицы £ . Очевидно, что такая перестановка строк и столбцов соответствует перестановке двух элементов множества.

Ранее было показано [9], что значения главных миноров матрицы £ уменьшаются, начиная с единицы, и в некоторый момент минор £к = £ (к, к) может оказаться отрицательным. Естественно предположить, что именно очередной к -й элемент исходного множества внес метрические искажения. Используя метод коррекции матрицы, описанный в [9], следует скорректировать данный главный минор за счет коррекций парных сравнений к -го элемента множества с предыдущими к — 1 элементами.

Тем не менее, оказывается, что при таком подходе часто требуется дополнительно скорректировать и некоторое число главных миноров, непосредственно следующих за минором £к. Число таких дополнительных корректировок на интервале от £к до £п может оказаться значительным.

Следовательно, возникает необходимость в поиске оптимальной перестановки элементов множества с целью формирования последователь-

96

ности миноров с минимальным числом их корректировок. Таким образом, наилучшим вариантом ранжировки будет тот, при котором первый отрицательный минор £к встретится как можно позже. Закон инерции [8] говорит, что к — 1 £ п — V, поэтому необходимо максимально приблизить позицию к к позиции п — V .

Метод коррекции. Согласно [9], коррекция заключается в следующем. Очередной к -й элемент множества представлен парными сравнениями с предыдущими к — 1 элементами и определяет строку и столбец с номером к в главном миноре £к .

Если заменить к -й элемент другим, который «ортогонален» всем предыдущим элементам, то мы получим такой же положительный детерминант £<0>Р = £к—1, что и ранее. Действительно, такой элемент образует

нулевые строку и столбец его парных близостей с предыдущими элементами и с единицей на главной диагонали. Поэтому вычисление минора

£(0>> по элементам последней строки заключается только в вычислении минора £к—1. Развернем ортогональный элемент по направлению к исходному элементу так, чтобы минор £к оказался положительным, а новый элемент был бы максимально похож на исходный по своим парным близостям со всеми предыдущими элементами множества.

Зададим точность е > 0 вычисления детерминанта £к в диапазоне

изменения от р = £к < 0 до Р2 = £(}>> > 0 и выполним следующие шаги:

1. £'к = (р + Р2)/2.

2. Если £к > 0, то р2 = £к. Если £к £ е, то стоп, иначе перейти к 1.

3. Если £к £ 0, то р = £к и перейти к 1.

Параметр е управляет диапазоном изменений элементов последней строки и столбца в матрице близостей и определяет общее отклонение минора £'к от минора £к.

Построение оптимальной ранжировки. Идея приближения позиции к к позиции п — V заключается в следующем. Следует строить ранжировку элементов множества так, что добавление в нее очередного элемента вносит как можно меньшее изменение в значение главного минора.

Пусть имеются п элементов множества и соответствующая матрица £(п, п) парных сравнений с V отрицательными собственными значениями. Следует удалить такой элемент множества, что получаемая матрица £ (п — 1, п — 1) будет иметь V — 1 отрицательное собственное значение, а

её определитель будет иметь максимальное по модулю значение. Тогда удаленный элемент окажется на п -м месте в требуемой ранжировке.

Т. к. чётность количества отрицательных собственных значений из-

менится, то определитель матрицы S (п -1, п — 1) изменит свой знак.

Если окажется невозможным найти такой элемент множества, который бы сменил знак детерминанта, то следует удалить такой элемент, что значение определителя S (п — 1, n — 1) окажется максимальным по модулю. Тогда этот элемент займет п -ю позицию в ранжировке. Далее такая процедура повторяется для матрицы S (п — 1, п — 1).

На каждом шаге размер матрицы S сокращается на единицу, а число элементов множества, получивших своё место в искомой ранжировке, увеличивается на единицу. Таким образом, получив матрицу S (1,1) = 1, мы получим искомую ранжировку.

Тогда в идеальном случае найденная ранжировка определит такой порядок просмотра элементов множества, при котором главный минор Sn—v+1 < 0 впервые окажется отрицательным, а знаки следующих за ним v — 1 миноров будут чередоваться. В этом случае нужно будет скорректировать парные сравнения не более, чем v объектов.

Именно в этом смысле отрицательные собственные значения окажутся локализованными в неположительно определенной матрице парных сравнений.

Эксперименты. Предложенный метод успешно протестирован на различных матрицах парных сравнений. Рассмотрим три наиболее интересные из них.

Первая матрица является корреляционной матрицей статистических взаимосвязей между энергетическими свойствами ритмов головного мозга для 11 частот (0, a, b — ритмы в электроэнцефалограммах) в исследовании эффекта навязывания ритма [10, 11]. Вторая матрица является корреляционной матрицей статистических взаимосвязей 33 физиологических параметров состояния человека в исследовании влияния шумов и вибраций на его работоспособность и самочувствие [11]. Третья матрица является матрицей нормированных близостей, вычисленных программой Fasta, для 418 белковых последовательностей в исследованиях по молекулярной биологии [12].

Первая матрица S (11,11) содержит одно отрицательное собственное значение. Просмотр её главных миноров в исходной последовательности приводит к появлению первого отрицательного минора на 11-й позиции. Таким образом, позиция отрицательного минора уже оптимальна. Корректировка парных сравнений последнего элемента дает общее отклонение

0,228 элементов скорректированной матрицы от элементов исходной матрицы. Оптимальная ранжировка не изменила позиции единственного отрицательного минора, но уменьшила общее отклонение до 0,125 (рис. 1а).

Вторая матрица S(33,33) содержит два отрицательных собственных значения. Просмотр её главных миноров в исходной последовательно-

сти приводит к появлению первого отрицательного минора на 22-й позиции. Всего потребовалось скорректировать парные сравнения 12 элементов множества. Общее отклонение элементов скорректированной матрицы от элементов исходной матрицы равно 47,203.

Для оптимальной ранжировки элементов данного множества просмотр главных миноров приводит к появлению первого отрицательного минора на 32-й позиции. В матрице £(33,33) содержится всего два отрицательных собственных значения, поэтому ранжировка получилась идеальной, и нужно скорректировать парные сравнения лишь двух элементов. Общее отклонение элементов скорректированной матрицы от элементов исходной матрицы равно 5,335 (рис. 1б).

Третья матрица £(418,418) содержит пять отрицательных собственных значений. Просмотр ее главных миноров в исходной последовательности приводит к появлению первого отрицательного минора на 375-й позиции. Затем потребовалось скорректировать все миноры, начиная с него: всего 43 строки и столбца. Общее отклонение элементов скорректированной матрицы от элементов исходной матрицы равно 3109,306.

Для оптимальной ранжировки элементов данного множества просмотр главных миноров приводит к появлению первого отрицательного минора на 411-й позиции. При этом трижды не удалось найти элемента, удаление которого привело бы к смене знака детерминанта матрицы. В итоге, были скорректированы 8 строк и столбцов матрицы. Общее отклонение элементов скорректированной матрицы от элементов исходной матрицы теперь равно 576,114 (рис. 1в).

Заключение. В данной работе предложен метод коррекции неположительно определённой нормированной матрицы парных сравнений, минимизирующий число исправлений ее элементов. Метод заключается в том, что элементы множества переупорядочиваются так, что при выстраивании ранжировки добавление каждого следующего элемента множества вносит наименьшее изменение в значение главного минора, размер которого увеличивается, а его значение при этом всегда убывает, начиная с единицы.

В этих условиях возможно появление отрицательного минора, что свидетельствует о возникновении метрического нарушения на данном подмножестве объектов. Оптимальность перестановки элементов множества заключается в том, что появление первого отрицательного минора в идеальном случае наблюдается в позиции п — V +1, где п — размер матрицы парных сравнений, V—число ее отрицательных собственных значений.

В этом случае корректируются парные сравнения только V объектов. Именно в этом смысле отрицательные собственные значения оказываются локализованными в неположительно определенной матрице парных сравнений.

в

Рис. 1. Значения главных миноров для исходной и оптимальной ранжировок: а -11 частот ритмов головного мозга; б - 33 физиологических параметра; в - 418 белковых последовательностей

Следует отметить, что отрицательное значение детерминанта матрицы близостей может оказаться небольшим и даже сравнимым с точностью вычислений. В этом случае обычные практические рекомендации заключаются в том, чтобы вообще не корректировать данные. Тем не менее, результат обработки будет математически корректен только в случае отсутствия метрических нарушений в исходных данных.

Также следует отметить, что после коррекции может быть получена плохо обусловленная матрица, так как принцип корректировки дает близкий к нулю положительный детерминант матрицы близостей. Тем не менее, предложенный подход отличается от сложных методов вычислительной математики для обработки плохо обусловленных матриц. Здесь корректируются сами данные, и этот процесс является контролируемым. Оптимальная ранжировка позволяет назначить порог «плохой обусловленности» для более глубокой корректировки парных сравнений элементов множества между собой.

Работа поддержана грантом РФФИ 13-07-00010.

Список литературы

1. B. Scholkopf B., Smola A.J. Learning with Kernels. Cambridge: MIT Press, 2002.

2. Zollei L., Fisher J., Wells W. A unified statistical and information theoretic framework for multi-modal image registration // Proc. of IPMI Conf., 2003. P. 366-377.

3. Pekalska E., Duin R.P.W. The Dissimilarity Representation for Pattern Recognition. Foundations and Applications. Singapore: World Scientific, 2005.

4. Duda R.O., Hart P.E., Stork D.G. Pattern Classification. N.Y.: Wiley,

2001.

5. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир,

1978.

6. Dvoenko S.D. Clustering and separating of a set of members in terms of mutual distances and similarities // Transactions on machine learning and data mining. IBal Publishing, 2009. V. 2. No. 2. P. 80-99.

7. Двоенко С. Д. Кластеризация множества, описанного парными расстояниями и близостями между его элементами // Сибирский журнал индустриальной математики. 2009. Т. 12, № 1(37). С. 61-73.

8. Гантмахер Ф.Р. Теория матриц. М.: Наука, 1988.

9. Двоенко С.Д., Пшеничный Д.О. Устранение метрических нарушений в матрицах парных сравнений // Известия ТулГУ. Технические науки. Тула: Изд-во ТулГУ, 2013. Вып. 2. С. 96-104.

10. Небылицын В. Д. Основные свойства нервной системы человека. М.: Просвещение, 1966.

11. Лумельский В.Я. Группировка параметров на основе квадратной матрицы связей // Автоматика и телемеханика. 1970. № 1. С. 133-143.

12. Dubchak I., Muchnik I., Mayor C., Dralyuk I., Kim S.-H. Recognition of a protein fold in the context of the SCOP classification // Proteins: structure, function, and genetics. 1999. No. 35. P. 401-407.

Двоенко Сергей Данилович, д-р физ.-мат. наук, доц., проф., dsda tsu.tula.ru, Россия, Тула, Тульский государственный университет,

Пшеничный Денис Олегович, магистрант, denispshenichnyaiyandex.ru, Россия, Тула, Тульский государственный университет

ON LOCALIZA TION OF THE NEGA TIVE EIGENVAL UES FOR MA TRICES OF PAIRWISE COMPARISONS

S.D. Dvoenko, D.O. Pshenichny

In data mining, the pairwise comparisons of objects are often used instead of initial features measuring. If initial features are not presented, the correct immersion of a set in some metric space is possible only for a nonnegatively definite matrix ofpairwise similarities to each other of the set elements. In this case, similarities are scalar products. Here it is proposed to adjust the violated metrics by minimal corrections of the matrix elements based on the optimal permutation of rows and columns of the matrix.

Key words: metrics, determinant, scalar product, distance, similarity, eigenvalues.

Dvoenko Sergey Danilovich, doctor of physic-mathematical sciences, docent, professor, dsd@,tsu. tula.ru, Russia, Tula, Tula State University,

Pshenichny Denis Olegovich, master student, denispshenichnv@,vandex. ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.