Научная статья на тему 'Применение правил остановки кластерного анализа в случае слабой и сильной иерархии кластеров на примере белковых структур'

Применение правил остановки кластерного анализа в случае слабой и сильной иерархии кластеров на примере белковых структур Текст научной статьи по специальности «Математика»

CC BY
599
325
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Бондарев В. А., Лисица А. В., Меньшутина Н. В.

Правила остановки применены для определения оптимального количества кластеров, полученных методами средней связи и Варда. Показано, что топологические особенности дендрограммы кластерного анализа могут быть установлены с использованием правил остановки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Stopping rules are used for determination of optimal number of clusters received by arithmetic averages method and Ward method. Illustrated those topological features of dendrogramm of cluster analysis verifiable fact by using stopping rules.

Текст научной работы на тему «Применение правил остановки кластерного анализа в случае слабой и сильной иерархии кластеров на примере белковых структур»

4. Rinaldo Psaro, Carlo Dossi, Roberto Della Pergola, Sergio MarengoSonia Calmotti, Luigi Garlaschelli, Roberto Zanoni. Appl. Catal. A: General 121(1995) L19-L23.

5. Kelin Li, Dazhi Jiang. Journal of Molekular Catalisis A: General 147(1999) 125-130.

6. H. Ben Amor, V. L. Halloin. Chemical Engireering Science 54(1999) 1419-1423.

7. Wensheng Linghu, Zhenyu Liu, Zhemping Zhu,Jianli Yang, Bing Zhong.Chemical Engireering Science 54(1999) 3671-3675 pp. 3671-3673.

8. Д.Химмельблау. Прикладное нелинейное программирование. М: Мир, 1975, 536 с.

УДК:519.237.8:577.112:004.9

12 1 В.А. Бондарев , А.В. Лисица , Н.В. Меньшутина

1 - Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия

2 - Государственное учреждение Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича Российская академия медицинских наук, Москва, Россия

ПРИМЕНЕНИЕ ПРАВИЛ ОСТАНОВКИ КЛАСТЕРНОГО АНАЛИЗА В СЛУЧАЕ СЛАБОЙ И СИЛЬНОЙ ИЕРАРХИИ КЛАСТЕРОВ НА ПРИМЕРЕ БЕЛКОВЫХ СТРУКТУР

Stopping rules are used for determination of optimal number of clusters received by arithmetic averages method and Ward method. Illustrated those topological features of dendrogramm of cluster analysis verifiable fact by using stopping rules.

Правила остановки применены для определения оптимального количества кластеров, полученных методами средней связи и Варда. Показано, что топологические особенности дендрограммы кластерного анализа могут быть установлены с использованием правил остановки.

Кластерный анализ (КА) - гибкая процедура, позволяющая осуществлять обработку и обобщение данных различными способами. Возможность выбора одного из способов КА обуславливает вмешательство исследователя в характер процедуры, привносящее субъективное начало в полученный результат. Методы кластеризации существенно различаются между собой. Наиболее часто используются два типа процедур кластерного анализа: иерархический и итеративный. Иерархический метод [1] представляет собой процедуру, в рамках которой каждое новое наблюдение присоединяется к формируемому кластеру по принципу наибольшей близости. При этом близость исчисляется по следующему правилу: первые два наблюдения объединяются в том случае, если они имеют самые близкие результаты по совокупности переменных. В дальнейшем каждое новое наблюдение отыскивается по степени близости или подобия с объектами уже сформировавшихся кластеров.

Проблема определения числа кластеров является одной из основных нерешенных до настоящего времени задач кластерного анализа (непараметрического случая классификации). При использовании итеративных методов число кластеров является одним из входных параметров алгоритма [2], тогда как в иерархических процедурах используется визуальный анализ дендрограммы с целью определить наиболее предпочтительное число кластеров [3].

Существуют формальные подходы, облегчающие процедуры определения предпочтительного числа иерархии кластеров. Эти подходы называются правилами остановки. Миллиган и Купер исследовали более тридцати из них [4].

В нашей работе мы рассмотрим применение двух наиболее простых правил остановки для выявления отличий между типами иерархии кластеров.

МАТЕРИАЛЫ И МЕТОДЫ.

Объект исследования. Для исследования была сформирована выборка из 108 белков. Структура каждого белка была представлена в виде последовательности символов, кодирующих аминокислотные остатки.

Мера сходства между объектами. Для оценки сходства между белками проводилось сравнение последовательностей методом выравнивания [5]. Численную меру сходства вычисляли как отношение количества совпавших символов между двумя последовательностями к общей максимальной длине выравнивания. Значения сходства заносились в матрицу попарных сравнений. Матрица является симметричной относительно диагонали, диагональные ячейки содержат максимально допустимые значения сходства 1,0.

Методы кластерного анализа. Для проведения кластерного анализа применили алгоритмы иерархической агломеративной кластеризации методом средней связи и методом Варда. Матрица попарных сравнений транслировалась в матрицу расстояний путем вычитания значений идентичности из единицы. Агломеративную кластеризацию [6] проводили путем нахождения в матрице расстояния наименьшего значения и объединения соответствующих объектов в состав одного кластера. Для образовавшегося кластера рассчитывали строку расстояний до других объектов.

В методе средней связи (он же метод увязки средних, UPGMA - Unweighted Pair Group Method using Arithmetic Averages) среднее значение расстояний между всеми возможными парами объектов, входящих в различные кластеры, рассчитывается по формуле:

где Я и £ - кластеры, N - число объектов в составе кластера, ^¿(/у) - расстояние между объектами г и у.

В методе Варда в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов:

Правила остановки. Для определения границ кластеров в составе заданной иерархической кластеризации, представленной в виде дендрограммы, применяли два метода:

- метод анализа динамики агломерации;

- метод анализа расстояний между кластерами.

Сущность метода анализа динамики агломерации заключается в построении зависимости, отражающей количество кластеров на каждом шаге процедуры объединения кластеров. Пологие участки кривой соответствуют монотонному образованию кластеров и трактуются как фоновый процесс, не имеющий характеристического значения. Задача анализа динамики агломерации заключается в выявлении точек перегиба на построенной кривой, указывающих на резкое возрастание интенсивности объединения объектов в кластеры. Эти точки указывается в качестве оптимального уровня отсечения. Для более точного определения точки перегиба строятся касательные к участкам кривой [7].

D(R, S) = (NrNs )-1Z Z MX R, i 1X [S, j]),

(1)

D(R, S) = Z dist((X[R, i] - X[S, j])2).

(2)

Метод анализа расстояний между кластерами основан на вычислении индекса Дэвиса-Болдина (ДБ-индекс) в зависимости от шага агломерации. Индекс характеризует расстояние между кластерами по отношению к дисперсии объектов в составе кластеров [8]. Для заданного кластера вычисляется среднее расстояние между входящими в него объектами (Int). Далее, вычисляется среднее расстояние между всеми объектами в составе кластера и вне его (Ext). В качестве значения индекса берется отношение:

Int

DB = —. (3)

Ext v '

Для заданной дендрограммы строится зависимость значения ДБ-индекса (усредненного по кластерам) от шага агломерации. В качестве оптимума берется уровень отсечения с наименьшим значением индекса. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Кластерный анализ проводился методом средней связи (UPGMA) и методом Варда. Результаты кластерного анализа представлялись в виде дендрограмм (рис. 1).

Объекты Объекты

ц

ч

Уровень отсечения Уровень отсечения

Рис. 1. Дендрограммы кластерного анализа, полученные методами иРОМА(а) и WARD(б)

На рис. 1а приведена дендрограмма, полученная по методу UPGMA. Визуально следует отметить отсутствие четких кластеров, т.е. полученная иерархия является слабой. Слабая иерархия - это иерархия, в которой нет ярко выраженного распределения объектов по кластерам.

Ситуация сильной иерархии наблюдается при анализе дендрограммы, полученной методом WARD (рис. 1,б). Характер ветвления позволяет без труда выявить четыре обособленные группы. Группы формируются компактно, т.е. длина ветвей внутри группы значимо меньше, чем расстояние до ближайшего внешнего узла. Общий анализ дендрограммы показывает, что метод WARD в отличие от UPGMA позволяет получать выраженную иерархию. Продемонстрируем, как это общее наблюдение формализуется при использовании правил остановки кластеризации.

Индексы остановки позволяют установить оптимальный уровень отсечения, который может быть визуально представлен в виде вертикальной линии, нанесенной на дендрограмму и пересекающей её ветви (см. пунктир на рис. 1,б). Пересечение ветви группирует относящиеся к ней объекты в состав одного кластера.

(а)

ДА1=12

Н=0,56 '

: ДА2 = 36 ! Н=0,29

Количество кластеров

120 100 80 60 40 - 20

0,8 0,6 0,4 0,2

Уровень отсечения

(6)

Количество кластеров

120

ДАЗ=7

Н-1,54

14

—I— 12

—I— 10

—г-4

2

Уровень отсечения

100 80 60 40 20 О

(В)

Индекс

Дэвиса-Болдина

-2,45 -2,35 -2,25 2,15 2,05 1,95

0,4 0,3 0,2 0,1

Уровень отсечения

(Г)

Индекс

Дэвиса-Болдина

-2,0 1,8 1,6 1,4 1,2 1

ОВ=1,24

2.63 I 12.30

6 4

Уровень отсечения

Рис. 2. Определение уровня отсечения методом анализа динамики агломерации (а, б), и Дэвиса-Болдина (в, г) для дендрограмм кластерного анализа, полученных по методам

UPGMA (а, в) и WARD (б, г)

Наиболее простым способом определить уровень отсечения является анализ графика динамики агломерации, приведенного на рис. 2, а, б. На оси абсцисс отмечены значения уровней отсечения, выраженные в единицах высоты ветвей. Ось абсцисс направлена справа налево в соответствии с направлением объединения белков в кластеры на дендрограммах. Высоты ветвей отложены на шкале, приведенной внизу соответствующих дендрограмм (см. рис. 1). По оси ординат откладываются количества кластеров для каждого уровня отсечения (для визуального представления: количество кластеров на единицу превышает число горизонтальных ветвей дерева, пересекаемых линией отсечения). Для определения уровня отсечения на графике динамики агломерации были выявлены и аппроксимированы прямыми линейные участки. Точка пересечения ап-

проксимирующих прямых соответствует резкому изменению скорости процесса формирования кластеров. Точки перегиба могут быть рекомендованы в качестве оптимальных значений для уровня отсечения.

График на рис. 2а имеет слабо выраженные точки перегиба. При аппроксимации участков графика прямыми выявляется точка пересечения, обозначенная ДА1 и соответствующая высоте Н = 0,56. На этом уровне достаточно интенсивное образование кластеров, происходящее на начальном участке дендрограммы, сменяется более медленным процессом, отраженным пологим участком графика от точки ДА1 до точки ДА2. При анализе результатов, полученных для дендрограммы WARD (рис. 2б) следует отметить, что точка перегиба только одна и характер этого перегиба значительно более выраженный, чем для метода UPGMA. Точка перегиба, обозначенная на графике ДА3, образуется на высоте Н=1,54 и распределяет белки анализируемой группы по 7 кластерам. Анализ динамики агломерации не является объективным правилом остановки, поскольку зависит от способа выявления точки перегиба. В качестве средства для объективного нахождения уровня отсечения был применен индекс Дэвиса-Болдина.

Графики на рис. 2в, г демонстрируют уже отмеченную ранее общую тенденцию. Для дендрограммы, построенной по методу UPGMA, зависимость значения индекса от уровня отсечения не имеет выраженных оптимумов, в отличие от графика для метода WARD, где минимум выявляется в диапазоне значений уровня отсечения 2,632,3. В районе минимума индекс Дэвиса-Болдина снижается до 1,24; соответствующий этому значению уровень остановки отмечен пунктиром на дендрограмме (рис. 1,б).

Из приведенных выше результатов можно сделать вывод о том, что правила остановки чувствительны к выбору метода кластерного анализа. Уровни отсечения с использованием индекса Дэвиса-Болдина удалось установить только для дендрограм-мы, построенной по методу Варда. При использовании метода динамики агломерации уровни остановки в дендрограмме UPGMA были выражены значительно слабее. При решении задачи распределения белков по кластерам на основании сходства структур следует ориентироваться на метод Варда.

Список литературы

1. Aldenderfer M.S., Blashfield R.K. Cluster analysis. // Sage univ.paper. - 1984. - 44.

2. Черныш М.Ф. Опыт применения кластерного анализа. // Социология: 4М. - 2000. -12. - C. 129-141.

3. Яцкив И., Гусарова Л. Методы определения количества кластеров при классификации без обучения // Transport and Telecommunication. - 2003. - 4. - C. 23-28.

4. Milligan G.W., Cooper M.C. An examination of procedures for determining the number of clusters in a data set // Psychometrika. - 1985. - 50. - pp.159-179.

5. Needleman S.B., Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequences of two proteins // J.Mol.Biol.- 1970.- 48. - pp. 443-453.

6. Sneath P.H.A., Sokal R.R. Numerical Taxonomy: the principles and practice of numerical classification. - San Francisco: W. H. Freeman & Co. - 1973.

7. Lewi P.J., Moereels H., Adriaensen D. The combination of dendrograms with plots of latent variables. An application to G-protein coupled receptor sequences. //Chem. Intell. - 1992. - 16. - pp.145-154.

8. Halkidi M., Batistakis Y., Vazirgiannis. On clustering Validation Techniques. // Journal of Intelligent Information Systems. - 2001. - 17. - pp.107-145.

i Надоели баннеры? Вы всегда можете отключить рекламу.