Вероятностный подход к определению локально-оптимального числа кластеров

Ложкинс Алексейс; Буре Владимир Мансурович

УДК 519.237 Вестник СПбГУ. Сер. 10. 2016. Вып. 1

А. Ложкинс, В. М. Буре

ВЕРОЯТНОСТНЫЙ ПОДХОД К ОПРЕДЕЛЕНИЮ ЛОКАЛЬНО-ОПТИМАЛЬНОГО ЧИСЛА КЛАСТЕРОВ

Санкт-Петербургский государственный университет, Россия, 199034, Санкт-Петербург, Университетская наб., 7—9

Устойчивость методов кластеризации — широко используемый подход к определению числа кластеров в кластерном анализе. Приемлемая кластеризация — это разбиение на группы выборки данных, которое робастно по отношению к случайным возмущениям исследуемых данных. В настоящей работе предложен алгоритм определения устойчивого числа кластеров на основе расширения набора начальных данных возмущенными элементами тех же начальных данных. Библиогр. 30 назв. Ил. 2.

Ключевые слова: кластеризация, устойчивость кластеров, оптимальное число кластеров.

A. Lozkins, V. M. Bure

THE PROBABILISTIC METHOD OF FINDING THE LOCAL-OPTIMUM OF CLUSTERING

St. Petersburg State University, 7—9, Universitetskaya nab., St. Petersburg, 199034, Russia

The stability of clustering methods is a commonly used approach in cluster analysis for determining the "true" number of groupings. The acceptable clustering is such data sample grouping that is robust to random perturbations of investigated data. In this paper, we propose an algorithm for determining the number of clusters based on the introduction of the initial dataset which are expanded by adding the set of perturbated initial dataset. Refs 30. Figs 2. Keywords: clustering, cluster stability, optimal cluster number.

Введение. Кластерный анализ — основной инструмент в исследовании данных с неизвестной структурой и в большинстве своем с неизвестным распределением элементов. Методы кластеризации можно трактовать как способ автоматической организации элементов в схожие группы для понимания и интерпретации данных. Выделение кластеров происходит естественным образом без обучающей выборки, т. е. естественная группировка заранее не определена и неизвестно, как она порождается, есть только предположение о существовании значимых относительно однородных групп. На интуитивном уровне элементы одного кластера должны быть более схожими, чем элементы из разных кластеров.

Методы кластеризации широко используются в вычислительной биологии [1, 2], компьютерном зрении, анализе данных, машинном обучении [3-5], маркетинге, медицине и т. д. Кластерный анализ применяется к данным различных рода и структуры, при этом нет «того», кто укажет достоверный и точный способ реализации разбиения на группы, и какое число групп будет наилучшим. Определение «правильного» числа кластеров в рассматриваемом наборе данных является "ill posed" проблемой,

Ложкинс Алексейс — студент; [email protected]

Буре Владимир Мансурович — доктор технических наук; [email protected] Lozkins Aleksejs — student; [email protected]

Bure Vladimir Mansurovich — doctor of technical science; [email protected] © Санкт-Петербургский государственный университет, 2016

имеющей высокий уровень сложности в кластерном анализе [3, 4]. Эта проблема возникает во многих приложениях кластерного анализа и часто не имеет множества решений. Они могут не содержать оптимального решения в общем случае. О выборе оптимального метода нахождения числа кластеров можно говорить только при условии задания конкретного критерия оптимальности для заданного набора алгоритмов кластеризации на имеющемся массиве данных, т. е. речь может идти только о локальной оптимальности того или иного метода. На результат кластеризации оказывает влияние ряд факторов, таких как выбранный алгоритм кластеризации, метрика или шкала данных [6]. Многообразие решений задачи кластеризации связано с тем, что не существует единого универсального критерия оценки, учитывающего все эти разнородные факторы.

В литературе можно встретить большое количество подходов к определению количества кластеров. Способы валидации числа кластеров можно классифицировать по применяемому методологическому подходу. Рассмотрим, например, индексные методы и класс методов, которые используют геометрическую интерпретацию данных. Методы валидации числа кластеров с такой методологией описаны в работах [7—11], [12] (C-index), [13] (gap statistic method). Используемый подход основан на многомерной статистике. Его реализация происходит посредством сравнения «разбросов» элементов внутри кластеров и между кластерами. Осуществляются построение функции, зависящей от числа кластеров, индикация «корректного» числа кластеров согласно так называемому критерию изогнутости ("elbow").

В работе [14] впервые было предложено рассматривать моды сгущения для выявления структуры кластеров. В ней было положено начало развитию непараметрических методов валидации числа кластеров, в основе которых лежит оценка областей сгущения данных. Предполагается, что сильные сгущения данных соответствуют кластерам, число кластеров определяется по числу не пересекающихся областей, имеющих высокую плотность, т. е. сгущение. Появление непараметрических методов впервые встречается, как дальнейшее развитие идеи [14], в [15-16], в которых вводится понятие «кластеры высокой плотности». В дальнейшем этот метод был применен в [17-19].

Другая методология использует статистические критерии для определения оптимального числа кластеров. В [20] разработан алгоритм X-means, оптимальное число кластеров находится на основе байесовского информационного критерия. Среднее значений p-value, соответствующее T2-статистике Хотеллинга (Hotelling's T-square статистике), в [21] используется для измерения расстояния между выборками. Предполагается, что значение расстояний должно быть менее всего концентрировано в начале координат, тогда число кластеров будет верным. В работах [22, 23] оценка числа кластеров также базируется на статистических критериях.

Методы, основанные на устойчивости, измеряют уровень изменчивости кластеров в результате применения алгоритма к выборкам из рассматриваемого множества данных, т. е. исходное множество данных разбивается на подмножества. В данном подходе можно выделить два направления. В основе первого направления лежит идея, описанная в [24]. Предлагается проводить кластеризацию и использовать установленные кластеры как обучающую выборку. Сравниваются кластеры, полученные на другой выборке данных тем же алгоритмом и в результате классификации. Такой подход составляет основу методов "Clest" и "Prediction Strength" [11, 25, 26]. Второе направление не применяет алгоритмы классификации. В его основе лежит попарное сравнение кластеров, найденных в результате разбиения на кластеры двух пересекаю-

щихся подвыборок. Процедура повторяется, в итоге получаем уровень изменчивости кластеров. Минимизируя уровень изменчивости кластеров, приходим к оптимальному числу кластеров [27]. С помощью этого подхода в работах [28, 29] были разработаны способы измерения устойчивости кластеров. К этой группе методов можно отнести предлагаемый нами подход. В качестве сравниваемых пар рассматриваются кластеры как исходных данных, так и с добавлением шума. Разработанный подход позволяет разрешить не только проблему кластерного анализа, но и несовершенства исходных данных.

В зависимости от «природы» решаемой задачи и особенностей проведения наблюдений, или, другими словами, отбора исходных данных, исследуемые данные могут содержать различного рода неточности. Они могут быть связаны с ошибками измерений, ошибками математических моделей, округлением данных, в некоторых случаях намеренным их искажением, например данные экономические, относящиеся к доходам юридических или физических лиц, или социально-экономического характера, получаемые в результате выборочного опроса представителей различных социальных групп, возможны и другие источники появления «неточных» наблюдений. Возникает новая ситуация, связанная с принципиальной и неустранимой неточностью в изучаемых выборках, с необходимостью анализа «неточных» наблюдений. По-видимому, трудности такого характера довольно часто встречаются в прикладных задачах, особенно при изучении социально-экономической информации. Кроме того, в прикладных задачах анализа данных реальная «природа» наблюдений часто оказывается более сложной, чем предполагает исследователь, нельзя исключить наличие разного рода неоднородностей в изучаемой популяции. Все сказанное приводит к необходимости разработки статистических процедур, обладающих некоторой дополнительной устойчивостью по отношению к принципиально неустранимым стохастическим возмущениям исходных данных. Конечно, важны некоторые предположения о свойствах подобных возмущений. Далее будем предполагать, что возмущения обладают свойствами несмещенности и взаимной независимости. Под несмещенностью будем понимать равенство нулю математических ожиданий стохастических отклонений, а под взаимной независимостью взаимную независимость любых отклонений исходных данных. Появляется новая трудность в процедуре выделения значимых групп, учитывающих неточности данных или формирование кластеров, устойчивых к случайным изменениям выборки исходных данных.

В настоящей работе предлагается метод валидации числа кластеров с учетом ошибок в данных на основе оценки устойчивости. Подход заключается в рассмотрении нескольких выборок, полученных из исходной путем добавления шума сгенерированного из усеченного нормального или равномерного распределения с нулевой средней. После чего происходит сравнение кластеров. Похожая идея описана в работе [28], но здесь она рассматривается в концепции устойчивости к ошибкам, определения параметров алгоритма кластеризации и оптимального числа кластеров. Отличие в том, что в предлагаемом методе изучаются не пересекающиеся подмножества, а вся выборка данных и выборки с добавленным шумом, значение дисперсии которого варьируется и играет основную роль. Большое внимание уделяется величине дисперсии шума. Алгоритм считается устойчивым относительно других алгоритмов или того же алгоритма с иными параметрами, если его кластеры не меняются в зависимости от шума наибольшей изучаемой дисперсии. В качестве оценки вводится понятие «коэффициент сменяемости кластеров». Минимальное его значение указывает на наиболее устойчивый алгоритм из рассматриваемых.

Определения и обозначения. Введем обозначения, приведем основные понятия и определения и обоснуем используемый подход к измерению уровня схожести между разбиением данных.

Примем, что X = {т\,Х2, ...,хп}, где хг € Д^, — множество анализируемых данных, вспомогательная выборка данных: Хе = {хг\х^ € Х,хг = хг + £г,г = 1, ...,п;] = 1,...,с[}, здесь £г = (е\,...,£<1 )т, под е\ понимаем элемент шума из усеченного нормального распределения с параметрами N(0,а2), независимыми между собой, или в качестве шума также может использоваться равномерное распределение и (-а, а). Позже будет отдано предпочтение одному из распределений и сделанный выбор будет объяснен в экспериментальной части.

Обозначим результат разбиения на к непересекающихся подмножеств множества X = и^Бг, где Бг П Б^, Уг = ] V г = 1,...,к; ] = 1,...,к. Для Ха разбиение на к групп обозначим через ,Б%,...,Б%. Введем нумерацию элементов в X от 1 до п. Соответствующую нумерацию сохраним в Ха.

Необходимо ввести метрику сравнения множеств в концепции схожести. В работе [28] рассматриваются несколько мер схожести. Для их введения потребуются некоторые вспомогательные обозначения:

I 0, если хг и х2 лежат в соответствующих кластерах;

Сг] =

1, в противном случае.

Пусть Со и Са — матрицы для X и Xa при разбиении на к непересекающихся подмножеств Si,S2,..., Sk и S % ,S%,..., соответственно. Введем скалярное произведение этих матриц:

(С1 ,с2) = ^ cij cij . В работе [30] была получена следующая оценка расстояния схожести:

/ГУ \ (C0, С<7 )

сог(с;о, Са) =

V (Со, Са)(Со, са) В [4] представлена более сложная формула оценки схожести:

М{С0,Са) = 1-^\\С0-Са\\\ n2

где ||Со - ||2 = (Со - ,Со - ).

Если в предыдущую метрику внести некоторые корректировки, то находим коэффициент Жакара (Jaccard coefficient)

J{c0,ca)= (С7°'а)

(Со, Со) — (Со, Са) + (Са, Са)

Совсем другой подход к измерению схожести разбиения используется в работе [26]. В ней предлагается подсчитать элементы с одних и тех же кластеров соответственно к общему числу элементов:

г>3

Здесь 1(хг € Б^ Л х" € равно 1, если элементы лежат в соответствующих кластерах, 0 в противном случае, под Ли (X) понимается некоторый алгоритм кластеризации, разбивающий множество на к непересекающихся подмножеств.

Все упомянутые метрики для рассматриваемого метода избыточны. Их можно использовать в случае необходимости получения результата высокой точности. В свою очередь, предложим более грубую метрику оценки схожести:

ГО, если . (с1'с2)- = 0;

¿(Ак(Х),А1(Х)) = I

I 1, в противном случае.

Определение. Частота совпадения V — это отношение в!(Ли(X), Л'^(Х)) к общему числу повторений генерации шума из распределения с постоянными параметрами.

Данное понятие будет основным критерием оценки уровня устойчивости. Наименьшее его значение из рассмотренных ситуаций (методов кластеризации, числа кластеров) будет наиболее приемлемым результатом (локально оптимальным).

Описание алгоритма. Предлагаемый алгоритм определения уровня устойчивости носит эвристический характер. Основная идея заключается в следующем: после генерации Ха исходная и новая выборки данных разбиваются на подмножества тем или иным алгоритмом кластеризации, затем сравниваются эти кластеры. Но невозможно утверждать, что для новой Х'а возмущенной выборки с шумом из того же распределения сохранится прежний результат, т. е. результат вычисления расстояния д!(Х,Ха) — бинарная случайная величина (в случае использования других метрик это не обязательно бинарная случайная величина). Случайное поведение расстояния имеет место при введении множества Ха, образованного из X с помощью добавления случайного шума.

Такая случайная величина без статистики распределения и вероятности ее наступления не является информативной. Если считать, что предлагаемый эксперимент — случайный при многократном повторении генерации Х1а и проведении сравнения исходного разбиения с новым, то в итоге получим некую постоянную величину — эмпирическую вероятность. Ее рассчитаем как среднее значение определенных всех расстояний, точность которого зависит от числа повторений. Расстояния — бинарная величина, следовательно, среднее их значение — не менее 0 и не более 1. В случае полной идентичности кластеров среднее значение растояний будет равно 0, в случае полного несоответствия кластеров — 1. Смысл этой величины — эмпирическая вероятность несовпадения группировок для двух наборов данных. Таким образом, переходим от последовательности случайных величин к конкретному значению вероятности.

Можно провести аналогию с подбрасыванием монетки. При одном подбрасывании монетки выпал «Орел», но это не значит, что при втором подбрасывании он снова выпадет. Повторяя подбрасывание, обнаружим, что частота выпадания «Орла» будет мало отличаться от 1/2.

Эмпирическая вероятность несовпадения группировок совпадает с частотой сменяемости (V). Такой параметр будет основной мерой устойчивости, зависимой от дисперсии шума в X и числа кластеров.

Предлагаемый метод не только устанавливает оптимальное число кластеров и дает возможность определить наиболее подходящие параметры алгоритма кластеризации, но и позволяет исследовать устойчивость к ошибкам исходных данных, последнее обеспечивается переменной а.

Заранее найдем множество рассматриваемых дисперсий (а2). Его выбор определяется произвольным образом, и здесь не будем описывать возможные подходы. В качестве примера рассмотрим алгебраическую последовательность ар = ар-\ + т дисперсий.

Input: X, [kmin, kmax], Q = {ai}si=1; Output: vai}k;

Require : a cluster algorithm Ak(X), similarity measure between clusters; NumOfDiffers = 0;

for (k in kmin..kmaX) do

Ak (X);

for (<7j in П) do

for (i in l..NumOfRepetitions) do

Xa = X + ea;

до-;

NumOfDiffers = NumOfDiffers + d(Ak(X), A°(X)); end for

Voi,k

end for

N umO f Di f f er s . NumOf Repetitions '

end for

На выходе получаем массив частот с индексами: величина шума и число кластеров. Используем среднее значение и величину медианы по шуму для va■ítk. Их достаточно легко обрабатывать и анализировать.

Эксперимент. Приведем результаты исследования предлагаемого подхода определения устойчивого числа кластеров на искусственных данных. Изучаемые данные представляют собой объединение выборок, взятых из двумерных нормальных распределений с различными средними. Такие данные имеют очевидное количество группировок, что обеспечит возможность сравнивать результаты работы описанного алгоритма с экспертной оценкой. Экспериментальные начальные данные представлены на рис. 1.

Входным параметром алгоритма является набор возможных значений количества кластеров. В зависимости от имеющейся информации о данных возможны случаи рассмотрения нескольких значений числа кластеров. Более общий случай, когда

Рис. 1. Искусственная выборка данных из пяти двумерных нормальных распределений с различными средними

совершенно отсутствует информация о числе кластеров, предполагает анализ некоторой последовательности значений. В настоящем эксперименте изучаются целые значения из промежутка [2; 10].

Важным входным параметром описанного ранее алгоритма служит набор дисперсий. В случае, когда все элементы множества дисперсий шума являются достаточно малыми или больше, чем средняя дисперсия исследуемых данных, алгоритм в большинстве случаев не сможет выдать адекватный результат. Поэтому предлагается рассматривать выборку дисперсий из равномерного распределения с параметрами [0,adata], где ^data — дисперсия исследуемых данных. Число элементов множества дисперсий до определенного момента будет влиять на точность. В данном опыте будут использоваться дисперсии, образованные 20 членами арифметической прогрессии ao = 0.02, ai = a— +0.02.

Кластеризация проводится с помощью метода ^-средних. Эксперимент реализован в среде статистической обработки данных R. Использовали базовую библиотеку программной среды и стандартный алгоритм кластеризации kmeans.

Обсуждение результата. На рис. 2, а, б представлен результат работы описываемого подхода. В англоязычной литературе такое поведение графиков характеризуется словом "elbow" (по-русски — локоть). Минимальная частота сменяемости доставляет локальный оптимум числа кластеров. Она для данного набора данных и рассматриваемого метода кластеризации равна 5. Очевидно, что в исследуемых данных (см. рис. 1) визуально можно выделить 5 кластеров. Для всех остальных значений числа кластеров частота сменяемости близка или равна 1. Этот факт говорит о том, что кластеры неустойчивы и изменяются при зашумлении исходных данных.

а

б

Медиана частот

0.9 -

0.7 -

0.5 -

0.3 1=-|-1-1-1-1—

2 4 6 8 10

Число кластеров

Рис. 2. Зависимость средних по шуму значений частот (а) и медиан (б) сменяемости кластеров от числа кластеров

Заключение. В работе предложен вероятностный подход оценки локально-оптимального числа кластеров. Основу для него составляет методолгия устойчивости кластеров. Введена метрика расстояния между кластерами, разработан подход возмущения исследуемых данных. Описан общий эвристический алгоритм метода. Проведен и охарактеризован результат эксперимента на искусственных данных.

Литература

1. Quackenbush J. Computational analysis of microarray data // Nature reviews genetics. 2001. Vol. 2, N 6. P. 418-427.

2. Shamir R., Sharan R. Algorithmic approaches to clustering gene expression data // Current Topics in Computational Biology. 2001. URL: http://citeseerx.ist.psu.edu/ (дата обращения: 15.09.2015).

3. Gordon A. D. Classification. Prentice-Hall: Chapman & Hall/CRC Monographs on Statistics & Applied Probability, 1999. URL: http://www.citeulike.org/ (дата обращения: 20.08.2015).

4. Jain A. K., Dubes R. C. Algorithms for clustering data. Prentice-Hall: Prentice-Hall, Inc., 1988. URL: http://dl.acm.org/ (дата обращения: 14.06.2015).

5. Buhmann J. Data clustering and learning // The Handbook of Brain Theory and Neural Networks. 1995. P. 278-281.

6. Chakravarthy S. V., Ghosh J. Scale-based clustering using the radial basis function network // Neural Networks. IEEE Transactions. 1996. Vol. 7, N 5. P. 1250-1261.

7. Gordon A. D. Identifying genuine clusters in a classification // Computational Statistics & Data Analysis. 1994. Vol. 18, N 5. P. 561-581.

8. Hartigan J. A. Statistical theory in clustering // Journal of classification. 1985. Vol. 2, N 1. P. 63-76.

9. Milligan G. W., Cooper M. C. An examination of procedures for determining the number of clusters in a data set // Psychometrika. 1985. Vol. 50, N 2. P. 159-179.

10. Sugar C. A., James G. M. Finding the number of clusters in a dataset // Journal of the American Statistical Association. 2003. Vol. 98, N 463. P. 750-763.

11. Tibshirani R., Walther G. Cluster validation by prediction strength // Journal of Computational and Graphical Statistics. 2005. Vol. 14, N 3. P. 511-528.

12. Hubert L., Schultz J. Quadratic assignment as a general data analysis strategy // British journal of mathematical and statistical psychology. 1976. Vol. 29, N 2. P. 190-241.

13. Tibshirani R., Walther G., Hastie T. Estimating the number of clusters in a data set via the gap statistic // Journal of the Royal Statistical Society. Series B (Statistical Methodology). 2001. Vol. 63, N 2. P. 411-423.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Wishart D. Mode analysis: A generalization of nearest neighbor which reduces chaining effects // Numerical taxonomy. 1969. Vol. 76, N 17. P. 282-311.

15. Hartigan J. A. Clustering algorithms. New York: John Wiley & Sons, Inc., 1975. URL: http://dl.acm.org/ (дата обращения: 28.08.2015).

16. Hartigan J. A. Consistency of single linkage for high-density clusters // Journal of the American Statistical Association. 1981. Vol. 76, N 374. P. 388-394.

17. Cuevas A., Febrero M., Fraiman R. Estimating the number of clusters // Canadian Journal of Statistics. 2000. Vol. 28, N 2. P. 367-382.

18. Cuevas A., Febrero M., Fraiman R. Cluster analysis: a further approach based on density estimation // Computational Statistics & Data Analysis. 2001. Vol. 36, N 4. P. 441-459.

19. Stuetzle W. Estimating the cluster tree of a density by analyzing the minimal spanning tree of a sample // Journal of classification. 2003. Vol. 20, N 1. P. 25-47.

20. Pelleg D., Moore A. W. X-means: Extending X-means with Efficient Estimation of the Number of Clusters // ICML. 2000. P. 727-734.

21. Volkovich Z., Brazly Z., Toledano-Kitai D., Avros R. The Hotelling's metric as a cluster stability measure // Computer modelling and new technologies. 2010. Vol. 14. P. 65-72.

22. Barzily Z., Volkovich Z., Akteke-Ozturk B. On a minimal spanning tree approach in the cluster validation problem // Informatica. Lith. Acad. Sci. 2009. Vol. 20, N 2. P. 187-202.

23. Hamerly Y. F. G. PG-means: learning the number of clusters in data // Advances in neural information processing systems. 2007. Vol. 19. P. 393-400.

24. Breckenridge J. N. Replicating cluster analysis: Method, consistency, and validity // Multivariate Behavioral Research. 1989. Vol. 24, N 2. P. 147-161.

25. Dudoit S., Fridlyand J. A prediction-based resampling method for estimating the number of clusters in a dataset // Genome biology. 2002. Vol. 3, N 7. research0036. URL: http://www. genomebiology.com/ (дата обращения: 14.06.2015).

26. Lange T., Roth V., Braun M. L., Buhmann J. M. Stability-based validation of clustering solutions // Neural computation. 2004. Vol. 16, N 6. P. 1299-1323.

27. Milligan G. W., Cheng R. Measuring the influence of individual data points in a cluster analysis // Journal of classification. 1996. Vol. 13, N 2. P. 315-335.

28. Ben-Hur A., Elisseeff A., Guyon I. A stability based method for discovering structure in clustered data // Pacific symposium on biocomputing. 2002. Vol. 7, N 6. P. 6-17.

29. Levine E., Domany E. Resampling method for unsupervised estimation of cluster validity // Neural computation. 2001. Vol. 13, N 11. P. 2573-2593.

30. Fowlkes E. B., Mallows C. L. A method for comparing two hierarchical clusterings // Journal of the American statistical association. 1983. Vol. 78, N 383. P. 553-569.

References

1. Quackenbush J. Computational analysis of microarray data. Nature reviews genetics, 2001, vol. 2, no. 6, pp. 418-427.

2. Shamir R., Sharan R. Algorithmic approaches to clustering gene expression data. Current Topics in Computational Biology, 2001. Available at: http://citeseerx.ist.psu.edu/ (assessed: 15.09.2015).

3. Gordon A. D. Classification. London, Chapman & Hall/CRC Monographs on Statistics & Applied Probability, 1999. Available at: http://www.citeulike.org/ (assessed: 20.08.2015).

4. Jain A. K., Dubes R. C. Algorithms for clustering data. Prentice-Hall, Prentice-Hall, Inc., 1988. Available at: http://dl.acm.org/ (assessed: 14.06.2015).

5. Buhmann J. Data clustering and learning. The Handbook of Brain Theory and Neural Networks, 1995, pp. 278-281.

6. Chakravarthy S. V., Ghosh J. Scale-based clustering using the radial basis function network. Neural Networks, IEEE Transactions, 1996, vol. 7, no. 5, pp. 1250-1261.

7. Gordon A. D. Identifying genuine clusters in a classification. Computational ¡Statistics & Data Analysis, 1994, vol. 18, no. 5, pp. 561-581.

8. Hartigan J. A. Statistical theory in clustering. Journal of classification, 1985, vol. 2, no. 1, pp. 6376.

9. Milligan G. W., Cooper M. C. An examination of procedures for determining the number of clusters in a data set. Psychometrika, 1985, vol. 50, no. 2, pp. 159-179.

10. Sugar C. A., James G. M. Finding the number of clusters in a dataset. Journal of the American Statistical Association, 2003, vol. 98, no. 463, pp. 750-763.

11. Tibshirani R., Walther G. Cluster validation by prediction strength. Journal of Computational and Graphical ¡Statistics, 2005, vol. 14, no. 3, pp. 511-528.

12. Hubert L., Schultz J. Quadratic assignment as a general data analysis strategy. British journal of mathematical and statistical psychology, 1976, vol. 29, no. 2, pp. 190-241.

13. Tibshirani R., Walther G., Hastie T. Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal ¡Statistical Society. Series B (Statistical Methodology), 2001, vol. 63, no. 2, pp. 411-423.

14. Wishart D. Mode analysis: A generalization of nearest neighbor which reduces chaining effects. Numerical taxonomy, 1969, vol. 76, no. 17, pp. 282-311.

15. Hartigan J. A. Clustering algorithms. New York, John Wiley & Sons, Inc., 1975. Available at: http://dl.acm.org/ (assessed: 28.08.2015).

16. Hartigan J. A. Consistency of single linkage for high-density clusters. Journal of the American Statistical Association, 1981, vol. 76, no. 374, pp. 388-394.

17. Cuevas A., Febrero M., Fraiman R. Estimating the number of clusters. Canadian Journal of Statistics, 2000, vol. 28, no. 2, pp. 367-382.

18. Cuevas A., Febrero M., Fraiman R. Cluster analysis: a further approach based on density estimation. Computational Statistics & Data Analysis, 2001, vol. 36, no. 4, pp. 441-459.

19. Stuetzle W. Estimating the cluster tree of a density by analyzing the minimal spanning tree of a sample. Journal of classification, 2003, vol. 20, no. 1, pp. 25-47.

20. Pelleg D., Moore A. W. X-means: Extending X-means with Efficient Estimation of the Number of Clusters. ICML, 2000, pp. 727-734.

21. Volkovich Z., Brazly Z., Toledano-Kitai D., Avros R. The Hotelling's metric as a cluster stability measure. Computer modelling and new technologies, 2010, vol. 14, pp. 65-72.

22. Barzily Z., Volkovich Z., Akteke-Ozturk B. On a minimal spanning tree approach in the cluster validation problem. Informatica, Lith. Acad.. Sci., 2009, vol. 20, no. 2, pp. 187-202.

23. Hamerly Y. F. G. PG-means: learning the number of clusters in data. Advances in neural information processing systems, 2007, vol. 19, pp. 393-400.

24. Breckenridge J. N. Replicating cluster analysis: Method, consistency, and validity. Multivariate Behavioral Research, 1989, vol. 24, no. 2, pp. 147-161.

25. Dudoit S., Fridlyand J. A prediction-based resampling method for estimating the number of clusters in a dataset. Genome biology, 2002, vol. 3, no. 7, research0036. Available at: http:// www.genomebiology.com/ (assessed: 14.06.2015).

26. Lange T., Roth V., Braun M. L., Buhmann J. M. Stability-based validation of clustering solutions. Neural computation, 2004, vol. 16, no. 6, pp. 1299-1323.

27. Milligan G. W., Cheng R. Measuring the influence of individual data points in a cluster analysis. ■Journal of classification, 1996, vol. 13, no. 2, pp. 315-335.

28. Ben-Hur A., Elisseeff A., Guyon I. A stability based method for discovering structure in clustered data. Pacific symposium on biocomputing, 2002, vol. 7, no. 6, pp. 6-17.

29. Levine E., Domany E. Resampling method for unsupervised estimation of cluster validity. Neural computation, 2001, vol. 13, no. 11, pp. 2573-2593.

30. Fowlkes E. B., Mallows C. L. A method for comparing two hierarchical clusterings. Journal of the American statistical association, 1983, vol. 78, no. 383, pp. 553-569.

Статья рекомендована к печати проф. Л. А. Петросяном. Статья поступила в редакцию 26 нoября 2015 г.

Вероятностный подход к определению локально-оптимального числа кластеров Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ложкинс Алексейс, Буре Владимир Мансурович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ложкинс Алексейс, Буре Владимир Мансурович

THE PROBABILISTIC METHOD OF FINDING THE LOCAL-OPTIMUM OF CLUSTERING

Текст научной работы на тему «Вероятностный подход к определению локально-оптимального числа кластеров»