Кластерный анализ в R: определить оптимальное количество кластеров

Question

Кластерный анализ в R: определить оптимальное количество кластеров

396

Будучи новичком в R, я не очень уверен, как выбрать лучшее количество кластеров для анализа k-средств. После построения подмножества данных ниже, сколько кластеров будет подходящим? Как выполнить анализ кластерного дендро?

n = 1000
kk = 10    
x1 = runif(kk)
y1 = runif(kk)
z1 = runif(kk)    
x4 = sample(x1,length(x1))
y4 = sample(y1,length(y1)) 
randObs <- function()
{
  ix = sample( 1:length(x4), 1 )
  iy = sample( 1:length(y4), 1 )
  rx = rnorm( 1, x4[ix], runif(1)/8 )
  ry = rnorm( 1, y4[ix], runif(1)/8 )
  return( c(rx,ry) )
}  
x = c()
y = c()
for ( k in 1:n )
{
  rPair  =  randObs()
  x  =  c( x, rPair[1] )
  y  =  c( y, rPair[2] )
}
z <- rnorm(n)
d <- data.frame( x, y, z )

user2153893 13 март 2013, в 03:21

Источник

4

Если вы не полностью привязаны к kmeans, вы можете попробовать алгоритм кластеризации DBSCAN, доступный в пакете fpc . Это правда, тогда вам нужно установить два параметра ... но я обнаружил, что fpc::dbscan тогда выполняет довольно хорошую работу по автоматическому определению fpc::dbscan количества кластеров. Кроме того, он может на самом деле выводить один кластер, если это то, о чем вам говорят данные - некоторые из методов в превосходных ответах @ Ben не помогут вам определить, является ли k = 1 на самом деле лучшим.
Stephan Kolassa 26 июнь 2014, в 14:08
0

Смотрите также stats.stackexchange.com/q/11691/478
Richie Cotton 23 окт. 2014, в 12:38

Теги:

r

k-means

cluster-analysis

7 ответов

Ещё вопросы

Если вы не полностью привязаны к kmeans, вы можете попробовать алгоритм кластеризации DBSCAN, доступный в пакете fpc . Это правда, тогда вам нужно установить два параметра ... но я обнаружил, что fpc::dbscan тогда выполняет довольно хорошую работу по автоматическому определению fpc::dbscan количества кластеров. Кроме того, он может на самом деле выводить один кластер, если это то, о чем вам говорят данные - некоторые из методов в превосходных ответах @ Ben не помогут вам определить, является ли k = 1 на самом деле лучшим.
Смотрите также stats.stackexchange.com/q/11691/478

Ben · Answer 1 · 2013-03-13T04-23-00.000Z

Если ваш вопрос how can I determine how many clusters are appropriate for a kmeans analysis of my data?, то вот несколько вариантов. В статье wikipedia об определении количества кластеров есть хороший обзор некоторых из этих методов.

Во-первых, некоторые воспроизводимые данные (данные в Q... неясны для меня):

n = 100
g = 6 
set.seed(g)
d <- data.frame(x = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2))), 
                y = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2))))
plot(d)

One. Посмотрите на изгиб или локоть в сумме кривой scree error (SSE). Подробнее см. http://www.statmethods.net/advstats/cluster.html и http://www.mattpeeples.net/kmeans.html. Расположение локтя в полученном графике предполагает подходящее количество кластеров для километров:

mydata <- d
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
  for (i in 2:15) wss[i] <- sum(kmeans(mydata,
                                       centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters",
     ylab="Within groups sum of squares")

Мы можем заключить, что этим кластером будет указан 4 кластера:

Два. Вы можете сделать разбиение по медоидам, чтобы оценить количество кластеров, используя функцию pamk в пакете fpc.

library(fpc)
pamk.best <- pamk(d)
cat("number of clusters estimated by optimum average silhouette width:", pamk.best$nc, "\n")
plot(pam(d, pamk.best$nc))

# we could also do:
library(fpc)
asw <- numeric(20)
for (k in 2:20)
  asw[[k]] <- pam(d, k) $ silinfo $ avg.width
k.best <- which.max(asw)
cat("silhouette-optimal number of clusters:", k.best, "\n")
# still 4

Три. Критерий Калинского: Другой подход к диагностике того, сколько кластеров соответствует данным. В этом случае мы пробуем от 1 до 10 групп.

require(vegan)
fit <- cascadeKM(scale(d, center = TRUE,  scale = TRUE), 1, 10, iter = 1000)
plot(fit, sortg = TRUE, grpmts.plot = TRUE)
calinski.best <- as.numeric(which.max(fit$results[2,]))
cat("Calinski criterion optimal number of clusters:", calinski.best, "\n")
# 5 clusters!

Четыре. Определить оптимальную модель и количество кластеров в соответствии с байесовским информационным критерием для максимизации ожиданий, инициализированную иерархической кластеризацией для параметризованных моделей смеси Гаусса

# See http://www.jstatsoft.org/v18/i06/paper
# http://www.stat.washington.edu/research/reports/2006/tr504.pdf
#
library(mclust)
# Run the function to see how many clusters
# it finds to be optimal, set it to search for
# at least 1 model and up 20.
d_clust <- Mclust(as.matrix(d), G=1:20)
m.best <- dim(d_clust$z)[2]
cat("model-based optimal number of clusters:", m.best, "\n")
# 4 clusters
plot(d_clust)

Пять. Кластеризация распространения аффинности (AP), см. http://dx.doi.org/10.1126/science.1136800

library(apcluster)
d.apclus <- apcluster(negDistMat(r=2), d)
cat("affinity propogation optimal number of clusters:", length(d.apclus@clusters), "\n")
# 4
heatmap(d.apclus)
plot(d.apclus, d)

Шесть. Статистические данные о пробелах для оценки количества кластеров. См. Также код для приятного графического вывода. Попробуйте 2-10 кластеров здесь:

library(cluster)
clusGap(d, kmeans, 10, B = 100, verbose = interactive())

Clustering k = 1,2,..., K.max (= 10): .. done
Bootstrapping, b = 1,2,..., B (= 100)  [one "." per sample]:
.................................................. 50 
.................................................. 100 
Clustering Gap statistic ["clusGap"].
B=100 simulated reference sets, k = 1..10
 --> Number of clusters (method 'firstSEmax', SE.factor=1): 4
          logW   E.logW        gap     SE.sim
 [1,] 5.991701 5.970454 -0.0212471 0.04388506
 [2,] 5.152666 5.367256  0.2145907 0.04057451
 [3,] 4.557779 5.069601  0.5118225 0.03215540
 [4,] 3.928959 4.880453  0.9514943 0.04630399
 [5,] 3.789319 4.766903  0.9775842 0.04826191
 [6,] 3.747539 4.670100  0.9225607 0.03898850
 [7,] 3.582373 4.590136  1.0077628 0.04892236
 [8,] 3.528791 4.509247  0.9804556 0.04701930
 [9,] 3.442481 4.433200  0.9907197 0.04935647
[10,] 3.445291 4.369232  0.9239414 0.05055486

Здесь результат работы Эдвина Чэня статистики пробелов:

Семь. Вам также может быть полезно изучить ваши данные с помощью clustergrams, чтобы визуализировать назначение кластера, см. http://www.r-statistics.com/2010/06/clustergram-visualization-and-diagnostics-for-cluster-analysis-r-code/ для получения более подробной информации.

Восемь. пакет NbClust содержит 30 индексов для определения количества кластеров в наборе данных.

library(NbClust)
nb <- NbClust(d, diss="NULL", distance = "euclidean", 
        min.nc=2, max.nc=15, method = "kmeans", 
        index = "alllong", alphaBeale = 0.1)
hist(nb$Best.nc[1,], breaks = max(na.omit(nb$Best.nc[1,])))
# Looks like 3 is the most frequently determined number of clusters
# and curiously, four clusters is not in the output at all!

<Т411 >

Если ваш вопрос how can I produce a dendrogram to visualize the results of my cluster analysis, вы должны начать с них: http://www.statmethods.net/advstats/cluster.html http://www.r-tutor.com/gpu-computing/clustering/hierarchical-cluster-analysis http://gastonsanchez.wordpress.com/2012/10/03/7-ways-to-plot-dendrograms-in-r/ И посмотрите здесь более экзотические методы: http://cran.r-project.org/web/views/Cluster.html

Вот несколько примеров:

d_dist <- dist(as.matrix(d))   # find distance matrix 
plot(hclust(d_dist))           # apply hirarchical clustering and plot

# a Bayesian clustering method, good for high-dimension data, more details:
# http://vahid.probstat.ca/paper/2012-bclust.pdf
install.packages("bclust")
library(bclust)
x <- as.matrix(d)
d.bclus <- bclust(x, transformed.par = c(0, -50, log(16), 0, 0, 0))
viplot(imp(d.bclus)$var); plot(d.bclus); ditplot(d.bclus)
dptplot(d.bclus, scale = 20, horizbar.plot = TRUE,varimp = imp(d.bclus)$var, horizbar.distance = 0, dendrogram.lwd = 2)
# I just include the dendrogram here

Кроме того, для высокоразмерных данных используется библиотека pvclust, которая вычисляет значения p для иерархической кластеризации с помощью повторной выборки с многомасштабной перезагрузкой. Вот пример из документации (не работает над такими низкоразмерными данными, как в моем примере):

library(pvclust)
library(MASS)
data(Boston)
boston.pv <- pvclust(Boston)
plot(boston.pv)

Помогает ли это?

Это может быть самый странный ответ, который я когда-либо видел на SO. +1
Спасибо, было весело собрать вместе (я приверженец тезиса о графизме )
Да, это было превосходно ... большое спасибо за потрясающее объяснение. Не только графики, но и пакеты и код, чтобы показать, как их использовать! :)
Для последней дендограммы (кластерная дендограмма с AU / BP) иногда удобно рисовать прямоугольники вокруг групп с относительно высокими значениями p: pvrect (fit, alpha = 0,95)
+1 это намного полезнее, чем что-либо, что я когда-либо читал на stats.stackexchange много нового для меня здесь.
Это просто лучший ответ на стек, который я когда-либо видел. Потрясающие усилия и отличное объяснение !!!
Это именно то, что я искал. Я новичок в R, и мне понадобилось бы очень много времени, чтобы найти это. Спасибо @Ben за ответ в таких деталях. Не могли бы вы подсказать мне, где я могу найти логику каждого из этих методов, например, какой показатель или критерий они используют для определения оптимального количества кластеров, или как каждый из них отличается друг от друга. Мой начальник хочет, чтобы я сказал это, чтобы мы могли решить, какой из методов использовать. Заранее спасибо.
Да, вы можете проверить исходный код всех этих функций, чтобы узнать логику, метрики и отличия друг от друга. Помимо этого, вы можете найти несколько полезных учебников по статистике .
Почему вы написали следующий код в ответе Один? wss <- (nrow (mydata) -1) * sum (apply (mydata, 2, var)) Я ошибаюсь или wss перезаписывается в цикле? Tnx
Для кластеризации теперь есть библиотека freqparcoord.
Отличный ответ! Методы визуализации хороши, однако, я был бы заинтересован в чисто аналитическом подходе для выбора оптимального числа кластеров в качестве входных данных для дальнейшего анализа моделей гауссовой смеси. Я пытался использовать MclustDA() , но он выдает ошибку «невозможно выделить вектор размером 1,8 Гб», что странно, поскольку мои данные поезда представляют собой числовой вектор только из 26970 элементов. Зачем? Я обнаружил интересный и многообещающий подход, описанный здесь ( smtp.intjit.org/journal/volume/12/7/127_2.pdf ), но не смог найти его реализацию, желательно на R. Что вы об этом думаете?
Единственный аналитический метод из вашего ответа, который я мог бы использовать, это метод pam() из пакета fpc . Я только что попробовал это с 50K числовым вектором, но он выдал ошибку "не могу выделить вектор размером 10,8 Гб". Не могли бы вы уточнить это? Мне все еще интересно ваше мнение о подходе, указанном в моем предыдущем комментарии. Спасибо!
@superagio, эта строка дает значение для wss[1] , вы не сможете ясно увидеть «локоть» без него.
@ АлександрБлех спасибо за твою любезную записку. Вероятно, эти функции включают в себя большое копирование ваших данных, поэтому вам не хватает памяти. Вы можете переписать их, чтобы минимизировать копирование, или использовать более простые функции, которые меньше копируют, или сэмплировать ваши данные, пока они не поместятся в вашей оперативной памяти. Я не знаком с этой статьей, но похоже, что она имеет некоторые сходства с функцией Mclust которую вы уже пробовали.
С удовольствием! Спасибо за ваш отзыв. Несмотря на то, что это интересная тема, я сейчас подвергаю сомнению осуществимость моих усилий по использованию гауссовского анализа смеси для определения компонентов, учитывая, что я все равно делаю факторный анализ для своего исследования.
@Ben У меня есть вопрос, который может быть более концептуальным, но я не смог найти ответ, поэтому я должен наткнуться на этот пост, надеясь, что вы мне поможете, поскольку я был поражен вашим ответом. Я не работаю с R, но у меня есть проблема с определением количества кластеров. Если я пытаюсь использовать метод локтя - мне нужно перезапустить алгоритм при увеличении количества кластеров. Как я могу узнать, насколько случайная инициализация влияет на уменьшение функции? Может быть, уменьшение будет больше из-за лучшей инициализации? Было бы здорово, если бы вы могли ответить. Спасибо
@eugen этот вопрос немного для этого небольшого пространства комментариев. Попробуйте задать это как вопрос на CrossValidated.
@ Бен Хорошо, спасибо за предложение, я попробую.
Такой высокий стандарт ответа заслуживает уникальной и специальной платиновой метки.
@ Александр Блех Вы также можете попробовать превратить любой графический метод в аналитический. Например, я использую метод «локтя» (впервые упоминается в ответе), но пытаюсь найти его аналитически. Точка локтя может быть точкой с максимальной кривизной. Для дискретных данных это точка с максимальной центральной разностью второго порядка (аналог макс. Производной второго порядка для непрерывных данных). См. Stackoverflow.com/a/4473065/1075993 и stackoverflow.com/q/2018178/1075993 . Я предполагаю, что другие графические методы могут быть преобразованы в аналитические.
@AndreySapegin: Я мог бы, но: 1) честно говоря, я не считаю это элегантным решением (ИМХО, в большинстве случаев визуальные методы должны оставаться визуальными, в то время как аналитические должны оставаться аналитическими); 2) Я нашел аналитическое решение для этого, используя один или несколько пакетов R (он есть на моем GitHub - вы можете посмотреть); 3) мое решение, кажется, работает достаточно хорошо, к тому же прошло много времени, и я уже завершил подготовку своего диссертационного программного обеспечения, отчета о диссертации (тезис) и в настоящее время готовлюсь к защите :-). Несмотря на это, я очень ценю ваш комментарий и ссылки. Всего наилучшего!
очень хороший ответ, но все зависело от готового программного обеспечения. Я не вижу здесь никакого объяснения алгоритма :(
Действительно отличный ответ, который я когда-либо упоминал .. проголосовал !!!
2,2 миллиона строк в моем текущем наборе данных кластеризации. Я полагаю, что ни один из этих пакетов R не работает на нем. Они просто выскакивают из моего компьютера, а потом это падает из моего опыта. Тем не менее, похоже, что автор знает свое дело для небольших данных и для общего случая, независимо от емкости программного обеспечения. Баллы не вычитаются из-за очевидной хорошей работы автора. Вы, пожалуйста, просто знайте, что старый добрый R ужасен на 2,2 миллиона строк - попробуйте сами, если не доверяете мне. H2O помогает, но ограничен небольшим огороженным садом счастья.
Я пробовал с clusGap(mydata, kmeans, 10, B = 100, verbose = interactive()) где mydata - это просто 200000 строк данных из двух столбцов. Не удалось, и появилось сообщение типа Error: cannot allocate vector of size 129.1 Gb In addition: Warning messages: 1: In dist(xs) : Reached total allocation of 32586Mb: see help(memory.size) хотя у меня Error: cannot allocate vector of size 129.1 Gb In addition: Warning messages: 1: In dist(xs) : Reached total allocation of 32586Mb: see help(memory.size) ОЗУ с 8 ядрами. ЦПУ!!
Этот ответ эпический и вечнозеленый. это когда-то помогло мне в интервью ..
Отличный ответ, в примере с NbClust , не должен ли он быть NULL , без кавычек?

Matt Bannert · Answer 2 · 2016-04-19T21-42-00.000Z

Трудно добавить что-то слишком сложный ответ. Хотя я чувствую, что мы должны упомянуть identify здесь, особенно потому, что @Ben показывает много примеров дендрограмм.

d_dist <- dist(as.matrix(d))   # find distance matrix 
plot(hclust(d_dist)) 
clusters <- identify(hclust(d_dist))

identify позволяет вам интерактивно выбирать кластеры из дендрограммы и сохраняет ваши варианты в списке. Нажмите Esc, чтобы выйти из интерактивного режима и вернуться в консоль R. Обратите внимание, что список содержит индексы, а не имена ростов (в отличие от cutree).

VanThaoNguyen · Answer 3 · 2016-08-09T10-15-00.000Z

Чтобы определить оптимальный k-кластер в методах кластеризации. Обычно я использую метод Elbow, который сопровождает параллельную обработку, чтобы избежать компрометации времени. Этот код может выглядеть следующим образом:

Метод локтя

elbow.k <- function(mydata){
dist.obj <- dist(mydata)
hclust.obj <- hclust(dist.obj)
css.obj <- css.hclust(dist.obj,hclust.obj)
elbow.obj <- elbow.batch(css.obj)
k <- elbow.obj$k
return(k)
}

Параллельный локоть

no_cores <- detectCores()
    cl<-makeCluster(no_cores)
    clusterEvalQ(cl, library(GMD))
    clusterExport(cl, list("data.clustering", "data.convert", "elbow.k", "clustering.kmeans"))
 start.time <- Sys.time()
 elbow.k.handle(data.clustering))
 k.clusters <- parSapply(cl, 1, function(x) elbow.k(data.clustering))
    end.time <- Sys.time()
    cat('Time to find k using Elbow method is',(end.time - start.time),'seconds with k value:', k.clusters)

Хорошо работает.

Функции elbow и css взяты из пакета GMD: cran.r-project.org/web/packages/GMD/GMD.pdf

zsram · Answer 4 · 2017-04-12T21-15-00.000Z

Великолепный ответ от Бена. Однако я удивлен тем, что метод распространения аффинности (AP) был предложен только для того, чтобы найти число кластеров для метода k -средства, где в общем случае AP делает лучшую кластеризацию данных. См. Научную статью, поддерживающую этот метод в Science:

Фрей, Брендан Дж. и Делберт Дуек. "Кластеризация путем передачи сообщений между точками данных". наука 315.5814 (2007): 972-976.

Итак, если вы не привязаны к k-значению, я предлагаю напрямую использовать AP, который будет группировать данные, не требуя знать количество кластеров:

library(apcluster)
apclus = apcluster(negDistMat(r=2), data)
show(apclus)

Если отрицательные эвклидовы расстояния не подходят, вы можете использовать другие меры сходства, предусмотренные в том же пакете. Например, для сходства, основанного на корреляциях Спирмена, это то, что вам нужно:

sim = corSimMat(data, method="spearman")
apclus = apcluster(s=sim)

Обратите внимание, что эти функции для сходства в пакете AP просто предоставляются для простоты. Фактически, функция apcluster() в R примет любую матрицу корреляций. То же самое с corSimMat() можно сделать с помощью этого:

sim = cor(data, method="spearman")

или

sim = cor(t(data), method="spearman")

в зависимости от того, что вы хотите сгруппировать на своей матрице (строки или столбцы).

RDRR · Answer 5 · 2017-12-27T15-23-00.000Z

Эти методы хороши, но при попытке найти k для гораздо больших наборов данных, они могут быть очень медленными в R.

Хорошее решение, которое я нашел, - это пакет "RWeka", который имеет эффективную реализацию алгоритма X-Means - расширенную версию K-Means, которая лучше масштабируется и определит оптимальное количество кластеров для вас.

Сначала вы должны убедиться, что Weka установлена в вашей системе и что XMeans установлен через инструмент менеджера пакетов Weka.

library(RWeka)

# Print a list of available options for the X-Means algorithm
WOW("XMeans")

# Create a Weka_control object which will specify our parameters
weka_ctrl <- Weka_control(
    I = 1000,                          # max no. of overall iterations
    M = 1000,                          # max no. of iterations in the kMeans loop
    L = 20,                            # min no. of clusters
    H = 150,                           # max no. of clusters
    D = "weka.core.EuclideanDistance", # distance metric Euclidean
    C = 0.4,                           # cutoff factor ???
    S = 12                             # random number seed (for reproducibility)
)

# Run the algorithm on your data, d
x_means <- XMeans(d, control = weka_ctrl)

# Assign cluster IDs to original data set
d$xmeans.cluster <- x_means$class_ids

boyaronur · Answer 6 · 2017-08-23T00-20-00.000Z

Ответы замечательные. Если вы хотите дать возможность другому методу кластеризации, вы можете использовать иерархическую кластеризацию и посмотреть, как расщепляются данные.

> set.seed(2)
> x=matrix(rnorm(50*2), ncol=2)
> hc.complete = hclust(dist(x), method="complete")
> plot(hc.complete)

В зависимости от того, сколько классов вам нужно, вы можете вырезать свою дендрограмму как:

> cutree(hc.complete,k = 2)
 [1] 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 2 1 1 1 1 1 2 1 1 1
[26] 2 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 1 1 1 1 1 1 1 2

Если вы наберете ?cutree, вы увидите определения. Если ваш набор данных имеет три класса, это будет просто cutree(hc.complete, k = 3). Эквивалент для cutree(hc.complete,k = 2) равен cutree(hc.complete,h = 4.9).

Cro-Magnon · Answer 7 · 2018-12-12T22-03-00.000Z

Простым решением является библиотека factoextra. Вы можете изменить метод кластеризации и метод расчета лучшего количества групп. Например, если вы хотите узнать лучшее число кластеров для k-, значит:

Данные: mtcars

library(factoextra)   
fviz_nbclust(mtcars, kmeans, method = "wss") +
      geom_vline(xintercept = 3, linetype = 2)+
      labs(subtitle = "Elbow method")

Наконец, мы получаем график вроде: