Насколько надежна кривая Колена при нахождении K в K-средних?

Question

Насколько надежна кривая Колена при нахождении K в K-средних?

1

Поэтому я пытался использовать кривую Локоть, чтобы найти значение оптимального "K" (количество кластеров) в кластеризации K-Means.

Кластеризация была выполнена для средних векторов (с использованием Word2Vec) текстового столбца в моем наборе данных (1467 строк). Но, глядя на мои текстовые данные, я могу четко найти более трех групп, в которые могут быть сгруппированы данные.

Я читал, что рассуждение состоит в том, чтобы иметь небольшое значение k, сохраняя при этом сумму квадратов ошибок (SSE). Может ли кто-нибудь сказать мне, насколько надежна кривая локтя? Также, если что-то мне не хватает.

Прикрепление кривой локтя для справки. Я также попытался построить его до 70 кластеров, поисковых. .

Parvathy Sarat 26 сен. 2018, в 11:50

Источник

2

Два человека, смотрящие на одну и ту же кривую локтя, могут прийти к разным выводам об оптимальном количестве кластеров. Альтернативная мера - средняя ширина силуэта. Есть множество других мер. В R вы можете использовать пакет NbClust и его функцию NbClust. Он рассчитает до 30 показателей и даст вам большинство голосов за рекомендованное количество кластеров. (По умолчанию он вычисляет 26 мер, потому что 4 являются вычислительно дорогими.) Используйте функцию fviz_nbclust из пакета factoextra для визуализации результатов. Вообще, я бы посмотрел на контекст, а не только на статистические показатели.
Wolf 26 сен. 2018, в 09:56
0

@Wolf Спасибо за понимание. Мне помог силуэт, (рад, что я опубликовал это), думаю, что их следует рассматривать как эвристику!
Parvathy Sarat 26 сен. 2018, в 12:11

Теги:

python

r

k-means

word2vec

cluster-analysis

1 ответ

Ещё вопросы

Два человека, смотрящие на одну и ту же кривую локтя, могут прийти к разным выводам об оптимальном количестве кластеров. Альтернативная мера - средняя ширина силуэта. Есть множество других мер. В R вы можете использовать пакет NbClust и его функцию NbClust. Он рассчитает до 30 показателей и даст вам большинство голосов за рекомендованное количество кластеров. (По умолчанию он вычисляет 26 мер, потому что 4 являются вычислительно дорогими.) Используйте функцию fviz_nbclust из пакета factoextra для визуализации результатов. Вообще, я бы посмотрел на контекст, а не только на статистические показатели.
@Wolf Спасибо за понимание. Мне помог силуэт, (рад, что я опубликовал это), думаю, что их следует рассматривать как эвристику!

Anony-Mousse · Accepted Answer · 2018-09-27T04-02-00.000Z

"Локоть" даже не определен. Так как же она может быть надежной?

Вы можете "нормализовать" значения по ожидаемому отклонению от разделения данных на кластеры k, и это станет немного более читаемым. К сожалению, я забыл точное название этого критерия. Калинский и Харабаш (1974) критерий соотношения дисперсии? Если я правильно назову это имя, это по существу перемасштабированная версия, которая имеет больше смысла.