Насколько надежна кривая Колена при нахождении K в K-средних?

1

Поэтому я пытался использовать кривую Локоть, чтобы найти значение оптимального "K" (количество кластеров) в кластеризации K-Means.

Кластеризация была выполнена для средних векторов (с использованием Word2Vec) текстового столбца в моем наборе данных (1467 строк). Но, глядя на мои текстовые данные, я могу четко найти более трех групп, в которые могут быть сгруппированы данные.

Я читал, что рассуждение состоит в том, чтобы иметь небольшое значение k, сохраняя при этом сумму квадратов ошибок (SSE). Может ли кто-нибудь сказать мне, насколько надежна кривая локтя? Также, если что-то мне не хватает.

Прикрепление кривой локтя для справки. Я также попытался построить его до 70 кластеров, поисковых. Изображение 174551.

Изображение 174551

  • 2
    Два человека, смотрящие на одну и ту же кривую локтя, могут прийти к разным выводам об оптимальном количестве кластеров. Альтернативная мера - средняя ширина силуэта. Есть множество других мер. В R вы можете использовать пакет NbClust и его функцию NbClust. Он рассчитает до 30 показателей и даст вам большинство голосов за рекомендованное количество кластеров. (По умолчанию он вычисляет 26 мер, потому что 4 являются вычислительно дорогими.) Используйте функцию fviz_nbclust из пакета factoextra для визуализации результатов. Вообще, я бы посмотрел на контекст, а не только на статистические показатели.
  • 0
    @Wolf Спасибо за понимание. Мне помог силуэт, (рад, что я опубликовал это), думаю, что их следует рассматривать как эвристику!
Теги:
k-means
word2vec
cluster-analysis

1 ответ

1
Лучший ответ

"Локоть" даже не определен. Так как же она может быть надежной?

Вы можете "нормализовать" значения по ожидаемому отклонению от разделения данных на кластеры k, и это станет немного более читаемым. К сожалению, я забыл точное название этого критерия. Калинский и Харабаш (1974) критерий соотношения дисперсии? Если я правильно назову это имя, это по существу перемасштабированная версия, которая имеет больше смысла.

  • 0
    Спасибо, что поделился.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню