Поэтому я пытался использовать кривую Локоть, чтобы найти значение оптимального "K" (количество кластеров) в кластеризации K-Means.
Кластеризация была выполнена для средних векторов (с использованием Word2Vec) текстового столбца в моем наборе данных (1467 строк). Но, глядя на мои текстовые данные, я могу четко найти более трех групп, в которые могут быть сгруппированы данные.
Я читал, что рассуждение состоит в том, чтобы иметь небольшое значение k, сохраняя при этом сумму квадратов ошибок (SSE). Может ли кто-нибудь сказать мне, насколько надежна кривая локтя? Также, если что-то мне не хватает.
Прикрепление кривой локтя для справки. Я также попытался построить его до 70 кластеров, поисковых. .
"Локоть" даже не определен. Так как же она может быть надежной?
Вы можете "нормализовать" значения по ожидаемому отклонению от разделения данных на кластеры k, и это станет немного более читаемым. К сожалению, я забыл точное название этого критерия. Калинский и Харабаш (1974) критерий соотношения дисперсии? Если я правильно назову это имя, это по существу перемасштабированная версия, которая имеет больше смысла.