K-Means算法

来源：互联网发布：maven java目录下的xml 编辑：程序博客网时间：2024/06/03 23:28

K-MEANS算法

K-MEANS算法用质心定义原型，其中质心是一组点的均值。

这是一种常见的选择质心的方法，但是簇的质量常常很差

计算每个点与每个质心的相似度：如果数据在低维度空间里，许多相似度计算都可以避免

目标函数：平方误差和SSE

SSE=∑i=1K∑cidist(Ci,X)2

K值的不确定是KMEANS算法的一个缺点，另一个是质心的选择。如果我们不能凭借经验来确定K的值的时候，可以尝试采取以下方法来确定K：

如果初始质心选择不当的话很有可能导致聚类效果不佳或者收敛速度慢。但是我们可以用k-means++来解决这个问题，其算法原理为：

这种算法虽然解决了后续质心选择的问题，但是依然没有解决初始质心选择随机的问题。

如果所有的点在指派的步骤都未分配到某个簇，就会形成空簇

尽量识别并删除

为了得到K个簇，将所有的点的集合分裂成两个簇，从这些簇中选取一个继续分裂，如果下去，直到产生K个簇。

待分裂的簇有许多种不同的选择方法：个数最多的簇或者SSE最大的簇

K均值优点：简单易用，不受初始化质心的影响，如果K足够大，能发现纯子簇
K均值缺点：不适合处理非球形簇，不同尺寸和不同密度的簇

阅读全文

0 0