k-均值:一种基于型心的技术

来源:互联网 发布:实体店出票软件 编辑:程序博客网 时间:2024/05/24 00:58

1.一些概念

对于给定的数据集D,将D聚类成k个簇c1,c2,...ck;

k-均值算法用簇ci的型心代表簇,把簇型心定义为簇内点的均值,

对象p到型心ci的距离用欧式距离度量dist(p,ci),

簇ci的质量用簇内变差度量,它是ci中所有对象和形心ci之间的误差的平方和,定义为:

E=ki=1dist(p,ci)2pCi  


2.k-均值算法执行流程:

首先在D中随机选择k个对象,每个对象代表一个簇的初始均值,根据欧式距离将剩余对象分配到最相似的簇;

然后对每个簇使用上次迭代分配到的对象计算新的均值,然后使用更新后的均值作为新的簇中心,重新分配所有对象;

迭代继续,直到分配稳定,即本轮形成的簇与上一轮形成的簇相同。

它通常止于局部最优解,结果可能依赖于初始中心点的选择,实践中为了得到好的结果,通常以不同的初始簇中心,多次运行。

3.适用条件及缺点:

仅当均值有定义时才能使用,例如当涉及标称属性时均值可能无定义;

要求用户必须给出要生成的簇数;

不适于发现非凸形的簇或者大小差别很大的簇,他对噪声和离群点敏感。


 ∑
 ∑
原创粉丝点击