K-means学习笔记

来源:互联网 发布:电脑网络维修上门 编辑:程序博客网 时间:2024/04/30 02:01

K-means学习笔记

K-means(K均值)是基于数据划分的无监督聚类算法。

参考文献:SomeMethods for Classification and Analysis of Multivariate Observations.

       K-means聚类算法是一种无监督的分类方法。即样本集预先不知所属类别或标签,需要根据样本之间的距离或相似程度自动进行分类。K-means属于基于划分的聚类方法。

       K-means聚类根据预先设置好的K值,进行迭代聚类过程【后续】,最终将样本划分为K个区域SK,每个区域有一个聚类中心cK。最终的结果,希望类内的相似性最高,类间的相似性最低。

聚类过程:

第一步:初始化聚类中心:c1,c2,…,cK,该过程一般随机取值。也因为这个初始化过程的随机性,K-means算法的结果会出现误差。

第二步:分配各个样本xj到相近的聚类集合。这个相近由我们定义的距离来衡量,一般使用2范式:


第三步:根据分配结果,更新聚类中心:


第四步:若迭代达到最大迭代步数或者前后两次迭代的差小于设定阈值,即


则算法结束,否则回到步骤2.

0 0
原创粉丝点击