Kmeans算法原理

来源：互联网发布：位图软件什么意思编辑：程序博客网时间：2024/06/12 02:57

1、算法流程
KMeans算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。
Kmeans中，初始聚类中心的选取对聚类的结果有较大的影响，因此，在该算法中第一步是是随机的选取任意k个对象作为初始聚类中心，初始的代表一个簇。在每次迭代中，对数据集中剩余的每个对象，根据其与各个簇中心的距离赋给最近的簇。当考察完所有的数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，j的值没有发生变化，则说明算法已经收敛。
算法过程如下：
（1）从N个数据中随机的选取K个数据作为质心。
（2）计算剩余的数据到每个质心的距离，并把它归到最近的质心所属的类。
（3）重新计算各个类的质心。
（4）迭代（2）—>（3）直至新的质心与原质心相等或小于指定的阈值，算法结束。

阅读全文

1 0