K-means学习笔记

来源：互联网发布：电脑网络维修上门编辑：程序博客网时间：2024/04/30 02:01

K-means学习笔记

K-means(K均值)是基于数据划分的无监督聚类算法。

参考文献：SomeMethods for Classification and Analysis of Multivariate Observations.

K-means聚类算法是一种无监督的分类方法。即样本集预先不知所属类别或标签，需要根据样本之间的距离或相似程度自动进行分类。K-means属于基于划分的聚类方法。

K-means聚类根据预先设置好的K值，进行迭代聚类过程【后续】，最终将样本划分为K个区域S_K，每个区域有一个聚类中心c_K。最终的结果，希望类内的相似性最高，类间的相似性最低。

聚类过程：

第一步：初始化聚类中心：c₁，c₂，…，c_K，该过程一般随机取值。也因为这个初始化过程的随机性，K-means算法的结果会出现误差。

第二步：分配各个样本x_j到相近的聚类集合。这个相近由我们定义的距离来衡量，一般使用2范式：

第三步：根据分配结果，更新聚类中心：

第四步：若迭代达到最大迭代步数或者前后两次迭代的差小于设定阈值，即

则算法结束，否则回到步骤2.

0 0