K-measn 聚类:杂谈

来源:互联网 发布:巴西 知乎 编辑:程序博客网 时间:2024/06/16 12:49

0、K-means算法,也称 K-平均或 K-均值算法,是 MacQueen于1967年首次提出的,它是一种应用最广泛的硬聚类算法。

1、在 k-means 聚类模型中,相似度函数是关系到聚类效果好坏的关键因素。

2、聚类是模式识别和计算机视觉中的经典概念,其目的是将一个集合中的不同数据按照数据间相似程度大小,区分为不同的类别( 相似程度较大的数据组成一类、相似程度较小的数据组成不同类) 。

3、在传统的聚类模型中,该相似度函数一般通过人为事先假定。

4、常见的相似度函数形式包括:线性相似度函数、多项式相似度函数、双曲线相似度函数、高斯径向相似度函数等。

5、如何确定聚类模型中的相似度函数成为聚类研究中的核心问题?

6、相似度学习分为:有监督学习、无监督学习和半监督学习三大类。

7、“相似度”这个概念可以通过距离函数来定量表征; 这是因为在认知心理学中一般认为两相隔距离近的元素间的相似度会比两相隔距离远的元素间的相似度更高( 即相似度与距离成反比) 。因此,相似度函数的定义可以转化为对距离函数的定义。

8、算法的核心思想是通过迭代算法把数据集划分为不同的类别.利用函数求极值的方法得到迭代运算的调整规则,从而使生成的每一个聚类内紧凑,类间独立.这一算法不适合处理离散型属性,但是对于连续型具有比较好的聚类效果.K-means算法以欧式距离作为相似度测度,算法采用误差平方和准则函数作为聚类准则函数.

9、优缺点:K-means聚类算法作为典型的给予距离的非监督实时聚类算法,它强调以最小化误差函数为基础,将数据划分为预定的类数 K.这种算法的优点是原理简单,可以处理大量数据,广泛应用于数据分析中。其缺点是在进行分割前,必须先确定聚类数目迭代次数或收敛条件,并需确定初始聚类中心,形成类。然后以每一类的平均矢量作为这一类的聚类中心,重新分配,反复迭代直到类收敛或达到最大的迭代次数.

10、K-means聚类算法的K个初始类聚类中心点的选取对聚类结果具有较大的影响。因为在该算法第一步中是随机地选取任意 K 个对象作为初始聚类的类心。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个类中心的距离将其重新分配到最近的类心的类。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。

11、具体算法过程如下:

①从 N 个对象中随机选取K 个对象作为类心。

②对剩余的每个对象计算其到每个类心的距离,并把它归到最近的类心的类。

③重新计算已经得到的各个类的类心。

④迭代②③步直至新的类心与原类心相等或小于指定阈值,算法结束。

1
2
3

参考文献:

一种基于k_means聚类和半监督学习的医学图像分割算法

一种改进的K-means聚类算法的图像检索方法

一种改进的K-means聚类彩色图像分割方法

0 0
原创粉丝点击