经典聚类算法——K-means

来源:互联网 发布:网络最新赚钱方法 编辑:程序博客网 时间:2024/05/01 14:53

分类:有标签算法(监督学习)

聚类:无标签算法(无监督学习)

聚类主要思想:类内距离最小,类间距离最大。

K-means:将数据集算法将输入数据集D聚成K个簇,然后输出聚簇代表集合C(k个,即中心点),聚簇成员向量M。

步骤:确定k,选择k个聚类中心,将数据集的元素就近分配到k个簇中,更新k个簇的聚类中心,再重复分配元素,直聚类中心不再改变为止。

局限性:K-均值算法依赖于初始值的选取,仅能取得局部最优解,未必能得到全局最优解。

困难:参数k的取值困难,对于噪声点敏感。

空聚类解决办法:m从最大的聚簇中随机选取一个点作为新的簇的代表。

数据要求:数值型。

缺失值:替换。

效率低。


0 0
原创粉丝点击