聚类算法

来源:互联网 发布:js删除集合对象元素 编辑:程序博客网 时间:2024/06/05 14:36

1. 初始随机选择K个样本作为类中心点


初始点的选择很重要,可能会产生上述情况。因此可以考虑多次初始化初始点并观察结果。可以考虑运行K-means 100次这样,当聚类类别K在2-10以内多次随机比较好。当聚类类别K过多时,多次随机初始化可能并不会带来提升。

2. 迭代中聚类中心点的选取

通常是计算每一个簇中样本点均值作为下次的中心点(K-means)。也可以中位数(k-median),类中到其他所有点的距离之和最小的样本作为中心点(k-medoids),距离均值最近的样本作为中心点(K-centers等。

3. 停止条件

当失真函数最小时。当中心点不在发生变化时,当所有分类结果不发生改变时,达到指定迭代次数时。

4. 问题

K的选择问题:肘部法则;根据实际目的,如尺码设定选择K