k_means聚类后簇缺失问题的解决办法

来源:互联网 发布:善领p57数据升级 编辑:程序博客网 时间:2024/06/07 02:27

今天在用自己之前写的k-means算法对iris数据集聚类时,发现聚类结果经常只有两个类,比实际少一个,这是得聚类的精度大打折扣。

于是乎想了个办法,在聚类的过程中,如果发现在某一次迭代后某一个簇的实例数为零,此时无法计算簇心。为了保持簇的数量不减少,可以利用其他簇心构造一个簇心,最简单的方法就是将其他簇心的平均值作为新的簇心。

代码示例如下:

% 更新聚类中心z = 0;for i = 1:N    cln = data(cl==i,:);    ct(i,:) = sum(cln)/max(eps,size(cln,1));    if size(cln,1) == 0        z = i;    endend% 构造缺失簇心if z ~= 0    ct(z,:) = sum(ct)/(size(ct,1)-1);end

经实验验证,在不处理簇缺失的情况下,如果发生簇缺失,聚类准确率大概只有0.67;而通过构造缺失簇心可以使准确类保持0.9左右。

原创粉丝点击