k_means聚类后簇缺失问题的解决办法

来源：互联网发布：善领p57数据升级编辑：程序博客网时间：2024/06/07 02:27

今天在用自己之前写的k-means算法对iris数据集聚类时，发现聚类结果经常只有两个类，比实际少一个，这是得聚类的精度大打折扣。

于是乎想了个办法，在聚类的过程中，如果发现在某一次迭代后某一个簇的实例数为零，此时无法计算簇心。为了保持簇的数量不减少，可以利用其他簇心构造一个簇心，最简单的方法就是将其他簇心的平均值作为新的簇心。

代码示例如下：

% 更新聚类中心z = 0;for i = 1:N    cln = data(cl==i,:);    ct(i,:) = sum(cln)/max(eps,size(cln,1));    if size(cln,1) == 0        z = i;    endend% 构造缺失簇心if z ~= 0    ct(z,:) = sum(ct)/(size(ct,1)-1);end

经实验验证，在不处理簇缺失的情况下，如果发生簇缺失，聚类准确率大概只有0.67；而通过构造缺失簇心可以使准确类保持0.9左右。

阅读全文

0 0