Automated Variable Weighting in k-Means Type Clustering

来源：互联网发布：美国人性格知乎编辑：程序博客网时间：2024/06/05 11:28

本内容整理自 Automated Variable Weighting in k-Means Type Clustering

这篇文章主要的创新点在于–给予特征向量的每个维度一个权重ωj，称之为W-k-Means的方法。该方法主要用于数据挖掘和统计学中的特征筛选。

原始的K-means聚类方法不足之处在于，如果数据集当中混有大量随机噪音（也就是特征向量中有若干维在聚类过程中是不起作用的，反而会对结果产生干扰）的情况下，不能很好的对其进行聚类，即使是原数据集有很好的簇结构的情况下。

这里写图片描述
数据集X=[x1,x2]如上图所示，本来有很好的簇结构，但是在加入一组随机噪音x3之后(X=[x1,x2,x3])，很明显的就破坏了原先的簇结构，若再用K-means聚类方法恐怕就很难得到理想的结果了。那么此时就要用该论文中提到的W-K-means方法进行聚类了。
这里写图片描述

1.W-K-means的思想

在原始K-Means的基础上，给予特征向量的每个维度一个权重ωj。这样，对于噪音所在的维度来说，其权重就应该很小，这要整体的代价才会降到最低。

2.代价函数

K-means:

这里写图片描述

W-K-means:

P (U, Z, ω) = \sum l = 1 k \sum i = 1 n \sum j = 1 m u i, l ω β j d (x i, j, z l, j) (8)

这里写图片描述

3.求解参数

迭代的计算步骤，同K-mean算法一样（戳此处），只是在计算的时候带上权重值即可。而问题的关键在于如何求解权重ω.这篇论文用到的方法是拉格朗日乘数法来求解参数的。

这里写图片描述

4.实现

matlab源码

阅读全文

0 0