Automated Variable Weighting in k-Means Type Clustering

来源:互联网 发布:美国人性格 知乎 编辑:程序博客网 时间:2024/06/05 11:28

本内容整理自 Automated Variable Weighting in k-Means Type Clustering

这篇文章主要的创新点在于–给予特征向量的每个维度一个权重ωj,称之为W-k-Means的方法。该方法主要用于数据挖掘和统计学中的特征筛选。

原始的K-means聚类方法不足之处在于,如果数据集当中混有大量随机噪音(也就是特征向量中有若干维在聚类过程中是不起作用的,反而会对结果产生干扰)的情况下,不能很好的对其进行聚类,即使是原数据集有很好的簇结构的情况下。

这里写图片描述
数据集X=[x1,x2]如上图所示,本来有很好的簇结构,但是在加入一组随机噪音x3之后(X=[x1,x2,x3]),很明显的就破坏了原先的簇结构,若再用K-means聚类方法恐怕就很难得到理想的结果了。那么此时就要用该论文中提到的W-K-means方法进行聚类了。
这里写图片描述

1.W-K-means的思想

在原始K-Means的基础上,给予特征向量的每个维度一个权重ωj。这样,对于噪音所在的维度来说,其权重就应该很小,这要整体的代价才会降到最低。

2.代价函数

K-means:

这里写图片描述

W-K-means:

P(U,Z,ω)=l=1ki=1nj=1mui,lωβjd(xi,j,zl,j)(8)

这里写图片描述


3.求解参数

迭代的计算步骤,同K-mean算法一样(戳此处),只是在计算的时候带上权重值即可。而问题的关键在于如何求解权重ω.这篇论文用到的方法是拉格朗日乘数法来求解参数的。

这里写图片描述


4.实现

matlab源码