利用互信息比较不同的聚类结果

来源：互联网发布：java输出正三角形编辑：程序博客网时间：2024/06/08 14:57

互信息（mutual information）和信息熵（information entropy）一样都是信息论里面的概念。信息熵在决策树里面用的比较多，可以度量样本集合的纯度。而互信息在聚类中有很大的作用，它可以衡量对同一个数据集不同的划分的之间的相似程度。

假设Pa，Pb表示数据集X上的两个不同的划分，X包括n的样本。

Pa包含ka个簇，Pa= {Ca1,Ca2,⋯,Caka}。

Pb包含kb个簇，Pb= {Cb1,Cb2,⋯,Cbkb}。

nabij表示Cai和Cbj中相同样本的个数。

nai表示Cai中样本的个数，nbj表示Cbj中样本的个数。

Pa，Pb的互信息为I(Pa，Pb):

I (P a ， P b) = \sum i = 1 k a \sum j = 1 k b n a b i j n log (n a b i j n n a i n * n b j n)

接下来还要对I(Pa，Pb)进行标准化，使I(Pa，Pb)的值域为[0,1]
标准化的互信息用NMI表示：

N M I (P a, P b) = I ( P a , P b ) H ( P a ) * H ( P b ) - - - - - - - - - - - - \sqrt

其中

H(Pa),H(Pb)分别表示

Pa,Pb的信息熵

NMI(Pa,Pb)的值介于0到1之间，当划分

Pa,Pb只有很小的差别时，

NMI(Pa,Pb)趋近于1，反之趋近于0。

如果我们通过先验信息，知道了真正的划分P∗，那么就可以用NMI(Pa，P∗)来检验划分Pa是否合理。

阅读全文

0 1