聚类(二)

来源:互联网 发布:会声会影软件百度云 编辑:程序博客网 时间:2024/06/16 20:53

本篇文章将续接上篇博文,描述:高斯混合聚类,密度聚类和层次聚类。

1.高斯混合聚类

高斯混合聚类是采用概率模型来表达聚类原型。这句话太抽象了,通俗来讲就是上篇博文里面提到的k均值算法和学习向量量化算法。是通过训练样本找到每个类的中心,然后测试的时候计算测试样本距离谁近,则该样本就归为哪一类。而高斯混合聚类是计算一个形似P(C/X)的概率值,谁大,就归为那一类。
我们可以定义一个高斯混合分布:

PM(x)=i=1kαip(x/ui,Σi)(1)

混合也即将簇i看做服从(ui,Σi)的高斯分布,然后将其线性相加构成整体的分布。其中αi为样本x 属于簇i的先验概率。而我们将样本聚合为簇i 的依据就是
PM(zj=i/xj)=P(zj=i).pM(xj/zj=i)pm(xj)=αip(xj/ui,Σi)kl=1αlp(xj/ul,Σl)

我们用γji来表示将样本xj归为iPM(zj=i/xj)
算法的关键其实就变成如何求得上式中的参数αi,ui,Σi
运用极大似然估计算法可以得到:
ui=mj=1γjixjmj=1γji

Σi=mj=1γji(xjui)(xjui)Tmj=1γji

αi=1/mj=1mγji

你会发现我们最终要求得是每个样本的γji,是通过先求得ui,Σi,αi带入式子1求的。而求这三个参数的公式又需要γji。这种要利用所求来求所求的问题可以同构EM算法来实现。即先随机给
ui,Σi,αi一个初始值,求得γji,再用γji求得一个新的ui,Σi,αi。如此不断的迭代。
算法的流程如下图:
输入:样本集D=x1,x2,...xm
高斯混合成分个数k
过程:
1.初始化高斯混合分布的模型参数(αi,ui,Σi)1ik
2.repeat:
3.for j=1,2,….,m do
4.计算γji=PM(zj=i/xj)(1ik)
5.2end for
6.for i=1,2,…,k do
7.计算新均值向量:ui,新的协方差矩阵:Σi,新的混合系数:αi
8.end for
9.until 满足停止条件 (一般为达到最大迭代轮数
10.for j=1,2,…m do
11.根据γji的大小将xj换分为簇i
12.end for
输出:簇划分C={C1,C2,...Ck}

2.密度聚类

这里写图片描述

2.1kmeans算法和密度聚类算法的比较

如果让我们人眼来看,我们肯定会把这幅图按照轮廓很容易的分类,其实我们是利用了密度的连续性。以图中右边两部分一团点和一个镰刀样子的东西,如果用kmeans算法,分为两类极有可能分为上下部分。而按照密度聚类和我们人的智商,明显会把它分为左右两类。因为显然镰刀和一团之间出现了天然的割裂带,密度在这一个地方出现了陡变。而如果以整体距离最小,在整体的影响下,这个天然的隔离带就会被忽略。
那么如何定义“密度低联系性”

2.2如何定义密度的连续性

DBSCAN算法定义了一组“邻域”参数(ε,MinPts),有了这两个参数,我们就可以定义下面几个很重要的概念了。
核心对象(core object):若xjε邻域有超过MinPts个对象,则xj称为核心对象。
密度直达:核心对象xjε邻域里面的点对于核心对象来说都是密度直达。
密度可达:如果核心对象xjxj+1密度可达,xj+1也是核心对象,那么xj+1密度直达的点,对于xj来说就是密度可达。
把所有密度可达的点相连就构成了密度相连,保证了这些样本的密度连续性,可以将其归为一簇。

2.3算法描述

输入:样本集D=x1,x2....xm;
领域参数(ε,MinPts)
过程:
1.初始化核心对象集合:Ω=
2:for j=1,2,….m do
确定样本xjϵ领域Nϵ(xj);
if|Nϵ(xj)|MinPts then
将样本xj加入核心对象集合:Ω
end if
endfor
初始化聚类簇数:k=0
初始化未访问的样本集合Γ=D
while Ω do
随机选取一个和新对象oΩ,初始化队列Q=<o>
Γ=Γ \ {o}
while Q
取出队列Q中的首个样本q
if|Nϵ(q)MinPts| then
Δ=Nϵ(q)Γ
\varDeltaΔ中的样本加入队列Q
Γ=Γ\ Δ
end if
end while
k=k+1,生成聚类簇 Ck=Γold\ Γ
Ω=Ck
end while
输出:簇划分 C=C1,C2,...Ck

3.层次聚类

层次聚类(hierarchical clustering)思想很简单,以AGNES为例,一开始将每个样本看作一个初始聚类簇,然后再算法运行的每一步找出距离最近的两个聚类簇进行合并,不断重复,直至达到预设的聚类簇个数。
距离可以使用最小距离,最大距离,和平均距离。

0 0
原创粉丝点击