Co-regularized PLSA for Multi-view Clustering

来源:互联网 发布:软件测试研究 编辑:程序博客网 时间:2024/04/30 12:27

这篇文章是比较新的一篇Muti-view Clustering的文章,它提出了一个CO-PLSA的模型,将不同view下的PLSA模型整合起来。这篇文章的主要基本思想是在某一个view下,如果两篇文章在主题空间中相似,那么他们在其他view下的主题空间也将类似。

我们都知道通常的PLSA生成过程如下:


  1. 根据概率p(di)选择一篇文档di

  2. 根据概率p(zk|di)选择一个隐藏主题zk

  3. 根据概率p(wj|zk)生成一个词wj

模型的联合概率分布:

p(di,wj)=p(di)p(wj|di)

p(wj|di)=k=1Kp(wj|zk)p(zk|di)

写出似然函数

L(Ψ)=i=1Nj=1Mc(di,wj)logp(di,wj) i=1Nj=1Mc(di,wj)logk=1Kp(wj|zk)p(zk|di)

而COPlSA的目标函数就是

O(Ψv,Ψw)=τvL(Ψv)+τwL(Ψw)λR

其中L(Ψ)是两个view下的似然函数,τv+τw=1。而主要体现文章思想的地方就在这个R上,λ是用来平衡权重的参数。见图:



这个pairwise co-regularization R是将二个独立的view连接起来的桥梁,它被定义为

R=SvSw2F

其中Svij代表文档i和文档j在viewV下的相似度,相似度使用高斯核来衡量的。

Svij=exp(k(pv(zk|di)pv(zk|dj))2σ)


在求解的时候,这个目标函数最大化问题可以用以下相互迭代的方法来解决


  1. 固定Ψw=Ψ^w,解决问题O(Ψv,Ψ^w)

  2. 固定Ψv=Ψ^v,解决问题O(Ψ^v,Ψw)


解决具体问题的时候使用的是EM算法,就不详述了。

原来看这篇文章是想做内容和链接2个view的社区发现的,但是发现它的基本假设不一定相符,在内容和链接的2个view下数据是否有相似性还有待讨论。

参考文献:

1       Jiang,Y., Liu, J., Li, Z., Li, P., and Lu, H.: ‘Co-regularized PLSA for Multi-viewClustering’: ‘Computer Vision–ACCV 2012’ (Springer, 2013), pp. 202-213

0 0
原创粉丝点击