Co-regularized PLSA for Multi-view Clustering

来源：互联网发布：软件测试研究编辑：程序博客网时间：2024/04/30 12:27

这篇文章是比较新的一篇Muti-view Clustering的文章，它提出了一个CO-PLSA的模型，将不同view下的PLSA模型整合起来。这篇文章的主要基本思想是在某一个view下，如果两篇文章在主题空间中相似，那么他们在其他view下的主题空间也将类似。

我们都知道通常的PLSA生成过程如下：

根据概率p(di)选择一篇文档di。
根据概率p(zk|di)选择一个隐藏主题zk。
根据概率p(wj|zk)生成一个词wj。

模型的联合概率分布:

p (d i, w j) = p (d i) p (w j | d i)

p (w j | d i) = \sum k = 1 K p (w j | z k) p (z k | d i)

写出似然函数

L (Ψ) = \sum i = 1 N \sum j = 1 M c (d i, w j) log p (d i, w j) \propto \sum i = 1 N \sum j = 1 M c (d i, w j) log \sum k = 1 K p (w j | z k) p (z k | d i)

而COPlSA的目标函数就是

O (Ψ v, Ψ w) = τ v L (Ψ v) + τ w L (Ψ w) - λ R

其中L(Ψ)是两个view下的似然函数,τv+τw=1。而主要体现文章思想的地方就在这个R上，λ是用来平衡权重的参数。见图：

这个pairwise co-regularization R是将二个独立的view连接起来的桥梁，它被定义为

R = ∥ S v - S w ∥ 2 F

其中Svij代表文档i和文档j在viewV下的相似度，相似度使用高斯核来衡量的。

S v i j = exp (- \sum k ( p v ( z k | d i ) - p v ( z k | d j ) ) 2 σ)

在求解的时候，这个目标函数最大化问题可以用以下相互迭代的方法来解决

固定Ψw=Ψ^w，解决问题O(Ψv,Ψ^w)。
固定Ψv=Ψ^v，解决问题O(Ψ^v,Ψw)。

解决具体问题的时候使用的是EM算法，就不详述了。

原来看这篇文章是想做内容和链接2个view的社区发现的，但是发现它的基本假设不一定相符，在内容和链接的2个view下数据是否有相似性还有待讨论。

参考文献：

1 Jiang,Y., Liu, J., Li, Z., Li, P., and Lu, H.: ‘Co-regularized PLSA for Multi-viewClustering’: ‘Computer Vision–ACCV 2012’ (Springer, 2013), pp. 202-213

0 0