非负矩阵分解(NMF)论文笔记（1）

来源：互联网发布：unity3d导入模型编辑：程序博客网时间：2024/05/23 23:47

NMF经典论文：Algorithms for Non-negative Matrix Factorization（NIPS, 2001），此文主讲算法细节，偏理论。
（话说怎么去掉图片默认水印，为什么现在没有去掉的功能，有点影响视觉效果。）

1.介绍

无监督的学习算法，比如PCA和vector quantization，都可以看作是对数据矩阵的分解问题，只不过所用的约束不同。关于此两者跟NMF的对比分析，可参见论文Learning the Parts of Objects by Non-negative Matrix Factorization（Nature, 1999），此文主要讲应用，后面我也会写这篇论文的笔记。

2.非负矩阵分解

NMF要做的，就是给定一个非负矩阵V∈Rd×n+，要找两个非负矩阵因子W∈Rd×c+和H∈Rc×n+，使得：

V \approx W H (1)

V看作数据矩阵，其中每一列是一个

d维的样例（sample），

c经常选取为比

d,n都要小的一个数，事实上，NMF有很好的聚类特性，

c可以看作是数据的聚类簇数。由于

W和

H都比原始数据矩阵

V要小，所以NMF也顺道实现了数据的压缩表示。

继续来看式(1)，现在我们仅仅关注一个样例，即V中的一列，用v表示，对应的H中的一列用h表示，则有：

v \approx W h

这个表述有什么意思呢？它表示呀，

W的列可以看作是

d维空间的

c个基，

h指明了原始数据

v用这c个基可以如何表示—–

v由W的列线性组合而成，组合系数就是

h中元素。

h其实也就可以看作是原始数据

v的一种低维表达（d—>c）。因为所有的数据都要由这c个基来表达，所以要想式(1)或式(2)有更低的近似误差，这组基必须能很好的发现数据的隐含结构。

矩阵分解问题，在数值线性代数中，已经研究得很广泛，由于NMF是带有非负约束的矩阵分解，所以以前的一些方法并不能直接很好的运用。于是也有了这篇文章的工作。

3.损失函数

评估V和WH间的近似程度，根据采用的不同误差度量准则，文章提出了两种损失函数。一个是平方欧式距离，一个是散度（divergence）。

如上图中最后一句话所述，当A,B矩阵满足元素和为1时，D(A||B)就是KL散度/相对熵。对应的，NMF的目标式就可以定义为如下两个：

min W \geq 0, H \geq 0 ∥ V - W H ∥ 2 F min W \geq 0, H \geq 0 D (V | | W H)

上面两个目标式，对W或者H中一者而言是凸的（即固定一个变量，优化另一个变量时是凸的），但是对W和H两者同时而言是非凸的。

4.乘法更新准则

求解上一节中带约束的优化问题，梯度下降法可能是最简单的方法，它容易实现，但是呢，收敛也比较慢。其它的方法，比如共轭梯度法收敛快，但是不易实现。此外，这些基于梯度的方法，都需要确定一个参数，即步长，而调整这个步长参数也是比较麻烦的。为此，在收敛速度和算法实现难易之间折中一下，就是文章中提出的乘法更新准则了。

这里都说要W和H在距离函数的驻点上（函数的一阶导为0是驻点，另，二阶导为0是拐点），应该是指函数对W和H要可导（因下一节中要求偏导，此处仍存疑）。

5.乘法更新准则Vs.加法更新准则

这一节是说，乘法更新准则其实可以由加法更新准则得到，算得上是加法更新准则的一种特殊情况，这里的加法更新准则，就是传统的梯度下降。下面，以平方欧式距离为例，我们用梯度下降来更新H。首先，求一下梯度：

\partial J \partial H = - W T (V - W H)

所以，元素

Hij可以这样更新（论文中的下标是

aμ，这个无所谓）：

H i j : = H i j - η i j \partial J \partial H i j = H i j + η i j ((W T V) i j - (W T W H) i j) (6)

这里步长

ηij只要设置得足够小（大于0），式(6)的加法更新准则就可以保证目标函数值减小。

接下来，我们给步长取一个很特殊的值：

η i j = H i j ( W T W H ) i j (7)

代入式(6)，即可得到上一节式(4)中关于H的更新准则。

关于散度准则的目标式，就直接贴图了。

但是这样给η取值，好像并不妥当，因为式(7)或者式(9)中的步长取值可能比较大，所以好像并不能保证由此得到的乘法更新准则一定能降低目标函数值。所以，在下一节，就是来证明这个问题的，我们将会看到，这样得到的乘法更新准则是能保证收敛的。

6.收敛性证明

收敛性证明是文章的一个重点，比较理论，但也正是最精妙处所在，证明过程将数学中的构造思想发挥得淋漓尽致。但是估计受nips篇幅限制，内容写的比较简洁，所以读起来也比较晦涩。下面边贴图，边补充论文中省略的推导过程。

我们还是以平方欧式距离为例进行说明，即下面对定理1进行证明，我们将会用到辅助函数，类似于EM算法中用到的，首先给出辅助函数的定义：

关于G，简单理解为，给定变量h′，G(h,h′)是关于变量h的函数。接下来是一个引理：

这个引理是说，给定ht（迭代第t次时的变量值），我在最小化G(h,ht)时，其实也实现了降低目标函数值F之目的。从下图，可以很清晰的看懂这个引理的证明过程。（proof中第一个小于等于是由于式(10)的左式，第三个等号是由于式(10)的右式，中间的小于等于是因为式(11).）

自自然然地，我们现在就想，NMF的目标式子，存不存在这样的辅助函数呢，如果存在，是什么？因为一旦能确定辅助函数，我们根据上面的定义和引理，就能证明前面定理的收敛性了。

文章很强势而直接地给出了辅助函数的表达式。贴图感受一下：

有时候，可以根据需要达到的目标，倒着推导我们达到目标需要哪些条件，我们可以怎样去构造，有时候，纯粹就是天才般的灵感，加上知识积累形成的直觉，直接就知道怎么做了。这里为什么要这么构造、能这么构造，关键还有这个K为什么这么取值，我目前能想到的只有，式(14)的形式是在跟目标式的二阶泰勒展开靠拢，而K跟步长的取值有关（倒数）。