RBM学习算法

来源：互联网发布：软件外包服务专业编辑：程序博客网时间：2024/06/06 00:22

RBM基础

RBM模型是基于能量的模型。对于一组给定的状态(v.h),其能量函数为

E θ (v, h) = - \sum i = 1 N v a i v i - \sum j = 1 N h b j h j - \sum i = 1 N v \sum j = 1 N h h j w j i v i

利用上述能量函数给出

(v.h)的联合分布为

P θ (v, h) = 1 Z θ e - E θ (v, h)

其中，

θ=(W,a,b),

W=[wij]Nv∗Nh表示

vi和

hj之间的连接权重，

a=(a1,a2,...,aNv)、

b=(b1,b2,...,bNh)分别表示观测单元

v,隐藏单元

h的偏置。

Zθ=∑v,he−Eθ(v,h)

RBM的学习算法

求解更好拟合训练数据的RBM参数θ,方法是使用极大似然法，极大似然函数为

L θ = P θ (v) = \sum h P θ (v | h)

设训练样本集合

S=(v1,...,vNs),对数极大似然函数为

ln L θ, S = ln (\prod n = 1 N s P θ (v n)) = \sum n = 1 N s ln P θ (v n)

此时，RBM学习的目标为极大化上式，使用梯度上升(gradient ascent),通过如下的迭代格式来求解

θ : = θ + η \partial ln L θ , S \partial θ

η是学习率，问题的关键是求解梯度

∂lnLθ,S∂θ,省略

Lθ,S中的

θ,对于单个样本

v计算似然函数

ln L S = ln P (v) = ln (1 Z \sum h e - E (v, h)) = ln \sum h e - E (v, h) - ln Z = ln \sum h e - E (v, h) - ln \sum v, h e - E (v, h)

上式中红色

v表示单个训练样本，黑色

v表示任意的训练样本。针对单个样本

v进一步计算梯度(省略了推导过程)

\partial L S \partial θ = \partial ln P ( v ) \partial θ = - \sum h P (h | v) \partial E ( v , h ) \partial θ + \sum v, h P (v, h) \partial E ( v , h ) \partial θ

上式中包含两个期望，第一个

∑hP(h|v)∂E(v,h)∂θ为能量梯度

∂E(v,h)∂θ在分布

P(h|v)下的期望，对应每个训练样本数据遍历其可能的隐藏数据的值，可以求得；第二个

∑v,hP(v,h)∂E(v,h)∂θ为能量梯度

∂E(v,h)∂θ在分布

P(v,h)下的期望,对应于每个可能的

v求其隐藏数据的值，计算量非常大。其中，

\sum v, h P (v, h) \partial E ( v , h ) \partial θ = \sum v \sum h P (v) P (h | v) \partial E ( v , h ) \partial θ = \sum v P (v) \sum h P (h | v) \partial E ( v , h ) \partial θ

因此，只需讨论

∑hP(h|v)∂E(v,h)∂θ的计算，下面对

θ=(wij,ai,bj)分别进行计算（省略推导过程）

\sum h P (h | v) \partial E ( v , h ) \partial w i j \sum h P (h | v) \partial E ( v , h ) \partial a i \sum h P (h | v) \partial E ( v , h ) \partial b j = - P (h i = 1 | v) v j = - v i = - P (h j = 1 | v)

对于单个训练样本

v,各个梯度为

\partial ln P ( v ) \partial w i , j = - \sum h P (h | v) \partial E ( v , h ) \partial w i , j + \sum v, h P (v, h) \partial E ( v , h ) \partial w i , j = P (h i = 1 | v) v j - \sum v P (v) P (h i = 1 | v) v j

\partial ln P ( v ) \partial a i = - \sum h P (h | v) \partial E ( v , h ) \partial a i + \sum v, h P (v, h) \partial E ( v , h ) \partial a i = v i - \sum v P (v) v i

\partial ln P ( v ) \partial b j = - \sum h P (h | v) \partial E ( v , h ) \partial b j + \sum v, h P (v, h) \partial E ( v , h ) \partial b j = P (h i = 1 | v) - \sum v P (v) P (h i = 1 | v)

以上是针对单个训练样本的情形，在整个样本空间

S=v1,...,vns上有

∂LS∂θ=∂lnP(vm)∂θ从而可得如下公式，

\partial ln P ( v ) \partial w i , j \partial ln P ( v ) \partial a i \partial ln P ( v ) \partial b j = \sum m = 1 N s [P (h i = 1 | v m) v m j - \sum v P (v) P (h i = 1 | v) v j] = \sum m = 1 N s [v m i - \sum v P (v) v i] = \sum m = 1 N s [P (h i = 1 | v m) - \sum v P (v) P (h i = 1 | v)]

上述三个公式中，

∑v项的计算复杂度为

O(2Nv+Nh),可以通过MCMC方法如Gibbs进行采样，并用样本对

∑v项进行估计。k步Gibbs抽样过程如下

h (0) \leftarrow P (h | v (0)) h (1) \leftarrow P (h | v (1)) . . ., v (1) \leftarrow P (v | h (0)), v (2) \leftarrow P (v | h (1)), v (k) \leftarrow P (v | h (k - 1))

这样得到的

v(k)可以用来估计上式中的

∑v项,根据MCMC采样的思想，将上述三个式子进一步推导，并使用

v(k)来近似可得

\partial ln P ( v ) \partial w i , j \partial ln P ( v ) \partial a i \partial ln P ( v ) \partial b j = \sum m = 1 N s [P (h i = 1 | v m) v m j - \sum v P (v) P (h i = 1 | v) v j] \approx \sum m = 1 N s [P (h i = 1 | v m) v m j - P (h i = 1 | v (k)) v (k) j] = \sum m = 1 N s [v m i - \sum v P (v) v i] \approx \sum m = 1 N s [v m i - v (k) i] = \sum m = 1 N s [P (h i = 1 | v m) - \sum v P (v) P (h i = 1 | v)] \approx \sum m = 1 N s [P (h i = 1 | v m) - P (h i = 1 | v (k))]

但是常规的gibbs采样的

k需要足够大，才能使得采集到的样本符合RBM分布，Hinton教授发明了对比散度(Contrastive Divergence,CD)方法，通过使用训练样本集

S中的观测数据

vi来初始化

v(0)来减少状态转移次数，具体做法是在算法的开始将可见状态

v(0)设置为一个训练样本，并使用条件概率

P(hj=1|v(0))对每个隐藏单元抽取0~1之间的概率值，然后利用

P(vi=1|h(0))对观测单元抽取概率值，这样就得到

v(1),一般

v(1)就够了，即

k=1,如下是CD-k算法的主要步骤：

CDK(k,S,RBM();Δw,Δa,Deltab)
- 输入：

k,S,RBM(W,a,b)
- 输出：

Dw,Da,Db
step 1 初始化：

Δw=0,Δa=0,Δb=0
Step 2 对S中的样本循环生成

Δw,Δa,Δb

FOR v∈S DO{v(0):=vFOR t=0,1,...,k−1 DO{h(t)=sample_h_given_v(v(t),RBM(w,a,b));v(t+1)=sample_v_given_h(h(t),RBM(w,a,b));}FOR i=1,2,...,Nv;j=1,2,...,Nh DO{Δwi,j=Δwi,j+[P(hj=1|v(0))v(0)i−P(hj=1|v(k))v(k)i];Δai=Δai+[v(0)i−v(k)i]; Δbj=Δbj+[P(hj=1|v(0))−P(hj=1|v(k))];}}

其中，记

phi=P（vi=1|h),i=1,2,...,Nv ,

sample_v_given_h的计算可写成

F O R v \in S D O {g e n e r a t e R a d o m r i \in [0, 1]; v i = {1, i f r i < p h i; 0, o t h e r w i s e .}

sample_h_given_v的计算与

sample_v_given_h类似.
将上述的

CD−k算法用于完整的RBM算法如下
Step 1 初始化
(1)给定训练样本集合

S(|S|==Ns)
(2)给定训练周期

J,学习率

η以及

CD−k算法参数

k
(3)指定可见层和隐藏层的单元数目

Nv,Nh
(4)初始化偏置向量以及权重矩阵

(a,b,w)
Step 2 训练

F O R i t e r = 1, 2, . . ., J D O {C D K (k, S, R B M (W, a, b)); U P D A T E W = W + η (1 N s Δ W), a = a + η (1 N s Δ a), b = b + η (1 N s Δ b)}

使用Python实现上述算法的示例

0 0