【文献阅读】dropout distillation

来源：互联网发布：淘宝借呗编辑：程序博客网时间：2024/05/16 23:37

PMLR 2016

标准的dropout在测试阶段没有按照bayesian的思想在指数多个网络上做预测再平均，而是根据dropout的概率scaling weights来近似平均，这主要是基于计算有效性地考虑，但会损失准确率。
本文提出dropout distillation，更好的平均，保持计算有效性，提供更好的准确率。

标准的dropout是在前馈NN提出的，也使用于RNN。
本文讨论前馈NN，对RNN也适用。

经典标准的dropout的移除/保留开关作用于神经元的输出。
drop-connect 的移除/保留开关作用于网络连接connections，更细粒度。
本文讨论dropout情况，对drop-connect也适用。

model description

监督学习，前馈网络，
Θ 模型参数
σ={σ1,...,σn} 门变量，作用在n个节点上

min θ E x, y, σ [l (y, f Θ, σ (x)]

empirical risk approximation

min Θ 1 N \sum i = 1 N E σ [l (y i, f Θ, σ (x i)]

训练SGD，随机采样min-batch数据，为min-batch的每个数据随机采样门变量（对每个节点确定保留还是移除）

approximation of predictor

测试阶段，理想的预测
fdropout(x)=Eσ[fΘ∗,σ(x)]

标准的dropout

scaling weight,
假设在网络的每一层有Eσ[hi(z)]=hi(Eσ[z])

一般都不等的，近似的好坏与采取的响应函数相关。

mconte carlo 采样

1m∑mi[fΘ∗,σi(x)]
计算代价太大，测试阶段不能太耗时

dropout distillation

从X空间到Y空间的映射，是各种各样的预测器，包括理想的dropout预测fdropout。

考虑一个预测期集合Q,可以（甚至比较有效率地）计算。
例如，与原始网络有相同结构的确定的（不含dropout的）前馈网络。

从Q中找与fdropout最近的预测期q

minqEx[l(fdropout(x),q(x))]

近似关于输入的期望，在一些独立的样本的集合S上计算平均

minq1N∑il(fdropout(xi),q(xi)), J^(q)

S的取法包括

从噪声分布中采样，无数数据，与真实数据太不一样
用训练数据，过拟合
训练数据+噪声扰动
从数据分布中采样一些unseen样本

近似关于dropout的期望，先取dropout配置预测算距离，再对多种dropout配置平均。

minq1N∑iEσ[l(fΘ∗,σ(xi),q(xi))], J′^(q)

先标准的dropout训练，得到Θ∗。

构造S，和dropout训练一样对原网络采样许多子网络计算f, 解距离最小化优化问题，得到q网络的参数。

对测试集，用q网络做预测。

收敛性

当Y空间的距离函数l(y,y^)相对于y是凸的，则先对dropout平均再做预测计算的与q的距离(J^(q))，小于，取一种dropout配置计算与q的距离再相对于dropout配置平均 (J′^(q))。

进一步当l(y,y^)=g1(y)+g2(y^)+yTg3(y^)，J^(q)与J′^(q)两者的差值与q无关。

Bregman散度(squared euclidean, KL,…)满足上述假设。

阅读全文

1 0