[文献阅读]combined group and exclusive sparsity for deep neural networks

来源：互联网发布：钢结构cad软件sts下载编辑：程序博客网时间：2024/05/29 15:58

ICML 2017

讨论前馈NN中各种有稀疏效果的正则项（L1,L2,L12,L21,L12+L21）。
分类（also 监督式学习任务）。
CNN( also 前馈NN)

l-1 norm, element-wise稀疏

group稀疏，移除一个单元，或者移除一个卷积过滤器，因而可以加速网络。
$\sum g \sum i w 2 g, i - - - - - - \sqrt$
对W的某一行 L2 norm, 加根号干嘛。

l2 norm有组效果，对correlated特征会产生相似的权重，因而导致一些组的完全消除，因此移除一些输入单元，达到自动确定每一层有多少单元的效果。

group稀疏还没有最大化利用网络能力，因为选择的特征间还可能存在冗余。

1-norm组上的2-norm，1-norm达到组内稀疏，2-norm达到组间even weights的效果，每组的稀疏性比较平均，每组的非0权重的个数差不多。

运用在前馈NN，
group是将一个节点的输出全部砍掉，相当于砍掉这个节点；
l1-l2norm是将每个节点的输出都砍掉差不多一样多的连接。

运用在CNN，
l1-l2norm让每个卷积过滤器各不相同。

不同特征的 sharing 和exclusivity？

\sum g (μ 1 2 | | W g | | 21 + (1 - μ) | | W g | | 2)

如果网络权重相关，存在一定程度的sharing，不share的其它部分是不同的。
底层可能需要更多共享(l2)，高层需要更多disjoint( l1^2)

$μ l = m + (1 - 2 m) l L - 1$

m=0, μ0=0,||wg||2,μL−1=1,||wg||21

正则项向解空间的欧几里得投影

min W t + 1 Ω (W t + 1) + 1 2 λ s | | W t + 1 - W t + 1 2 | | 22

group稀疏正则项的解

p r o x G L (W) = (1 - λ | | w g | | 2) + W g i

exclusive稀疏正则项的解

p r o x E L (W) = (1 - λ | | w g | | 1 | w g i |) + W g i = s i g n (W g i) (| W g i | - λ | | w g | | 1) +

group+exclusive稀疏正则项：
1. 计算loss（不包括正则项）相对于W的梯度g，
2. Wt+12=Wt-s g
3. Wt+12,GL=proxGL(Wt+12)
4. Wt+1=proxEL(Wt+12,GL)

开源项目链接。

各种正则项

数据集-模型

评测

阅读全文

0 0