[文献阅读]combined group and exclusive sparsity for deep neural networks

来源:互联网 发布:钢结构cad软件sts下载 编辑:程序博客网 时间:2024/05/29 15:58

ICML 2017

讨论前馈NN中各种有稀疏效果的正则项(L1,L2,L12,L21,L12+L21)。
分类(also 监督式学习任务)。
CNN( also 前馈NN)


l-1 norm, element-wise稀疏

  • L1-norm,element-wise 稀疏,准确性稍微下降, 不能加速训练。

l-21 norm, group稀疏

  • group稀疏, 移除一个单元,或者移除一个卷积过滤器,因而可以加速网络。
    giw2g,i

    对W的某一行 L2 norm, 加根号干嘛。

l2 norm有组效果,对correlated特征会产生相似的权重,因而导致一些组的完全消除,因此移除一些输入单元,达到自动确定每一层有多少单元的效果。

group稀疏还没有最大化利用网络能力,因为选择的特征间还可能存在冗余。

l1-l2 norm, exclusive稀疏

  • exclusive 稀疏/lasso, (1,2)-norm
    g(i|wgi|)2

    对W的某一行的绝对值的和,平方干嘛。

1-norm组上的2-norm,1-norm达到组内稀疏,2-norm达到组间even weights的效果,每组的稀疏性比较平均,每组的非0权重的个数差不多。

运用在前馈NN,
group是将一个节点的输出全部砍掉,相当于砍掉这个节点;
l1-l2norm是将每个节点的输出都砍掉差不多一样多的连接。

运用在CNN,
l1-l2norm让每个卷积过滤器各不相同。

group+exclusive稀疏

不同特征的 sharing 和exclusivity?

g(μ12||Wg||21+(1μ)||Wg||2)

如果网络权重相关,存在一定程度的sharing,不share的其它部分是不同的。
底层可能需要更多共享(l2),高层需要更多disjoint( l1^2)

μl=m+(12m)lL1

m=0, μ0=0,||wg||2,μL1=1,||wg||21

proximal梯度下降算法

正则项向解空间的欧几里得投影

minWt+1Ω(Wt+1)+12λs||Wt+1Wt+12||22

group稀疏正则项的解

proxGL(W)=(1λ||wg||2)+Wgi

exclusive稀疏正则项的解

proxEL(W)=(1λ||wg||1|wgi|)+Wgi=sign(Wgi)(|Wgi|λ||wg||1)+

group+exclusive稀疏正则项:
1. 计算loss(不包括正则项)相对于W的梯度g,
2. Wt+12=Wt-s g
3. Wt+12,GL=proxGL(Wt+12)
4. Wt+1=proxEL(Wt+12,GL)

实验

开源项目链接 。

各种正则项

  • L2
  • L1
  • L-21 on CNN 每个卷积filter是一组
  • L-21 on CNN 不同filter的相同feature是一组
  • L-12
  • L-21+L-12

数据集-模型

  • MNIST 手写数字图片分10类,CNN(2层卷积2全连接)
  • CIFAR-10图片分10类,LeNet(2层卷积3全连接)
  • CIFAR-100图片分100类, Wide Residual Net变种(16层), 用L2结果初始化
  • ImageNet-1K 图片分1000类, AlexNet, 用L2结果初始化

  • 迭代剪枝

评测

  • 分类准确性 over 使用的参数个数百分比 (稀疏性)
  • 分类准确性 over 浮点数操作的次数 (计算效率)
  • 分类错误率 over 迭代次数 (收敛速率)
  • 卷积层+全连接层 同时稀疏更好 (卷积vs全连接)
  • exclusivity稀疏随网络层数增加 更好 (μ 共享vs竞争)
  • 图示全连接后的weight(稀疏性)
  • 图示卷积层filter (稀疏性)
阅读全文
0 0
原创粉丝点击