Maxout的深入理解
来源:互联网 发布:南昌淘宝照片拍摄的 编辑:程序博客网 时间:2024/06/06 02:23
转之:http://www.cnblogs.com/tornadomeet/p/3428843.html
maxout出现在ICML2013上,作者Goodfellow将maxout和dropout结合后,号称在MNIST, CIFAR-10, CIFAR-100, SVHN这4个数据上都取得了start-of-art的识别率。
从论文中可以看出,maxout其实一种激发函数形式。通常情况下,如果激发函数采用sigmoid函数的话,在前向传播过程中,隐含层节点的输出表达式为:
其中W一般是2维的,这里表示取出的是第i列,下标i前的省略号表示对应第i列中的所有行。但如果是maxout激发函数,则其隐含层节点的输出表达式为:
这里的W是3维的,尺寸为d*m*k,其中d表示输入层节点的个数,m表示隐含层节点的个数,k表示每个隐含层节点对应了k个”隐隐含层”节点,这k个”隐隐含层”节点都是线性输出的,而maxout的每个节点就是取这k个”隐隐含层”节点输出值中最大的那个值。因为激发函数中有了max操作,所以整个maxout网络也是一种非线性的变换。因此当我们看到常规结构的神经网络时,如果它使用了maxout激发,则我们头脑中应该自动将这个”隐隐含层”节点加入。参考一个日文的maxout ppt 中的一页ppt如下:
ppt中箭头前后示意图大家应该可以明白什么是maxout激发函数了。
maxout的拟合能力是非常强的,它可以拟合任意的的凸函数。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合(学过高等数学应该能明白),而maxout又是取k个隐隐含层节点的最大值,这些”隐隐含层"节点也是线性的,所以在不同的取值范围下,最大值也可以看做是分段线性的(分段的个数与k值有关)。论文中的图1如下(它表达的意思就是可以拟合任意凸函数,当然也包括了ReLU了):
详细代码见博客:
http://www.cnblogs.com/tornadomeet/p/3428843.html
- Maxout的深入理解
- maxout简单理解
- Maxout
- Deep learning:四十五(maxout简单理解)
- session的深入理解
- SDRAM的深入理解
- 对话框的深入理解
- 栈的深入理解
- Hashmap的深入理解
- socket的深入理解
- MVC的深入理解
- Aop的深入理解
- 数据仓库的深入理解
- FileChannel的深入理解
- LinkedList的深入理解
- Session的深入理解
- SDWebImage的深入理解
- 多线程的深入理解
- Java三大框架开发思路
- Flex4拾遗二: 容器基本概念
- ThreadPoolExecutor
- 关于离职、面试、面试题
- windows上php7环境的搭建,yii2的安装
- Maxout的深入理解
- MAC上安装VMware,再安装Win7和Ubuntu
- #pragma mark 判断是否是纯数字
- 软件水文
- 自旋锁
- 小米note开启调试模式
- 欢迎使用CSDN-markdown编辑器
- 给linux移植Ethercat笔记
- RxJavaRxAndroid入门资料 基本方法