论文提要“Gradient based Learning Applied to Document Reocognition”

来源:互联网 发布:尚观linux 百度网盘 编辑:程序博客网 时间:2024/06/05 15:19

1.综述
提出好的模式识别系统多依赖自学习,少依赖手工设计框架。字符识别可以将原图像作为网络输入,代替之前设计的特征。对于文本理解,之前设计的定位分割识别模块可以使用Graph Transformer Networks 代替。下图显示了传统的识别方法:
这里写图片描述
机器运算速度的提升,大数据和机器学习算法改进改变了上述传统方法。

A. 数据学习
经典方法是基于梯度的学习,通过计算函数Yp=F(Zp,W),及最小化损失函数Ep=D(Dp,F(W,Zp)) 实现。大量的理论研究表明,训练误差和测试误差之间的gap随着训练样本数增加而降低,结构风险最小化就是在降低训练误差的同时降低gap。

B. 基于梯度的学习
最简单的最小化方法是梯度下降算法,使用以下公式更新权值W:
这里写图片描述
一个通用的最小化方法是SGD,能够以比常规梯度下降更快的速度收敛。

C.BP 网络的出现,局部极小值问题消失

D.实际手写体识别
说出了手写字体识别最难得两个问题,识别单个字符和字符的分割。标准的分割方法是“启发式过分割”。第四节提出在字符串水平训练识别系统,并提出了使用GTN和语言语义结合进行识别。GTN与HMM类似。

E. 全局训练系统
最小化全局误差,级联模型Xn=Fn(Wn,Xn1), Xn 是模块输出,如果全局损失Ep 对于Xn 的偏导已知,可计算其对WnXn1) 的偏导
这里写图片描述
上述第一个公式计算Ep(W) 的梯度的一些项,第二个公式进行反向再现。这是全局误差最小化的雏形,每个模块称为Graph Transformer,文中第5,6,8节有详细介绍。

2.CNN for isolated character recognition
传统的基于梯度下降神经网络的识别精度由特征设计的好坏决定,对于字符识别,可以使用原始图像作为网络输入,而使用前向传播全连接神经网络实现存在两个问题:1)需要大量节点,权值和存储空间,主要问题是不具备对平移和扭曲的不变特性; 2)忽略了图像的拓扑结构,像边缘、角点等特征对于识别具有重要意义。CNN的目标就将隐层的接受域限制在局部内。
CNN引入了三个特点使得它对平移,旋转和扭曲不变,即:局部接受域,权值共享和时空下采样,经典的网络结构LeNet-5如下图所示:
这里写图片描述

LeNet-5第一个隐含层有六个特征图,每个特这图上的节点具有25个输入,与输入层的5*5的区域相对应,接受域可重叠。特征图上所有节点共享相同的权值和偏量,其他特征图使用其他的共享权值和偏量。卷积网络带来的效果是,如果输入图像有平移,那么特征图有对对应的平移。文中举了数字“7”作为例子,“7”在左上和右下角分别有个endpoint,在右上角有个角点,网络只需检测出这些局部特征就可判断输入数字是否是“7”。实际上,不仅是特征与位置无关,不同样本的特征位置不同会影响识别效果。文中采用了下采样解决这个问题,上图第二个隐层即是下采样层,接受域的大小是2*2,即分别对行列下采样两倍,对上一层每个特征图都进行下采样,得到六个响应。接下来的层就交替进行卷积和下采样,在每一层,特征图个数增加的同时分辨率降低。

文中介绍每个卷积层和下采样层的细节比较容易理解,F6是全连接层,具有84个节点,节点i的输出为:
xi=f(ai)=Atanh(Sa)
A代表赋值,S为斜率。F6的输出层是每一类的Euclidean RBF,即:

yi=j(xjwij)2

输出RBF节点计算输入向量与参数向量之间的距离。给定一个输入模式,损失函数应获得与该模式对应类别RBF参数向量接近的F6结构。
损失函数:为了解决传统的最大似然估计(MLE)中RBF参数学习引起的“collapsing effect”,文中使用了以下训练准则:
这里写图片描述
主要目的还是最大化正确类别Dp 的后验概率,降低对正确类别的惩罚同时提高对错误分类的惩罚。

3.实验结果及与其他方法比较
MNIST 数据库,60 000训练,10 000测试。主要体现了训练库的大,并通过水平竖直方向平移,缩放,挤压等操作增加540 000个训练样本,测试错误率降至0.8%。
这里写图片描述

0 0
原创粉丝点击