读论文 CVPR_2017_DMPNet

来源:互联网 发布:数据对比ppt 编辑:程序博客网 时间:2024/06/06 21:50

写在前面:本文只为了自己日后忘记时,温习巩固用,本人没有做出任何见解,纯属方便回顾阅读。

-------------------------------------------------------------------------------------------------------------------------------------------------------------原文标题:Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection

原文简单翻译:

 深度匹配先验网络:面向更严格的多方向文本检测

由于多方位、透视失真以及文本大小、颜色和尺度的变化,附带场景文本的检测是一项具有挑战性的任务。以前的的研究主要集中在使用矩形包围盒或水平滑动窗口对文本进行定位,这可能会造成冗余背景噪声、不必要的重叠甚至信息丢失。为了解决这些问题,我们提出了一种新的卷积神经网络方法,称为深度匹配先验网络,用紧四边形检测文本。首先,在多个特定的中间卷积层中使用四边形滑动窗口,粗略地回忆具有较高重叠面积的文本,然后提出了一种快速多边形区域的快速精确计算的共享蒙特卡洛方法。在此基础上,我们设计了一个相对回归的时序协议,可以精确预测紧凑四边形文本。此外,还提出了进一步回归文本的位置是一个辅助光滑LN的损失,具有更好的整体性能比L2损失和鲁棒性和稳定性方面光滑L1损失。我们的方法的有效性是在一个公共的文字水平评价,多导向的场景文本数据库,ICDAR 2015强大的阅读比赛挑战4”附带的场景文本定位”。我们的方法的性能,利用F -测量评估,结果为70.64%,优于现有的国家的最先进的方法与措施63.76%。

场景文字追踪是许多基于内容应用的一个重要先决条件,例如,多语言翻译,盲人导航和汽车辅助。识别阶段处于定位场景文字之前,因此能紧凑稳定的定位场景文字的方法是重要的需求。

相机拍摄的场景文字一般质量不好;这些文本会存在多方向,透视失真和文本大小,颜色和尺度的变化,这让文字识别成为一个难题。在过去的几十年里,很多方法成功的用于追踪水平或几乎水平的文本,然而,由于水平矩形约束,多方向文本等在实际中被限制,ICDAR竞赛中一般出现准确度很低。

目前,数以百计的技术已经被应用在多方向文本追踪领域;这些方法使用旋转矩形来定位多方向文本。然而,Ye和DOER表示由于字符的扭曲,文本的边界可能不是矩形,并且矩形约束会导致多余的背景噪声,不必要的重叠,甚至是当定位场景文字时产生信息丢失,如图1.从图中可以看到,基于矩形框的方法必须面对三个情况:i)多余的信息会减少自信定位的可靠性ii)边缘文本不能被完全定位iii)在非极大值抑制时,不必要的重叠可能去去掉真正的预测。

为了解决这些问题,在本文中,我们提出了一个新的卷积神经网络方法,名字叫做DMP网络,用于紧凑文本检测。据我所知,这是检测文本中第一次使用四边形。我们的方法基本上包含2个步骤:粗略的估计文本和细致的调整预测包围盒。首先,基于文本的内在形状这个先验知识,我们在特定的中间卷积层设计了几种不同的四边形滑动窗通过比较重叠区域的预定义阈值来粗略的估计文本。在粗略的估计过程中,由于滑动窗口和真值之间存在上百个多边形重叠区域需要计算,我们设计了一个共享蒙特卡洛方法来解决这个问题,这个方法定量的证明了比以前的计算方法更加精确。在粗略的估计文本之后,这些重叠度更高的滑动窗口将被细致的调整做更好的定位;不同于已存在的用矩形预测文本的方法,我们的方法能使用四边形来做紧凑的场景文字定位,这都归功于我们所使用的顺序协议和我们使用的相对回归。而且,提出了一个新的平滑Ln损失,去做文本定位的进一步回归。这个损失比L2损失和平滑L1损失在鲁棒性和稳定性方面都表现的更好。在公开的多方向文字数据集上做实验,证明了我们方法比之前方法的F-值都要好。

我们总结了一下我们的贡献:

1.      首次提出了四边形滑动窗口,大大的提高了召回率。

2.      我们提出了在任意平面凸四边形中唯一确定4点顺序的序贯协议,使我们利用相对回归预测四边形包围盒的方法。

3.      提出了共享蒙特卡洛计算方法能快速且精确的计算多边形覆盖的区域。

4.      提出了平滑Ln损失在鲁棒性和稳定性方面比L2损失和平滑L1损失表现更好。

5.      我们的方法在检测附带场景文字方面表现最好。

2.相关工作

         近年来,在自然环境中读取文本得到了广泛的研究,因为场景文本传递了大量有价值的信息,可用于许多智能应用,如智能汽车和盲人导航。不同于一般的对象,场景文字有不确定的长度,形状尤其是透视畸变,这使得文字检测很难简单的采用来自其他领域的技术。因此,文字检测的主流方法总是注重于单个字符的结构和字符之间的关系。例如,基于连接组件的方法。这些方法通常使用SWT或者MSER首先获取候选字符,并且使用一系列的子步骤来消去非文本噪声来精确的连接候选字符。这个方法虽然精确,但在实际应用中却有一定的局限性。

         另一个主流方法是基于滑动窗口,在一副图片上每一个位置多尺度的移动滑窗来检测文本。虽然这个方法能有效的找到文本,但是定位的类别对误报很敏感,因为滑窗通常都包含大量的背景噪声。

         目前,卷积神经网络已经被证实能很好的抑制误报,这启发了在场景文本检测领域的研究;在【10】中,huang等人整合了MSER和CNN,大大的增强了性能,超过传统方法。Zhang等人利用全卷积网络来有效的产生像素级文本/非文本显著图,这在公共数据集行取得了前所未有的性能。值得一提的是,这写成功方法的共同点就是利用文本的内在信息来训练CNN。受这个想法的感染,不使用约束的矩形,我们基于文本内在形状,设计了上百个四边形滑动窗口,实际中大大提高了召回率。

3.提出的方法论

         这个部分展示了DMP网络的细节。包括让我们的方法对文本定位可靠和精确的关键贡献:首先,大致的计算出多边形滑窗,然后使用共享蒙特卡洛方法去快速且精确计算多边形区域;细致的用多边形定位文本,并且设计一个平滑LN损失去适度地调整预测包围盒。

3.1用多边形滑窗粗略召回文本

         以前的方法已经成功的在中间卷积层应用滑窗来粗略的估计文本。虽然这个方法能精确的基于滑窗的区域方案,但是这些方法对于实时或几乎实时的应用来说太慢了。为了提高速度,Liu在不同尺度的几个特征图中简答你的评估一小组窗口在不同位置的不同宽高比,就能成功的检测到大小物体。然而,这个水平滑动窗口在我们的实验中通常很难处理多方向场景文字。受目前整合特征和CNN的影响,我们基于文本内在形状提出了上百个四边形滑窗来粗略估计文本。

         在粗略的估计过程中,设定一个重叠阈值来判断滑窗是正还是负。如果滑窗是正,那么它可能细致的定位文本。结伴上,一个小阈值会带来大量的背景噪声,减少精确度,然而一个大阈值会让文本产生更难。但是如果我们使用多边形滑窗,在滑窗和真值之间的重叠区域能变得足够大去超过更大的阈值,这样能有效的提高召回率和精确度,如图2所示。正如图中所示,我们预制水平滑窗,同时基于文本内在形状的先验知识设计了几个多边形在其中:a)两个具有45度角的矩形添加在里面b)两个长平行四边形被加在长矩形里面。C)2个高平行四边形被加在高矩形里面。

         有了这些灵活的滑窗,紧凑的包围盒变得更加精确,因此这个细致的子步骤过程能很容易紧凑的定位文本。另外,由于背景宗盛很少,故这些多边形滑窗的置信度在实际中能更加可靠,这能有效的消除误报。

3.1.1共享蒙特卡洛方法

         正如之前提到的,对于每一个groundtruth,我们都需要用每一个四边形滑窗计算他的重叠面积。然而,早前的方法只能计算矩形面积,其计算精确度却差强人意。因此我们提出了共享蒙特卡洛方法,当计算多边形面积时,速度快,精度高。我们的方法包含2个步骤。

A)     首先,我们在真值的外接矩形里均匀采样10000个点。Ground truth的面积就可以计算,通过计算重叠点在所有点的比例乘以这个外接矩形的面积。在这步,ground truth的所有点都将保留用于共享计算。

B)     第二,如果每一个滑窗的外接矩形和每一个ground truth 的外接矩形没有交集,那么重叠面积就是0,并且我们不需要进一步计算。如果重叠面积不是0,我们使用同样的采样策略来计算滑窗的面积,然后从第一步开始计算有多少个保留点在滑窗里面。内部点的比例乘以外接矩形的面积就是重叠面积。注意,这一步可以用GPU并行处理,因为我们可以使用一个线程来计算一个特定groundtruth滑窗,因此我们能一次性处理上千个滑窗。

注意,我们使用了[12]中提出的方法,来判断一个点是否在多边形内部,并且这个方法也被称为交叉数算法或是奇偶规则算法。我们的算法与以前的算法比较结果见图3,我们的方法在实际计算多边形面积表现出令人满意的性能。

3.2用四边形精细定位文本

         精细过程注重于利用高重叠面积的滑窗去紧凑的定位文本。不像水平矩形只有2个对角点决定,我们需要预测4个点的坐标来定位这个多边形。然而,简单地使用4个点去构建一个多边形很容易自相矛盾,因为主观的注释会让网络模糊决定哪个是第一个点。因此在训练之前,提前排序好4个点是很有必要的。

         顺序坐标协议。协议的提出可以用来决定平面凸多边形4个点的顺序,其中包含4步如图4所示。首先,我们设定最小值x为第一个点。如果2个点有相同的最小值x,那么我们选择y值更小的点作为第一个点。第二,我们连接第一个点和其他三个点,并且第三个点可以在中等斜率线上找到。第二个和第四个点在中间线的对立面(定义为大和小边)。然后,我们假设中线Lm:ax+by+c=0,并且我们定义一个待定点P(xp,yp),如果Lm(P)>0,我们假设P就是大边,反之就是小边。基于这个假设,大边的点就被分配为第二个点,最后一个点就被当做第四个点。最后一步就是比较对角线的斜率。在斜率更大的边上,我们选取x值更小的点作为新的第一个点。特别说明,如果较大的斜率是无穷,那么具有更小的y值的点被选为第一个点。同样的,我们找到第三个点,然后第二个点和第四个点就能决定。在完成这四步后,一个给定的凸多边形上的四个点的最终顺序就能唯一确定。

         基于顺序协议,DMP网络通过计算与中心点的相对位置,能清晰的学习和回归每一个点的坐标。不同于[26]中回归预测矩形的2个坐标和2个长度,我们的回归方法预测一个多边形检测的2个坐标和8个长度。对于每一个ground truth,4个点的坐标可以重新格式化为(x,y,w1,h1,w2,h2…..w4,h4)其中,x,y是最小外接水平矩形的中心坐标,wi,hi是第i个点相对于中心点的位置。如图5所示,4个点的坐标为(x+w1,y+h1,……,x+w4,y+h4)。注意,wi和hi可以成为负数。事实上,8个坐标就足够决定一个四边形的位置,我们使用10个坐标的原因是因为我们能避免回归8坐标,不包含相关信息,并且实际学习更加困难。受[26]的鼓舞,对于多任务孙淑,我们也使用Lreg(pi,pi*)=R(pi-pi*),其中R是我们提出的损失函数(平滑Ln),这在第3.4节中描述。P*=(p*x,p*y……)表示预测包围盒的10个参数坐标,p=(px,py,…….)表示ground truth。

         从给定的坐标中,我们能计算出外界矩形的最小值x和最大值x,外接水平矩形的宽wchr=x-x.同样的,我们能得到高度。

         我们采用以下10个坐标参数。这可以作为从一个多边形滑窗到接近ground truth盒的精细回归。

3.3平滑LN损失

         不同于【19,26】,我们的工作使用提出的平滑Ln损失,而不是平滑L1损失去做进一步定位场景文字。在RNN中使用平滑L1损失比L2损失对离散值更加不敏感,然而,在调整一个数据时这个损失不够稳定,这就意味着,这个回归线可能会因为一个小小的调整产生巨大的跳变或者只需要稍加修改就产生大的调整。至于提出的平滑Ln损失,回归参数是连续的函数,意味着任何数据点的小调整,回归线将总是只轻微的移动,这样能在定位小文本时提高精确度。对于大的调整,基于平滑Ln损失,回归总能适度的移动,这样能在实际中加速训练过程的逆向。正如3.2中提到的回归损失,Lreg定义为真实包围盒回归目标是p*的元组且预测元组为p的文本分类。平滑L1损失在[6]中提出:Lreg公式(1)其中smoothL1(X)公式(2)。函数中的X(X=w(p-p*))表示预测与真值之间的错误。SmoothL1(X)的偏差函数公式(3)。正如等式3所示,当平滑LN损失是一个连续可导的函数,偏差函数是一个分段函数。平滑Ln损失定义为公式(4),其中,公式(5),并且smoothLn的偏差函数为公式(6)等式(5)和等式(6)都是连续函数的一个方程。对于等式(6),很容易证明x>=deviLN(X),这就意味着在RCNN中使用平滑LN损失比L2损失更加不敏感。三个函数最直观的不同如图6所示。在鲁棒性和稳定性方面的比较总结在表1中。这个结果证明了平滑LN损失在文本定位和文本相对的更紧凑包围盒方面表现更好。

4.实验

5.结论

在本文中,我们提出了基于CNN的方法,名字叫做DMP网络,能有效的减少背景干扰。DMP网络是第一次试图应用基于文本内在形状先验知识设计的多边形滑窗,来粗略的估计文本。并且我们使用提出的顺序协议和一个相关回归方法来精细的定位文本且不会自相矛盾。由于在粗过程中需要计算数以百计的多边形重叠区域,我们提出了一种共享蒙特卡洛方法来快速且精确的计算。另外,一个新的平滑Ln损失用来进一步调整预测,这个损失在鲁棒性和稳定性方面表现出比L2损失和平滑L1损失更加好的性能。实验在总所周知的ICDAR数据集上,正是了DMP网络在场景文字检测方面能实现最好的效果。接下来,我们讨论一个关于我们工作的问题和简短的描述未来的工作。

         文本的真值。相机拍摄的照片上的文本总是会存在透视形变。然而使用矩形约束标数据会带来大量的背景噪声,并且在标边缘文本时它可能会因为没有包含所有的文本而遗漏信息。据我们所知,ICDAR是第一个使用多边形标签的数据集,并且我们的方法证实了利用多边形标签的有效性。因此,多边形标签对于场景文字是更加合理的。

         未来的工作。DMP网络有很高的召回率主要依赖于数以百计的优先设计多边形滑窗。虽然外面的方法已经证明有效,但是人为设定的滑窗形状可能不是最优的设计。在未来,我们将探索使用自适应形状滑窗面向更紧凑的场景文字检测。


实验效果


滑窗设计


蒙特卡洛方法


4点顺序设定


坐标参数含义


函数对比:平滑Ln损失——平滑L1损失——L2损失


原创粉丝点击