Extremal Region(极值区域)文本定位与识别法-学习笔记(四)

来源:互联网 发布:php简历模板 编辑:程序博客网 时间:2024/04/28 05:45

最近做一个计算机视觉的项目,要将其中复杂场景中的文本识别率从92%进一步提升,挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文,边在这里记下阅读笔记与翻译内容,慢慢研究。本人英语与专业水平有限,仅供学习参考,欢迎交流,请多指教。

Reference: Real-TimeScene Text Localization and Recognition  Luk´aˇs Neumann  Jiˇr´ı Matas 2012 IEEE

连续分类器sequential classifier

         在本方法中,每个通道是分别进行迭代的(在原通道与反射投影中?),然后检测到极值区域。为了减小高的误判(假阳性)率以及极值区域检测器的高冗余性,只有对应字符的显著的极值区域才会被相继的分类器选中。为了更高的计算效率,分类被分解成两个阶段。

         第一阶段,阈值从0到255逐渐增加,每个极值区域r的递增计算描述子在O(1)时间复杂度内计算出来,同时这些描述子可以作为用于估计类条件概率p(r|character)的分类器的特征。p(r|character)的值是利用所有阈值下极值区域的包含关系来跟踪的,并且只有对应局部极大概率值的极值区域被选中(满足条件:局部极大概率值大于全局极限pmin,同时局部极大值与局部极小值的差大于)



在本论文中使用R.E. Schapire and Y. Singer. Improved boostingalgorithms using confidence-rated predictions. Machine Learning, 37:297–336,1999. 中提到的带决策树的Real AdaBoost分类器,它递增地计算描述子的复杂度为O(1):宽高比(aspect ration)w/h,紧密度(compactness)√ a/p,孔洞数1 – η,以及水平交叉点特征(计算字符笔划在水平方向的投影)


(W中间应该为6啊,为什么为4?不解)


这里水平交叉点是计算c的固定尺寸的采样子集,因而复杂度是常数的。分类器的输出用Logestic correction(A. Niculescu-Mizil and R. Caruana. Obtaining calibratedprobabilities from boosting. In In: Proc. 21st Conference on Uncertainty inArtificial Intelligence, 2005.)校正成概率函数p(r|character)。参数由实验测得在 p min = 0.2 and Δ min = 0.1 ,,时可取得95.6%的高
recall值。


第二阶段,通过第一阶段分类器的极值区域,用提供更多信息但计算代价更高的特征来分类成字符或非字符类。本论文用RBF核的SVM分类器来分类。分类器用所有第一阶段计算得到的特征,以及增加以下的特征:

Hole area ratio ah/a  ah表示孔洞区域的像素数。此特征比孔洞数特征信息含量更多,因为小洞在较大的区域内比大洞在同样区域内的重要性低.

Convex hull ratio ac/a  ac表示区域凸包的面积。

Outer boundary inflexion points外轮廓拐点数k区域边界的像素之间的凹角与凸角的变换数目(真是学术啊=_=,看图一目了然!)。一个字符通常有有限个拐点(k<10),而非字符内容(如草、象形图等)有非常多的尖峰,所以有更多的拐点。

注意,所有特征都是尺度不变的,但并非旋转不变的,因此训练集须包含不同旋转角度的字符。


穷举搜索ExhaustiveSearch

         检测器被包含进了论文L.Neumann and J. Matas. Text localization in real-world images using efficientlypruned exhaustive search. In ICDAR 2011, pages 687–691, 2011.中所提到的系统中,该系统使用有效的剪枝搜索法去实时地穷举搜索所有字符序列。它利用了文本的高阶属性(如单词文本线),并且它稳健的分组阶段可以补偿字符检测器的误差。选择这个系统是因为它能够处理多通道,字符多分割问题,并且可以利用OCR阶段来组合多通道的检测结果。它还可以通过字符检测器为文本识别提供字符分割。



1 0
原创粉丝点击