Extremal Region(极值区域)文本定位与识别法－学习笔记（四）

来源：互联网发布：php简历模板编辑：程序博客网时间：2024/04/28 05:45

最近做一个计算机视觉的项目，要将其中复杂场景中的文本识别率从92%进一步提升，挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文，边在这里记下阅读笔记与翻译内容，慢慢研究。本人英语与专业水平有限，仅供学习参考，欢迎交流，请多指教。

Reference: Real-TimeScene Text Localization and Recognition Luk´aˇs Neumann Jiˇr´ı Matas 2012 IEEE

连续分类器sequential classifier

在本方法中，每个通道是分别进行迭代的（在原通道与反射投影中？），然后检测到极值区域。为了减小高的误判（假阳性）率以及极值区域检测器的高冗余性，只有对应字符的显著的极值区域才会被相继的分类器选中。为了更高的计算效率，分类被分解成两个阶段。

第一阶段，阈值从0到255逐渐增加，每个极值区域r的递增计算描述子在O(1)时间复杂度内计算出来，同时这些描述子可以作为用于估计类条件概率p(r|character)的分类器的特征。p(r|character)的值是利用所有阈值下极值区域的包含关系来跟踪的，并且只有对应局部极大概率值的极值区域被选中（满足条件：局部极大概率值大于全局极限pmin，同时局部极大值与局部极小值的差大于）

在本论文中使用R.E. Schapire and Y. Singer. Improved boostingalgorithms using conﬁdence-rated predictions. Machine Learning, 37:297–336,1999. 中提到的带决策树的Real AdaBoost分类器，它递增地计算描述子的复杂度为O(1)：宽高比（aspect ration）w/h,紧密度（compactness）√ a/p，孔洞数1 – η,以及水平交叉点特征（计算字符笔划在水平方向的投影）

（W中间应该为6啊，为什么为4？不解）

这里水平交叉点是计算c的固定尺寸的采样子集，因而复杂度是常数的。分类器的输出用Logestic correction（A. Niculescu-Mizil and R. Caruana. Obtaining calibratedprobabilities from boosting. In In: Proc. 21st Conference on Uncertainty inArtiﬁcial Intelligence, 2005.）校正成概率函数p(r|character)。参数由实验测得在 p min = 0.2 and Δ min = 0.1 ，，时可取得95.6%的高recall值。

第二阶段，通过第一阶段分类器的极值区域，用提供更多信息但计算代价更高的特征来分类成字符或非字符类。本论文用RBF核的SVM分类器来分类。分类器用所有第一阶段计算得到的特征，以及增加以下的特征：

Hole area ratio ah/a ah表示孔洞区域的像素数。此特征比孔洞数特征信息含量更多，因为小洞在较大的区域内比大洞在同样区域内的重要性低.

Convex hull ratio ac/a ac表示区域凸包的面积。

Outer boundary inflexion points外轮廓拐点数k区域边界的像素之间的凹角与凸角的变换数目(真是学术啊=_=，看图一目了然！)。一个字符通常有有限个拐点（k<10），而非字符内容（如草、象形图等）有非常多的尖峰，所以有更多的拐点。

注意，所有特征都是尺度不变的，但并非旋转不变的，因此训练集须包含不同旋转角度的字符。

穷举搜索ExhaustiveSearch

检测器被包含进了论文L.Neumann and J. Matas. Text localization in real-world images using efﬁcientlypruned exhaustive search. In ICDAR 2011, pages 687–691, 2011.中所提到的系统中，该系统使用有效的剪枝搜索法去实时地穷举搜索所有字符序列。它利用了文本的高阶属性（如单词文本线），并且它稳健的分组阶段可以补偿字符检测器的误差。选择这个系统是因为它能够处理多通道，字符多分割问题，并且可以利用OCR阶段来组合多通道的检测结果。它还可以通过字符检测器为文本识别提供字符分割。

1 0