Extremal Region(极值区域)文本定位与识别法-学习笔记(四)
来源:互联网 发布:php简历模板 编辑:程序博客网 时间:2024/04/28 05:45
最近做一个计算机视觉的项目,要将其中复杂场景中的文本识别率从92%进一步提升,挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文,边在这里记下阅读笔记与翻译内容,慢慢研究。本人英语与专业水平有限,仅供学习参考,欢迎交流,请多指教。
Reference: Real-TimeScene Text Localization and Recognition Luk´aˇs Neumann Jiˇr´ı Matas 2012 IEEE
连续分类器sequential classifier
在本方法中,每个通道是分别进行迭代的(在原通道与反射投影中?),然后检测到极值区域。为了减小高的误判(假阳性)率以及极值区域检测器的高冗余性,只有对应字符的显著的极值区域才会被相继的分类器选中。为了更高的计算效率,分类被分解成两个阶段。
第一阶段,阈值从0到255逐渐增加,每个极值区域r的递增计算描述子在O(1)时间复杂度内计算出来,同时这些描述子可以作为用于估计类条件概率p(r|character)的分类器的特征。p(r|character)的值是利用所有阈值下极值区域的包含关系来跟踪的,并且只有对应局部极大概率值的极值区域被选中(满足条件:局部极大概率值大于全局极限pmin,同时局部极大值与局部极小值的差大于)
在本论文中使用R.E. Schapire and Y. Singer. Improved boostingalgorithms using confidence-rated predictions. Machine Learning, 37:297–336,1999. 中提到的带决策树的Real AdaBoost分类器,它递增地计算描述子的复杂度为O(1):宽高比(aspect ration)w/h,紧密度(compactness)√ a/p,孔洞数1 – η,以及水平交叉点特征(计算字符笔划在水平方向的投影)
(W中间应该为6啊,为什么为4?不解)
这里水平交叉点是计算c的固定尺寸的采样子集,因而复杂度是常数的。分类器的输出用Logestic correction(A. Niculescu-Mizil and R. Caruana. Obtaining calibratedprobabilities from boosting. In In: Proc. 21st Conference on Uncertainty inArtificial Intelligence, 2005.)校正成概率函数p(r|character)。参数由实验测得在 p min = 0.2 and Δ min = 0.1 ,,时可取得95.6%的高recall值。
第二阶段,通过第一阶段分类器的极值区域,用提供更多信息但计算代价更高的特征来分类成字符或非字符类。本论文用RBF核的SVM分类器来分类。分类器用所有第一阶段计算得到的特征,以及增加以下的特征:
Hole area ratio ah/a ah表示孔洞区域的像素数。此特征比孔洞数特征信息含量更多,因为小洞在较大的区域内比大洞在同样区域内的重要性低.
Convex hull ratio ac/a ac表示区域凸包的面积。
Outer boundary inflexion points外轮廓拐点数k区域边界的像素之间的凹角与凸角的变换数目(真是学术啊=_=,看图一目了然!)。一个字符通常有有限个拐点(k<10),而非字符内容(如草、象形图等)有非常多的尖峰,所以有更多的拐点。
注意,所有特征都是尺度不变的,但并非旋转不变的,因此训练集须包含不同旋转角度的字符。
穷举搜索ExhaustiveSearch
检测器被包含进了论文L.Neumann and J. Matas. Text localization in real-world images using efficientlypruned exhaustive search. In ICDAR 2011, pages 687–691, 2011.中所提到的系统中,该系统使用有效的剪枝搜索法去实时地穷举搜索所有字符序列。它利用了文本的高阶属性(如单词文本线),并且它稳健的分组阶段可以补偿字符检测器的误差。选择这个系统是因为它能够处理多通道,字符多分割问题,并且可以利用OCR阶段来组合多通道的检测结果。它还可以通过字符检测器为文本识别提供字符分割。
- Extremal Region(极值区域)文本定位与识别法-学习笔记(四)
- Extremal Region(极值区域)文本定位与识别法-学习笔记(一)
- Extremal Region(极值区域)文本定位与识别法-学习笔记(三)
- Extremal Region(极值区域)文本定位与识别法-学习笔记(二)
- Extremal Region(极值区域)文本定位与识别法-代码分析(一)
- 基于OpenCV实现的极值区域(Extremal Region)提取
- < openCV > 最大稳定极值区域(MSER-Maximally Stable Extremal Regions)
- matlab实现MSER(最大极值稳定区域)来进行文本定位
- matlab实现MSER(最大极值稳定区域)来进行文本定位
- OCR开源库(文本区域定位和文本识别):github
- OCR开源库(文本区域定位和文本识别):github
- opencv学习笔记(四)识别线段与圆形
- Open CV 学习开发笔记之ROI(Region Of Interest)感兴趣区域(三)
- 激光雷达学习笔记(四)定位
- 激光雷达学习笔记(四)定位
- 激光雷达学习笔记(四)定位
- 激光雷达学习笔记(四)定位
- SLAM学习笔记(四)定位
- Spring IOC和DI的理解
- Volley 源码解析
- python学习笔记(十五) - ORM框架(SQLAlchemy)
- 【c++笔记十三】c++中的输入、输出和文件操作
- 小样本分析
- Extremal Region(极值区域)文本定位与识别法-学习笔记(四)
- .net免客户端使用oracle
- DSAPI多功能组件编程应用-图形图像篇(上)
- 字典序最小问题
- Debian7.7安装vim7.4遇到依赖问题解决办法
- hdu1251 统计难题 裸的字典树 前缀子串统计
- 《HTTP权威指南》读书笔记(2)-URL与资源
- 如何不要让ndk-build自动删除.so, 或如何链接一个不在lib/armeabi下的第三方库 && NDK Android.mk 语法
- QQ互联更换key QQ应用宝更换key 应用宝appid更换