菜鸟读文献系列(一)

来源:互联网 发布:香港新四大才子知乎 编辑:程序博客网 时间:2024/05/20 15:57

文献名:Detecting and Reading Text in Natural Scenes

摘要
本文给出了一种在自然图像中检测和识别文本的算法。我们首先获得由盲人和正常目标对象拍摄的城市图像的数据集。接下来,我们执行文本区域的统计分析以确定哪些图像特征是文本的可靠指示符并且具有低熵(即,特征响应对于所有文本图像类似)。我们通过使用关于概率的联合概率来获得弱分类器。这些弱分类器用作AdaBoost机器学习算法的输入以训练强分类器。在实践中,我们训练了一个级联与4强分类器包含79个特征。自适应二值化和扩展算法被应用于由级联分类器选择的那些区域。
1.介绍
这篇文章介绍了一个检测和识别城市背景中的文字算法。比如街道标记,医院标记和汽车车牌号等。这些数据一部分用于训练算法一部分用于测试算法性能。
算法的第一个也是最重要的部分是通过AdaBoost学习算法对标记数据进行训练的强分类器。第二个组件是作用于文本区域候选的扩展和二值化算法。第三个组件是作用于二进制化区域的OCR软件程序(当直接应用于图像时,OCR软件给出的性能差得多)。
2.前期工作
图片中的检测文字已经有几个成功的方法。一些人集中在检测个别字母。 我们在本文中报告的性能优于Lucas等人报告的性能,但数据集是不同的,需要在相同的数据集上进行更精确的比较。 我们将使我们的数据集可用于测试。
3.The Datasets
我们使用两个图像数据集,一个用于训练AdaBoost学习算法里一个用于测试它。
4.对AdaBoost的特征选择
AdaBoost算法是用于组合一组弱分类器以产生强分类器的方法。弱分类器对应于图像特征。通常,预先指定大量的特征集合然后算法选择哪个和如何组合他们。问题是,特征集的选择对于算法的成功和透明度是至关重要的。Viola和Jones用于面部检测的一组特征包括Haar基函数的子集。但是除了计算效率之外,没有理由选择这种特征集。还有文本和面部刺激之间的重要差异,因为文本图像的每个像素的空间变化远大于面部。面部特征,例如眼睛,对于任何面部都在大致相同的空间位置中并且具有相似的外观。但是文本中的字母的位置是多变的,并且字母的形状不同。理想地,我们应该选择在所有文本区域上给出相似结果的信息特征,并且因此具有低熵,并且还有利于区分文本和非文本。例如,我们对齐来自文本数据集的样本(不需要精确对准),并且分析每个像素处的x和y导数滤波器的模量的响应。我们的第一组特征是基于这些观察。通过对区域取平均,我们获得具有较低熵的特征。我们在子窗口内设计块模式,对应于水平和垂直导数。我们还设计了三个对称的块图案,我们通过计算概率分布从这些特征构建弱分类器。形式上,好的特征f(I)将确定两个概率分布P(f(I)|text)和P(f(I)|non-text).我们可以通过使用对数似然比检验获得弱分类器.我们还有一个更复杂的第二类功能。这些包括基于强度,梯度方向和强度梯度的直方图的测试。在理想的文本图像中,我们将能够直接从强度直方图将像素分类为文本或背景,该直方图应该具有对应于文本和背景平均强度的两个峰值。我们的第三个,也是最后一个特征类,基于执行边缘检测,通过强度梯度阈值,然后边缘连接。
5.学习AdaBoost
6.扩展和二进制化
我们的下一阶段产生二进制文本区域,用作OCR读取阶段的输入。除了二值化之外,我们必须扩展由AdaBoost强分类器找到的文本区域,因为这些区域有时会在文本的开始和结束处遗漏字母或数字。我们开始应用自适应二指化由AdaBoost强分类器检测的文本区域。这些估计用于将文本的搜索扩展到由AdaBoost检测到的区域的左侧,右侧,上方和下方的区域。 然后在这些扩展的文本区域中应用二进制化。
7.文本阅读
列举一些失败的案例,大多数这些错误对应于模糊或严重阴影的文本。对于由AdaBoost强分类器正确检测的286个扩展文本区域(加上扩展/二进制化),我们获得了正确的读取率为93.0%(比例字正确读取)。OCR算法有时会错误地分类由AdaBoost找到的假阳性文本区域并将它们分类为文本。
8.总结
本文使用AdaBoost算法来学习一个强分类器,用于在无约束的城市场景中检测文本。关键要素是选择特征集,选择具有正熵训练样本的低熵的特征(以便他们给出类似的响应 对于任何文本输入)。 此外,我们使用对数似然比测试对特征对的联合概率分布。 与Viola和Jones用于面部检测的系统相比,所得到的系统很小,只需要91个滤波器和4层级联。为了证明我们的方法的有效性,我们使用它作为系统的前端,其包括扩展和二进制化算法,然后是商业OCR系统。 所产生的性能非常有效。

本人菜鸟读文献的第一篇文章终于磕磕碰碰的读完了,感觉效果非常不理想,很多东西无法理解,内容有很大确实,需要提升的地方很多,再接再厉了。

0 0
原创粉丝点击