边缘文本检测:快速的和健壮的场景文本定位算法的研究

来源:互联网 发布:经知考试网网址 编辑:程序博客网 时间:2024/06/04 16:10

论文原文:http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7780757


该论文的目标任务是什么?
做边缘文本检测,快速的和健壮的场景文本定位算法的研究,为文字识别提供定位的算法

1. 应用场景是什么?

文字识别体系中,不同中场景,不同种文字的快速准确定位。

实际的生活应用包括:图像与视频检索、多国语言翻译、自动助理等


2. 现存的问题瓶颈?

文中未具体提及


3. 已有最佳方法从哪些思路去解决的?

已有两个方案来解决文本定位问题:

1)使用滑动窗口去定位文本的位置,缺点是计算量特别大,并且会产生大量冗余的候选区域

2)使用连接组件分析(主要有SWT 和MSER),虽然在场景文本识别取得了较好的效果,但是回调率较低


4. 该论文的解决思路?

通过边缘检测的方法去实现文本的定位


5. 具体方法?

1)Input image

2)ERs after non-maximum suppression

3)Texts classified with high threshold

4)Text classified with lowthreshold

5)Hysterrsis based tracked texts

6)Get results


6. 还存在的问题?

首要的是算法运行的时间有待优化,齐次是精度有待提高,置信度较低


7. 该论文的解决思路能否用到其他什么任务中?

视频中文本的定位,可以研究视频中文本定位的相关算法


8.文字定位算法的判别标准?

1)回调  文本探测必须定位尽可能多的文本区域

2)精确性   探测的结果尽可能的不包含非文本区域

3)独一无二性  在操作上每一个被侦察到的字符应该仅仅被标记一次

4)简洁性   检测到的区域应该精确地定位到所符合的字符而没有额外的边界


{cho, myungchul.sung, bongjin.jun}@stradvision.com 作者们的邮箱,可以发送邮件寻求训练数据集


阅读全文
0 0
原创粉丝点击