论文笔记-Synthetic Data for Text Localisation in Natural Images
来源:互联网 发布:逆光源网络剧第2集 编辑:程序博客网 时间:2024/05/18 03:30
训练一个CNN模型,需要大量的标注数据,如图像分类,因为有 ImageNet 这样级别的数据才能完成训练。
而诸如 ICDAR 这类数据集,其训练数据量很小,统计如下:
这样小的样本集,不仅不能训练 CNN,也不合适用来代表文字在自然场景下的所有变化情况:字体、颜色、大小、位置。因此,如果能够自然的人工合成标注数据,那么我们便可以得到大量的自然场景文本标注数据。
摘要
1.简介
两个关键的贡献点:提出了一种用于生成文本合成图像的新方法,将文本和现有自然场景自然的融合在一起。使用深度学习和分割技术将文本与背景图像的几何结构对齐,并且遵守场景边界。
1.1相关工作
- 使用CNN进行目标检测
- Synthetic Data
- 增强单张图片
2.合成文本in the Wild
2.1文本和图像资源
2.2分割和几何估计
自然场景中的文字一般都是在背景图像的表面上的。为了得到相同的效果,文字要根据 local surface normal 去放置文本,具体为:先通过 Deep convolutional neural fields for depth estimation from a single image 提出的 CNN 模型,获取像素级别的深度图像。再用 RANSAC 去拟合出垂直于法向量的平面。然后就可以将文本安置在平面上,这样文本就较为自然的融入背景图像中了。
过程如下:
(1)首先,使用估计出的平面法线(estimated plane normal),将图像区域轮廓弯曲成 frontal-parallel view,形成一个 fronto-parallel region。
(2)然后,用一个矩形去拟合这个 fronto-parallel region。
(3)最后,文本与上面矩形的较大边(width)对齐。
2.3.文本渲染和图像组合
一旦需要被嵌入的文本的位置、方向定下来之后,就需要将文本赋予一种颜色。怎么赋予颜色,本文是从IIIT5K Word Dataset中裁剪下来的文字图像中学习得到的。每一张裁剪的文字图像中的像素,用 K-means 将其分为两个集合,形成一个颜色对,一个集合是文字的颜色,一个集合是背景的颜色。每当要去渲染要嵌入的文字的颜色时,与当前背景颜色最接近的文本颜色,即是我们需要渲染的颜色。思想很简单,最后用Lab colour space中用 L2-norm 来度量颜色的相似度。
在渲染中,大约 20% 的文本需要加边框,边框的颜色选择,要么与前景的颜色相同,只不过颜色值增加了,或者减小了;要么选择前景背景颜色的均值。
为了保证人造数据的 illumination gradient,我们在文本上使用Poisson 图像处理 ,代码文本使用了 Raskar 的实现:Fast Poisson Image Editing Code。
3.快速文本检测网络
3.1. 架构
单尺度特征
分类和包围盒预测
- 论文笔记-Synthetic Data for Text Localisation in Natural Images
- 论文阅读:Synthetic Data for Text Localisation in Natural Images
- 论文阅读:Synthetic Data for Text Localisation in Natural Images
- 对论文Synthetic Data for Text Localisation in Natural Images的理解
- 论文笔记之Synthetic Data for Text Localisation in Natural Images(人工合成带有文本的图片)
- Detecting Text in Natural Image with Connectionist Text Proposal Network论文笔记
- (Paper)Robust Text Detection in Natural Scene Images
- (Paper)Robust Text Detection in Natural Scene Images
- 《Focusing Attention:Towards Accurate Text Recognition in Natural Images》阅读
- Looking Beyond Appearances: Synthetic Training Data for Deep CNNs in Re-identification 学习笔记
- SegLink on github-Detecting Oriented Text in Natural Images by Linking Segments
- 论文读书笔记-automatic text summarization for annotating images
- 论文笔记:A Global Covariance Descriptor for Nuclear Atypia Scoring in Breast Histopathology Images
- [论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network
- [论文复现]Detecting Text in Natural Image with Connectionist Text Proposal Network
- ctpn-Detecting Text in Natural Image with Connectionist Text Proposal Network 论文解读
- 【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural I
- 图割论文阅读笔记:Interactive Graph Cuts for Optimal Boundary & Region Segmentation of Objects in N-D Images
- Freemaker FTL指令常用标签及语法
- FetchType与FetchMode的区别
- Nginx 主要应用场景
- 笔记19 | 利用MediaRecorder实现录像
- Cloud中Hystrix仪表盘与Turbine集群监控
- 论文笔记-Synthetic Data for Text Localisation in Natural Images
- 线段树模板(区间和+区间最大值 + LAZY标记)
- 如何使用MySQL索引?
- Web开发者易犯的五大严重错误
- LeetCode650. 2 Keys Keyboard
- 怎么批量的将CAD文件转为pdf格式?
- 2017首届全球金融科技与区块链中国峰会—聆听行业领袖的真知灼见
- 当技术为组织所累时怎么办?将你的组织架构旋转90度!
- python 实现线性链表(单链表)--增加合并链表算法