ParseNet论文解读
来源:互联网 发布:广联达市政预算软件 编辑:程序博客网 时间:2024/06/06 01:43
导言
其实图像语义分割和目标检测如果对比起来看到话,基本上是一样的任务。目标检测需要定位目标并找到最准确的框,而语义分割是把目标分割出来。由此可见,语义分割是比目标检测更困难的任务。有时候并不需要分割出目标,只需要框出来就可以了,比如行人检测,就不一定要把它分割出来,所以目标检测的算法用途也很广泛。如果对比目标检测和语义分割的论文的话,基本上是面对着相似的问题。ParseNet和SSD是同一个作者做的,也有很多相似之处。
ParseNet论文题目就说出了它是使用了更大的感受野这个特点。
Global Context
作者用一个滑动的噪声去干扰输入图像,观察网络的输出,用来探测一个网络的有效感受野具体有多大。这是个不错的想法,因为论文大都是以核等参数反推出感受野,但是真正有效的感受野到底有多大呢?作者实验发现,理论上VGG的fc7应该有
作者发现,使用一个Gobal Pooling可以显著特高感受野,也可以提升分割效果。
EARLY FUSION AND LATE FUSION
这个问题也挺有趣的,特征有两种融合方式,一个是早期融合,然后放入分类器一起分类,另一种就是晚期融合,就是分类后再融合。如果没有额外的处理,则两种方式是一样的。一般来说,早期融合可以很好利用更多特征,这个是晚期融合做不到的。但是作者发现,如果加入了
但是做特征融合的时候一定要注意的是不同层的数据scale是不一样的,所以需要正则化才能融合。而且需要注意的是不同层的数据尺寸也不同啊,所以也不能够直接融合。所以,作者使用了
L2 Norm Layer
尽管可以通过直接融合不同层,然后进行学习以改善不同scale的问题,但是这种方法仍然太过生硬,而且对于fine-tuning来说很难做好。所以作者提出使用
好了,基本思想就是这样,剩下就是实验细节了。
- ParseNet论文解读
- KuDu论文解读
- DeepLab论文解读
- YOLO 论文解读
- YOLO论文解读
- 手势识别论文解读
- a_vision_aided_nonlinear_observer_for_fixed_wing_uav_navigation论文解读
- ResNet 论文解读
- [论文解读] Deep Compression
- [论文解读] SqueezeDet
- centerloss的论文解读
- [CVPR2017] CFNet 论文解读
- RCNN论文解读
- AlexNet论文翻译与解读
- LDA原论文的部分解读
- 单幅图像场景理解,论文解读
- 实训周报2--RCNN论文解读
- 判别模型的玻尔兹曼机论文源码解读
- Windows命令行bat批处理延迟sleep方法
- Unity3D自学笔记——脚本开发基础数学
- 单链表实现递增有序交集
- 使用 Symfony2 的组件创建自己的 PHP 框架
- 数据结构(1)-基本概念和术语
- ParseNet论文解读
- 安卓全局修改TextView字体样式
- iOS的app上架--苹果加急审核
- web前端-HTML表格-011
- 微机原理--第二章(8)Pentium 的中断
- 杭电2033 人见人爱A+B
- 多态机制的意义及实现
- 关于tomcat作为服务器 URL访问的一些问题
- hash冲突解决方法