RCNN用到的SelectiveSearch的理解笔记

来源：互联网发布：百度人工智能世界第一编辑：程序博客网时间：2024/06/05 00:13

在学习RCNN的过程中，我是从Rich feature hierarchies for accurate object detection and semantic segmenta这篇论文开始，这个论文给出了用DeepLearning做物体识别的一个思路，就是用selectivesearch之类的算法，生成一系列候选区域，并通过与目标区域的重叠比例给出一个值，然后进行训练：

抱着知其然也知其所以然的思路，我又找到slective search的论文：Selective Search for Object Recognition

记录一下论文阅读笔记：

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

思路

对于玩过Opencv人脸检测的人来说，基本都会形成一个思维定势，那就是检测就是不同大小的滑动窗进行穷举，然后使用分类器判断哪个滑动窗是人脸。对于深度学习这样超大计算量的分类器来说，这样的方法肯定是让人觉得太过于笨重的。于是乎，有人灵光一闪，说我干嘛要穷举嘛，我用简单的方法，根据颜色，纹理之类的信息去把图片划分成不同区域，哪怕是精度不高也可以相对于穷举搜索大量减少计算量。就是这么简单的搜索剪枝思路，几乎成为了当前深度学习物体识别领域的基本原则之一了。

实现细节

思路是关键，细节是必要条件。有了一个好的思路，作者在当时环境，提出来了一个相对比较好的selective search实现思路，虽然现在已经有了非常高端的技术，将selective search这个过程结合到神经网络之中，但是作者的这个实现思路也是非常值得学习，特别是如何利用已有的技术去实现自己提出的一个新的思路，不然就算哪天灵光一闪有了一个绝妙的思路，也实现不了。

待解决问题：

1）如何保证划分相对完全，有的object之间是纹理不一样，有的是颜色不一样，单一的判断标准肯定无法完全cover所有的候选区域，这样的话selective-search就没有了最基础的用处了。对应原始的穷举搜索，就是扫描这个过程，扫描就是保证能够划分完全。

2）hierarchical层次关系，划分不能简单只是划分小区域，简单思考下就能发现，object肯定存在层次关系。轮胎是object，车子也是obeject，车子包含了轮胎。桌子是，桌子上的东西也是，桌子在图像上包含了桌子上的东西。所以Selective Search也应该要能够将各个层次的object的区域都给出来。对应原始的穷举搜索，就是不同大小的搜索框，只有不同大小的搜索框才能保证不同层次的object都被选择出来。

3）速度，比起穷举搜索这样无脑的方法，selective search肯定在划分时有一定计算量的，如何保证计算量相对小，也是一个需要考虑的问题。

实现：

作者的实现思路是，首先通过简单的区域划分算法，将图片划分成很多小区域，再通过相似度和区域大小（小的区域先聚合，这样是防止大的区域不断的聚合小区域，导致层次关系不完全）不断的聚合相邻小区域，类似于聚类的思路。这样就能解决object层次问题，实际上也是非常成熟的技术。

其次，作者为了保证能够划分的完全，对于相似度，作者提出了可以多样化的思路，不但使用多样的颜色空间（RGB，Lab，HSV等等），还有很多不同的相似度计算方法。

最后对于计算速度来说，只能说这个思路在相对穷举，大大减少了后期分类过程中的计算量，但是本身的计算量还是有很大的优化空间，后来很多人在这个思路上改进，得到了性能好的多的算法。

算法流程如下，就不赘述了：

阅读全文

0 0