阅读小结：CNN Image Retrieval Learns from BoW:Unsupervised Fine-Tuning with Hard Example：CNN Image Retrie

来源：互联网发布：药水哥网络臭要饭的编辑：程序博客网时间：2024/06/13 22:30

What:

图像检索的一篇文章，使用了CNN特征。

结果方面，由于数据集的问题，ft以后在Holiday上 VGGNET 82.5 < NetVlad 86.0 （因为ft的数据集多为建筑）

在Oxford 5k上结果（cropi） VGGNET 79.1 为一个state of art的结果。

How：

1.网络结构：

全卷积网络，没有fc层。MAC层是一个根据输入大小对应的max pool。

对于pool5使用MAC，可以得到维数为256，512的特征。

MAC后的特征进行L2norm，然后做内积（这就是cos距离）作为loss （regression loss）

2.提出了一个post processing的方法（用training数据集得到一个映射矩阵）

3.提出了了一个无监督收集的数据集

首先收集一大堆没标注的图像，然后聚类

然后再用每一类构建3D model，扔掉一些冗余的模型。

4.选择训练pair的问题

3D模型可以看作一个二分图，一边是图像Image，一边是视点points。

正样本有三种策略

a,MAC距离最小的，b.有很多视点交集的，c.视点交集满足一定的阈值的（这种最好）可见Figure2

负样本的话

从其他类中选择 a.选择k近邻 b.选择视点相同的

实验

1query, 1positive and 5 negative images

0 0