Seeing the Big Picture:Deep Embedding with Contextual Evidences

来源：互联网发布：js登录注册功能编辑：程序博客网时间：2024/05/16 06:55

Seeing the Big Picture:Deep Embedding with Contextual Evidences

使用基于SIFT的局部特征以及基于CNN提取的全局特征对图片进行索引。文中提到SIFT局部特征在图片检索领域具有里程碑式的影响，但是受限于其局部而没考虑到全局的线索，由此带来了mAP的损失，虽然后面的研究工作也提出了基于color和boundary的特征，但这些都是启发式的，没有理论依据。因此作者提出了使用CNN的region以及global特征来弥补SIFT的不足，同时针对这3中特征建立索引称之为Deep Embedding。（不知道作者哪里来的胆量，批判人家没有理论依据，说得好像CNN有什么理论依似的。）

一、Introduction

A. 相关工作

里程碑意义的SIFT局部特征；

BoW + 倒排索引，加快检索速度；

CNN近几年屌得不要不要的。

B. 以前工作的缺陷

SIFT只关注局部特征，对上下文特征描述的力度是不足的；

基于color和boundary的特征是启发式的，没有理论依据；

CNN在Classification和Object Detection上很牛逼，但是很少用在图片检索上面。

C. 作者工作

将CNN全局特征与SIFT局部特征结合起来；

提出一个概率模型，来判断keypoint是否真的match。

二、Feature Design

首先先明确作者的一个基本理念：SIFT作为local特征，CNN提取的特征作为region和global特征。而作者说的True Match指的是三者(local, region, global)都匹配才是True Match。

其次作者使用environment代表region,global特征。同时使用的是已经训练好的CNN模型进行特征提取，该模型是Decaf

local特征就不说了，就是SIFT特征，global特征就是一张训练图片通过CNN的特征。

A. `region`特征

作者将图片的region特征定义为两个图片的划分，分别是4X4和8X8的区块。

这里所有的区块应该都是被剪切下来之后当做一张完整的图片(当然要进行resize)输入到CNN的。

B. 一些问题

作者发现，CNN提出来的特征的数值差异十分的大[-72.8, 24.8]，作者认为：这么大的差距可能造成单一维度的巨大差异而使后面的欧氏距离偏差很大，其实有时候某一个维度的决定性不应该对维度产生这么大的影响。所以作者使用了一个叫做SRN(Signed Root Normalization)的正则化。 $f (x) = s i g n (x) | x | α$
α为可变参数，经试验，α=0.5效果较好。

特征编码，使用LSH对特征进行二进制编码，具体操作参见LSH

三、Deep Embedding Framework

经过两个公式的推导，得出概率模型。
>

f(x, y) = p(y ∈ Tx)

x,y分别代表查询和索引的两个keypoint， Tx为x的True match keypoint的集合, y∈Tx(后面记为Tx)，ξ为x，y的上下文特征。由于True Match的定义后项为0。所以推导出下面公式：

此公式是由上面的公式利用贝叶斯定理得出的。作者将公式拆分为3各部分(用·分割的)