MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching

来源:互联网 发布:仰恩大学网络教务系统 编辑:程序博客网 时间:2024/06/01 20:29

摘:matchnet由块中提取的特征的深度卷积网络构成,还有一个三个全链接层的网络。这三层是计算提取出来的特征的相似度。

这篇文章中设计一个统一的方法联合学习块表示和块特征对比。每个块经过卷及神经网络生成固定的代表着SIFT类似的东西。然而,SIFT是在特征层面上以欧式距离来作比较特征。而在MatchNet中,代表以学习到的距离尺度来作比较,作为全连接层。

本文贡献:1)设计了一种全新的块对比深度卷积神经网络系统,且该系统的效果比较好。2)更小描述子更好的性能。3)MatchNet在hand-craft和descriptor上都提升很大。4)提供了一个可以运行的release版本。

2.相关工作

3.网络结构

一部分是特征显示还有一部分是特征相似性检测。

特征网络:

特征网络深受AlexNet影响,具备着较好的目标识别性能,激活函数选用ReLU

metric网络:

采用激活函数为ReLU的3个全连接层作为特征相似性建模。FC3使用softmax,网络输入的是特征对,输出是0和1两个值,范围从0~1之间,作为这两个块是否匹配与否的置信度。

固定参数的双塔结构:

基于块的匹配任务通常假设块在计算相似性之后精力同样的特征编码。因此,我们只使用一个特征网络。经过训练,这可由链接到比较网络的两个特征网络(双塔)实现而成。这两个塔具有着相同的参数。任何一个塔的参数更新将会更新到共享参数上。

这与Siamese网络相关。有两个塔,但是仍需谨慎的设计损失函数。采用TTPFC对比网络来进行网络的学习和对比。相反,包含最大池化层的MatchNet可以处理定位重建问题中无法解决的尺度改变问题。它也具有更多的卷积层。

其他的设定与常规相似,MatchNet可以概括为它们共享不同结构的tower与浅层。

障碍层:障碍层用在减小特征表示的维度并且可以控制网络避免过拟合。这是一个尺寸大小为B的全连接层。pool4的输出具有4096个节点

预处理层:经过先前的经验,对于输入灰度尺度上的每个像素,可以将强度规范化到一定的尺度之中。


网络结构如图1,MatchNet结构:A:用于特征编码的特征网络,具有一个可选障碍层来降低特征维度。B:这个是为了特征比较的metric网络。C:训练阶段,特征网络共享参数好似双塔。双塔的输出连接metric网络的输入。整个网络联合训练基于标签后的样本对。损失函数为cross-entropy损失。预测阶段,两个子网络采用两步策略进行使用。

4.训练和预测

最小化交叉熵误差,特征网络和metric网络是联合训练而成的,双塔结构监督设定。

以批尺寸大小32的SGD来作为训练集。因此,y是输入对x的0/1标签,1代表匹配。y代表着softmax激活预测是标签1时的可能性。

经过无数次的实验,0.01的SGD比其他的学习率下的方案要好。即使大尺度下的聚合更快。根据网络的结构,训练完毕一个完整的网络耗时18小时至一周之多。学习率策略是能够加快训练效率的。

图5可视化特征网络中不同层的网络响应。

4.1 训练中的采样

训练中采样时关键,当正负样本高度不平衡时,采用采样的方式生成正负样本平衡的小样本对从而使得网络不产生偏向。样本对需要谨防这种易过拟合的样本对。

特别而言,训练集已经组合成了匹配对,UBC样本对具有着差不多大小为3的大小。正采样时,随机的从组中挑选两个,负采样时,以R大小进行缓冲。任何时候,

其实这个就是选择正负样本的策略

4.2 两阶段预测

基于块匹配的常用策略是从两幅图片中提取一系列的块。即计算N1×N2的块匹配得分,N1和N2是图像中的块数量。将每个块都经过全网络并不有效,因为特征塔多次运行在同样的块上运行多次。相反,我们应当分别使用特征塔metric网络。首先,应该对所有块都生成特征编码。接着使得特征成对讲它们穿过metric网络获得得分。

5.实验






0 0
原创粉丝点击