深度学习笔记（一）：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

来源：互联网发布：吉利知豆d1补贴后价格编辑：程序博客网时间：2024/05/30 19:33

一、目的

对于跟踪问题来说，CNN应该是由视频跟踪的数据训练得到的更为合理。

但用跟踪数据来训练很难，因为同一个object，在某个序列中是目标，在另外一个序列中可能就是背景，而且每个序列的目标存在相当大的差异，而且会经历各种挑战，比如遮挡、形变等等。

现有的很多训练好的网络主要针对的任务比如目标检测、分类、分割等的网络很大，因为他们要分出很多类别的目标。

目前很多训练好的网络都过大，若在跟踪问题中，一个网络只需要分两类：目标和背景，则网络不必过大。由此提出MDNet网络。

二、MDNet网络

1、结构

1）input

107*107的RGB图像（采集的样本）

2）Shared Layers

3个卷积层+2个全连接层，共享层输出512个通道特征

3）Domain-specific Layers

Fc6对应一个二分类的全连接层，带有softmax交叉熵损失函数，来区分目标与背景；输出二维向量，分别表示输入的边界框的目标与背景的得分概率；对应K个分支（K个不同类别的视频），每次训练使用对应该视频的一个分支；

2、训练数据

mini-batch的构成是从某一视频中随机采的8帧图片，再从每一帧图片上取50个正样本和200个负样本，从这些正负样本中取32个正样本和96个负样本（利用了hard negative mining），即每个mini-batch由某一个视频的128个框来构成，也就是说每个视频都只训练一个mini-batch。

3、训练过程

1）目的：让共享层学到不同域共同的特性（光照变换、运动模糊、尺度变换），让不同分支的特定域层学到该域特有的一些特征。

2）利用迭代方法：假设有K个训练视频，一共做100次循环。在每次循环中，会做K次迭代，一次用K个视频的mini-batch来做训练，重复进行100次循环。用SGD（随机梯度下降算法）进行训练，每个视频会对应自己的fc6层。