笔记:Semi-supervised Domain Adaptation with Subspace Learning for Visual Recognition

来源:互联网 发布:vb picturebox 保存 编辑:程序博客网 时间:2024/06/06 23:16

针对视觉识别的基于子空间学习的半监督域适应

Semi-supervised Domain Adaptation with Subspace Learning for Visual Recognition

Yvonne-fan

  • Introduction
  • Algorithm
  • Optimization
  • Evaluation

Introduction

名词解释

样本:能够用一些特征表示的事物。
标签:能够绝对分类样本的属性
域:代表一些样本的集合。
标签样本:有标签的样本。
未标签样本:无标签的样本
源域:有一定数量的标签样本,能够迁移一定的信息到目标域当中。
目标域:希望解决问题的样本域,标签样本数量较少。

首先将介绍一下这篇文章的主要背景知识,分为三部分,分别为待解决问题,域适应,半监督域适应。

Problem 待解决问题

这里写图片描述

In many real-world applications, we are often facing the problem of cross domain learning, to borrow the labeled data or transfer the already learnt knowledge from a source domain to a target domain. However, simply applying existing source data or knowledge may even hurt the performance, especially when the data distribution in the source and target domain is quite different, or there are very few labeled data available in the target domain.
在许多实际应用中,我们经常会面对跨域学习的问题,通过借助标签样本或者从源域到目标域进行已知知识迁移。然而,直接简单地利用现有的源域样本或者只是有可能会降低算法表现,也别是当源域样本与 目标域样本分布差异特别大或者是目标域标签样本非常少的时候。

Domain Adaptation 域适应

tl

上图介绍了域适应与传统机器学习的区别。
传统的机器学习知识将来自不同域的样本分别学习,之间不会产生任何关系。但是域适应在目标域当中没有足够多甚是没有标签样本时,会从一些与这个目标域类似的源域当中来学习一些知识帮助目标域的操作,就是一种域的适应。主要是从源域到目标域的知识迁移。

Semi-supervised Domain Adaptation 半监督域适应

就是说目标域当中有少量的标签样本,也利用了余下的较多未标签样本,将其特征信息加入到目标函数中来。
By consolidating the idea of semi-supervised learning and subspace learning for domain adaptation, this paper presents a novel Semi-supervised Domain Adaptation with Subspace Learning (SDASL) framework for visual recognition.

文章中将子空间学习和半监督学习都结合到域适应问题中来,希望学习到一个子空间,使得不同域的数据映射到这个子空间之后数据分布基本匹配。

Semi-supervised Domain Adaptation with Subspace Learning

framework
Three regularizers are jointly employed in framework, including the structural risk regularizer which seeks a decision boundary that achieves a small classification error, the structure preservation regularizer that restricts the distance between mappings of similar samples in both source and target domains, and the manifold regularizer based on the smoothness assumption that the target classifier shares similar decision values on the similar target unlabeled samples.
上图主要介绍了算法的框架,包括三部分,有结构风险正则化项,搜寻最小误差的决策边界;结构保留正则项,约束了源域和目标域上相似样本映射之间的距离;还有流形正则项,考虑了目标分类器上相似的目标域未标签样本有着相似的决策值。

Algorithm

下面介绍本篇文章的主要算法

算法部分承袭上面的框架部门,首先对基本的结构进行一个解释,然后分别介绍算法的三个组成部分。

Architecture

这里写图片描述
源域和目标域通过映射矩阵映射到同一个低维空间上,其后通过各自的分类器参数得到其输出。
其中{ wS, wT, bS, bT } 是分类模型的权重和偏差参数,mS and mT是特征映射矩阵。

Structural Risk 结构风险

the linear predictive functions are defined as:
线性分类函数定义如下:
这里写图片描述
wS, wT, bS, bT, mS和mT的含义如上。
The training objective corresponds to an
empirical risk minimization with a regularization penaltyover the model parameters {wS, bS, mS, wT, bT, mT } as:
由此,关于经验风险最小化的带有模型参数惩罚项的目标函数如下:
这里写图片描述
where αS and αT are tradeoff parameters. The objective decomposes into the empirical risk with a least square loss of
the labeled examples from both source and target domains
αS和αT是平衡参数。目标函数分解为了源域和目标域的标签样本的损失以及正则惩罚项。

Structure Preservation 结构保留正则项

Similar views should have similar mappings.
相似的样本有着相似的映射。
To tackle with the challenge of domain shift, we incorporate a discriminative regularization term in the objective function to take into account of the structure within and across domains.
为了解决域转换的挑战,结合一个判别正则项,考虑域之内和域之间的结构。
That is, the distance between the mappings in the latent subspace of the same category from source and target domains should be as small as possible.
就是说,来自源域和目标域的相同类的子空间映射之间的距离应该尽可能小。
positives from both domains are represented as:
两个域的正样本可以表示为:
这里写图片描述
+表示正样本。
The distance between positives from source and target domains is measured by tr(A⊤L 1A), where L 1 = D 1 − 11⊤, 1 denotes a column vector with all 1 entries, and D 1 is the diagonal matrix that contains the row sums of 11⊤.
源域和目标域正样本之间的距离可以表示为 tr(A⊤L 1A), 其中L 1 = D 1 − 11⊤, 1 表示一个全1的列向量, D 1 是以11⊤的行和为对角元的对角矩阵。

Manifold Regularization 流形正则

The outputs of the predictive function are restricted to have similar values for similar examples.
预测函数的输出被约束对于相似的样本有相似的预测值。
The estimation of the manifold regularization can be measured by the appropriate pairwise similarity between the unlabeled target samples.
流形正则可以表示为目标域未标签样本之间的相似性。
S有很多定义形式,这里用高斯方程来定义S。
这里写图片描述

where S denotes the affinity matrix defined on the unlabeled target samples.
S表示的是目标域未标签样本的相似性矩阵。

这里写图片描述

By defining the graph Laplacian L2 = D − S, where D is a diagonal matrix with its elements defined as Dii = ∑j Sij, the regularization can be computed as :
通过定义图拉普拉斯矩阵L2 = D − S,其中D是一个对角元为 Dii = ∑j Sij的对角矩阵,正则化项可以表示为:
这里写图片描述

optimization

Overall Objective Function

先介绍一下全部的目标函数
这里写图片描述
其中γ 和 η是平衡参数。

Optimization

by setting its derivative with respect to wS, wT, bS and bT to zero, they can get:
通过将目标函数对 wS, wT, bS 和 bT的导数置0,可以得到:
这里写图片描述
where Zv, Hv, and C are defined as
其中Zv, Hv, and C如下定义:、
这里写图片描述
V表示{S, T }的任意值。
讲式6带入式5,得到:
这里写图片描述
这里写图片描述
其中符号含义如上。
可以重新写一下目标函数:
这里写图片描述
目标函数时非凸的,但是,其关于mS和 mT的导数可以获得:
这里写图片描述

Algorithm

After the optimization of mS and mT, we can obtain the linear predictive functions defined in Eq.(1) with the model parameters {wV, bV }V ∈{S,T } calculated by Eq.(6).
在优化好mS 和mT之后,可以用式子6获得线性预测函数的参数.
Next, given a target test visual instance, they compute the prediction values using the linear function as:
之后,给定一个目标域测试样本,可以计算出其预测值。
算法如下:
这里写图片描述
这里写图片描述

Experiment

Image-to-image transfer

Dataset

这里写图片描述
三个域分别为dslr,amazon,webcam。

Classification accuracy

这里写图片描述
图像对图像的结果展示。
这里写图片描述
不同正则项结合的分类结果。

Image-to-video transfer

Dataset

这里写图片描述
图像对视频的迁移,图像域是ImageNet,视频域是TRECVID

Classification accuracy

这里写图片描述
分类结果
这里写图片描述
关于正样本数目的不同方法的分类结果。
参考文献:
http://home.ustc.edu.cn/~panywei/paper/CVPR15.1159.pdf

1 0
原创粉丝点击