笔记：Transfer Learning with Active Queries from Source Domain

来源：互联网发布：淘宝比价助手编辑：程序博客网时间：2024/06/08 01:32

基于源域主动查询的迁移学习

Transfer Learning with Active Queries from Source Domain

Introduction
Algorithm
Optimization
Evaluation

Introduction

首先我将介绍一下这篇文章的主要背景知识介绍，分为三部分，分别为迁移学习，主动学习，待解决问题。

名词解释

样本：能够用一些特征表示的事物。
标签：能够绝对分类样本的属性
域：代表一些样本的集合。
标签样本：有标签的样本。
未标签样本：无标签的样本
源域：有一定数量的标签样本，能够迁移一定的信息到目标域当中。
目标域：希望解决问题的样本域，标签样本数量较少。

Transfer Learning迁移学习

上图介绍了迁移学习与传统机器学习的区别。
传统的机器学习知识将来自不同域的样本分别学习，之间不会产生任何关系。但是迁移学习在目标域当中没有足够多甚是没有标签样本时，会从一些与这个目标域类似的源域当中来学习一些知识帮助目标域的操作。主要是从源域到目标域的知识迁移。

Active Learning主动学习

主动学习背景基本相似，也是在想要进行一些目标操作的样本域（称为目标域）当中没有足够多甚是没有标签样本，此时在同一个样本域中挑选尽量少的未标签样本出来进行人工标签，从来达到一个尽量高的分类精度。

两种算法都是用来解决在目标域当中标签样本不足的问题。

Problem setting in this paper待解决问题

这里写图片描述
这篇文章中的待解决问题如上：标签样本在源域和目标域都是有限的，并且主动查询只有在源域当中才适用，就是说我们没有办法获得更多的目标域标签样本，只能在源域中进行选择，标签，期望能够用尽量小的源域主动选择次数达到在目标域上尽量有效的模型。

Algorithm

算法部分将首先介绍一下这篇文章中迁移学习所采取的样本分布假设。
这篇文章中采取的样本分布假设是协方差变换假设：

Covariate Shift

首先介绍一些迁移学习下的一般目标函数

Let Θ be a model family from which we want to select an optimal model θ∗ for our classification task. Let l(x, y, θ) be a loss function. we want to minimize the following objective function in order to obtain the optimal model θ∗ for the target distribution P(X, Y):
假设theta是模型参数，l是损失函数，期望在目标域中最小目标函数来获得最佳的theta。

上式中x，y分别表示样本的特征向量和标签，l是损失函数，theta是模型参数。
但是如上式中的Pt（x，y），即目标域样本特征和标签的联合分布我们没有办法知道；则我们遵循协方差转化假设，上式可以写为：

值的注意的是：源域样本特征和标签的联合分布我们用其估计来代替。
则目标函数中每个源域样本之前的参数可表示为Pt(x,y)/Ps(x,y).

we assume that Ps(Y| X = x) = Pt(Y| X = x) for all x ∈ X, but Ps(X) ≠Pt(X), This difference between the two domains is called covariate shift.
由此，我们假设源域和目标域的条件概率相同但是先验概率不同。这个假设就成为协变量转换。

Under covariate shift, the ratio can be rewritten as follows:
基于协变量转换假设，我们可以得到上面的联合分布比率为：
这里写图片描述
We therefore want to weight each training instance with Pt(x)/Ps(x).
由此，我们可以得到目标函数中每个训练样本的权重为Pt(x)/Ps(x)。

由此，在下面的表示当中，我们定义beta（x）=Pt(x)/Ps(x).

Maximum Mean Discrepancy (MMD)

在介绍算法之前呢，先介绍一个用来计算分布差异的方法，叫做最大平均差异（MMD），这篇文章中主要用这个方法来计算样本域之间的分布差异。

这里写图片描述
首先算法定义了一个函数集合f，其中，p，q分别表示分布函数，X,Y分别表示样本集合，定义
MMD和其经验估计如下：
MMD即为两个期望差的上确界，期望分别是两个不同分布的样本函数的期望。
经验估计则取了函数值的均值。
这里写图片描述
为了映射到希尔伯特空间，可以讲函数表示为内积（后期可以拓展到核函数，这里不多赘述）

映射到希尔伯特空间之后，可以推断期望差值的上确界可以近似为期望之间的范数，最终可以得到上面(4)式中的形式。

下面介绍本篇文章的主要算法

Distributions Discrepancy

To avoid the density estimation, directly optimize the importance weights byminimizing the distance between the distributions of the target domain and adapted source domain. Employ MMD as the criterion to estimate the distance between different distributions.
为了避免核密度估计，我们直接优化样本权重beta（x），通过最小化适应之后的源域和目标域之间的分布差异来获得最优的权重值，衡量分布差异我们采用MMD方法。

上面表示适应后的源域样本集。

这里表示适应后源域与目标域的分布差异；
The distributions of labeled data and unlabeled data should be close, such that the model trained will have good generalization ability:
在考虑适应后源域与目标域的分布差异之后，我们考虑主动学习选择样本，我们希望挑选出来的样本能够满足边缘分不匹配的方法，也就是说：标签样本和未标签样本之间的分布要尽量接近，从而有更加好的泛化能力。

其中，Q，大小为nU，表示从Su中选择出来查询其标签的样本集，用一个nU维的向量alpha表示这个样本是否被选择，第i维为1表示选择第i个样本，为0表示不选择；其后，MMD用来衡量标签样本和未标签样本之间的分布差异。

上式中，标签样本由三部分组成：源域标签样本Sl，目标域标签样本Tl，主动选择查询样本集Q；未标签样本由两部分组成：源域未标签样本Su，目标域未标签样本Tu。hat表示适应后的样本集。