笔记:Transfer Learning with Active Queries from Source Domain

来源:互联网 发布:淘宝比价助手 编辑:程序博客网 时间:2024/06/08 01:32

基于源域主动查询的迁移学习

Transfer Learning with Active Queries from Source Domain

  • Introduction
  • Algorithm
  • Optimization
  • Evaluation

Introduction

首先我将介绍一下这篇文章的主要背景知识介绍,分为三部分,分别为迁移学习,主动学习,待解决问题。

名词解释

样本:能够用一些特征表示的事物。
标签:能够绝对分类样本的属性
域:代表一些样本的集合。
标签样本:有标签的样本。
未标签样本:无标签的样本
源域:有一定数量的标签样本,能够迁移一定的信息到目标域当中。
目标域:希望解决问题的样本域,标签样本数量较少。

Transfer Learning迁移学习

tl

上图介绍了迁移学习与传统机器学习的区别。
传统的机器学习知识将来自不同域的样本分别学习,之间不会产生任何关系。但是迁移学习在目标域当中没有足够多甚是没有标签样本时,会从一些与这个目标域类似的源域当中来学习一些知识帮助目标域的操作。主要是从源域到目标域的知识迁移。

Active Learning主动学习

AL

主动学习背景基本相似,也是在想要进行一些目标操作的样本域(称为目标域)当中没有足够多甚是没有标签样本,此时在同一个样本域中挑选尽量少的未标签样本出来进行人工标签,从来达到一个尽量高的分类精度。

两种算法都是用来解决在目标域当中标签样本不足的问题。

Problem setting in this paper待解决问题

这里写图片描述
这篇文章中的待解决问题如上:标签样本在源域和目标域都是有限的,并且主动查询只有在源域当中才适用,就是说我们没有办法获得更多的目标域标签样本,只能在源域中进行选择,标签,期望能够用尽量小的源域主动选择次数达到在目标域上尽量有效的模型。

Algorithm

算法部分将首先介绍一下这篇文章中迁移学习所采取的样本分布假设。
这篇文章中采取的样本分布假设是协方差变换假设:

Covariate Shift

首先介绍一些迁移学习下的一般目标函数

Let Θ be a model family from which we want to select an optimal model θ∗ for our classification task. Let l(x, y, θ) be a loss function. we want to minimize the following objective function in order to obtain the optimal model θ∗ for the target distribution P(X, Y):
假设theta是模型参数,l是损失函数,期望在目标域中最小目标函数来获得最佳的theta。
这里写图片描述
上式中x,y分别表示样本的特征向量和标签,l是损失函数,theta是模型参数。
但是如上式中的Pt(x,y),即目标域样本特征和标签的联合分布我们没有办法知道;则我们遵循协方差转化假设,上式可以写为:
这里写图片描述
值的注意的是:源域样本特征和标签的联合分布我们用其估计来代替。
则目标函数中每个源域样本之前的参数可表示为Pt(x,y)/Ps(x,y).

we assume that Ps(Y| X = x) = Pt(Y| X = x) for all x ∈ X, but Ps(X) ≠Pt(X), This difference between the two domains is called covariate shift.
由此,我们假设源域和目标域的条件概率相同但是先验概率不同。这个假设就成为协变量转换。

Under covariate shift, the ratio can be rewritten as follows:
基于协变量转换假设,我们可以得到上面的联合分布比率为:
这里写图片描述
We therefore want to weight each training instance with Pt(x)/Ps(x).
由此,我们可以得到目标函数中每个训练样本的权重为Pt(x)/Ps(x)。
这里写图片描述
由此,在下面的表示当中,我们定义beta(x)=Pt(x)/Ps(x).

Maximum Mean Discrepancy (MMD)

在介绍算法之前呢,先介绍一个用来计算分布差异的方法,叫做最大平均差异(MMD),这篇文章中主要用这个方法来计算样本域之间的分布差异。

这里写图片描述
首先算法定义了一个函数集合f,其中,p,q分别表示分布函数,X,Y分别表示样本集合,定义
MMD和其经验估计如下:
MMD即为两个期望差的上确界,期望分别是两个不同分布的样本函数的期望。
经验估计则取了函数值的均值。
这里写图片描述
为了映射到希尔伯特空间,可以讲函数表示为内积(后期可以拓展到核函数,这里不多赘述)
这里写图片描述
映射到希尔伯特空间之后,可以推断期望差值的上确界可以近似为期望之间的范数,最终可以得到上面(4)式中的形式。

下面介绍本篇文章的主要算法

Distributions Discrepancy

To avoid the density estimation, directly optimize the importance weights by minimizing the distance between the distributions of the target domain and adapted source domain. Employ MMD as the criterion to estimate the distance between different distributions.
为了避免核密度估计,我们直接优化样本权重beta(x),通过最小化适应之后的源域和目标域之间的分布差异来获得最优的权重值,衡量分布差异我们采用MMD方法。
这里写图片描述
上面表示适应后的源域样本集。
式子1
这里表示适应后源域与目标域的分布差异;
The distributions of labeled data and unlabeled data should be close, such that the model trained will have good generalization ability:
在考虑适应后源域与目标域的分布差异之后,我们考虑主动学习选择样本,我们希望挑选出来的样本能够满足边缘分不匹配的方法,也就是说:标签样本和未标签样本之间的分布要尽量接近,从而有更加好的泛化能力。

其中,Q,大小为nU,表示从Su中选择出来查询其标签的样本集,用一个nU维的向量alpha表示这个样本是否被选择,第i维为1表示选择第i个样本,为0表示不选择;其后,MMD用来衡量标签样本和未标签样本之间的分布差异。
这里写图片描述
上式中,标签样本由三部分组成:源域标签样本Sl,目标域标签样本Tl,主动选择查询样本集Q;未标签样本由两部分组成:源域未标签样本Su,目标域未标签样本Tu。hat表示适应后的样本集。

uncertainty term

由于上述主动选择过程中没有考虑到标签信息,这里再结合一项不确定性。
这里写图片描述
在样本选择的不确定项上,首先用现有的分类器g对所有Su中的样本进行预测,记为gSu。则不确定项可以表示成|g(x)|,就是说预测值越接近0
,样本的不确定性越大,αβ|gSu|

we have the following framework for Transfer Learning with Active queries from Source domain.
由此,得到了算法的基本框架:
这里写图片描述
这里λ是一个平衡参数。

Framework

模型]![这里写图片描述
将式3展开就可以得到上式,α向量的和为nQ,所有源域的样本均需重新权重化,且Su中α为1即为选择出的样本,为0记为选择后的源域未标签样本集。

Optimization

由于有两个参数,采取迭代优化策略,即固定一个,优化另一个,交替优化直至收敛。
由于α的范围为{0,1},所以上式求解一个NP难问题,所以将α的取值范围放宽,改为[0,1],这样式4是一个内向凸问题,能够迭代求解。

这里写图片描述
首先固定β
这里写图片描述
可以看出式4中固定β之后为一个关于α的二次函数,可得上式。

其次固定α
这里写图片描述
这里写图片描述
这里写图片描述
同理

Algorithm

这里写图片描述
算法总结如上图:α放松限制之后我们选择优化后前面nQ个最大的α值出来进行标签。β可以选择全部初始化为1.

Experiment

dataset

dataset Sentiment Analysis text categorization domain Book,DVD,Electronics and Kitchen Orgs,People and Places

两个样本集,分别包含几个域,用不同的域互换来做源域和目标域。

Baseline

这里写图片描述

Random,随机选择样本,用kmm方法来计算分布差异。
US,不确定选择样本,用kmm方法来计算分布差异。
MPAL,用分布匹配在源域中选择样本。
TLAS-b,用KMM来固定β,用式5来优化α
TLAS,文章方法。

Evaluation

Sentiment analysis

这里写图片描述
在Sentiment analysis 样本集中,不同的源域与目标域配对,可以看到这篇文章中的算法的分类精度远高于其他算法。

Text categorization

这里写图片描述
在Text categorization数据集中,效果也很好。并且在不同的目标域初始标签样本比率之下,这篇文章中的算法也有着很好的表现。

参考文献:
https://www.ijcai.org/Proceedings/16/Papers/228.pdf

0 0