迁移学习

来源:互联网 发布:5毛特效软件 编辑:程序博客网 时间:2024/05/28 15:56

Transfer Learning Resources

在机器学习领域,迁移学习(Transferlearning)是一个比较新的名词。目前国内做这个方面的很少,我目前只知道香港科技大学杨强教授及上海交大的机器学习小组在从事这方面的研究,他们的学生Erheng Zhong以及一帮人就建立了这个一个资源。近几年他们已经取得大量的成果,发表了十几篇AI领域顶级的会议论文。

Qiang Yang

http://www.cse.ust.hk/~qyang/

SinnoJialin Pan

http://www.cse.ust.hk/~sinnopan/

转载于: http://apex.sjtu.edu.cn/apex_wiki/Transfer%20Learning

 

一个关于迁移学习(Transfer Learning)的资源,里面不管是code还是paper还是contest都很全面。

--------下面貌似薛贵荣:迁移学习------------

迁移学习( Transfer Learning )

薛贵荣

在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上来学习一个分类模 型;然后利用这个学习到的模型来对测试文档进行分类与预测。

然而,我们看到机器学习算法在当前的Web挖掘研究中存在着一个关键的问题:一些新出现的领域中的大量训练数据非常难得到。我们看到Web应用领域的发展 很快速。大量新的领域不断涌现,从传统的新闻,到网页,到图片,再到博客、播客等。传统的 机器学习需要对每个领域都标定大量训练数据,这将会耗费大量的人力与物力。而没有大量的标注数据,会使得很多与学习相关研究与应用无法开展。其次,传统的机器学习假设训练数据与测试数据服从相同的数据分布。然而,在许多情况下,这种同分布假设并不满足。通常可能发生的情况如训练数据过期。这往往需要我们去重新标注大量的训练数据以满足我们训练的需要,但标注新数据是非常昂贵的,需要大量的人力与物力。从另外一个角度上看,如果我们有了大量的、在不同分布下的训练数据,完全丢弃这些数据也是非常浪费的。

如何合理的利用这些数据就是迁移学习主要解决的问题。迁移学习可以从现有的数据中迁移知识,用来帮助将来的学习。迁移学习(Transfer Learning)的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。因此,迁移学习不会像传统机器学习那样作同分布假设。

我们在迁移学习方面的工作目前可以分为以下三个部分:

同构空间下基于实例的迁移学习,

同构空间下基于特征的迁移学习

异构空间下的迁移学习。

我们的研究指出,基于实例的迁移学习有更强的知识迁移能力,基于特征的迁移学习具有更广泛的知识迁移能力,而异构空间的迁移具有广泛的学习与扩展能力。这几种方法各有千秋。

1.同构空间下基于实例的迁移学习

基于实例的迁移学习的基本思想是,尽管辅助训练数据和源训练数据或多或少会有些不同,但是辅助训练数据中应该还是会存在一部分比较适合用来训练一个有效的分类模型,并且适应测试数据。于是,我们的目标就是从辅助训练数据中找出那些适合测试数据的实例,并将这些实例迁移到源训练数据的学习中去

在基于实例的 迁移学习方面,我们推广了传统的AdaBoost算 法,提出一种具有迁移能力的boosting算法:Tradaboosting [9],使之具有迁移学习的能力,从而能够最大限度的利用辅助训练数据来帮助目标的分类。我们的关键想法是,利用boosting的技术来过滤掉辅助数据中那些与源训练数据最不像的数据。其中,boosting的作用是建立一种自动调整权重的机制,于是重要的辅助训练数据的权重将会增加,不重要的辅助训练 数据的权重将会减小。调整权重之后,这些带权重的辅助训练数据将会作为额外的训练数据,与源训练数据一起从来提高分类模型的可靠度。

基于实例的迁移学习只能发生在源数据与辅助数据非常相近的情况下。但是,当源数据和辅助数据差别比较大的时候,基于实例的迁移学习算法往往很难找到可以迁移的知识。但是我们发现,即便有时源数据与目标数据在实例层面上并没有共享一些公共的知识,它们可能会在特征层面上有一些交集。因此我们研究了基于特征的迁移学习,讨论的是如何利用特征层面上公共的知识进行学习的问题。

2.同构空间下基于特征的迁移学习

在基于特征的迁移学习研究方面,我们提出了多种学习的算法,如CoCC算法[7],TPLSA算法[4],谱分析算法[2]与自学习算法[3]等。其中利用互聚类算法产生一个公共的特征表示,从而帮助学习算法。我们的基本思想是使用互聚类算法同时对源数据与辅助数据进行聚类,得到一个共同的特征表示,这个新的特征表示优于只基于源数据的特征表示。通过把源数据表示在这个新的空间里,以实现迁移学习。应用这个思想,我们提出了基于特征的有监督迁移学习与基于特征的无监督迁移学习。

2.1 基于特征的有监督迁移学习

我们在基于特征的有监督迁移学习方面的工作是基于互聚类的跨领域分类[7],这个工作考虑的问题是:当给定一个新的、不同的领域,标注数据及其稀少时,如何利用原有领域中含有的大量标注数据进行迁移学习的问题。在基于互聚类的跨领域分类这个工作中,我们为跨领域分类问题定义了一个统一的信息论形式化公式,其中基于互聚类的分类问题的转化成对目标函数的最优化问题。在我们提出的模型中,目标函数被定义为源数据实例,公共特征空间与辅助数据实例间互信息的损失。

2.2 基于特征的无监督迁移学习:自学习聚类

我们提出的自学习聚类算法[3]属于基于特征的无监督迁移学习方面的工作。这里我们考虑的问题是:现实中可能有标记的辅助数据都难以得到,在这种情况下如何利用大量无标记数据辅助数据进行迁移学习的问题。自学习聚类的基本思想是通过同时对源数据与辅助数据进行聚类得到一个共同的特征表示,而这个新的特征表示由于基于大量的辅助数据,所以会优于仅基于源数据而产生的特征表示,从而对聚类产生帮助。

上面提出的两种学习策略(基于特征的有监督迁移学习与无监督迁移学习)解决的都是源数据与辅助数据在同一特征空间内的基于特征的迁移学习问题。当源数据与辅助数据所在的特征空间中不同时,我们还研究了跨特征空间的基于特征的迁移学习,它也属于基于特征的迁移学习的一种。

3异构空间下的迁移学习:翻译学习

我们提出的翻译学习[1][5]致力于解决源数据与测试数据分别属于两个不同的特征空间下的情况。在[1]中,我们使用大量容易得到的标注过文本数据去帮助仅有少量标注的图像分类的问题,如上图所示。我们的方法基于使用那些用有两个视角的数据来构建沟通两个特征空间的桥梁。虽然这些多视角数据可能不一定能够用来做分类用的训练数据,但是,它们可以用来构建翻译器。通过这个翻译器,我们把近邻算法和特征翻译结合在一起,将辅助数据翻译到源数据特征空间里去,用一个统一的语言模型进行学习与分类

实例

《Boostingfor Transfer Learning》论文解读:

小牛上海交大的Wenyuan Dai在2007年的ICML上发表

Boosting for transfer learning

Full Text:

Pdf

 

Authors:

Wenyuan Dai

Shanghai Jiao Tong University, China

Qiang Yang

Hong Kong University of Science and Technology, Hong Kong

Gui-Rong Xue

Shanghai Jiao Tong University, China

Yong Yu

Shanghai Jiao Tong University, China

先介绍一下作者,Wenyuan Dai,上海交大ACM班的,2005年ACM的世界决赛的冠军,在本科貌似就开始做研究,在上交Yu Yong教授的APEX实验室里做了一些关于TransferLearning的研究和应用,ICML、NIPS等上面都有文章发表。硕士毕业被百度以高薪(相当高啊)聘请。

Transfer learning is what happens whensomeone finds it much easier to learn to play chess having already learned toplay checkers, or to recognize tables having already learned to recognizechairs; or to learn Spanish having already learned Italian。

今天看的这篇文章构思相对简单,就是对AdaBoost的扩展,called TrAdaBoost,因为AdaBoost的一个鲜明特点就是能够对训练集的不同instance进行weight,显然,weight高的那些instance其实数据属性和test集的数据属性(可以理解为分布)更相似。利用这个特点,可以做一下对于数据的迁移。

Transfer Learning,简单的理解就是由于标记的有效样本很少很少,所以可以将一些过时的或者其他类别的有效数据引进来进行模型的训练。就拿文章中的例子吧,对于web上的一些新闻等,现在训练处一个模型,那么等过一段时间,这个模型以及训练集可能已经过时了,对于最新的数据预测就不好。那么我们都知道标记新的数据是非常耗费精力和人力的,怎么利用使旧的数据也能够发挥作用呢?Adaboost迭代收敛之后那些weight大的旧数据就可以起作用了。

TrAdaBoost的实验效果还真是不错,和不能做迁移的SVM相比当然效果提高很大,但是当训练集中的本类数据达到20%的时候,其实就变成了监督学习,那么就和SVM等学习效果差不多了。但是当本类数据的比例小于10%的时候,Transfer 的效果就很明显了。

关于TrAdaBoost的收敛性以及泛化能力的证明其实都是扩展自AdaBoost了,不多说了。

这篇文章有C语言的代码,可以点击这里下载。

引文:

[1]. Wenyuan Dai,Yuqiang Chen, Gui-Rong Xue, Qiang Yang, and Yong Yu. Translated Learning:Transfer Learning across Different Feature Spaces. Advances in NeuralInformation Processing Systems 21 (NIPS 2008), Vancouver, British Columbia,Canada, December 8-13, 2008.

[2]. Xiao Ling, WenyuanDai, Gui-Rong Xue, Qiang Yang, and Yong Yu. Spectral Domain-Transfer Learning.In Proceedings of the Fourteenth ACM SIGKDD International Conference onKnowledge Discovery and Data Mining (KDD 2008), Pages 488-496, Las Vegas,Nevada, USA, August 24-27, 2008.

[3]. Wenyuan Dai, QiangYang, Gui-Rong Xue and Yong Yu. Self-taught Clustering. In Proceedings of theTwenty-Fifth International Conference on Machine Learning (ICML 2008), pages200-207, Helsinki, Finland, 5-9 July, 2008.

[4]. Gui-Rong Xue,Wenyuan Dai, Qiang Yang and Yong Yu. Topic-bridged PLSA for Cross-Domain TextClassification. In Proceedings of the Thirty-first International ACM SIGIRConference on Research and Development on Information Retrieval (SIGIR2008),pages 627-634, Singapore, July 20-24, 2008.

[5]. Xiao Ling, Gui-RongXue, Wenyuan Dai, Yun Jiang, Qiang Yang and Yong Yu. Can Chinese Web Pages beClassified with English Data Source? In Proceedings the SeventeenthInternational World Wide Web Conference (WWW2008), Pages 969-978, Beijing,China, April 21-25, 2008.

[6]. Xiao Ling, WenyuanDai, Gui-Rong Xue and Yong Yu. Knowledge Transferring via Implicit LinkAnalysis. In Proceedings of the Thirteenth International Conference on DatabaseSystems for Advanced Applications (DASFAA 2008), Pages 520-528, New Delhi,India, March 19-22, 2008.

[7]. Wenyuan Dai,Gui-Rong Xue, Qiang Yang and Yong Yu. Co-clustering based Classification forOut-of-domain Documents. In Proceedings of the Thirteenth ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining (KDD 2007),Pages 210-219, San Jose, California, USA, Aug 12-15, 2007.

[8]. Wenyuan Dai,Gui-Rong Xue, Qiang Yang and Yong Yu. Transferring Naive Bayes Classifiers forText Classification. In Proceedings of the Twenty-Second National Conference onArtificial Intelligence (AAAI 2007), Pages 540-545, Vancouver, BritishColumbia, Canada, July 22-26, 2007.

[9]. Wenyuan Dai, QiangYang, Gui-Rong Xue and Yong Yu. Boosting for Transfer Learning. In Proceedingsof the Twenty-Fourth International Conference on Machine Learning (ICML 2007),Pages 193-200, Corvallis, Oregon, USA, June 20-24, 2007.

[10]. Dikan Xing,Wenyuan Dai, Gui-Rong Xue and Yong Yu. Bridged Refinement for TransferLearning. In Proceedings of the Eleventh European Conference on Principles andPractice of Knowledge Discovery in Databases (PKDD 2007), Pages 324-335,Warsaw, Poland, September 17-21, 2007. (Best Student Paper Award)

[11]. Xin Zhang, WenyuanDai, Gui-Rong Xue and Yong Yu. Adaptive Email Spam Filtering based onInformation Theory. In Proceedings of the Eighth International Conference onWeb Information Systems Engineering (WISE 2007), Pages 159–170, Nancy, France,December 3-7, 2007.

 

来源于:

1 读ICML2007的一篇文章:Boosting for Transfer Learning+点击打开链接 

2 Transfer Learning Resources - 迁移学习的一点资料+点击打开链接 


0 0