机器学习中的covariate shift现象的解释

来源：互联网发布：极度seo外链工具源码编辑：程序博客网时间：2024/05/29 12:24

转自：http://blog.csdn.net/mao_xiao_feng/article/details/54317852

[-]

一什么是covariate shift
二怎么解决covariate shift

一、什么是covariate shift？

在论文中经常碰到covariate shift这个词，网上相关的中文解释比较少。你可能会在介绍深度学习Batch Normalization方法的论文到中看到covariate shift这个词，并且所有看过这篇论文的或者实际做过工程的人，都知道BN这种归一化手段很好用，可以避免covariate shift

那么covariate shift到底是什么？
不用想得太复杂，covariate shift最早只是机器学习中的一个问题。同时迁移学习会经常涉及到这个概念。
假设x是属于特征空间的某一样本点，y是标签。covariate这个词，其实就是指这里的x，那么covariate shift可以直接根据字面意思去理解：样本点x的变化。
这么简单？没错就是这么简单！

我们讲的规范一点：
假设q1（x）是测试集中一个样本点的概率密度，q0（x）是训练集中一个样本点的概率密度。最终我们估计一个条件概率密度p(y|x，θ)，它由x和一组参数θ=｛θ1，θ2......θm｝所决定。对于一组参数来说，对应loss(θ)函数评估性能的好坏
综上，当我们找出在q0（x）分布上最优的一组θ'时，能否保证q1（x）上测试时也最好呢？
传统机器学习假设训练集和测试集是独立同分布的，即q0（x）=q1（x），所以可以推出最优θ'依然可以保证q1（x）最优。但现实当中这个假设往往不成立，伴随新数据产生，老数据会过时，当q0（x）不再等于q1（x）时，就被称作covariate shift