Bias and Variance

来源：互联网发布：java如何转换日期格式编辑：程序博客网时间：2024/04/30 13:46

本文主要是想解释清楚machine learning中比较重要的两个概念及他们的关系，之前说到过过拟合问题，过拟合问题可以这样理解，由于我只是为了目标cost函数最小而选用比较复杂的模型来拟合，来达到每个点基本都是完全预测正确这样的一个效果，但是问题来了，这样的预测模型好不好?

举一个例子，假如在2维平面上有2个点，我可以找一条直线经过他们，如果有3个点，一条直线一般不能同时经过他们，这时可以选择2次函数，以此类推，假如有n个点，一般是会有n+1次函数可以经过所有的点，但是，可能当我们处理另外一组样本时，我们的模型效果会很差，当时对于一个模型来说，并不是它满足一组样本最小就可以，模型所要揭示的是所有样本的一些规律性的东西。所以，有了如下的理论,我们定义均方误差MSE：

这里之所以有一个期望，是因为我们的目标是所有样本集合的误差期望最小,而不是单单一个样本集合然后有：

这个公式的推导只需要注意Ef(x)和Ey都是常数的性质，可以推导出来。

最后可以定义MSE有bias平方加上variance而来。

Bias 和 Variance有如下定义：

Bias: a learner’s tendency to consistently learn the same wrong thing，即度量了某种学习算法的平均估计结果所能逼近学习目标(目标输出)的程度。

Variance：the tendency to learn random things irrespective of the real signal，即度量了在面对同样规模的不同训练集时，学习算法的估计结果发生变动的程度。

下面有2幅图，较好的解释了bias,variance 和model complexity的关系。

可以发现，随着模型越来越复杂，bias会逐渐减小，但是variance会逐渐增大，而对于我们一般的模型，比如线性回归(不加regularization)的目标仅仅只是减小bias，所以会产生过拟合问题，其实，我们的最优模型是图像中间的某个位置，因为我们要保证的是MSE这个式子最小。

0 0