bias 和 variance 的推导

来源：互联网发布：php源码大全编辑：程序博客网时间：2024/05/29 04:30

参考博客ooon

假设 X和Y满足Y=X+ε，ε是噪声，ε∼N(0,δ2ε)。
f(X)是准确的预测函数，f^(X)是通过训练集训练的预测函数。

E r r (x 0) = E [(y 0 - f^(x 0)) 2] = E [y 20 - 2 y 0 f^(x 0) + f^2 (x 0)] = E [y 20] - 2 E [y 0 f^(x 0)] + E [f^2 (x 0)] = E [y 20] - E 2 (y 0) + E 2 (y 0) - 2 E [y 0 f^(x 0)] + E [f^2 (x 0)] - E 2 (f^(x 0)) + E 2 (f^(x 0))

∵ E [y 0] = E [f (x 0 + ε)] = E (f (x 0)) V a r [y 0] = E [(y 0 - E [y 0]) 2] = E [(y 0 + ε - y 0) 2] = E [ε 2] V a r [X] = E [X 2] - E 2 [X]

∴ E r r (x 0) = [E [y 0] - E [f^(x 0)]] 2 + E [f^2 (x 0)] - E 2 (f^(x 0)) + V a r [ε] = [E [y 0] - E [f^(x 0)]] 2 + V a r [f^(x 0)] + V a r [ε] = B i a s 2 (f^(x 0)) + V a r [f^(x 0)] + δ 2 ε

对于k近邻，其预测误差为:

E r r (x 0) = E [(Y - f^(x 0)) | X = x 0] = δ 2 ε + [f (x 0) - 1 k \sum i = 1 K f (x i)] 2 + δ 2 ϵ k

随着 k 增大，var 会减小，而bias 会增大。

0 0