数学期望 Expectation
来源:互联网 发布:js 弹出div层 居中 编辑:程序博客网 时间:2024/05/16 18:52
数学期望 Expectation
序言
机器学习中涉及到的很多概念都和 Expectation 相关联,例如:
- 任何分布,我们都关心其 均值 mean、方差 variance、峰度 kurtosis、偏度 skewness;实际上都和数据期望相关;这些内容还和 中心距 以及 泰勒级数 相关联
- 机器学习中,针对模型的泛化能力 Generalization,常见对 泛化误差 decompose 为 Bias(偏差,欠拟合) 和 Variance(方差,过拟合)。这一过程就是利用 Expectation 推导的
- 最大期望算反 EM,明显地和 Expectation 有关联,其是利用了 Expectation 进行推导
所以本文特此明确一下这个基础概念。
期望的定义
The average value of some function
如果
- 期望的操作符号特意用了
E 和一般的 errorE 区分开。 - 期望的核心在于函数值分布
p(x) 。其实根据不同的分布我们还能拓展期望的概念,例如 p(x|y) 的条件分布,可以产出 条件期望 conditional expectation;本文不予展开。 - 另外,统计中的 期望,在几何也有对应的 重心,是一个对质量函数的加权积分。
采样 sample
我们不一定能精确地用公式求解出
当
运算规则
期望 Expectation 作为一个运算符,有着如下4条运算规则:
(假设
E(c)=c E(cX)=cE(X) E(X+Y)=E(X)+E(Y) - 当
X 、Y 独立时,E(XY)=E(X)E(Y)
方差与期望
方差本身也可以看作是一个期望,我们依据方差的运算规则,可以等价标准的方差公式如下:
方差 variance
另外,这里还可以导出一个常用的等价变换公式:
机器学中的 偏差-方差,Bias-Variance
定义
从统计的角度来看,机器学习 中模型的 泛化误差 generalization error 可以 分解 decomposition 为 Bias-Variance 来解释;这里面包含了 Bias-Variance Tradeoff,或者说 Underfitting-Overfitting Tradeoff。
首先再回顾一下俩者概念:
A bias due to the model being too simple
The bias is error from erroneous assumptions in the learning algorithm. High bias can cause an algorithm to miss the relevant relations between features and target outputs (underfitting).
A variance due to the model sensitivity to the data
The variance is error from sensitivity to small fluctuations in the training set. High variance can cause overfitting: modeling the random noise in the training data, rather than the intended outputs.
泛化误差分解
下面的 Figure 1. 中给出了模型泛化时,产生俩种 Errors(Bias,Variance);注意,泛化指的是在测试集上的误差测量,就是衡量模型在之前没有见过的数据上的表现。
Figure 1. Explanation about Bias-Variance for our models
我们下面通过期望对 泛化误差 进行描述;首先来明确一些本小节相关的符号定义:
f(x) 表示 true function,表示事物之间真正的规律,这是我们想要逼近的目标f(x|w) 表示我们的训练的一个 machine(依据某一个 Dataset)Ex 表示我们对整个测试集 求期望ED 表示我们对不同数据集 Dataset 训练出来的 machine 求期望Eg 表示 泛化误差 generalization error,注意不要和 期望 弄混了
泛化误差 generalization error 定义如下:
上式需要我们在了解
接下来,最重要的一点是:使用不同的训练集 Dataset 我们会得到不同的模型参数
- bias
=Ex[(f(x)−ED[f(x|w)])2] ,反映了宏观上模型对 true function 的逼近能力 - variance
=ED,x[(f(x|w)−ED[f(x|w)])2]=VAR[f(x|w)−ED[f(x|w)]] ,这就是所有模型对 average response(绿点)的方差;这直接反映的模型的稳定程度。overfitting 相关的 ill-conditioned problem 的结果就是模型对数据变化敏感;如果我们不同训练集得到的不同模型对于 unseen test data 的评判差异极大,那 variance 就会极大
bias 和 variance 在实践中无法精确估计,常见通过 cross-validation 的方法例如 k-fold 作近似计算。
最后,我们其实可以基于 泛化误差,直接分解为 bias-variance:
上述的 cross term 通过
还有其他的 decomposition 解释方法,例如 wiki 上的版本为 true function
- 数学期望 Expectation
- 数学期望
- 数学期望
- 数学期望
- <zz>EM(Expectation Maximization)期望最大化算法
- 期望极大算法:Expectation Maximization Algorithm
- 期望最大化算法(Expectation Maximum, EM)
- zoj 3868 GCD Expectation(数学)
- Expectation
- Expectation Maximization-EM(期望最大化)-算法以及源码
- 期望 方差 协方差 协方差矩阵 (Expectation Variance Covariance)
- Expectation Maximization-EM(期望最大化)-算法以及源码
- 刷一波数学期望,数论,数学
- 条件数学期望
- 一个数学期望问题
- 【数学期望】poj3682
- hdu 4336 数学期望
- Candy( 数学期望 )
- 欢迎使用CSDN-markdown编辑器
- LINUX定时清理文件定时任务
- |hdu 2328|后缀数组|二分|Corporate Identity
- 主题研究:JAVA applet 和 ActiveX 的区别
- CSS盒子模型和盒子阴影的理解
- 数学期望 Expectation
- 哈夫曼编码
- linux中find与rm实现查找并删除目录或文件
- oralce 使用expdp 命令在本地备份远程服务上的数据库
- [leetcode] 599. Minimum Index Sum of Two Lists
- 越狱(快速幂取模)
- POJ1006 Biorhythms
- Deep Learning in Customer Churn Prediction (三) (初步特征构建实践及基本模型试验)
- 2017年浙江工业大学之江学院程序设计竞赛预赛