统计学与机器学习相关概念

来源:互联网 发布:阿里云个人免费邮箱 编辑:程序博客网 时间:2024/06/05 03:24

统计法及其含义
RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS最小(残差平方和越小拟合程度越好),R2最大的模型(相关系数平方越接近1越好)
R2:复判定系数(multiple coefficient of determination:相关系数的平方),衡量多元线性回归方程对数据的拟合程度。越接近1,拟合效果越好,相反,越接近0,拟合效果越差

相关系数ρXY:取值在-1到1之间,ρXY = 0时,称X,Y不相关; | ρXY | =1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系; | ρXY | <1时,X的变动引起Y的部分变动,ρXY的绝对值越大,X的变动引起Y的变动就越大, | ρXY | > 0.8时称为高度相关,当 | ρXY | < 0.3时称为低度相关,其它时候为中度相关。

协方差:协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量总体误差的期望。协方差为0的两个随机变量称为是不相关的,反之不成立。

AIC准则:AIC越小越好
AIC(Akaike Information Criterion,赤池信息准则)可用来比较模型,考虑了模型的统计拟合度及用来拟合的参数数目 。
AIC值越小的模型要优先选择,说明模型用较少的参数获得了足够的拟合度

MIC的性质:
①如果变量对x,y存在函数关系,则当样本数量增加时,MIC必然趋向于1
②如果变量对x,y可以由参数方程c(t)=[x(t), y(t)]所表达的曲线描画,则当样本数量增加时,MIC必然趋于1
③如果变量对x,y在统计意义下互相独立,则当样本增加时,MIC趋于0

方差:在统计学上,更常用的是使用方差来描述数据的离散程度——数据离中心越远越离散。方差的值越大,数据越分散。
协方差:在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
标准差:有效的避免了因单位平方而引起的度量问题;与方差一样,标准差的值越大,表示数据越分散。

标准误概念:标准误差定义为各测量值误差的平方和的平均值的平方根,故又称为均方根误差。
标准误(英文:Standard Error)衡量对应样本统计量抽样误差大小的尺度。
标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
此外,还需要特别指出的是,标准误还可以指样本标准差、方差等统计量的标准差,不仅仅只是样本均数的标准差。

数据标准化是指:数值减去均值,再除以标准差;所谓中心化, 是指变量减去它的均值.
数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

残差:在数理统计中,残差是指实际观察值与估计值(拟合值)之间的差。(注意与误差的区别)
在回归分析中,测定值与按回归方程预测的值之差,以δ表示。残差δ遵从正态分布N(0,σ2)。(δ-残差的均值)/残差的标准差,称为标准化残差,以δ表示。δ遵从标准正态分布N(0,1)。实验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归直线拟合。
有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。

偏差、方差、误差:首先 Error = Bias + Variance
误差,当然是观察值与实际真实值的差量 (注意与残差的区别),偏差属于误差的一种形式。
Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度
(一个高的偏差意味着一个坏的匹配);Variance反映的是模型每一次输出结果与模型输出期望(平均值)之间的误差,即模型的稳定性,反应数据是否集中。

噪声(noise)是被测量的变量的随机误差或方差。
数据噪声指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。

矩阵就是刻画变换的,特征值和特征向量的几何意义是变换中的不变量
矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。

0 0