统计学与机器学习相关概念

来源：互联网发布：阿里云个人免费邮箱编辑：程序博客网时间：2024/06/05 03:24

统计法及其含义
RSS（残差平方和）与R2（相关系数平方）选择法：遍历所有可能的组合，选出使RSS最小（残差平方和越小拟合程度越好），R2最大的模型（相关系数平方越接近1越好）
R2：复判定系数（multiple coefficient of determination：相关系数的平方），衡量多元线性回归方程对数据的拟合程度。越接近1，拟合效果越好，相反，越接近0，拟合效果越差

相关系数ρXY：取值在-1到1之间，ρXY = 0时，称X,Y不相关； | ρXY | =1时，称X,Y完全相关，此时，X,Y之间具有线性函数关系； | ρXY | <1时，X的变动引起Y的部分变动，ρXY的绝对值越大，X的变动引起Y的变动就越大， | ρXY | > 0.8时称为高度相关，当 | ρXY | < 0.3时称为低度相关，其它时候为中度相关。

协方差：协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。协方差表示的是两个变量总体误差的期望。协方差为0的两个随机变量称为是不相关的，反之不成立。

AIC准则：AIC越小越好
AIC（Akaike Information Criterion，赤池信息准则）可用来比较模型，考虑了模型的统计拟合度及用来拟合的参数数目。
AIC值越小的模型要优先选择，说明模型用较少的参数获得了足够的拟合度

MIC的性质：
①如果变量对x，y存在函数关系，则当样本数量增加时，MIC必然趋向于1
②如果变量对x，y可以由参数方程c(t)=[x(t), y(t)]所表达的曲线描画，则当样本数量增加时，MIC必然趋于1
③如果变量对x,y在统计意义下互相独立，则当样本增加时，MIC趋于0

方差：在统计学上，更常用的是使用方差来描述数据的离散程度——数据离中心越远越离散。方差的值越大，数据越分散。
协方差：在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。
标准差：有效的避免了因单位平方而引起的度量问题；与方差一样，标准差的值越大，表示数据越分散。

标准误概念：标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方根误差。
标准误（英文：Standard Error）衡量对应样本统计量抽样误差大小的尺度。
标准误用来衡量抽样误差。标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大。因此，标准误是统计推断可靠性的指标。
此外，还需要特别指出的是，标准误还可以指样本标准差、方差等统计量的标准差，不仅仅只是样本均数的标准差。

数据标准化是指：数值减去均值，再除以标准差;所谓中心化，是指变量减去它的均值.
数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

残差：在数理统计中，残差是指实际观察值与估计值（拟合值）之间的差。（注意与误差的区别）
在回归分析中，测定值与按回归方程预测的值之差，以δ表示。残差δ遵从正态分布N(0，σ2)。（δ-残差的均值）/残差的标准差，称为标准化残差，以δ表示。δ遵从标准正态分布N(0，1)。实验点的标准化残差落在(-2，2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2，2)区间以外，可在95%置信度将其判为异常实验点，不参与回归直线拟合。
有多少对数据，就有多少个残差。残差分析就是通过残差所提供的信息，分析出数据的可靠性、周期性或其它干扰。

偏差、方差、误差：首先 Error = Bias + Variance
误差，当然是观察值与实际真实值的差量（注意与残差的区别），偏差属于误差的一种形式。
Error反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度
（一个高的偏差意味着一个坏的匹配）；Variance反映的是模型每一次输出结果与模型输出期望（平均值）之间的误差，即模型的稳定性，反应数据是否集中。

噪声（noise）是被测量的变量的随机误差或方差。
数据噪声指在一组数据中无法解释的数据变动，就是一些不和其他数据相一致的数据。

矩阵就是刻画变换的,特征值和特征向量的几何意义是变换中的不变量
矩阵乘法对应了一个变换，是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中，原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换，不对这些向量产生旋转的效果，那么这些向量就称为这个矩阵的特征向量，伸缩的比例就是特征值。

0 0