回归-简述

来源:互联网 发布:iphone字体软件 编辑:程序博客网 时间:2024/05/28 04:55

回归是指预测的输出值为连续的实值.

1. 常用模型

  • 线性回归
    相关博文: 回归-线性回归
  • 逻辑斯谛回归
    相关博文: 回归-逻辑斯谛回归
  • 回归决策树
    相关博文: GBDT, 梯度提升决策树
    相关博文: 回归- 决策树

2. 数据集

回归问题的数据集通常是这样的, D={(x1,y1),(x2,y2),...,(xn,yn)},yiR.
对于离散的属性, 有两种处理方法:

  1. 该属性的离散值有大小关系
    如身高的<高,中,矮>转换为<0.0,0.5,1.0>
  2. 无大小关系
    假定该属性有k个取值,通常化为k维向量. 如瓜类的<西瓜,南瓜,黄瓜>对应为三个one-hot向量<(1,0,0),(0,1,0),(0,0,1)>

3. 评价方法

需要注意的是, 对一组样本(可见概率论与数理统计)的误差分析与对回归问题的误差分析是不一样的. 前者观察与期望值的偏离程度, 后者观察预测值与样本值的偏离程度.

yi^ 表示预测值, yi表示观测值, 即实际值.

  • residual error
    残差. 即yi^yi.
    从残差分布中也能得到有用的信息, 如果分布成 白噪声 , 即残差是随机无规律的, 这种情况下最好. 否则可以认为是样本中有一些规律在预测中没有充分考虑到.

  • MAE
    Mean absolute error, WikiPedia

    MAE=1ni=1n|y^iyi|

  • MAPE
    Mean_absolute_percentage_error, wikipedia
    尽管看起来简单令人信服, 但不能除以0.

MAPE=100ni=1ny^iyiyi

  • MSE
    Mean squared error, Wikipedia

    MSE=1ni=1n(y^iyi)2

  • RMSE
    Root-mean-square deviation, Wikipedia
    RMSE (root-mean-square error) 跟 RMSD 是一个概念.

    RMSE=MSE

  • R2
    Coefficient of Determination, wikipedia
    判定系数, 用R2表示. 它表示回归曲线与样本点的拟合程度, 范围是[0,1] , 值越大拟合程度越好.

    R2=1SSresSStot=1(y^iyi)2(yiy¯)2

  • 自创指标
    见参考[1], 对比总是猜均值的优越性.

参考

  1. 我的自创评价指标, Stack Exchange
原创粉丝点击