统计方法的选择

来源:互联网 发布:傻瓜进销存软件农贸 编辑:程序博客网 时间:2024/06/13 07:06

有的时候会有人问我“这个问题怎么用线性回归做?”遇到这样的问题往往有些无奈, 因为使用统计方法去解决一个问题,最重要的第一步是选择正确的方法。

  • 为什么要选择统计方法?

当我们面临一个实际统计预测或推断问题时,往往有许多方法可以选择,这时我们面临一个很关键的问题:选择哪种统计方法是最有效最经济的?为什么这么选择?

1. 补充一些基本概念

  • 预测与推断的区别 :预测是在现有数据的基础上,预测可能的结果,对每个特征参数对结果的影响并不关心。推断关心各个特征变化时对结果会有什么影响。
  • 参数方法与非参数方法 :基于模型的方法统称为参数方法 ,即首先假设一个参数模型,然后用数据训练或拟合模型中的各个参数。非参数方法不需要对模型事先做出假设,因此可以和各个数据点尽可能拟合。
  • 灵活性,光滑度或柔性水平:这三个词的含义是接近的,用来形容一个模型对数据点的拟合情况。灵活性或柔性水平较高的模型能够尽可能拟合每一个数据点。但同时,高柔性水平一般也意味着过度拟合。

2. 选择统计方法需要考虑哪些关键问题?

2.1 预测精度和模型解释性

模型解释性是指模型能够说明每一个参数是如何对结果施加影响的。一般来说,预测精度越高的模型,其解释性就越低。下图列出几种统计方法在柔性和解释性之间的权衡。

2.2 指导学习或无指导学习

指导学习处理“对每一个观测变量都有相应的响应变量”这类问题。许多统计方法归于此类,例如回归分析,支持向量机等。无指导学习是应对“只有观测变量,没有相应变量”的问题,比如聚类分析。

2.3 回归和分类

首先明确一个概念,定性变量(又称分类变量)和定量变量。当问题中响应变量是定量变量时,我们称之为回归分析,当问题中响应变量为定性变量时,我们称之为分类。

3. 那么,我们到底应该选择什么模型?

考虑清楚以上三个关键问题,确定是有指导的或无指导的又或者是半指导的,变量是定性还是定量,最后考虑是目的是预测还是推断。

例如,我们想根据受教育程度、年龄来估计一个人的预期薪水时,我们就面临一个有响应变量,且响应变量是定量变量的问题。那么我们感兴趣的如果是这两个变量是如何影响薪水的,那么可以选择解释性较高的线性回归方法。

选择一个恰当的统计方法,是解决问题的第一步,也是最重要的一步。选对方向往往比走得快要重要

0 0
原创粉丝点击