Regression and Correlation (回归分析与相关分析)

来源:互联网 发布:mac book air 换电池 编辑:程序博客网 时间:2024/06/04 11:25

变量之间的关系

分析 变量 之间 的 关系 需要 解决 下面 的 问题:
( 1) 变量 之间 是否 存在 关系?
( 2) 如果 存在, 它们 之间 是什么 样 的 关系?
( 3) 变量 之间 的 关系 强度 如何?
( 4) 样本 所 反映 的 变量 之间 的 关系 能否 代表 总体 变量 之间 的 关系?
从 统计 角度 看, 变量 之间 的 关系 大体上 可分 为 两种 类型, 即 函数 关系 和 相关 关系。 函数 关系 是 人们 比较 熟悉 的。 设有 两个 变量 x 和 y, 变量 y 随 变量 x 一起 变化, 并 完全 依赖于 x, 当 x 取 某个 值 时, y 依 确定 的 关系 取 相应 的 值, 则 称 y 是 x 的 函数, 记 为 y= f( x)。
在 实际问题 中, 有些 变量 间的 关系 并不 像 函数 关系 那么 简单。 例如, 家庭 储蓄 与 家庭 收入 这 两个 变量 之间 就不 存在 完全 确定 的 关系。 也就是说, 收入水平 相同 的 家庭, 它们 的 储蓄额 往往 不同, 而 储蓄额 相同 的 家庭, 它们 的 收入水平 也可能 不同。 这 意味着 家庭 储蓄 并不能 完全 由 家庭 收入 一个 因素 所 确定, 还有 银行 利率、 消费水平 等 其他 因素 的 影响。 正是 由于 影响 一个 变量 的 因素 有 多个, 才 造成了 它们 间 关系 的 不确定性。 变量 之间 这种 不确定 的 关系 称为 相关 关系( correlation)。

变量之间关系描述

变量之间的关系用散点图来描述。如果两个变量的观测点完全落在直线上,称为完全线性关系,这实际上就是函数关系。散点图可以判断两个变量之间有无相关关系,并对关系形态作出大致描述,但要准确度量变量间的关系强度,则需要计算相关系数。

Correlation 相关分析

相关系数r(Correlation Coefficient)

是用来衡量两个随机变数X与Y之间直线关系的方向与强弱。 

-1 <= r <= 1; 

r=0 并不一定表示Y与X之间没有关系,它表示Y与X间无线性关系



Regression 回归分析  

回归分析目的

回归分析的主要目的是研究一个或数个自变数(independent variable) 与一个因变数(dependent variable)之间的关系,进而建构一个适当的数学方程式,并利用这个方程式来解释或预测因变数之值。在回归分析中自变数用 X 来表示,因变数用 Y 来表示,它们之间的函数关系可以用 Y = f(X) 来表示。

回归分析的例子

例如股票分析师建立一个公司的股价 Y 与该公司各项财务指标 X 的回归模型,以便准确的预测该公司的股价。

简单回归与复回归

影响因变数之自变数通常不止一个,例如 房价可能与房子大小(X1), 房龄(X2), 离市区距离(X3), 有无空调(X4) 等因素有关,但这些因素是否会影响因变数呢? 就可以用回归分析来找出影响房价最重要的因数,以作为预测房价的重要根据。在回归分析中若只考虑一个自变数,则称为简单回归(Simple Regression),否则称为复回归或多元回归(Multiple Regression)。

回归分析前提

  • 在回归分析之前,需先了解变数间呈何种关系,才能选择一个适当的数学方程式或回归模式。
  • 在回归分析之前,需先确定资料不含离群值。

回归分析的用处

  • 描述资料
  • 估计参数
  • 预测与估计因变数之值
  • 控制因变数之值

简单直线回归

从散布图可以看出自变数与因变数间的关系,最简单的关系即为直线关系。
Yi = b0 + b1Xi + e

回归模式好坏的判断

  • 由图形判定,资料点与回归方程式越接近表示回归模式越有用
  • 判定系数 r2





0 0