机器学习——简单线性回归(上)

来源:互联网 发布:看得见风景的房间 知乎 编辑:程序博客网 时间:2024/05/22 09:04

1、前提介绍

为什么需要统计量?——统计量:描述数据特征

(1)集中趋势衡量

a:均值(平均数、平均值)(mean),公式如下:

举例:{6,2,9,1,2} 均值为:(6+2+9+1+2)/ 5 = 4

b、中位数(median):将数据中的各个值按照大小顺序排列,居于中间位置的变量。

举例:{6,2,9,1,2}

给上上面的数排序:1,2,2,6,9

找出中间位置的数:2

当n为奇数时,直接取位置处于中间的变量;当为偶数时,取中间两个量的平均值。

c、众数(mode):数据中出现次数最多的数

举例:{6,2,9,1,2} 众数取2

(2)离散程度衡量

a、方差(variance),公式以及举例如下:


b、标准差(standard deviation)

2、知识简介

(1)回归(regression)

因变量Y为连续数值型(continuous numerical variable),如:房价、人数、降雨量

(2)分类(classification)

因变量Y为类别型(categorical variable),如:颜色类别、电脑品牌、有无信誉

3、简单线性回归(Simple Linear Regression)

很多做决定过程通常是根据两个或者多个变量之间的关系,回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联

被预测的变量叫做:因变量(dependent variable),Y,输出(output);被用来进行预测的变量叫做:自变量(independent variable),x,输入(input)。

总结:简单线性回归包含一个自变量(x)和一个因变量(y),这两个变量的关系用一条直线来模拟。

如果包含两个以上的自变量叫做:多元回归分析(multiple regression)。

4、简单线性回归模型

(1)被用来描述因变量(y)与自变量(x)以及偏差(error)之间的关系的方程叫做:回归模型

(2)简单线性回归模型是:,其中,是参数,通过它们描述x和y的关系,是误差(随机因素的值)。

5、简单线性回归方程

对原始的简单线性回归模型左右两边求期望值,由于满足随机正态分布,其期望值为0,得到简单线性回归方程为:

这个方程对应的图像是一条直线,称作:回归线。其中,是回归线的截距,是回归线的斜率,是在一个给定x值下y的期望值(均值)

6、正向线性关系

负向线性关系

无关系

7、估计的简单线性回归方程

这个方程叫做:估计线性方程(estimated regression line)。

其中,是估计线性方程的纵截距,估计线性方程的斜率,是在自变量x等于一个给定的值时,因变量y的估计值。

8、线性回归方程分析流程

注:的区别:

x,y变量真实的关系的参数,是在全体数据下的一个真实关系的参数

是特定的数据下,总体数据中的样本的关系的参数,是对真实模型的一个估计值

9、关于偏差的假定

(1)是一个随机的变量,均值为0

(2)的方差(variance)对所有的自变量x都是一样的

(3)的值是独立分布的

(4)满足正态分布


原创粉丝点击