机器学习之路(一元线性回归)

来源:互联网 发布:游族网络002174股吧 编辑:程序博客网 时间:2024/04/30 09:54

在听完机器学习的课程以后,想在这里整理一下自己从视频里学到的内容,一方面可以复习一下,另一方面可以和大家进行一些交流。

一.线性回归和逻辑回归(Linear regression and logistic regression)

      回归分析就是利用样本(已知)数据,产生拟合方程,从而对未知数据进行预测。

可以用相关系数评价两个变量之间的相关性。

        相关系数公式,其绝对值等于1时,相关性最大,等于0时,相关性最小。
  • formula
        公式中Cov(X,Y)为X,Y的协方差,D(X)、D(Y)分别为X、Y的方差。
1.一元线性回归
1.1数学含义
y=ax+b       
  其中系数a和b采用最小二乘拟合求出。使得残差平方和Rss最小时的值。残差:估计值和观察值之间的差。
1.2R语言的实现
 用lm()函数进行拟合,lm意思是linear model。格式
    myfit<-lm(formula,data)
formula为要拟合的模型形式,data是一个数据框,包含了用于拟合的数据。结果存储在一个列表中。
formula一般为y~X1+X2+X3,另外还有一些简化表达式的其他用法。
另外还有一些对拟合线性模型非常有用的其他函数,例如,summary(),coefficients()给出截距和斜率等等。这些函数可以返回一些拟合后的模型的参数。
例子:
fit<-lm(weight~height,data=women)
plot(women$height,women$weight,xlab="Height",ylab="weight")
abline(fit)

summary(fit)
结果:
Residuals:
    Min      1Q  Median      3Q     Max 
-1.7333 -1.1333 -0.3833  0.7417  3.1167 


Coefficients:
             Estimate          Std. Error        t value    Pr(>|t|)    
(Intercept) -87.51667    5.93694        -14.74     1.71e-09 ***
height        3.45000      0.09114         37.85      1.09e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 1.525 on 13 degrees of freedom
Multiple R-squared:  0.991, Adjusted R-squared:  0.9903 
F-statistic:  1433 on 1 and 13 DF,  p-value: 1.091e-14
可以得到预测等式:
Weight=-87.52+3.45*Height
做出预测,体重身高是75时的体重
predict(lm(formula = weight ~ height, data = women),data.frame(height=75))
注意:回归问题擅长内推值,而不擅长外推归纳,在使用回归模型做预测时要注意x的取值范围。





1 0