python/scikit-learn机器学习库(回归分析)

来源:互联网 发布:网页标题优化百度百科 编辑:程序博客网 时间:2024/05/21 21:41

广义的线性回归模型为:
回归公式
scikit-learn库中将coef_结果存放为coef_,将intercept_结果存放为intercept_。

回归模型

最小二乘法回归

最小二乘法计算目标就是:
Ordinary Least Squares

from sklearn import linear_model
clf=linear_model.LinearRegression()
clf.fit(train_X,train_Y)

Ridge Regression岭回归

岭回归是一种用于共线性数据分析的有偏估计回归方法,放弃了最小二乘法的无偏性,以损失部分信息,获得的回归系数更为符合实际,对病态数据的适用性强于最小二乘法。
岭回归用于处理两种情况:

  1. 数据点少于变量个数
  2. 变量间存在共线性,最小二乘回归得到的系数不稳定,方差很大。

岭回归的计算目标是:
Ridge Regression
其中,阿尔法,值越大,系数间的共线性越强。

from sklearn import linear_model
clf=linear_model.Ridge(alpha=0.5)
clf.fit(train_X,train_Y)

Generalized Cross-Validation

from sklearn import linear_model
clf=linear_model.RidgeCV(alphas=[0.1,1.0,10.0])
clf.fit(train_X,train_Y)
clf.alpha_

0 0