python机器学习库scikit-learn简明教程之:Lasso回归预测
来源:互联网 发布:施工网络计划图模板 编辑:程序博客网 时间:2024/05/19 09:50
1.简介
LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整。 因此,不论目标因变量是连续的,还是二元或者多元离散的, 都可以用LASSO回归建模然后预测。 这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。 复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合。 对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。 更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。 此时如果用全新的数据去验证模型,通常效果很差。 一般来说,变量数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能过度拟合。
2.建模和预测
scikit-learn库实现LASSO方法的算法是使用坐标下降法,来得出拟合多项式的系数;来看看实现LARS(最小角回归)的一个实例吧:
#gnu>>> from sklearn import linear_model>>> reg = linear_model.Lasso(alpha = 0.1)>>> reg.fit([[0, 0], [1, 1]], [0, 1])Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000, normalize=False, positive=False, precompute=False, random_state=None, selection='cyclic', tol=0.0001, warm_start=False)>>> reg.predict([[1, 1]])array([ 0.8])#缺点是,当传入的特征数据维数超过2维时,这个模型就束手无策了;那怎么办?
3.点到为止的预习:PCA降维
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
来看看官网的例子:凤尾花数据集的降维:
print(__doc__)import matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.decomposition import PCA#这一部分仍然是加载著名的凤尾花数据集作为实验内容iris = datasets.load_iris()X = iris.datay = iris.targettarget_names = iris.target_names#构建PCA类的实例pca = PCA(n_components=2)#传入数据给模型X_r = pca.fit(X).transform(X)#到这里,结果"无关的系列特征数据"X_r已经得到;# Percentage of variance explained for each componentsprint('explained variance ratio (first two components): %s' % str(pca.explained_variance_ratio_))plt.figure()#花的颜色特征数组colors = ['navy', 'turquoise', 'darkorange']lw = 2for color, i, target_name in zip(colors, [0, 1, 2], target_names): plt.scatter(X_r[y == i, 0], X_r[y == i, 1], color=color, alpha=.8, lw=lw, label=target_name)#我必须强调这里:X_r[y == i, 0]代表该特征否,X_r[y == i, 1]代表该特征是;plt.legend(loc='best', shadow=False, scatterpoints=1)plt.title('PCA of IRIS dataset')plt.show()#其余未注释是画图部分
到此为止,对于恼人的高纬度特征数据集,你大概有一些应对的灵感了;
下一期会谈到更加复杂的预测模型!
0 0
- python机器学习库scikit-learn简明教程之:Lasso回归预测
- python机器学习库scikit-learn简明教程之:SVM支持向量机
- python机器学习库scikit-learn简明教程之:随机森林
- python机器学习库scikit-learn简明教程之:AdaBoost算法
- python机器学习库scikit-learn: Lasso Regression
- python/scikit-learn机器学习库(回归分析)
- 【Python学习系列二十四】scikit-learn库逻辑回归实现唯品会用户购买行为预测
- 机器学习精简教程之二——用scikit-learn求解一元线性回归问题
- 机器学习精简教程之三——用scikit-learn求解多元线性回归问题
- 机器学习精简教程之五——用scikit-learn求解多项式回归问题
- 【Python学习系列十三】Python机器学习库scikit-learn实现逻辑回归
- python机器学习库scikit-learn
- Python机器学习库scikit-learn实践
- Python机器学习库scikit-learn实践
- Python/scikit-learn机器学习库(决策树)
- Python机器学习库scikit-learn实践
- Python机器学习库scikit-learn实践
- Python机器学习库scikit-learn实践
- 二叉树层次遍历
- C#计算器(递归,WebService) 支持加减乘除括号等 (一)
- Ubuntu使用记录
- Session 服务器端存储流程 文件存储和redis存储
- iOS 开发 指纹识别解锁详解
- python机器学习库scikit-learn简明教程之:Lasso回归预测
- 系统编程中的初步fcntl
- (forEach url out set catch 等)javaweb中JSTL的Core 核心标签库知识点
- 函数变相做到返回多个值的方法
- Android中启用unity
- 岁月飞逝,一晃而过
- PPP协议
- 设计模式之桥梁模式和策略模式的区别
- mongodb3.0.4安装简介