python机器学习库scikit-learn简明教程之：Lasso回归预测

来源：互联网发布：施工网络计划图模板编辑：程序博客网时间：2024/05/19 09:50

1.简介

LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整。因此，不论目标因变量是连续的，还是二元或者多元离散的，都可以用LASSO回归建模然后预测。这里的变量筛选是指不把所有的变量都放入模型中进行拟合，而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度，从而避免过度拟合。对于线性模型来说，复杂度与模型的变量数有直接关系，变量数越多，模型复杂度就越高。更多的变量在拟合时往往可以给出一个看似更好的模型，但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型，通常效果很差。一般来说，变量数大于数据点数量很多，或者某一个离散变量有太多独特值时，都有可能过度拟合。

2.建模和预测

scikit-learn库实现LASSO方法的算法是使用坐标下降法，来得出拟合多项式的系数；来看看实现LARS(最小角回归)的一个实例吧：

#gnu>>> from sklearn import linear_model>>> reg = linear_model.Lasso(alpha = 0.1)>>> reg.fit([[0, 0], [1, 1]], [0, 1])Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000,   normalize=False, positive=False, precompute=False, random_state=None,   selection='cyclic', tol=0.0001, warm_start=False)>>> reg.predict([[1, 1]])array([ 0.8])#

缺点是，当传入的特征数据维数超过2维时，这个模型就束手无策了；那怎么办？

3.点到为止的预习:PCA降维

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

来看看官网的例子:凤尾花数据集的降维：

print(__doc__)import matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.decomposition import PCA#这一部分仍然是加载著名的凤尾花数据集作为实验内容iris = datasets.load_iris()X = iris.datay = iris.targettarget_names = iris.target_names#构建PCA类的实例pca = PCA(n_components=2)#传入数据给模型X_r = pca.fit(X).transform(X)#到这里，结果"无关的系列特征数据"X_r已经得到；# Percentage of variance explained for each componentsprint('explained variance ratio (first two components): %s'      % str(pca.explained_variance_ratio_))plt.figure()#花的颜色特征数组colors = ['navy', 'turquoise', 'darkorange']lw = 2for color, i, target_name in zip(colors, [0, 1, 2], target_names):    plt.scatter(X_r[y == i, 0], X_r[y == i, 1], color=color, alpha=.8, lw=lw,                label=target_name)#我必须强调这里：X_r[y == i, 0]代表该特征否，X_r[y == i, 1]代表该特征是；plt.legend(loc='best', shadow=False, scatterpoints=1)plt.title('PCA of IRIS dataset')plt.show()#其余未注释是画图部分

到此为止，对于恼人的高纬度特征数据集，你大概有一些应对的灵感了；

下一期会谈到更加复杂的预测模型！

0 0