浅析机器学习中的模型选择与调参（cross validation + grid search）

来源：互联网发布：星际淘宝网无弹窗编辑：程序博客网时间：2024/06/11 22:39

对于一个预测问题，同时有多种可用的模型，每种模型有多种可用的参数。如何选择一个最合适的模型？

总题过程分为2个部分：

1.对于一个模型，如何评估该模型在特定问题上的好坏？

2.选择了最好的模型后，如何选择最优的参数？

对于模型的评估，我们一般使用交叉验证(cross validation)来进行评估。在这里我们使用了k折叠法，将训练集划分为相等的k份。然后从1~k中每次选择一份作为测试集，其余的k-1份作为训练集，训练好后利用某种评分规则对模型进行评分，最后以k个评分中最高的作为该模型的评分。

常见的评分规则有：R方值，F值，t值

R square是决定系数,意思是你拟合的模型能解释因变量的变化的百分数,例如R方=0.810,表示你拟合的方程能解释因变量81%的变化,还有19%是不能够解释的.

F值是方差检验量,是整个模型的整体检验,看你拟合的方程有没有意义

t值是对每一个自变量（logistic回归）的逐个检验,看它的beta值β即回归系数有没有意义

F和t的显著性都是0.05

当我们对每一个模型都进行了交叉验证后，就能够选出一个对于当前问题最优的模型。接下来就需要解决第二个问题：对模型调参。在这里我们使用网格搜索（grid search）来对模型选择一套合适的参数。以支持向量机为例，其参数有gamma和C，那么其构成的二元组(1,1),(0.1,1),(1,10)..就可以看做是若干个“网格”。那么网格搜索就是，对于支持向量机这个模型，对于每个网格都进行一次交叉验证评估，最后得到评分最高的一组网格，那么最后我们就建立起了最优的模型

下面附上使用sklearn实现交叉验证和网格搜索的代码（kaggle中的牛人笔记）：

[python] view plain copy
# R2 Score  
  
def lets_try(train,labels):  
    results={}  
    def test_model(clf):  
          
        cv = KFold(n_splits=5,shuffle=True,random_state=45)  
        r2 = make_scorer(r2_score)  
        r2_val_score = cross_val_score(clf, train, labels, cv=cv,scoring=r2)  
        scores=[r2_val_score.mean()]  
        return scores  
  
    clf = linear_model.LinearRegression()  
    results["Linear"]=test_model(clf)  
      
    clf = linear_model.Ridge()  
    results["Ridge"]=test_model(clf)  
      
    clf = linear_model.BayesianRidge()  
    results["Bayesian Ridge"]=test_model(clf)  
      
    clf = linear_model.HuberRegressor()  
    results["Hubber"]=test_model(clf)  
      
    clf = linear_model.Lasso(alpha=1e-4)  
    results["Lasso"]=test_model(clf)  
      
    clf = BaggingRegressor()  
    results["Bagging"]=test_model(clf)  
      
    clf = RandomForestRegressor()  
    results["RandomForest"]=test_model(clf)  
      
    clf = AdaBoostRegressor()  
    results["AdaBoost"]=test_model(clf)  
      
    clf = svm.SVR()  
    results["SVM RBF"]=test_model(clf)  
      
    clf = svm.SVR(kernel="linear")  
    results["SVM Linear"]=test_model(clf)  
      
    results = pd.DataFrame.from_dict(results,orient='index')  
    results.columns=["R Square Score"]   
    results=results.sort(columns=["R Square Score"],ascending=False)  
    results.plot(kind="bar",title="Model Scores")  
    axes = plt.gca()  
    axes.set_ylim([0.5,1])  
    return results  

得到各个模型的R方评分：

从这里，我们就确定了选用Hubber模型进行网格搜索：

[python] view plain copy
cv = KFold(n_splits=5,shuffle=True,random_state=45)  
  
parameters = {'alpha': [1000,100,10],  
              'epsilon' : [1.2,1.25,1.50],  
              'tol' : [1e-10]}  
  
clf = linear_model.HuberRegressor()  
r2 = make_scorer(r2_score)  
grid_obj = GridSearchCV(clf, parameters, cv=cv,scoring=r2)  
grid_fit = grid_obj.fit(train, labels)  
best_clf = grid_fit.best_estimator_   
  
best_clf.fit(train,labels)  
最后我们就得到了一个最优的模型！

转载自：http://blog.csdn.net/qq547276542/article/details/75455629