浅析机器学习中的模型选择与调参(cross validation + grid search)
来源:互联网 发布:天刀血玲珑捏脸数据导 编辑:程序博客网 时间:2024/06/08 08:41
对于一个预测问题,同时有多种可用的模型,每种模型有多种可用的参数。如何选择一个最合适的模型?
总题过程分为2个部分:
1.对于一个模型,如何评估该模型在特定问题上的好坏?
2.选择了最好的模型后,如何选择最优的参数?
对于模型的评估,我们一般使用交叉验证(cross validation)来进行评估。 在这里我们使用了k折叠法,将训练集划分为相等的k份。然后从1~k中每次选择一份作为测试集,其余的k-1份作为训练集,训练好后利用某种评分规则对模型进行评分,最后以k个评分中最高的作为该模型的评分。
常见的评分规则有:R方值,F值,t值
R square是决定系数,意思是你拟合的模型能解释因变量的变化的百分数,例如R方=0.810,表示你拟合的方程能解释因变量81%的变化,还有19%是不能够解释的.
F值是方差检验量,是整个模型的整体检验,看你拟合的方程有没有意义
t值是对每一个自变量(logistic回归)的逐个检验,看它的beta值β即回归系数有没有意义
F和t的显著性都是0.05
当我们对每一个模型都进行了交叉验证后,就能够选出一个对于当前问题最优的模型。接下来就需要解决第二个问题:对模型调参。在这里我们使用网格搜索(grid search)来对模型选择一套合适的参数。以支持向量机为例,其参数有gamma和C,那么其构成的二元组(1,1),(0.1,1),(1,10)..就可以看做是若干个“网格”。那么网格搜索就是,对于支持向量机这个模型,对于每个网格都进行一次交叉验证评估,最后得到评分最高的一组网格,那么最后我们就建立起了最优的模型
下面附上使用sklearn实现交叉验证和网格搜索的代码(kaggle中的牛人笔记):
# R2 Scoredef lets_try(train,labels): results={} def test_model(clf): cv = KFold(n_splits=5,shuffle=True,random_state=45) r2 = make_scorer(r2_score) r2_val_score = cross_val_score(clf, train, labels, cv=cv,scoring=r2) scores=[r2_val_score.mean()] return scores clf = linear_model.LinearRegression() results["Linear"]=test_model(clf) clf = linear_model.Ridge() results["Ridge"]=test_model(clf) clf = linear_model.BayesianRidge() results["Bayesian Ridge"]=test_model(clf) clf = linear_model.HuberRegressor() results["Hubber"]=test_model(clf) clf = linear_model.Lasso(alpha=1e-4) results["Lasso"]=test_model(clf) clf = BaggingRegressor() results["Bagging"]=test_model(clf) clf = RandomForestRegressor() results["RandomForest"]=test_model(clf) clf = AdaBoostRegressor() results["AdaBoost"]=test_model(clf) clf = svm.SVR() results["SVM RBF"]=test_model(clf) clf = svm.SVR(kernel="linear") results["SVM Linear"]=test_model(clf) results = pd.DataFrame.from_dict(results,orient='index') results.columns=["R Square Score"] results=results.sort(columns=["R Square Score"],ascending=False) results.plot(kind="bar",title="Model Scores") axes = plt.gca() axes.set_ylim([0.5,1]) return results
从这里,我们就确定了选用Hubber模型进行网格搜索:
cv = KFold(n_splits=5,shuffle=True,random_state=45)parameters = {'alpha': [1000,100,10], 'epsilon' : [1.2,1.25,1.50], 'tol' : [1e-10]}clf = linear_model.HuberRegressor()r2 = make_scorer(r2_score)grid_obj = GridSearchCV(clf, parameters, cv=cv,scoring=r2)grid_fit = grid_obj.fit(train, labels)best_clf = grid_fit.best_estimator_ best_clf.fit(train,labels)最后我们就得到了一个最优的模型!
阅读全文
1 0
- 浅析机器学习中的模型选择与调参(cross validation + grid search)
- 浅析机器学习中的模型选择与调参(cross validation + grid search)
- 机器学习中的交叉验证(cross-validation)
- 机器学习中的交叉验证(cross-validation)
- [机器学习]如何选择模型--cross validation
- 【机器学习】交叉验证(cross-validation)
- 机器学习之Validation(验证,模型选择)
- 机器学习-->sklearn.Cross-validation
- scikit-learn交叉验证Cross Validation and Grid Search
- 斯坦福大学机器学习——交叉验证(Cross Validation)
- 机器学习(五)使用sklearn库的cross validation
- 机器学习----交叉验证(Cross Validation)简介
- 斯坦福大学机器学习——交叉验证(Cross Validation)
- 机器学习-sklearn库的Cross Validation
- 机器学习中的validation
- 机器学习笔记-模型评估与选择, Training set、Validation set 和 Testing set的区别与作用
- 机器学习调参-模型选择
- 【机器学习】交叉验证和K-折交叉验证cross-validation and k-fold cross-validation
- compile函数与link函数用法
- SSH整合时,tomcat启动报错(unable to load class com.mysql.jdbc.Driver)
- 在Windows上安装Elasticsearch 5.x
- Io流的FileInputStream和FileOutputStream的读取和写入
- 菜鸡看jQurey源码(1)
- 浅析机器学习中的模型选择与调参(cross validation + grid search)
- Java疯狂讲义读书笔记第一章
- spring batch 使用ItemReaderAdapter导致读写无限循环问题
- POWERPC 汇编指令tips
- 全球用户信息泄露事故频发 企业须加强防范
- PHPStorm10提高内存限制的方法
- 判断一个整数能否同时被3和5整除
- 关于angular的三个绑定策略 @、=、&
- Spark集群worker启动起来,一会停掉原因--尝试