Kaggle练习1——Titanic
来源:互联网 发布:皖南和皖北的差距知乎 编辑:程序博客网 时间:2024/04/27 08:10
最近有打算通过练习经典的Kaggle案例来锻炼自己的实战能力,今天就记录下自己做Titanic练习的全过程吧。
背景介绍:
python代码如下:
# -*- coding: utf-8 -*-"""Created on Fri Mar 10 12:00:46 2017@author: zch"""import pandas as pdfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.cross_validation import cross_val_score#读取训练数据集和测试数据集train = pd.read_csv('E://Python/data/Titanic/train.csv')test = pd.read_csv('E://Python/data/Titanic/test.csv')selected_features = ['Pclass','Sex','Age','Embarked','SibSp','Parch','Fare']X_train = train[selected_features]X_test = test[selected_features]y_train = train['Survived']#填充Embarked缺失值X_train['Embarked'].fillna('S',inplace=True)X_test['Embarked'].fillna('S',inplace=True)#填充Age缺失值X_train['Age'].fillna(X_train['Age'].mean(),inplace=True)X_test['Age'].fillna(X_test['Age'].mean(),inplace=True)X_test['Fare'].fillna(X_test['Fare'].mean(),inplace=True)#采用DictVectorizer对特征向量化dict_vec = DictVectorizer(sparse=False)X_train = dict_vec.fit_transform(X_train.to_dict(orient='record'))print(dict_vec.feature_names_)X_test = dict_vec.transform(X_test.to_dict(orient='record'))rfc = RandomForestClassifier()#使用默认配置初始化XGBClassifierxgbc = XGBClassifier()#使用5折交叉验证的方法在训练集上分别对rfc和xgbc进行性能评估,#获得平均分类准确性的得分。cross_val_score(rfc,X_train,y_train,cv=5).mean()cross_val_score(xgbc,X_train,y_train,cv=5).mean()#使用rfc进行预测操作rfc.fit(X_train,y_train)rfc_y_predict = rfc.predict(X_test)rfc_submission = pd.DataFrame({'PassengerId':test['PassengerId'],'Survived':rfc_y_predict})#将预测结果存储在文件rfc_submission.csvrfc_submission.to_csv('E:\\Python\\data\\Titanic\\rfc_sub.csv',index=False)#使用xgbc进行预测操作xgbc.fit(X_train,y_train)xgbc_y_predict = xgbc.predict(X_test)xgbc_submission = pd.DataFrame({'PassengerId':test['PassengerId'],'Survived':xgbc_y_predict})#将预测结果存储在文件xgbc_submission.csvxgbc_submission.to_csv('E:\\Python\\data\\Titanic\\xgbc_sub.csv',index=False)
0 0
- Kaggle练习1——Titanic
- kaggle——Titanic
- Kaggle:Titanic问题(1)——相关库函数操作
- Kaggle练习赛Titanic手札
- Kaggle入门——Titanic案例
- Kaggle:Titanic问题(3)——经验总结
- kaggle实例学习-Titanic(1)
- Kaggle系列——Titanic 80%+精确度纪录
- kaggle竞赛——Titanic:Machine Learning from Disaster
- Kaggle竞赛 —— 泰坦尼克号(Titanic)
- Kaggle:Titanic问题(2)——实现代码
- 【kaggle】Titanic
- Kaggle: Titanic
- kaggle:titanic
- kaggle-Titanic
- kaggle实战之Titanic (1)-预处理
- Kaggle实践1:“Titanic之灾”整理
- 【Kaggle练习赛】之Titanic: Machine Learning from Disaster
- Linux_C笔记day1
- 删除排序二叉树的节点
- 返回数组中任意某个重复的数字--时间复杂度O(n)空间复杂度O(1)
- c++实现复数类运算
- tensorflow实现knn算法
- Kaggle练习1——Titanic
- 老是口臭怎么治疗方法
- id选择器
- Spring定时任务实现方式总结
- 第一二三范式的简单理解
- struts2框架的处理流程
- 我的软件工程课目标
- 数据结构之-链表
- 第二节蓝桥杯第九题 程序设计(满分16分)