kaggle titanic 入门实例 逻辑回归的使用 & 随机森林的使用
来源:互联网 发布:网络破案电视剧 编辑:程序博客网 时间:2024/05/29 02:09
#coding:utf-8import numpy as npimport pandas as pdtrain = pd.read_csv("./csv/train.csv", dtype={"Age": np.float64},)test = pd.read_csv("./csv/test.csv", dtype={"Age": np.float64},)def harmonize_data(titanic):#填充空数据 和 把string数据转成integer表示 titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) titanic.loc[titanic["Sex"] == "male", "Sex"] = 0 titanic.loc[titanic["Sex"] == "female", "Sex"] = 1 titanic["Embarked"] = titanic["Embarked"].fillna("S") titanic.loc[titanic["Embarked"] == "S", "Embarked"] = 0 titanic.loc[titanic["Embarked"] == "C", "Embarked"] = 1 titanic.loc[titanic["Embarked"] == "Q", "Embarked"] = 2 titanic["Fare"] = titanic["Fare"].fillna(titanic["Fare"].median()) return titanicdef create_submission(alg, train, test, predictors, filename): alg.fit(train[predictors], train["Survived"]) predictions = alg.predict(test[predictors]) submission = pd.DataFrame({ "PassengerId": test["PassengerId"], "Survived": predictions }) submission.to_csv(filename, index=False)train_data = harmonize_data(train)test_data = harmonize_data(test)from sklearn.linear_model import LogisticRegressionfrom sklearn import cross_validationpredictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]alg = LogisticRegression(random_state=1)scores = cross_validation.cross_val_score(#对于cross_val_score的解释http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.cross_val_score.html alg, train_data[predictors], train_data["Survived"], cv=3)print(scores.mean())from sklearn.ensemble import RandomForestClassifierpredictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]alg = RandomForestClassifier( random_state=1, n_estimators=150, min_samples_split=4, min_samples_leaf=2)scores = cross_validation.cross_val_score( alg, train_data[predictors], train_data["Survived"], cv=3)print(scores.mean())create_submission(alg, train_data, test_data, predictors, "run-01.csv")
0 0
- kaggle titanic 入门实例 逻辑回归的使用 & 随机森林的使用
- 随机森林在Kaggle实例:Titanic中的应用(一)
- 随机森林在Kaggle实例:Titanic中的应用(二)
- kaggle titanic 入门实例 基于性别的预测
- 随机森林算法的使用
- kaggle数据挖掘竞赛初步--Titanic<随机森林&特征重要性>
- 机器学习实战(三)kaggle titanic随机森林
- Spark中组件Mllib的学习38之随机森林(使用variance)进行回归
- 机器学习(十一)使用sklearn对kaggle的Titanic进行建模
- Kaggle入门 (Titanic XGBoost)
- OpenCV:随机决策森林CvRTrees使用实例
- Kaggle-Titanic一个完整的例子
- kaggle中Titanic学到的知识
- 使用Softmax回归模型来测试Kaggle入门比赛
- kaggle实例学习-Titanic(1)
- kaggle实例学习-Titanic(2)
- kaggle实例学习-Titanic(3)
- kaggle实例学习-Titanic(4)
- 解决创建servlet 找不到webservlet包
- Html5添加制作全屏响应式效果的图片画廊插件教程
- 1.5.6 文件上传
- 最常用正则表达式
- 数据库编程第4章
- kaggle titanic 入门实例 逻辑回归的使用 & 随机森林的使用
- tableView插入Rows,删除Rows
- #define offsetof(TYPE, MEMBER) ((size_t) &((TYPE *)0)->MEMBER)
- fastdfs中的数据迁移
- android ANR产生原因和解决办法
- 如何确保项目开发敏捷和安全两者兼得呢?
- Objective-C语言——AutoLayout自动布局
- matlab和C/C++混合编程--调用opencv
- 恢复oracle数据到以前的某个时间点