XGboost 实战糖尿病预测

来源：互联网发布：js全局函数编辑：程序博客网时间：2024/04/28 08:00

数据集：pima_indians-diabetes.csv
(https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes)
美国亚利桑那州的⽐马印第安⼈患糖尿病概率极⾼。WHO为此调查了21岁以上
的⼥性患者，并记录了以下信息：
1. 怀孕了⼏次
2. ⾎糖
3. ⾎压
4. ⽪脂厚度
5. 胰岛素
6. 体质指数
7. 糖尿病⾎统
8. 年龄

9. label：是否患病

# 先导⼊入所有要⽤用的classimport numpyimport xgboostfrom sklearn import cross_validationfrom sklearn.metrics import accuracy_score# load数据集dataset = numpy.loadtxt('pima-indians-diabetes.csv', delimiter=",")# 把 X Y 分开X = dataset[:,0:8]Y = dataset[:,8]# 现在我们分开训练集和测试集seed = 7test_size = 0.33X_train, X_test, y_train, y_test = cross_validation.train_test_split \(X, Y, test_size=test_size, random_state=seed)# 训练模型model = xgboost.XGBClassifier()# 这⾥里里参数的设置可以⻅见：http://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearnmodel.fit(X_train, y_train)# 做预测y_pred = model.predict(X_test)predictions = [round(value) for value in y_pred]# 显示准确率accuracy = accuracy_score(y_test, predictions)print("Accuracy: %.2f%%" % (accuracy * 100.0))# 更更多的模型：import sklearn.ensemble.RandomForestClassifierimport sklearn.ensemble.RandomForestRegressorimport sklearn.ensemble.AdaBoostClassifierimport sklearn.ensemble.AdaBosstRegressor

阅读全文

0 0