机器学习之分类学习(模型训练)
来源:互联网 发布:淘宝动态计算器 编辑:程序博客网 时间:2024/06/07 00:31
完成数据的预处理,接下进入分类学习中的重点–模型训练。在前面我们得到了一批数据,现在我们需要从中提取出一部分数据作为我们训练的数据,当然我们也可以把全部的数据作为我们训练的数据,但是如果我们把全部的数据都拿来作为训练就没有数据来测试我们模型的性能了,因为训练数据和测试数据不能重叠,不然就是作弊了,这样性能测试结果并不能真实的反应模型的性能了。同时在提取训练数据过程中,按照随机的原则,不然也是作弊的行为。一般我们从数据中提取75%作为训练数据,提取25%作为测试数据。
# 使用sklearn.cross_valiation里的train_test_split模块用于分割数据。from sklearn.cross_validation import train_test_split# 随机采样25%的数据用于测试,剩下的75%用于构建训练集合。X_train, X_test, y_train, y_test = train_test_split(data[column_names[1:10]], data[column_names[10]], test_size=0.25, random_state=33)#column_names[1:10]]所要划分的样本的特征集#data[column_names[10]]所要划分的样本的结果#test_size测试样本的占比,如果是整数的话就是测试样本的数量#random_state随机数的种子
在我们得到的数据中,第0列是序号,第1到第9列是样本的特征,第10列是样本的结果。
得到了训练数据,接下来我们就需要建立并训练模型了。在此之前需要一个小小的数据调整–标准化数据,即将数据收缩到同一个范围内,比如说一丈和两米的比较,在计算机中我们输入的是1和2并没有带单位,这样对计算机来说肯定是2更长,但是我们知道是一丈更长,所以我们进行比较时要先将一丈标准化为3.33米,又或者将2米标准化为0.6丈,这个是凭个人习惯。
# 从sklearn.preprocessing里导入StandardScaler。from sklearn.preprocessing import StandardScaler# 标准化数据,保证每个维度的特征数据方差为1,均值为0。使得预测结果不会被某些维度过大的特征值而主导。ss = StandardScaler()X_train = ss.fit_transform(X_train)X_test = ss.transform(X_test)
下面利用逻辑回归模型训练数据。
from sklearn.linear_model import LogisticRegressionlr = LogisticRegression()# 调用LogisticRegression中的fit函数/模块用来训练模型参数。lr.fit(X_train, y_train)
最终我们得到了lr这个逻辑回归模型。
阅读全文
0 0
- 机器学习之分类学习(模型训练)
- 机器学习之分类模型实现
- opencv2机器学习经验记录之cascade分类器训练
- 【机器学习PAI实践十】深度学习Caffe框架实现图像分类的模型训练
- 机器学习之分类模型的性能度量
- 机器学习——线性模型之回归与分类
- 机器学习之分类学习
- PyTorch学习之路(level1)——训练一个图像分类模型
- 【机器学习】python实践笔记 -- 经典监督学习模型之分类学习模型
- 机器学习-训练模型的保存与恢复(sklearn)
- 机器学习-训练模型的保存与恢复(sklearn)
- 机器学习模型训练时候tricks
- 机器学习模型训练测试完整步骤
- 训练第一个机器学习模型
- 机器学习 之 贝叶斯分类(上)
- 机器学习 之 贝叶斯分类(中)
- 机器学习 之 贝叶斯分类(下)
- 机器学习 --- 分类算法模型评估
- HDU-2017 多校训练赛10-1001-Admiral
- Sersync github镜像 二进制包
- R语言画图
- Linux 常用命令之二
- 23个设计模式--(一)、单例模式
- 机器学习之分类学习(模型训练)
- lintcode 二叉树的层次遍历
- Flask零基础到项目实战(六)模型分文件
- 给div加focus和查看当前focus的元素
- hdu2481
- 处理机管理功能
- 一些富有创意的Demo
- shiro-spring 结合的配置问题
- struts2学习心得