python 划分数据集为训练集和测试集
来源:互联网 发布:查看所有node版本号 编辑:程序博客网 时间:2024/05/22 03:15
sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split
from sklearn.cross_validation import train_test_split#x为数据集的feature熟悉,y为label.x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)
得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。
自己写了一个函数:
#X:含label的数据集:分割成训练集和测试集#test_size:测试集占整个数据集的比例def trainTestSplit(X,test_size=0.3): X_num=X.shape[0] train_index=range(X_num) test_index=[] test_num=int(X_num*test_size) for i in range(test_num): randomIndex=int(np.random.uniform(0,len(train_index))) test_index.append(train_index[randomIndex]) del train_index[randomIndex] #train,test的index是抽取的数据集X的序号 train=X.ix[train_index] test=X.ix[test_index] return train,test
0 0
- python 划分数据集为训练集和测试集
- 使用Java随机划分数据集为训练集和测试集
- 训练集和测试集的划分
- Sklearn-train_test_split随机划分训练集和测试集
- Sklearn-train_test_split随机划分训练集和测试集
- r语言中怎么划分训练集和测试集
- [机器学习]划分训练集和测试集的方法
- sklearn:随机划分训练集和测试集
- sklearn.model_selection.train_test_split随机划分训练集和测试集
- sklearn.model_selection.train_test_split随机划分训练集和测试集
- Sklearn-train_test_split随机划分训练集和测试集
- Sklearn工具包---train_test_split随机划分训练集和测试集
- Sklearn-train_test_split随机划分训练集和测试集
- Sklearn-train_test_split随机划分训练集和测试集
- 转:Sklearn-train_test_split随机划分训练集和测试集
- 【cl】预处理&划分测试集、训练集
- 机器学习 数据挖掘 数据集划分 训练集 验证集 测试集
- Python分割训练集和测试集
- JSONP跨域原理
- android底层驱动学习之 module_init的内核调用顺序
- 生活语录
- 线索二叉树的建立和遍历
- 【hadoop】大规模中文网站聚类kmeans的mapreduce实现(上)
- python 划分数据集为训练集和测试集
- SystemInfo.deviceUniqueIdentifier
- Android个人学习小结2016.11
- 矩阵填数
- iOS之navigation bar 显示错乱问题
- 套接字选项:SO_REUSEADDR与SO_REUSEPORT
- pod 第三方报错 lAFNetworking
- Ubuntu16.04下Rstudio和R 安装RWeka、RWekajars、rJava包及JDK安装环境变量配置问题
- Java代码规范