R语言实现分层抽样(Stratified Sampling)以iris数据集为例
来源:互联网 发布:伦敦高级应召女郎 知乎 编辑:程序博客网 时间:2024/05/22 14:04
1.观察数据集
head(iris)
选取数据集中前6个数据,我们可以看出iris数据集一共有5个字段。
dim(iris)
iris数据集一共有150条数据,5个字段
summary(iris)
观察各个变量的内容,可以看出前四个变量(Sepal.Length Sepal.Width Petal.Length Petal.Width)都是定量变量,而最后一个(Species)是定性变量,我们将依据最后一个变量作为分层抽样的依据。
library(sampling)
载入分层抽样的包sampling
n=round(3/5*nrow(iris)/3)
计算每一个种类的抽样数目。这里我们按照每种“Species”抽取3/5个样本进行抽样。
sub_train=strata(iris,stratanames=("Species"),size=rep(n,3),method="srswor")head(sub_train)
stratanames参数是抽样依据的变量,size参数是每个种类抽样的数目,这里我们用上一步计算出来的n作为抽样数目,method是抽样方法,我们选择srswor。
data_train=iris[sub_train$ID_unit,]data_test=iris[-sub_train$ID_unit,]
将抽样结果分别定义为训练集(data_train)和测试集(data_test)。
dim(data_train); dim(data_test)
观察训练集和测试集的字段和数据数目。符合我们的抽样预期。
head(data_train);head(data_test)
观察训练集和测试集的前几条数据。
data_train;data_test
查看总的抽样结果,这里数据量太大不再给出。
write.csv(data_train,"C:/Users/cnrozh/Desktop/iris_data_train.csv")write.csv(data_test,"C:/Users/cnrozh/Desktop/iris_data_test.csv")
保存数据集
0 0
- R语言实现分层抽样(Stratified Sampling)以iris数据集为例
- 分层抽样(Stratified sampling)
- R语言实现K-Means算法数据集iris
- Java实现LSTM和GRU做分类(以IRIS数据集为例)
- QlikView+R(以iris数据作为案例)(一)
- R语言iris
- python基础知识——数组拼接(以iris数据为例……)
- sklern使用之通用模版(以iris为数据集,knn,PCA)
- 分层采样(stratified sampling)
- 网络数据抓取及其R实现(以链家楼盘为例)
- 用数据可视化直观理解数据--iris数据集为例
- 用数据可视化直观理解数据--iris数据集为例
- [置顶]R语言 分层抽样---分层随机抽样(SRS)(二 )
- R语言 分层抽样 strata (三),每层抽取80%
- 分层抽样Selecting a Stratified Sample with PROC SURVEYSELECT
- Iris的R语言命令工具箱(1)
- Iris的R语言命令工具箱(1)
- python iris 数据集
- 网易有道2017内推编程题
- CentOS7系统上配置NTP时钟服务器
- JAVA 图形化界面的格式
- linux 每天自动备份mysql
- Apache Kylin Cube优化
- R语言实现分层抽样(Stratified Sampling)以iris数据集为例
- 推荐!手把手教你使用Git
- 数据结构实验之串一:KMP简单应用
- oracle什么时候需要commit
- django python报错:SNIMissingWarning,InsecurePlatformWarning
- 3.最基础的vi编辑命令笔记:vi(alias vi='vim')命令
- linux命令(1)
- jobdu1431
- SQL基础