3.数据抽样以及R实现
来源:互联网 发布:淘宝固定背景尺寸 编辑:程序博客网 时间:2024/05/16 12:56
先说一下简单的数据处理,处理之前先给出R的IDE下载网址:
http://mirrors.xmu.edu.cn/CRAN/
有时候下的版本过于简单,会有很多数据包都没有,这个时候直接 程序包--->安装程序包--->选择站点--->选择包名,然后就可以自动下载了。
然后加载数据使用如下命令:
> library(package_name) #加载含有数据集的软件包
> data(dataset_name)#获取数据集
dataset_name$var1表示的是数据集中的一个变量。
class()函数主要是识别其类别,levels()函数是看其水平级别,可以修改,如levels(dataset_name$var1)[1] = ......
类型的判断用is.numeric(),is.interger(),is.logical(),强制类型转换是把is改成as。
抽样方式:
1.简单随机抽样。
函数sample(x, size, replace = FALSE, prob = NULL),其在base包下,无需加载。
Note:x为待抽样的对象也可以为一整数,size等于抽样的大小,replace代表是否可放回抽样,默认是无放回,prob是设置各抽取样本的抽样概率,默认情况下是等概率,注意replace等于F时,要保证prob为正的个数要大于size。
rep(value,num) #value代表值的大小,num代表赋值的个数
2.分层抽样。(数据集中其它变量取值有明显差异时,分层抽样可以保持样本与数据集分布的一致性)
函数strata(data, stratanames = NULL, size, method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)
Note:data为待抽样的数据集;stratanames为分层所依据的变量名称;size设置各层抽取的样本数;method参数用于选择其中的四种方法,srswor为无放回,srswr为有放回,poisson为泊松抽样,systematic为系统抽样,,默认的是无放回抽样;pik用于设置各层中的个样本的抽样概率;description用于选择是否输出含有各层基本信息的结果。
例子:strara(Insurance, stratanames = "District", size = c(1,2,3,4), description = T)
3.整群抽样。(要求各群对数据总体有较好的代表性,即群内各样本的差异要大,群间要小)
函数cluster(data, clustername, size,method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)
clustername表示划分群的变量名称,size代表要抽取的群数。
- 3.数据抽样以及R实现
- R语言--数据抽样的实现
- 数据挖掘:R语言实战(抽样)
- R语言实现数据抽样&创建训练集和测试集
- R语言实现数据抽样&创建训练集和测试集
- R-抽样
- 利用ORACLE实现数据抽样
- 分布式书库抽样算法实现以及原理
- R中的数据抽样SMOTE (谢佳标老师讲课笔记)
- 利用ORACLE实现数据抽样(sample block)
- 数据抽样
- 数据抽样
- R语言:PPS抽样
- R随机抽样
- R语言随机抽样
- 数据的标准化与中心化以及R实现
- 应用统计学与R语言实现学习笔记(四)——抽样方法与抽样分布
- R 语言与抽样分布
- 2072.单词数
- leetcode_113_Path Sum II
- 创建mesh
- 禁止浏览器复制和禁止查看源代码
- bzoj 2243 [SDOI2011]染色 树剖+线段树
- 3.数据抽样以及R实现
- C语言
- UISearchBar自定义取消按钮
- VMware_install_cleaner,彻底卸载虚拟机
- p51 第二章 第四题 潘璠
- UVA 10347 - Medians(计算几何)
- 《Cocos2d-x实战 工具卷》上线了
- nginx+php之任意类型(.py)解释为php配置方式
- VK Cup 2015 - Qualification Round 1 A. Reposts(map最大连续长度)