3.数据抽样以及R实现

来源:互联网 发布:淘宝固定背景尺寸 编辑:程序博客网 时间:2024/05/16 12:56

    先说一下简单的数据处理,处理之前先给出R的IDE下载网址:

http://mirrors.xmu.edu.cn/CRAN/  

   有时候下的版本过于简单,会有很多数据包都没有,这个时候直接 程序包--->安装程序包--->选择站点--->选择包名,然后就可以自动下载了。


  然后加载数据使用如下命令:

> library(package_name)  #加载含有数据集的软件包

> data(dataset_name)#获取数据集


  dataset_name$var1表示的是数据集中的一个变量。

  class()函数主要是识别其类别,levels()函数是看其水平级别,可以修改,如levels(dataset_name$var1)[1] = ......

  类型的判断用is.numeric(),is.interger(),is.logical(),强制类型转换是把is改成as。


  抽样方式:


  1.简单随机抽样。

函数sample(x, size, replace = FALSE, prob = NULL),其在base包下,无需加载。

Note:x为待抽样的对象也可以为一整数,size等于抽样的大小,replace代表是否可放回抽样,默认是无放回,prob是设置各抽取样本的抽样概率,默认情况下是等概率,注意replace等于F时,要保证prob为正的个数要大于size。

rep(value,num) #value代表值的大小,num代表赋值的个数

  

  2.分层抽样。(数据集中其它变量取值有明显差异时,分层抽样可以保持样本与数据集分布的一致性)

函数strata(data, stratanames = NULL, size, method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)

Note:data为待抽样的数据集;stratanames为分层所依据的变量名称;size设置各层抽取的样本数;method参数用于选择其中的四种方法,srswor为无放回,srswr为有放回,poisson为泊松抽样,systematic为系统抽样,,默认的是无放回抽样;pik用于设置各层中的个样本的抽样概率;description用于选择是否输出含有各层基本信息的结果。


例子:strara(Insurance, stratanames = "District", size = c(1,2,3,4), description = T)


  3.整群抽样。(要求各群对数据总体有较好的代表性,即群内各样本的差异要大,群间要小)

函数cluster(data, clustername, size,method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)

clustername表示划分群的变量名称,size代表要抽取的群数。










0 0
原创粉丝点击