3.数据抽样以及R实现

来源：互联网发布：淘宝固定背景尺寸编辑：程序博客网时间：2024/05/16 12:56

先说一下简单的数据处理，处理之前先给出R的IDE下载网址：

http://mirrors.xmu.edu.cn/CRAN/

有时候下的版本过于简单，会有很多数据包都没有，这个时候直接程序包--->安装程序包--->选择站点--->选择包名，然后就可以自动下载了。

然后加载数据使用如下命令：

> library(package_name) #加载含有数据集的软件包

> data(dataset_name)#获取数据集

dataset_name$var1表示的是数据集中的一个变量。

class()函数主要是识别其类别，levels()函数是看其水平级别，可以修改，如levels(dataset_name$var1)[1] = ......

类型的判断用is.numeric()，is.interger()，is.logical()，强制类型转换是把is改成as。

抽样方式：

1.简单随机抽样。

函数sample(x, size, replace = FALSE, prob = NULL)，其在base包下，无需加载。

Note：x为待抽样的对象也可以为一整数，size等于抽样的大小，replace代表是否可放回抽样，默认是无放回，prob是设置各抽取样本的抽样概率，默认情况下是等概率，注意replace等于F时，要保证prob为正的个数要大于size。

rep(value,num) #value代表值的大小，num代表赋值的个数

2.分层抽样。（数据集中其它变量取值有明显差异时，分层抽样可以保持样本与数据集分布的一致性）

函数strata(data, stratanames = NULL, size, method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)

Note:data为待抽样的数据集；stratanames为分层所依据的变量名称；size设置各层抽取的样本数；method参数用于选择其中的四种方法，srswor为无放回，srswr为有放回，poisson为泊松抽样，systematic为系统抽样，，默认的是无放回抽样；pik用于设置各层中的个样本的抽样概率；description用于选择是否输出含有各层基本信息的结果。

例子：strara(Insurance, stratanames = "District", size = c(1,2,3,4), description = T)

3.整群抽样。（要求各群对数据总体有较好的代表性，即群内各样本的差异要大，群间要小）

函数cluster(data, clustername, size,method = c("srswor", "srswr", "poisson", "systematic"), pik, description = FALSE)

clustername表示划分群的变量名称，size代表要抽取的群数。

0 0