R数据结构小结、读取文件

来源：互联网发布：淘宝优衣库便宜编辑：程序博客网时间：2024/05/18 13:23

转载：http://blog.sina.com.cn/angeliahe

R笔记

一、R的数据结构

数值型：整形、单精度实型、双精度实型

字符型

复数型

逻辑型

缺失的数据默认是NA

Inf表示+∞ -Inf表示-∞

Nan表示不是数字的值

可以通过函数mode（）知道对象的类型

可以通过函数length（）知道对象的长度

数据对象及类型

对象类型是否允许同一个对象中有多种类型？向量数值型、字符型、复数型、逻辑型否因子数值型、字符型否数组数值型、字符型、复数型、逻辑型否矩阵数值型、字符型、复数型、逻辑型否数据框数值型、字符型、复数型、逻辑型是时间序列数值型、字符型、复数型、逻辑型否列表数值型、字符型、复数型、逻辑型、函数、表达式是

二、对象的查询与删除

ls（）显示所有在内存中的对象。只列出对象名

ls（pat=”M”）显示出对象名中带有M的所有对象

ls（pat=”^M”）显示以M开头的所有的对象

ls.srt（）显示内存中所有对象的详细信息

rm（x）表示删除对象x

rm（x，y）表示删除对象x和y

rm（list=ls（））会删除内存中的所有的对象

三、向量的建立

数值型向量的建立

seq()或: #若向量具有较为简单的规律

rep() #若向量具有较为复杂的规律

c() #若向量没有规律

scan() #键盘输入

字符型向量的建立

字符向量可以通过函数c()连接。

函数paste()可以接受任意个参数，并从他们中顺序取出字符并连成字符串，形成的字符串的个数与参数中最长字符串的长度相同。

> test<-c("green","blue","red")
> test
[1] "green" "blue" "red"
> test<-paste(c("green","red"),1:10,sep="")
> test
[1] "green1" "red2" "green3" "red4" "green5" "red6" "green7" "red8" "green9"
[10] "red10"

逻辑型向量的建立

一个逻辑型向量的值可以是true false或 NA

> test<-c(10,5.6,3.1,6.4,21)
> temp<-test>12
> temp
[1] FALSE FALSE FALSE FALSE TRUE

因子型向量的建立

因子利用函数factor()创建。

factor()的调用格式如下

factor(x,level = sort(unique(x),na.list = TRUE), labels = levels, exclude = NA, ordered = is.ordered(x))

levels用来指定因子的水平（缺省值是向量中不同的值）

labels用来指定水平的名字

exclude表示从向量x中剔除的水平值

ordered是一个逻辑型选项，用来指定因子的水平是否有次序

常用统计函数

统计函数作用max(x)返回向量x中最大的元素min(x)返回向量x中最小的元素which.max(x)返回向量x中最大元素的下标which.min(x)返回向量x中最小元素的下标mean(x)计算样本x的均值media(x)计算样本x的中位数mad(x)计算中位绝对离差var(x)计算样本x的方差sd(x)计算向量x的标准差range(x)返回长度为2的向量c(min(x),max(x))IQR(x)计算样本的四分位数极差quantile(x)计算样本常用的分位数summary(x)计算常用的描述性统计量（最小、最大、平均值、中位数、四分位数）length(x)返回向量x的长度sum(x)给出向量x的总和prod(x)给出向量x的乘积rev(x)取向量x的逆序sort(x)将向量x按升序排序order(x)返回x的秩（升序）rank(x)返回x的秩cumsum(x)返回向量x和累积和cumprod(x)返回向量x和累积积cummin(x)返回向量x和累积最小值cummax(x)返回向量x和累积最大值var(x,y)计算样本x与y的协方差cov(x,y)计算样本x与y的协方差阵cor(x,y)计算样本x与y的相关系数outer(x,y)计算样本x与y的外积

四、数组的建立

数组由函数array()建立，其格式为array(data,dim,dimnames)

其中data为一向量，其元素用于构建数组

dim为数组的维数向量

dimnames为由各维的名称构建的向量，缺省为空

> A<-array(1:8,dim=c(2,2,2))
> A
, , 1

     [,1] [,2]
[1,]    1    3
[2,]    2    4

, , 2

     [,1] [,2]
[1,]    5    7
[2,]    6    8

五、矩阵的建立

因为矩阵是特殊的数组，所以矩阵可以用array()来建立

由于矩阵在数学中的特殊性，在R中最为常用的命令matrix()建立矩阵

对角阵用函数diag()建立

> X<-matrix(1,nr=2,nc=2)
> X
     [,1] [,2]
[1,]    1    1
[2,]    1    1

> X<-diag(3)
> X
     [,1] [,2] [,3]
[1,]    1    0    0
[2,]    0    1    0
[3,]    0    0    1
注意：

1.循环准则仍适用于matrix() 但要求数据项的个数等于矩阵的列数的倍数，否则会出现警告

2.矩阵的维数使用c()会得到不同的结果，因此要小心

3.数据项填充矩阵的方向可通过参数byrow来定，其缺省是按照列填充的（byrow=FALSE）.byrow=TRUE表示按行填充数据。

矩阵运算

1）矩阵的代数运算

转置函数t()

> X<-matrix(1:6,nr=2,nc=3)
> X
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
> t(X)
     [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
提取对角元diag()

> test<-matrix(1:4,2,2)
> diag(test)
[1] 1 4

几个矩阵按行合并rbind()与按列合并cbind()

> m1<-matrix(1,2,2)
> m2<-matrix(2,2,2)
> rbind(m1,m2)
     [,1] [,2]
[1,]    1    1
[2,]    1    1
[3,]    2    2
[4,]    2    2
> cbind(m1,m2)
     [,1] [,2] [,3] [,4]
[1,]    1    1    2    2
[2,]    1    1    2    2

矩阵的逐元乘积*

> m2*m2
     [,1] [,2]
[1,]    4    4
[2,]    4    4

矩阵的代数乘积%*%

> rbind(m1,m2)%*�ind(m1,m2)
     [,1] [,2] [,3] [,4]
[1,]    2    2    4    4
[2,]    2    2    4    4
[3,]    4    4    8    8
[4,]    4    4    8    8

> cbind(m1,m2)%*%rbind(m1,m2)
     [,1] [,2]
[1,]   10   10
[2,]   10   10

方阵的行列式det()

> test<-matrix(1:4,2,2)
> test
     [,1] [,2]
[1,]    1    3
[2,]    2    4
> det(test)
[1] -2

2）矩阵统计运算

R中矩阵是按列计算的

求均值

> m<-matrix(rnorm(n=12),nrow=3)
> m
            [,1]       [,2]       [,3]       [,4]
[1,]  0.49551735 -0.2364103 -0.8966732 0.21635182
[2,]  0.00877197 -0.4994352  0.6052925 0.84179050
[3,] -0.89910104 -1.9727371 -0.1280089 0.09809113
> apply(m,MARGIN=1,FUN=mean)
[1] -0.1053036  0.2391049 -0.7254390
> apply(m,MARGIN=2,FUN=mean) #求各列的均值
[1] -0.1316039 -0.9028609 -0.1397965  0.3854111

标准化

> scale（m,center=T,scale=T）

六、数据框的建立

统计分析中一个完整的数据集通常是由若干个变量的若干个观测值组成的，在R中称为数据框。

数据框是一个对象，是二维的。

数据框的直接建立

在R中建立一些向量并试图由他们生成数据框，则可以使用函数data.frame()

> x=c(42,7,64,9)
> y=1:4
> z.df=data.frame(INDEX=y,VALUE=x)
> z.df
  INDEX VALUE
1     1    42
2     2     7
3     3    64
4     4     9

数据框的简单建立

可以通过读取数据文件（文本文件、excel文件、其他数据文件）建立

使用read.table()

使用于数据框的函数

矩阵的统计计算函数max(),min(),media(),var(),sd(),sum(),cumsum(),cumprod(),cummax(),cummin(),cov(),cor()同样使用于数据框，意义也相同

这里通过R内嵌的另一个数据集puromycin来说明summary(),pairs(),xtable()等的使用

> attach(Puromycin)#挂接数据集并使之激活
> help(Puromycin)#显示前几行
starting httpd help server ... done
> summary(Puromycin)#显示主要的描述性统计量
      conc             rate             state
Min.   :0.0200   Min.   : 47.0   treated  :12
1st Qu.:0.0600   1st Qu.: 91.5   untreated:11
Median :0.1100   Median :124.0
Mean   :0.3122   Mean   :126.8
3rd Qu.:0.5600   3rd Qu.:158.5
Max.   :1.1000   Max.   :207.0
> pairs(Puromycin,panel=panel.smooth)

puromycin

七、列表的建立

列表中可以包含不同类型的对象

用list()创建

> L<-list(1:6,matrix(1:4,2,2))
> L
[[1]]
[1] 1 2 3 4 5 6

[[2]]
     [,1] [,2]
[1,]    1    3
[2,]    2    4

------------------------------------------------

> L<-list(x=1:6,y=matrix(1:4,2,2))
> L
$x
[1] 1 2 3 4 5 6

$y
     [,1] [,2]
[1,]    1    3
[2,]    2    4

> L$x
[1] 1 2 3 4 5 6

> L[1]
$x
[1] 1 2 3 4 5 6

> L[[1]]
[1] 1 2 3 4 5 6
>

八、时间序列的建立

由函数ts()通过一向量或者矩阵创建一个一元的或多元的时间序列，他称为ts型对象，其调用格式为

ts(data=NA, start=1, end=numeric(0), frequency=1, deltat=1, ts.eps=getOption(“ts.eps”), class, names)

data 一个向量或者矩阵

start 第一个观察值的时间，为一个数字或者是一个由两个整数构成的向量

end 最后一个观察值的时间，指定方法和start相同

frequency 单位时间内观察值的频数

deltat 两个观察值间的时间间隔

ts.eps 序列之间的误差限

class 对象的类型

names 一个字符型向量，给出多元序列中每一个元序列的名称，缺省为data中每列数据的名称或者series1，series2，……

> ts(1:10,start=1912)
Time Series:
Start = 1912
End = 1921
Frequency = 1
[1]  1  2  3  4  5  6  7  8  9 10
> ts(1:47,frequency=12,start=c(1921,10))
     Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1921                                       1   2   3
1922   4   5   6   7   8   9  10  11  12  13  14  15
1923  16  17  18  19  20  21  22  23  24  25  26  27
1924  28  29  30  31  32  33  34  35  36  37  38  39
1925  40  41  42  43  44  45  46  47
>

九、数据的存储与读取

数据的存储

1.保存为文本文件

使用函数write.table()或save()

> write.table(d,file="c:/data/foo.txt",row.names=F,quote=F)

其中row.names=F表示行名不写入文件

quote=F表示变量名不放在双引号中

2.保存R格式文件

> save(d,file="c:/data/foo.Rdata")

数据的读取

1.文本文件数据的读取

read.table()

scan()

read.fwf()

2.excel数据的读取

利用剪贴板

read.delim(“clipboard”)

使用程序包RODBC

library(RODBC)

z<-odbcConnectExcel(“c:/data/body.xls”)

foo<-sqlFetch(z,“Sheet1”)

close(z)

3.R中数据集的读取

1)R中标准数据datasets

>data()

2)专用程序包中的数据集

要读取其他已经安装的专用程序包中的数据，可以用package参数

>data(package=”pkname”) #pkname为已安装的程序包的名字

>data(dataname,packname=”pkname”) #载入程序包pkname中名为dataname的数据集

4.R格式的数据

可以通过程序包foreign读取其他统计软件的数据文件，访问数据库

0 0