R的一些基本操作

来源:互联网 发布:vnpy 知乎 编辑:程序博客网 时间:2024/05/22 10:31
uaa<-read.csv("C:\\Users\\Administrator\\Desktop\\TU.csv",head = TRUE)uaa1<-uaa[-c(5)]#删除第5列summary(uaa1)#描述数据集write.table( uaa, file = "C:\\Users\\Administrator\\Desktop\\TU1.csv",sep = ",", col.names = NA)#将数据输出到本地summary(uaa1$HOST)#查看该列的数据描述uaa2<-uaa[-c(2,3,5,8,11,14)]#剔除不需要的列数summary(uaa2)#描述uaa2#由于STATUS的值有37119的值均为默认值1,其余为NA,所以可以删除这一列uaa3<-uaa[-c(2,3,5,7,8,11,14)]#剔除不需要的列数summary(uaa3)#描述uaa2#uaa4<-uaa3[c(1,2)]#选取数据uaa3中的两列#通过对处理的数据进行描述后,发现HOST中的数据的和ACTION惊人相似#cor(uaa3[,3:5],use="complete.obs")#处理相似性必须为数值 #uaa4<-uaa3[-manyNAs(uaa3$CET_TYPE)]#apply(uaa3,2,function(x) sum(is.na(x)))#描述一张表中列(2)的缺失值,行为1#先拿掉非数字的uaa5<-uaa3[-c(3,4,5)]#去掉uaa3中的3,4,5列,(这三列比较重要)summary(uaa5)#描述了筛选后的数据,其中code缺失值6个 , CET_TYPE缺失34115hist(uaa5$CODE)plot(uaa5$CODE)table(uaa5$CODE)#查看CODE的各个频率数table(uaa5$CET_TYPE)#查看CET_TYPE的各个频率数uaa5[is.na(uaa5$CODE),"CODE"]<-median(uaa5$CODE,na.rm=T)#由于CODE缺失值比较少,我们选择填补中位数。summary(uaa5)nrow(uaa5[!complete.cases(uaa5),])#缺失的行数uaa6<-na.omit(uaa5)#由于缺失值较多,故剔除缺失的行table(uaa5$CARD_POINT)#查看CARD_POINT的频率symnum(cor(uaa6))#查看相关性不明显cor(uaa6)#查看变量间的关系plot(main="笔头网测试人数图",table(uaa5$CET_TYPE),xlab ="考试类别",ylab ="考试人数")#画出频率散点图axis(  side=1,#表示在底部建立轴(x轴)  at=1:6,#我要标志6个tickmarks  tck=0,#tickmarks的长度0.2,方向向外  labels=c("四级"," 六级","四级模拟","六级模拟","考研1","考研2")#6个tickmarks分别对应的标识(labels)就是这六个字符)table(uaa2$HOST)
0 0
原创粉丝点击