R一些语法
来源:互联网 发布:网络机顶盒电视直播软件下载 编辑:程序博客网 时间:2024/06/05 04:49
1.读文件:
读CSV文件:
U <-read.csv(("G:/JD_data/data/JData_User.csv"),header=TRUE)//不加header默认False,即就是数据框的列名为V1,V2...//header=TRUE,第一列为列名
2.随机抽样
sample(x, size, replace = FALSE, prob = NULL)//replace 是否放回抽样//prob 所抽取元素的概率//x里面抽size个数据
- 可以用于数据框的随机提取某几行数据
3.读取数据框信息
(1)数据框行数:nrow
(2)数据框列数:ncol
(3)转化为矩阵:data.matrix()
4.合并数据框
(1)横向合并
merge(x = df1, y = df2, by = "某列", all = TRUE) //innermerge(x = df1, y = df2, by = "CustomerId", all.x = TRUE)//left(以x为主)merge(x = df1, y = df2, by = "CustomerId", all.y = TRUE) //right(以y为主) merge(x = df1, y = df2, by = NULL) //outer(相当于笛卡尔积)
(2)纵向合并
rbind(df1,df2)
plyr包中可以将两个列数不同的数据框进行垂直合并(纵向合并),没有该列的用NA填充,代码:
library("plyr")df.new <- rbind.fill(df1,df2)
5.数据框去重
df1 <- df1[!duplicated(df1),]//去掉所有重复的行df1 <- df1[!duplicated(df1[,c(2,3)]),]//去掉第2和第3列重复的行
6.缺失值处理
NA:代表缺失值
NaN:代表不可能的值
Inf:代表正无穷
-Inf:代表负无穷
is.na():识别缺失值
is.nan():识别不可能值
is.infinite():无穷值
complete.cases()可用来识别矩阵或数据框中没有缺失值的行,若每行都包含完整的实例,则返回TRUE的逻辑向量,若每行有一个或多个缺失值,则返回FALSE;
df1 <- test[complete.cases(df1),]//可以去掉含有缺失值的行
7.分组求和
a=data.frame(customer=c('a','b','a','m','a','b'),consumption=1:6)a customer consumption1 a 12 b 23 a 34 m 45 a 56 b 6tapply(a$consumption,a$customer,sum)a b m9 8 4tapply(a$consumption,a$customer,length)a b m3 2 1
利用两列的关系进行分组求和
a=data.frame(customer=c('a','b','a','m','a','b'),consumption=1:6,groups=c('A','B','A','B','A','B'))aggregate(a$consumption, list(a$customer,a$groups), sum) Group.1 Group.2 x1 a A 92 b B 83 m B 4
8.最大值
(1)找最大值:max()
(2)找最大值的下标:which.max()
9.数据中心化(标准化,最小-最大规范化)
即就是将数据映射到[0,1]之间:
公式: x-min(x) / max(x)-min(x)
for(i in 1:ncol){df1[,i]=(df1[,i]-min(df1[,i]))/(max(df1[,i])-min(df1[,i]))}
0 0
- R一些语法
- R语言基本语法
- R语言基础语法
- R语言基础语法
- R 语言 语法特点
- R语言基本语法
- 【语法】robot一些语法
- #R#R的一些注意事项
- R语言—R语言常用语法
- R下一些函数
- R语言简单语法入门
- R 语言语法快速浏览
- #R#R语言-常用一些函数杂记
- 【R】R-Shinny的一些笔记
- Python 一些语法规则
- mysql中的一些语法
- 一些关于nVelocity语法
- 一些关于nVelocity语法
- 【mysql】MySQL性能优化建议整理
- 2017蓝桥杯C/C++A组省赛包子凑数(辗转相除法和完全背包)
- 链表操作:反转链表
- IDEA中Hibernate找不到Persistence窗口
- POJ 1236 Network of Schools(强连通分量)
- R一些语法
- Unix设计哲学之可移植性
- 红黑树
- JSP的8个内置对象
- 正则表达式学习笔记一
- 配置使用dwr完成收邮件提示
- Ajax中的get和post两种请求方式的异同
- HTTP Status 404
- JAVA Frame 窗体背景图片,首位相接滚动