hive的row_number()、rank()和dense_rank()的区别以及具体使用
来源:互联网 发布:阿里云远程登录用户名 编辑:程序博客网 时间:2024/06/05 14:15
row_number()、rank()和dense_rank()这三个是hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。
- 首先创建一个文件test:
A,1B,3C,2D,3E,4F,5G,6
- 然后创建hive表:
create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;
- load数据到表中
load data local inpath '/usr/java/test' overwrite into table test_rank;
- 执行下面的语句
select a,row_number() over(order by b) row_number,rank() over(order by b) rank,dense_rank() over(order by b) dense_rank from lijie.test_rank;
结果为:
a row_number rank dense_rankA 1 1 1C 2 2 2D 3 3 3B 4 3 3E 5 5 4F 6 6 5G 7 7 6
由此可见:
row_number:不管排名是否有相同的,都按照顺序1,2,3…..n
rank:排名相同的名次一样,同一排名有几个,后面排名就会跳过几次
dense_rank:排名相同的名次一样,且后面名次不跳跃
实际使用:
现在有一个需求: 需要加工一张表M 其中要求要A表,B表,C表的数据加工,A和B表连接字段都是唯一值,但是和C表连接的字段不唯一,如果A join B,然后再Join C 这样加工出来的表数据会不准确,这里需求是需要最新的C表中关联字段的数据。
可以按照如下方法解决(c2是C表的关联字段,通过update_time的降序取最新的那条数据):
select A.xxx, B.xxx, C.xxx, ....from A left outer join B on A.c1 = B.c1left outer join( select cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum from C cc) C on A.c2 = C.c2 and C.rownum = 1;
0 0
- row_number()、rank()和dense_rank()的区别以及具体使用
- hive的row_number()、rank()和dense_rank()的区别以及具体使用
- hive的row_number()、rank()和dense_rank()的区别以及具体使用
- rank (),dense_rank (),row_number () 常见的使用和区别
- rank,dense_rank,row_number使用和区别
- rank,dense_rank,row_number使用和区别
- rank,dense_rank,row_number使用和区别
- rank,dense_rank,row_number使用和区别
- rank,dense_rank,row_number使用和区别
- rank,dense_rank,row_number使用和区别
- rank,dense_rank,row_number使用和区别
- RANK、DENSE_RANK以及ROW_NUMBER区别
- ORCALE:Row_Number,rank(),dense_rank() 的使用
- MSSQL ROW_NUMBER()、RANK()和DENSE_RANK()的用法
- row_number、rank、dense_rank和ntile的比较
- Hive ROW_NUMBER,RANK(),DENSE_RANK()
- Hive ROW_NUMBER,RANK(),DENSE_RANK()
- Hive ROW_NUMBER,RANK(),DENSE_RANK()
- 图像RGB顺序
- Mysql本地提权及远程代码执行漏洞浅析(CVE-2016-6662)
- Java并发编程之二十二:并发新特性—障碍器CyclicBarrier(含代码)
- Java面试题
- UOJ#245. 【UER #7】天路
- hive的row_number()、rank()和dense_rank()的区别以及具体使用
- CSDN测试创建博客
- Android:布局属性--详解
- Android系统Recovery工作原理之使用update.zip升级过程分析(六)---Recovery服务流程细节
- Java并发编程之二十三:并发新特性—信号量Semaphore
- 网络流——最大权闭合子图
- JZOJ4819. 【NOIP2016提高A组模拟10.15】算循环
- 深入分析 Java I/O 的工作机制
- TensorFlow学习日记1