hive 如何去掉重复数据,显示第一条
来源:互联网 发布:linux下解压zip包 编辑:程序博客网 时间:2024/06/02 02:24
name adx tran_id cost ts
ck 5 125.168.10.0 33.00 1407234660
ck 5 187.18.99.00 33.32 1407234661
ck 5 125.168.10.0 33.24 1407234661
我只要这两行,第三行的tran_id和第一行的重复了,所以我 要不最后面一行去重去掉
答案1:
复制代码
评论:
如果使用distinct的话,我要把tran_id放在第一列,很丑查出来的数据
答案2:
复制代码
分析:
row_number() over (partition by tran_idorder by timestamp desc) num 取num=1 的
这个是取 group by 按timestamp 排序的第一条数据
按每个 guid group 然后 按timestamp 排序 然后 加行标
然后去 行标为 1 的
附上:
ROW_NUMBER() OVER函数的基本用法
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)
简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。
示例:
xlh row_num
1700 1
1500 2
1085 3
710 4
row_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组,在分组内部根据 COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(组内连续的唯一的)
实例:
初始化数据
create table employee (empid int ,deptid int ,salary decimal(10,2))
insert into employee values(1,10,5500.00)
insert into employee values(2,10,4500.00)
insert into employee values(3,20,1900.00)
insert into employee values(4,20,4800.00)
insert into employee values(5,40,6500.00)
insert into employee values(6,40,14500.00)
insert into employee values(7,40,44500.00)
insert into employee values(8,50,6500.00)
insert into employee values(9,50,7500.00)
数据显示为
empid deptid salary
----------- ----------- ---------------------------------------
1 10 5500.00
2 10 4500.00
3 20 1900.00
4 20 4800.00
5 40 6500.00
6 40 14500.00
7 40 44500.00
8 50 6500.00
9 50 7500.00
需求:根据部门分组,显示每个部门的工资等级
预期结果:
empid deptid salary rank
----------- ----------- --------------------------------------- --------------------
1 10 5500.00 1
2 10 4500.00 2
4 20 4800.00 1
3 20 1900.00 2
7 40 44500.00 1
6 40 14500.00 2
5 40 6500.00 3
9 50 7500.00 1
8 50 6500.00 2
SQL脚本:
SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee
ck 5 125.168.10.0 33.00 1407234660
ck 5 187.18.99.00 33.32 1407234661
ck 5 125.168.10.0 33.24 1407234661
我只要这两行,第三行的tran_id和第一行的重复了,所以我 要不最后面一行去重去掉
答案1:
- select
- t1.tran_id
- ,t2.
- ,t2.
- from
- (select distinct tran_id from table) t1
- join
- table t2
- on t1.tran_id=t2.tran_id
评论:
如果使用distinct的话,我要把tran_id放在第一列,很丑查出来的数据
答案2:
- select * from (select *,row_number() over (partition by tran_idorder by timestamp asc) num from table) t where t.num=1;
分析:
row_number() over (partition by tran_idorder by timestamp desc) num 取num=1 的
这个是取 group by 按timestamp 排序的第一条数据
按每个 guid group 然后 按timestamp 排序 然后 加行标
然后去 行标为 1 的
附上:
ROW_NUMBER() OVER函数的基本用法
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)
简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。
示例:
xlh row_num
1700 1
1500 2
1085 3
710 4
row_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组,在分组内部根据 COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(组内连续的唯一的)
实例:
初始化数据
create table employee (empid int ,deptid int ,salary decimal(10,2))
insert into employee values(1,10,5500.00)
insert into employee values(2,10,4500.00)
insert into employee values(3,20,1900.00)
insert into employee values(4,20,4800.00)
insert into employee values(5,40,6500.00)
insert into employee values(6,40,14500.00)
insert into employee values(7,40,44500.00)
insert into employee values(8,50,6500.00)
insert into employee values(9,50,7500.00)
数据显示为
empid deptid salary
----------- ----------- ---------------------------------------
1 10 5500.00
2 10 4500.00
3 20 1900.00
4 20 4800.00
5 40 6500.00
6 40 14500.00
7 40 44500.00
8 50 6500.00
9 50 7500.00
需求:根据部门分组,显示每个部门的工资等级
预期结果:
empid deptid salary rank
----------- ----------- --------------------------------------- --------------------
1 10 5500.00 1
2 10 4500.00 2
4 20 4800.00 1
3 20 1900.00 2
7 40 44500.00 1
6 40 14500.00 2
5 40 6500.00 3
9 50 7500.00 1
8 50 6500.00 2
SQL脚本:
SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee
0 0
- hive 如何去掉重复数据,显示第一条
- 去除重复数据,选择第一条数据
- ListView显示第一条数据
- 多条数据只显示第一条。。
- 如何去掉list中的重复数据
- jquery datatables如何去掉搜索框和每页显示多少条数据
- ExtJS用Grid显示数据后如何自动选取第一条记录
- oracle去除重复, 取最新的第一条数据
- sql server-获取重复数据的第一条
- oracle去除重复, 取最新的第一条数据
- sql 取重复数据的第一条记录
- java 去掉重复数据
- List去掉重复数据
- Oracle去掉重复数据
- list去掉重复数据
- oracle去掉重复数据
- 如何去掉一个文件中重复的数据行
- python pandas 如何去掉/保留数据集中的重复行?
- SIFT原理与源码分析:DoG尺度空间构造
- Vue.js——60分钟快速入门
- 总结
- RabbitMQ-理解消息通信-交换器和绑定
- jQuery总结2(DOM操作和遍历)
- hive 如何去掉重复数据,显示第一条
- Flash同步学习笔记~
- java实现不用加减乘除做2个数的加法
- jQuery 选择器大全 图表 [转自w3c,个人收藏]
- 为mysqlmtop开启慢查询功能以及工具组件功能
- C++学习第10篇-运算符重载
- 决策树算法
- 切换语言时,默认的输入法请为对应输入法
- RabbitMQ-理解消息通信-虚拟主机和隔离