程序博客网 > 广场舞网络一线牵

Hive去重复数据

来源：互联网发布：广场舞网络一线牵编辑：程序博客网时间：2024/05/17 00:33

这几天我一直在研究Hive，我们今天看一个新的知识，Hive去重复数据。

Hive数据去重

Sql代码

insert overwrite table store
select t.p_key,t.sort_word from
( select p_key,
sort_word ,
row_number() over(distribute by p_key sort by sort_word) as rn
from store) t
where t.rn=1;

说明：

p_key为去重所依据的key，sort_word表示多个p_key的排列顺序，这个关键字将决定哪个p_key将留下。
t 为子查询的别名，Hive需要在每个子查询后面加别名
t.rn=1表示重复的数据只保留第一个。
distribute by 关键字指定分发的key，同一个key将分发到同一个reducer
sort by 是单机范围内排序，因此配合distribute by 就可以对某一个关键字排序

0 0

广场舞网络一线牵

广场舞网络一线牵

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子四山五岳五岳三山五岳归来不看山全诗五岳之尊是哪座山五岳归来不看山的下一句五磊山风景区五峰镇五峰山五峰山公铁大桥五峰山长江大桥五峰山旅游五峰山大桥五峰山风景区五峰山森林公园五峰山住宿术剑宗师五峰山主济南五峰山五峰山森林公园旅游五峰山大桥规划走向图达州五峰山森林公园五峰茶叶五峰的茶叶莲花峰茶翠峰茶峰蜜柚子茶五峰茶五峰铺方五州五州公棚五州招标巨星帝王工蚁小五帝王五滴清茶五帝钱真品2017价格五帝钱值多少钱真品五帝钱价格五帝钱放门槛下的顺序图解一套真的五帝钱大概多少钱真品五帝钱家中挂五帝钱的危害五帝钱价格表假五帝钱有效果吗