hive 三种去重方式

来源:互联网 发布:转盘抽奖活动php源码 编辑:程序博客网 时间:2024/06/05 15:09

在hive数据清洗这里总结三种常用的去重方式

1.distinct

2.group by

3.row_number()

实例:

SELECT tel, link_name, certificate_no, certificate_type, modify_time
  FROM order_info
 WHERE deleted = 'F'
   AND pay_status = 'payed'
   AND create_time >= to_date('2017-04-23', 'yyyy-MM-dd')
   AND create_time < to_date('2017-04-24', 'yyyy-MM-dd')
   AND row_number() over(PARTITION BY tel ORDER BY tel DESC) = 1

上面SQL对某一字段(tel)排序后分区去重,这样避免了其对不相干字段的数据干扰,影响数据处理的效率

推荐方法三

1 0
原创粉丝点击