hive 三种去重方式
来源:互联网 发布:转盘抽奖活动php源码 编辑:程序博客网 时间:2024/06/05 15:09
在hive数据清洗这里总结三种常用的去重方式
1.distinct
2.group by
3.row_number()
实例:
SELECT tel, link_name, certificate_no, certificate_type, modify_time
FROM order_info
WHERE deleted = 'F'
AND pay_status = 'payed'
AND create_time >= to_date('2017-04-23', 'yyyy-MM-dd')
AND create_time < to_date('2017-04-24', 'yyyy-MM-dd')
AND row_number() over(PARTITION BY tel ORDER BY tel DESC) = 1
上面SQL对某一字段(tel)排序后分区去重,这样避免了其对不相干字段的数据干扰,影响数据处理的效率
推荐方法三
1 0
- hive 三种去重方式
- hive的优化方式
- hive的启动方式
- Hive 服务方式启动
- Hive部署UDF方式
- Hive数据导入方式
- hive使用方式
- hive中的存储方式
- 另类方式来实现HIVE
- Hive的JDBC方式编程
- hive脚本+shell执行方式
- java访问hive的方式
- hive三种访问方式
- 打开hive两种方式
- JDBC方式远程操作hive
- (2) Hive 数据导入方式
- hive-导出数据的方式
- hive-导入数据的方式
- The specified child already has a parent. You must call removeView() on the child's parent first.错误
- 【DP】洛谷 P1006 传纸条
- (二)caffe 网络训练执行流程
- JAVA设计模式之工厂模式(简单工厂模式+工厂方法模式)
- exit函数和return返回之间的区别
- hive 三种去重方式
- bash shell(2)
- Struts1和Struts2的区别和对比(完整版)
- 5个数求最值
- RobotFramwork
- 【个人笔记重点,不作为参考】主题:跨域通信
- java抽象类和接口的理解
- angularjs--图形验证码
- 过滤器