Hive去重复数据
来源:互联网 发布:广场舞网络一线牵 编辑:程序博客网 时间:2024/05/17 00:33
这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据。
Hive数据去重
Sql代码
- insert overwrite table store
- select t.p_key,t.sort_word from
- ( select p_key,
- sort_word ,
- row_number() over(distribute by p_key sort by sort_word) as rn
- from store) t
- where t.rn=1;
说明:
- p_key为去重所依据的key,sort_word表示多个p_key的排列顺序,这个关键字将决定哪个p_key将留下。
- t 为子查询的别名,Hive需要在每个子查询后面加别名
- t.rn=1表示重复的数据只保留第一个。
- distribute by 关键字指定分发的key,同一个key将分发到同一个reducer
- sort by 是单机范围内排序,因此配合distribute by 就可以对某一个关键字排序
0 0
- Hive去重复数据
- hive 去重数据
- Hive数据去重
- Hive数据去重
- SQL去重复数据
- 数据去重复
- 去重复数据
- 数据去重复
- 数据去重复
- Hive表数据去重
- sql去出重复数据
- js去数组重复数据
- Java List去重复数据
- 去重复数据(JAVA)
- Oracle 去重复的数据
- sql server 去重复数据
- Oracle 去重复的数据
- R语言去重复数据
- 创建自己的dll与lib:dll与lib文件的区别
- 悟空学Linux专栏----第19篇
- eclipse好用的快捷键
- Android 开发新技术点评
- MPI编译C++程序出现#error "SEEK_SET is #defined but must not be for the C++ binding of MPI" 的解决方法
- Hive去重复数据
- 用 union 将 单链表 模块化
- 安装dlib python接口
- 数据对齐
- Python函数式编程
- CF 340A The Wall
- 模拟新浪微博随便看看
- JSP——EL表达式
- 算法六:floyd-warshall和dijkstra