hive中数据排序
来源:互联网 发布:什么叫编程 编辑:程序博客网 时间:2024/05/29 03:40
(1)order by
对全局数据的排序,只有一个reduce
select * from emp order by id desc;
(2)sort by
对每个reduce内部数据进行排序,对于全局数据结果来说不是排序的。
//设置reduce的个数set mapreduce.job.reduces=3;select * from emp sort by id desc;
(3)distribute by
指定分区,这里的分区指的时mapreduce过程中的分区,通常结合sort by进行使用。
insert overwrite local directory '/path' select * from emp distribute by depmo sort by empno asc;
这里的分区会将相同的depno记录放在一个分区中。
注意:distribute by必须在sort by之前。
(4)cluster by
属于distribute by和sort by的组合,也就是当distribute by和sort by字段相同时候使用这个进行代替。
阅读全文
0 0
- hive中数据排序
- 往hive中导入数据
- Hive中处理json数据
- 从hive中获取数据
- Hive在查询中使用排序
- Hive数据仓库-Sqoop将数据从Mysql导入Hive中
- Hive学习笔记 --- Hive中创建分区表,并且查询数据
- 用sqoop导入数据到hive中
- sqoop同步mysql数据到hive中
- sqoop从hive中导出oracle数据
- hive一行数据中一列拆分成多行
- Hive中数据的加载和导出
- hive一行数据中一列拆分成多行
- hive 数据倾斜实际问题中总结
- sqoop mysql数据导入Hive中
- hive一行数据中一列拆分成多行
- 在Hive中如何实现数据分区
- 大数据时代hadoop中hive介绍
- Python操作MySQL数据库
- demon15
- 2017年度总结-2018总体规划
- 哈希学习代码
- 结构、枚举、数组
- hive中数据排序
- Tensorflow实例:实现深度强化学习--策略网络
- Python基础-@property
- 关系型数据库与NoSQL的对比
- pico i.MX7 Dual (I.MX7D)刷入AndroidThings
- MySQL installer 安装mysql5.7.20 和Connector/ODBC
- 图论基础知识总结(二)
- 伪知识之了解数据库中varchar(max) 和varchar(8000)的区别持续更新:【内向即失败--王奕君】
- Python错误AttributeError: 'module' object has no attribute 'copy'