大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化
来源:互联网 发布:淘宝店铺订单编号意义 编辑:程序博客网 时间:2024/05/01 14:58
大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、
OrderBy和SortBy、UnionAll等实战和优化
select gender,sum(salary) from employeesforhaving group by gender;
select gender,avg(salary) from employeesforhaving group by gender;
set hive.map.aggr=true; //需要更高的内存,在map端聚合,一般至少64G
select gender,avg(salary) from employeesforhaving group by gender;
select * from employeesforhaving sort by salary;
select * from employeesforhaving sort by salary desc;
//order by和sort by 的区别:全局排序orderby;局部排序 sort by
select * from employeesforhaving order by salary;
set hive.mapred.mode =strict;
select * from employeesforhaving order by salary; // 全局排序,内存溢出。执行排序过程会
讲所有的结果分发到同一个reducer中
select * from employeesforhaving order by salary limit 3; //ok 只需要增加limit语句就可
以解决这个问题
select count(1) from employeesforhaving
union all
select count(1) from employ; //报错
Hive不支持顶层的Union操作
OrderBy和SortBy、UnionAll等实战和优化
select gender,sum(salary) from employeesforhaving group by gender;
select gender,avg(salary) from employeesforhaving group by gender;
set hive.map.aggr=true; //需要更高的内存,在map端聚合,一般至少64G
select gender,avg(salary) from employeesforhaving group by gender;
select * from employeesforhaving sort by salary;
select * from employeesforhaving sort by salary desc;
//order by和sort by 的区别:全局排序orderby;局部排序 sort by
select * from employeesforhaving order by salary;
set hive.mapred.mode =strict;
select * from employeesforhaving order by salary; // 全局排序,内存溢出。执行排序过程会
讲所有的结果分发到同一个reducer中
select * from employeesforhaving order by salary limit 3; //ok 只需要增加limit语句就可
以解决这个问题
select count(1) from employeesforhaving
union all
select count(1) from employ; //报错
Hive不支持顶层的Union操作
select * from (select count(1) as r1 from employeesforhaving union all select count(1) as r2 from employee where phour='2055') tmp;
SELECT /*+MAP JOIN (a) */ 。。。。。。
今天作业:基于电影评价系统的数据(后面很多案例都直接基于电影评价系统数据),写出正常的Reduce的Join,Map端的Join和Left Semi Join实现
0 0
- 大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化
- 大数据Spark “蘑菇云”行动第90课:Hive中Join电影店铺系统案例和性能优化、Index和Bucket案例实战
- 大数据Spark “蘑菇云”行动第95课:Hive安全解析和实战等
- 大数据Spark “蘑菇云”行动第106课:Hive源码大师之路第四步:Hive中GroupBy和各种类型Join源码剖析
- 大数据Spark “蘑菇云”行动第91课:Hive中Index和Bucket案例实战及存储类型rcfile实战详解
- 大数据Spark “蘑菇云”行动第100课:Hive性能调优之企业级Join、MapJoin、GroupBy、Count、数据倾斜彻底解密和最佳实践
- 大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课
- 大数据Spark “蘑菇云”行动第101课:Hive性能调优之企业级数据倾斜解决方案及对Job数目的优化
- 大数据Spark “蘑菇云”行动第88课:Hive脚本、常用命令、having查询及变种实战
- 大数据Spark“蘑菇云”行动-第10课:Scala继承彻底实战和Spark源码鉴赏
- 大数据Spark“蘑菇云”行动-第13课Scala模式匹配实战和Spark源码鉴赏
- 大数据Spark“蘑菇云”项目实战第63课: 广告点击系统高可用性和性能优化 checkpoint wal driver高可用 并行度配置
- 大数据Spark “蘑菇云”行动第107课:Hive源码大师之路第五步:Hive中一切Operator皆是函数的内幕及Hive中Optimizer优化
- 大数据Spark “蘑菇云”行动第98课:Hive性能调优压缩和分布式缓存
- 大数据Spark “蘑菇云”行动第97课:Hive性能调优的本质和源泉彻底解密
- 大数据Spark “蘑菇云”行动第92课:HIVE中的array、map、struct及自定义数据类型案例实战
- 大数据Spark “蘑菇云”行动第86课:Hive分区表剖析与代码实战
- 大数据Spark “蘑菇云”行动第93课:Hive中的内置函数、UDF、UDAF实战
- 【NOIP2016提高A组集训第14场11.12】随机游走
- java之集合类详解
- 泛型
- Failure to transfer org.apache.maven.plugins:maven-surefire-plugin:pom:2.7.1
- java中的AIO
- 大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化
- mybatis配置文件常用的标签
- 关于file_get_contents("php://input")
- [编程题] 暗黑的字符串
- Spark Streaming +Kafka 使用底层API直接读取Kafka的Partition数据,手动更新Offset到Zookeeper集群
- java连接池,详细备注
- Ubuntu14.04下opencv调用摄像头的程序
- MacOS10.10 安装Hue3.9填坑记
- Linux网络服务和网络配置文件以及IP地址相关的解释