Hive中小表与大表关联(join)的性能分析
来源:互联网 发布:p2p网贷平台软件 编辑:程序博客网 时间:2024/06/06 14:28
http://blog.csdn.net/wisgood/article/details/17739177
这篇文章分析的很详细,配上了例子
得出的结果:
假设A.id=B.id,A表id=3的有N条,B表id=3的有M条,两个表关联时,reduce会处理id相同的记录,那reduce时比较的次数:
N*(1+M)
该公式可以验证博文中提到的各种例子,也可以证明为什么要把参与join的key(此处为id)重复记录较少的表放前面的原因,因为N++,或导致1+M次的增加。
补充的说法,跟join无关的、A、B表中不存在重复的key,都不会影响join的性能,所以不能简单的认为“把小表放前面”就能提高性能
比如A表中有一条记录id=4,而B表中没有id=4的记录,那不管A表中id=4的记录有多少条,都不会影响join性能
0 0
- Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析zz
- Hive中小表与大表关联(join)的性能分析
- 【转载】Hive中小表与大表关联(join)的性能分析
- Hive中小表与大表关联(join)的性能分析
- Nexted-loop join中小表驱动大表的原因分析
- hive小表与大表join提升运行效率
- hive字段重复保存数据异常,大表与大表关联造成的数据倾斜
- [Hive]Hive数据倾斜(大表join大表)
- hive表的关联
- hive join 优化 --小表join大表
- hive与hbase关联表
- webservice和scoket比较分析
- Codeforces Round #248 (Div. 2) C.Ryouko's Memory Note
- 云计算的精神在于开源
- HTML中的meta信息
- Yum安装软件失败
- Hive中小表与大表关联(join)的性能分析
- 大数据技术
- 微设计(www.weidesigner.com)介绍系列文章(三)
- 每天,每周,每月,每年程序员该做的事情
- Oracle 10g AND Oracle 11g手工建库案例--Oracle 11g
- Oracle 10g AND Oracle 11g手工建库案例--Oracle 10g
- 黑马程序员--IO流04--其他类
- 电子邮件礼仪五大神器 让工作大佬们回复你的邮件 How to get a busy person to respond to your email
- Android之Service与IntentService的比较