Hive优化--join

来源:互联网 发布:网络直播教学平台 编辑:程序博客网 时间:2024/06/01 14:13
在hive中最长用到的就是对表之间的操作,在做join操作时,将小表放在左边,大表放在右边可提升集群的性能。原理很简单,hive对于join操作是:在做完map之后将左边的表的数据拷贝到右边的表所在的reducer上与右边的表进行join操作,这样reducer主要保存小表的数据,当右边的表来一条记录就可以和左边的表的数据(已拷贝到reducer保存)作join,然后直接将结果写入HDFS,而不用保存在reducer。同时,由于小表的数据比较,作join时在时间上性能也会有提升