Hive Join的几种方式

来源：互联网发布：nginx 反向代理403 编辑：程序博客网时间：2024/04/29 18:12

下面实验几种hive中常用到的join操作

首先创建两个文件用于导入表中

hadoop@master:~/17$ cat data11,a2,b3,c4,d5,e8,u9,r

hadoop@master:~/17$ cat data21,aa2,gg7,www19,ee

实验步骤:

1.创建hive表create table a(id int, name string) row format delimited fields terminated by ',';create table b(id int, name string) row format delimited fields terminated by ',';

2.导入数据load data local inpath '/home/hadoop/17/data1' into table a;load data local inpath '/home/hadoop/17/data2' into table b;

备注：

如果导入的文件有空行的情况，就会出现为NULL的行，判断条件为int用is NULL或者is not NULL判断，string 类型用='NULL'或者!='NULL'来判断

如果想把为NULL的行删除,可以这样

insert overwrite table a select * from a where id is not NULL;

3.inner join hive> select * from a inner join b on a.id=b.id;1a1aa2b2gg

4.left joinhive> select * from a left join b on a.id = b.id;1a1aa2b2gg3cNULLNULL4dNULLNULL5eNULLNULL8uNULLNULL9rNULLNULL

备注：左连接就是保留全部左表，连接on条件下的部分右表

5.right joinhive> select * from a right join b on a.id = b.id;1a1aa2b2ggNULLNULL7wwwNULLNULL19ee

备注:右连接就是保留全部右表，连接on条件下的部分左表

6.full outer joinhive> select * from a full outer join b on a.id = b.id;1a1aa2b2gg3cNULLNULL4dNULLNULL5eNULLNULLNULLNULL7www8uNULLNULL9rNULLNULLNULLNULL19ee

全连接：就是全部保留左右表

备注：left outer join 和 left join本质上是一个东西，同理于right outer join和right join

7.left semi joinhive> select * from a left semi join b on a.id = b.id;1a2b

备注：left semi join相当于是in的操作

0 0