hive中的虚拟列

来源:互联网 发布:数据的宽度 编辑:程序博客网 时间:2024/06/03 21:22

Hive中有个"虚拟列"的概念,此列并未在表中真正存在,其用意是为了将Hive中的表进行分区(partition),这对每日增长的海量数据存储而言是非常有用的。为了保证HiveQL的高效运行,强烈推荐在where语句后使用虚拟列作为限定。拿web日志举例,在Hive中为web日志创建了一个名为web_log表,它有一个虚拟列logdate,web_log表通过此列对每日的日志数据进行分区。因此,在对web_log表执行select时,切记要在where后加上logdate的限定条件,如下:

SELECT url FROM web_log WHERE logdate='20090603';

若是没有logdate作为限定,Hive默认查询web_log表的所有分区,有多少天就查多少天,那个场景无法想象!



注意陷阱:

select * from r_winner_details r join t_users s on r.seller_id=s.user_id where r.pt='20091029000000';

因为上句的含义是将r_winner_details表的数据与t_users表数据卖家的数字id进行join, 之后筛选出pt为1029那天的分区结果。因此语句一旦运行, 会导致r_winner_details所有分区数据被加载, 导致Map数上万。

请切记, 正确的写法是:

select * from (select * from r_winner_details where pt='20091029000000') r join t_users s on r.seller_id=s.user_id;

0 0