hive中的虚拟列
来源:互联网 发布:数据的宽度 编辑:程序博客网 时间:2024/06/03 21:22
Hive中有个"虚拟列"的概念,此列并未在表中真正存在,其用意是为了将Hive中的表进行分区(partition),这对每日增长的海量数据存储而言是非常有用的。为了保证HiveQL的高效运行,强烈推荐在where语句后使用虚拟列作为限定。拿web日志举例,在Hive中为web日志创建了一个名为web_log表,它有一个虚拟列logdate,web_log表通过此列对每日的日志数据进行分区。因此,在对web_log表执行select时,切记要在where后加上logdate的限定条件,如下:
SELECT url FROM web_log WHERE logdate='20090603';
若是没有logdate作为限定,Hive默认查询web_log表的所有分区,有多少天就查多少天,那个场景无法想象!
注意陷阱:
select * from r_winner_details r join t_users s on r.seller_id=s.user_id where r.pt='20091029000000';
因为上句的含义是将r_winner_details表的数据与t_users表数据卖家的数字id进行join, 之后筛选出pt为1029那天的分区结果。因此语句一旦运行, 会导致r_winner_details所有分区数据被加载, 导致Map数上万。
请切记, 正确的写法是:
select * from (select * from r_winner_details where pt='20091029000000') r join t_users s on r.seller_id=s.user_id;
- hive中的虚拟列
- Hive中虚拟列
- hive的虚拟列函数
- oracle 11g中的虚拟列
- hive列
- 虚拟列
- hive 中的多列进行group by查询方法
- hive中的wm_concat 同列非数字字符串的拼接
- hive中使用保留关键字作为表中的列名
- hive 中的多列进行group by查询方法
- hive上删除列
- Hive 显示列名
- Hive中行列转换
- Hive列拼接
- hive列定义
- Hive行转列,列转行
- Hive行转列,列转行
- Hive行转列、列转行
- ping命令--Linux命令应用大词典729个命令解读
- js实现全选(全部取消)反向选择
- CSS3 Media Queries 与Responsive 设计
- Arraylist中的modCount 的作用
- Android经典Demo
- hive中的虚拟列
- 数据建模
- Android onTrimMemory()与onLowMemory()使用
- Vue.js与Jquery的比较 谁与争锋 js风暴
- HTML-Less和CSS
- 2016.11.11
- 【贪心】 篱笆
- ACM模版库制作V3
- 欢迎使用CSDN-markdown编辑器