hive进阶
来源:互联网 发布:c编程题及答案 编辑:程序博客网 时间:2024/05/14 21:33
hive中易忽略知识点记录
说明:hive作为大数据分析和存贮中,搭建数据仓库最好的几个组件来说,无论是对于数据存贮(典型的hadoop生态圈的分布式文件存贮类型),还是说对于满足数据分析中要求的快速获取不同维度的数据,hive都扮演着不可忽略的角色
hive基本操作
对于hive中的基本操作,如:新建数据库、新建表以及基本的hivesql这些操作,对于熟悉SQL的基本操作的童鞋,这部分应该不是什么问题,对于查询来说,无非就是增加了一些自定义的函数,UDF\UDTF\UDAF等,这部分在这里就不罗嗦了,如果需要的时候,再就这个项目专门进行梳理
外部表
假如我们正在分析一个外部数据源的数据,但是我们又想要hive来进行分析,那该怎么做呢? so easy!我们只需要建立一个外部表 create external table if not exist test { F1 STRING, F2 STRING } row format delimited fields terminated by ',' location '/test/test.txt'关键词external表明建立的这个表是外部的,location表明具体的文件路径
注意:因为表是外部表,所以hive并没有把这个表作为它自己的私有财产,所以删除表并不会删除这些原始数据,但是描述表的元数据会被删除掉
order by 和sort by
hive中order by 和sql中的order by的用法和效果是一样的,其作用是会对查询结果进行一个全局排序,也就是说,对于一个很大的数据集,会对一个查询集起一个reduce进行处理
sort by是在每个reducer中进行排序,保证了在每一个reducer的结果都是局部有序的,但并非全局有序的,有时候利用sort 可以提高全局排序的效率
视图
视图可以保存一个查询并像对待表一样对这个查询进行操作,说白了,就是可以将嵌套查询里面经常需要执行的查询语句抽象出来,创建为一个视图,这样就缩短了查询的效率,因为在job执行计划的时候,hive会首先执行hive的视图,然后将视图产生的结果作为下一个查询的中间结果
分区
hive查询中,经常需要对整个表进行扫描,相比于oracle中,如果我们在设计表的时候,每天建一张表的话,后期的维护成本会很大,这时候就需要建分区表
调优
sequence file 存贮格式
压缩文件是为了更好的节约存贮空间,但是,在hadoop中存贮裸压缩文件的一个缺点是:这些文件是不可分割的。而可分割文件在MR的过程中,可以 划分成多个部分,由多个mapper并行执行。在hive中使用sequence file文件存贮的话,那么需要在create table的时候通过 stored as sequence指定就好
压缩级别分为none、record、block,其中block(块)压缩性能最好,用户可以在hadoop的mapred-site.xml中指定
- Hive 进阶
- Hive进阶
- hive进阶
- hive初级、进阶、高级
- Hive查询进阶
- HIVE入门,进阶
- hive基础进阶
- Hive查询进阶
- 9.17 进阶hive 理论知识
- Hive总结(十二)Hive查询进阶
- Hive总结(十二)Hive查询进阶
- Hive总结(十二)Hive查询进阶
- Hive进阶之Hive数据导入
- Hive进阶之Hive的数据查询
- Hive笔记十一:查询进阶
- 数据仓库----Hive进阶篇 一
- 数据仓库----Hive进阶篇 二
- Hive高级进阶与优化
- qt共享内存方法限制执行一次。
- Mysql主从同步
- android最全的图表(折线柱形等)
- Spring Boot 入门 (一)——建一个最简单的springboot项目
- DecisionTree笔记
- hive进阶
- 关于部分手机拍照上传的图片旋转了90度的c#解决方案
- 什么是P问题、NP问题和NPC问题
- tomcat记录访问日志
- Markdown如何添加空格,换行符
- nginx那些年、那点事
- SDWebImage加载图片url失败后再次请求无法刷新
- SDNU——8题—— H
- 正则表达式判断是否是手机号,或电话号码