hive进阶

来源：互联网发布：c编程题及答案编辑：程序博客网时间：2024/05/14 21:33

hive中易忽略知识点记录

说明：hive作为大数据分析和存贮中，搭建数据仓库最好的几个组件来说，无论是对于数据存贮（典型的hadoop生态圈的分布式文件存贮类型），还是说对于满足数据分析中要求的快速获取不同维度的数据，hive都扮演着不可忽略的角色

hive基本操作

   对于hive中的基本操作，如：新建数据库、新建表以及基本的hivesql这些操作，对于熟悉SQL的基本操作的童鞋，这部分应该不是什么问题，对于查询来说，无非就是增加了一些自定义的函数，UDF\UDTF\UDAF等，这部分在这里就不罗嗦了，如果需要的时候，再就这个项目专门进行梳理

外部表

    假如我们正在分析一个外部数据源的数据，但是我们又想要hive来进行分析，那该怎么做呢？    so easy！我们只需要建立一个外部表    create  external table if not exist test {    F1 STRING,    F2 STRING    }    row format delimited fields terminated by ','    location '/test/test.txt'关键词external表明建立的这个表是外部的，location表明具体的文件路径

注意：因为表是外部表，所以hive并没有把这个表作为它自己的私有财产，所以删除表并不会删除这些原始数据，但是描述表的元数据会被删除掉

order by 和sort by

hive中order by 和sql中的order by的用法和效果是一样的，其作用是会对查询结果进行一个全局排序，也就是说，对于一个很大的数据集，会对一个查询集起一个reduce进行处理
sort by是在每个reducer中进行排序，保证了在每一个reducer的结果都是局部有序的，但并非全局有序的，有时候利用sort 可以提高全局排序的效率

视图

视图可以保存一个查询并像对待表一样对这个查询进行操作，说白了，就是可以将嵌套查询里面经常需要执行的查询语句抽象出来，创建为一个视图，这样就缩短了查询的效率，因为在job执行计划的时候，hive会首先执行hive的视图，然后将视图产生的结果作为下一个查询的中间结果

分区

hive查询中，经常需要对整个表进行扫描，相比于oracle中，如果我们在设计表的时候，每天建一张表的话，后期的维护成本会很大，这时候就需要建分区表

调优

sequence file 存贮格式

压缩文件是为了更好的节约存贮空间，但是，在hadoop中存贮裸压缩文件的一个缺点是：这些文件是不可分割的。而可分割文件在MR的过程中，可以划分成多个部分，由多个mapper并行执行。在hive中使用sequence file文件存贮的话，那么需要在create table的时候通过 stored as sequence指定就好

压缩级别分为none、record、block，其中block（块）压缩性能最好，用户可以在hadoop的mapred-site.xml中指定

阅读全文

0 0