MR 代码优化及Hive优化(Hive中的存储格式与压缩格式)

来源:互联网 发布:淘宝售假怎么投诉 编辑:程序博客网 时间:2024/05/21 03:27

请百度:MapReduce的压缩优化,看看别人的博客!如:


http://www.cnblogs.com/end/archive/2013/01/15/2861448.html(非常不错!)--------》Hive优化

http://blog.csdn.net/ruidongliu/article/details/11690025---------------------------------------》MapReduce优化!

http://blog.csdn.net/wisgood/article/details/8789906---------------------------------------》MapReduce优化!



http://blog.csdn.net/erli11/article/details/40396257


http://www.cnblogs.com/zhengrunjian/p/4527269.html



在实际的项目开发当中,hive表的数据:

     存储格式:(RCfile或者Parquet,推荐使用RCfile格式)

     数据的压缩算法:snappy!


一、存储格式hive默认支持三种从存储格式,当然用户根据需要可以自定义存储格式。
存储格式优点缺点SEQUENCEFILE可压缩可分割二进制文件

需要一个合并文件的过程,

且合并后的文件将不方便查看

TEXTFILE

简单

方便查看

RCFILE

按列查找,理论上对于宽表采用这个比较好

比较新,还没有广泛应用



二、压缩格式
压缩格式工具算法文件扩展名多文件可分割性DEFLATE*无DEFLATE.deflate不不GzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是,在文件范围内bzip2bzip2bzip2.bz2不是LZOlzopLZO.lzo不不snappy

 

0 0