Hive优化之小文件问题及其解决方案
来源:互联网 发布:西安和沈阳知乎 编辑:程序博客网 时间:2024/06/05 02:12
小文件是如何产生的
1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。
2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。
3.数据源本身就包含大量的小文件。
小文件问题的影响
1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。
2.在HDFS中,每个小文件对象约占150byte,如果小文件过多会占用大量内存。这样NameNode内存容量严重制约了集群的扩展。
小文件问题的解决方案
从小文件产生的途经就可以从源头上控制小文件数量,方法如下:
1.使用Sequencefile作为表存储格式,不要用textfile,在一定程度上可以减少小文件。
2.减少reduce的数量(可以使用参数进行控制)。
3.少用动态分区,用时记得按distribute by分区。
对于已有的小文件,我们可以通过以下几种方案解决:
1.使用hadoop archive命令把小文件进行归档。
2.重建表,建表时减少reduce数量。
3.通过参数进行调节,设置map/reduce端的相关参数,如下:
设置map输入合并小文件的相关参数:
设置map输出和reduce输出进行合并的相关参数:
阅读全文
0 0
- Hive优化之小文件问题及其解决方案
- Hive优化之小文件问题及其解决方案
- hive优化之自动合并输出的小文件
- hive小文件合并问题
- Hive 之 合并小文件
- hive小文件问题及hive小文件合并
- hadoop小文件问题&解决方案
- hive bucket产生的小文件问题
- Hive小文件问题的处理
- Hive 小文件问题的处理
- hive压缩之小文件合并
- hive压缩之小文件合并
- Glusterfs之小文件优化
- Glusterfs之小文件优化
- hive优化记录----合并小文件压缩输出
- HDFS小文件问题及解决方案
- HDFS小文件问题及解决方案
- HDFS小文件问题及解决方案
- Maven安装 —— 配置环境变量
- (五) 整合spring cloud云服务架构
- LinuxC关于语句的一些问题
- Sql Server中的DBCC命令详细介绍
- 数据库
- Hive优化之小文件问题及其解决方案
- 起航
- 判断程序是横屏竖屏的表达式
- 支付宝小程序申请-制作-打包-上线完整流程汇总
- 第六周训练总结
- (M)Dynamic Programming:139. Word Break
- Hive严格模式
- Java中间变量缓存机制的理解
- spring配置文件最全面的详解