Hive 合并输入输出文件
来源:互联网 发布:数据访问层框架 编辑:程序博客网 时间:2024/05/20 07:58
如果HIVE的输入文件是大量的小文件,而每个文件启动一个map的话是对yarn资源的浪费,同样的,Hive输出的文件也远远小于HDFS块大小,对后续处理也是不利的
HIVE中支持通过参数调整输入和输出的文件大小
1、合并输入文件
set mapred.max.split.size=256000000; #每个Map最大输入大小
set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小
set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; #执行Map前进行小文件合并
开启org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一个data node节点上多个小文件会进行合并,合并文件数由mapred.max.split.size限制的大小决定
mapred.min.split.size.per.node决定了多个data node上的文件是否需要合并
mapred.min.split.size.per.rack决定了多个交换机上的文件是否需要合并
2、合并输出文件
set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge
- Hive 合并输入输出文件
- hive小文件合并
- Hive小文件合并
- hive合并小文件
- hive 小文件合并
- Hive小文件合并
- Hive 合并小文件
- hive合并小文件
- hive合并小文件
- Hive小文件合并调研
- Hive小文件合并调研
- 合并hive仓库中小文件
- hive小文件合并问题
- Hive小文件合并汇总
- Hive 之 合并小文件
- hive小文件问题及hive小文件合并
- hive输出端小文件合并
- hive压缩之小文件合并
- Spring中javaMail通过SMTP发送邮件
- 投影仪矫正
- java BufferImage类的使用
- 读取配置文件 + 修改配置文件
- 百度电话面试PHP职位
- Hive 合并输入输出文件
- Spine制作骨骼动画的视频教程-spine,spine,spine
- SAT阅读备考的考生心得
- 尝试进行 apt update时遇到如下错误:
- listView的divider和dividerHeight属性
- JScript VS JavaScript
- Handler Looper Message(一)
- JS金额大小写转换
- android基础学习--像素单位