lzo格式作为输入时调整map个数
来源:互联网 发布:怎么查看数据库关系 编辑:程序博客网 时间:2024/05/21 10:22
普通文本文件作为mapreduce的输入时调整map个数需调整
mapred.min.split.size和mapred.max.split.size
mapred.min.split.size是每个map的大小的最小值,而map的大小不能超过mapred.max.split.size且不超过blocksize,因此map的大小是Math.max(minSize, Math.min(maxSize, blockSize))
但是输入为LZO压缩格式时,还需要 一些额外的设置。
用java编写mapreduce程序时,lzo格式作为输入跟用文本作为输入一样,可以把lzo文件当做文本直接使用,但是一个lzo文件会分在一个map上,如果lzo文件过大,希望用多个map时,调整mapred.min.split.size和mapred.max.split.size就不好使了。
解决方法:
lzo文件建索引,索引文件与lzo文件同名,后缀为.index,与lzo文件放在同一hdfs目录下
设置job的inputformat:默认的是TextInputFormat,这里要改成job.setInputFormatClass(LzoTextInputFormat.class)
加入头文件:import com.hadoop.mapreduce.LzoTextInputFormat。该头文件在hadoop-lzo-0.4.14.jar中。
加上这些之后,再设置mapred.min.split.size和mapred.max.split.size就可以调整map个数了
0 0
- lzo格式作为输入时调整map个数
- hadoop lzo并行map
- hadoop lzo并行map
- hadoop lzo格式
- Map检测输入相同字符串的个数,
- 限制JTextField的输入个数和格式
- 输入10个数,求出最大元素是第几个数(数组作为函数参数)
- (转)lzo文件的并行map处理
- hadoop lzo文件的并行map处理
- lzo文件的并行map处理
- Map的输出进行LZO压缩
- 输入n个数,将前n-m个数往后移动m位,最后m位数作为前m个数
- lzo
- LZO
- Spark读Lzo压缩格式的文件
- flume 写入hdfs 采用lzo 格式 教程
- POJ2503 Babelfish (输入格式控制与STL map的使用)
- hive建表没使用LZO存储格式,但是数据是LZO格式时遇到的问题
- 使用baidu push报错
- GIS的学习(二十)基于Geoserver的WFS服务与Openlayers实现地理查询
- POJ 1840 - Eqs(数学)
- 搜索引擎四:CoreSeek配置MySql数据源
- Android2.3解析json出错,4.0不报错
- lzo格式作为输入时调整map个数
- HDOJ 1004 Let the Balloon Rise(排序)
- php端口直驱网络打印机,能自定义格式
- Linux下OpenSSL 安装
- C语言结构体和C 结构体的区别
- poj3262 贪心
- 2015年第一篇:Android 画画板
- 集合的使用
- Android应用开发环境搭建遇到的若干问题