hadoop笔记之切片大小控制
来源:互联网 发布:豆萁软件下载 编辑:程序博客网 时间:2024/06/16 12:18
HDFS的block是逻辑上的数据块.Hadoop2.0中每一块默认大小128MB,实际存储过程中block大小小于等128MB,它是以文件为存储对象.如一200MB大小文件,分两个数据块128MB+72MB 这里的两个块大实际小分别是128MB和72MB
算法分析:
max(minSize, min(maxSize,blockSize))
min(maxSize,blockSize)取maxSize,blockSize之间的最小值
max(minSize, min())取minSize, min()之间的最大值
blockSize=128MB
所以增加切片大小有要调整 min(maxSize,blockSize)中maxSize值
减小切片大小调整minSize值.
具体两个方法如下:
FileInputFormat.setMaxInputSplitSize(job, size);
FileInputFormat.setMinInputSplitSize(job, size);
0 0
- hadoop笔记之切片大小控制
- hadoop笔记之切片大小控制
- MapReduce MapTask任务数量,切片大小笔记
- Numpy学习笔记之ndarray的索引和切片
- Go语言学习笔记之数组、数组切片和map
- Hadoop 之HDFS笔记
- Python学习笔记 - 切片
- python学习笔记 切片
- 切片用例笔记
- 切片(python笔记)
- [笔记]ndarray切片(python)
- VS2010之禁止鼠标滑动控制大小
- html学习之控制背景图片大小
- Python入门 之 切片
- python之切片
- 五.Python之切片
- 文件上传之切片
- python之 切片--妙用
- 人工意识(智能)的研究方向
- 汉诺塔问题
- 项目2-程序的多文件组织
- 初涉Grunt
- Java使用JNI调用C++实现Hello jni
- hadoop笔记之切片大小控制
- 关于ffmpeg的第一次尝试
- 第二周—项目3 体验复杂度—两种排序算法的运行时间
- ArrayList和LinkedList的区别
- 关于ARGB_8888、ALPHA_8、ARGB_4444、RGB_565的理解
- CGI入门讲解
- rails 第一个动作
- jquery 动态事件的监听(非live)
- jQuery js 互转