Mapreduce切片机制
来源:互联网 发布:网络斯诺克游戏 编辑:程序博客网 时间:2024/06/05 14:29
为什么:
一个文件比如由200MB,存储再HDFS上,又按HDFS默认块大小128MB进行切块(block)存储,且每个块(block)备份3份,那么这个文件将被切成2块存储到HDFS上。mapreduce程序相当于HDFS的客户端,每个节点上的mapreduce向HDFS拿数据时,如果没有规划好切片大小,导致节点上程序运行,需要从其他节点上拿数据,那么必然经过网络传输,会消耗网络资源,速度慢,那么这样显然不好,所以要好好规划切片。
《Mapreduce&yarn工作机制》
切片机制原理:
客户端根据用户所配置的minsize和maxsize来规划切片,客户端提交任务后,客户端程序就会调用hdfs的方法,判断需要处理的文件大小,然后再根据用户配置的参数minsize和maxsize,参数解释:
minsize:默认值:1
配置参数: mapreduce.input.fileinputformat.split.minsize
maxsize:默认值:Long.MAXValue
配置参数:mapreduce.input.fileinputformat.split.maxsize
blocksize
通过逻辑splitSize = Math.max(minSize, Math.min(maxSize, blockSize))确定切片的大小。
拿到参数后,就按照splitSize对文件进行切割。通过逻辑splitSize = Math.max(minSize, Math.min(maxSize, blockSize))确定切片的大小。
注意:这里由一段逻辑:
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining); splits.add(makeSplit(path, length-bytesRemaining, splitSize,blkLocations[blkIndex].getHosts(), blkLocations[blkIndex].getCachedHosts())); bytesRemaining -= splitSize;}
解释:SPLIT_SLOP = 1.1,即当划分后剩余文件大小除splitSize大于1.1时,循环继续,小于1.1时退出循环,将剩下的文件大小归到一个切片上去。
- Mapreduce切片机制
- mapreduce的任务切片规划机制、job提交流程、Mapreduce中的分区Partitioner与流量汇总程序开发
- MapReduce机制
- MapReduce MapTask任务数量,切片大小笔记
- MapTask并行度决定机制、FileInputFormat切片机制、map并行度的经验之谈、ReduceTask并行度的决定、MAPREDUCE程序运行演示(来自学笔记)
- 简单搞定FileInputFormat切片机制
- MapReduce的执行机制
- MapReduce的工作机制
- MapReduce的执行机制
- MapReduce工作机制总结
- MapReduce的工作机制
- MapReduce 工作机制
- MapReduce的工作机制
- MapReduce的工作机制
- MapReduce 工作机制剖析
- MapReduce 的工作机制
- MapReduce的容错机制
- mapreduce序列化机制
- 《Java编程思想》第0记
- MyBatis动态语句及利用Map类来传递参数
- MIT-BIH心率失常数据提取及部分MATLAB程序解释
- 插入排序.c
- Java-NIO(一):简介
- Mapreduce切片机制
- 全链路设计师学习成长晋级之路
- 网页调用腾讯qq在线客服
- linux命令之nc,emacs,go run,查看文件行数等
- IdWorker-UUID生成器
- Python3 安装 mysql-python 与ImportError: No module named 'ConfigParser'报错解决方法
- 数据库事务的四大特性以及事务的隔离级别
- 彩色图像--色彩空间 HSI(HSL)、HSV(HSB)
- 电表芯片调试笔记记录