MapReduce中job参数及设置map和reduce的个数
来源:互联网 发布:美国10月非农数据预测 编辑:程序博客网 时间:2024/05/29 05:57
map的个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了
map的个数。
影响map个数,即split个数的因素主要有:
1)HDFS块的大小,即HDFS中dfs.block.size的值。如果有一个输入文件为1024m,当块为
256m时,会被划分为4个split;当块为128m时,会被划分为8个split。
2)文件的大小。当块为128m时,如果输入文件为128m,会被划分为1个split;当块为256m,
会被划分为2个split。
3)文件的个数。FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过
HDFS块的大小的文件。如果HDFS中dfs.block.size设置为64m,而输入的目录中文件有100个,则
划分后的split个数至少为100个。
4)splitsize的大小。分片是按照splitszie的大小进行分割的,一个split的大小在没有设置的情况下,
默认等于hdfs block的大小。但应用程序可以通过两个参数来对splitsize进行调节。
map个数的计算公式如下:
1,splitsize=max(minimumsize,min(maximumsize,blocksize))。
如果没有设置minimumsize和maximumsize,splitsize的大小默认等于blocksize
2,计算公式
计算过程可以简化为如下的公式,详细算法可以参照FileInputSplit类中的getSplits方法
total_split ;
for(file :输入目录中的每个文件)
{
file_split = 1;
if(file.size>splitsize)
{
file_split=file_size/splitsize;
}
total_split+=file_split;
}14371142.07932
Reduce个数
map的个数。
影响map个数,即split个数的因素主要有:
1)HDFS块的大小,即HDFS中dfs.block.size的值。如果有一个输入文件为1024m,当块为
256m时,会被划分为4个split;当块为128m时,会被划分为8个split。
2)文件的大小。当块为128m时,如果输入文件为128m,会被划分为1个split;当块为256m,
会被划分为2个split。
3)文件的个数。FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过
HDFS块的大小的文件。如果HDFS中dfs.block.size设置为64m,而输入的目录中文件有100个,则
划分后的split个数至少为100个。
4)splitsize的大小。分片是按照splitszie的大小进行分割的,一个split的大小在没有设置的情况下,
默认等于hdfs block的大小。但应用程序可以通过两个参数来对splitsize进行调节。
map个数的计算公式如下:
1,splitsize=max(minimumsize,min(maximumsize,blocksize))。
如果没有设置minimumsize和maximumsize,splitsize的大小默认等于blocksize
2,计算公式
计算过程可以简化为如下的公式,详细算法可以参照FileInputSplit类中的getSplits方法
total_split ;
for(file :输入目录中的每个文件)
{
file_split = 1;
if(file.size>splitsize)
{
file_split=file_size/splitsize;
}
total_split+=file_split;
}14371142.07932
Reduce个数
阅读全文
1 0
- MapReduce中job参数及设置map和reduce的个数
- MapReduce中job参数及设置map和reduce的个数
- 自己设置mapreduce程序的map个数和reduce个数
- MapReduce中map与reduce的个数
- mapreduce中map和reduce的最大并发数量设置
- Hadoop中map和reduce个数的设置
- Hive 设置map 和 reduce 的个数
- Hive 设置map 和 reduce 的个数
- Hive 设置map 和 reduce 的个数
- Hive 设置map 和 reduce 的个数
- Hive 设置map 和 reduce 的个数
- Hive设置map和reduce的个数
- Hadoop MapReduce Job性能调优——修改Map和Reduce个数
- Hadoop MapReduce Job性能调优——修改Map和Reduce个数
- Hadoop MapReduce Job性能调优——修改Map和Reduce个数
- hadoop中每个节点map和reduce个数的设置调优
- hadoop中每个节点map和reduce个数的设置调优
- hadoop中每个节点map和reduce个数的设置调优
- cassandra materialized view And index
- nginx开始
- Mian加载spring容器
- android开发-Service的生命周期
- 身份证工具类
- MapReduce中job参数及设置map和reduce的个数
- 农业农村经济发展势头向好 呈现“六个新”
- java中String、StringBuffer、StringBuilder的区别
- 理解Javascript_07_理解instanceof实现原理
- Java代码分别用递归和非递归方式计算二叉树的最大深度
- selenium之时间等待
- Python 包的理解
- 邻乐帮:因为我怕下辈子遇不到你,所以给你当下最好的 人们说,遇到一个对的人的概率是很小的,如果没遇到,那么我们需要耐心去等,如果遇到了,那么,我们就要好好珍惜。 对于我来说,我现在的女朋友就是那个
- 入口文件中的属性