MapReduce获取分片数目

来源：互联网发布：急难先锋8016优化编辑：程序博客网时间：2024/06/05 03:28

问题

MapReduce Application中mapper的数目和分片的数目是一样的，但是分片数目和什么有关呢？

默认情况下，分片和输入文件的分块数是相等的。也不完全相等，如果block size大小事128M，文件大小为128.1M，文件的block数目为2，但是application运行过程中，你会发现分片数目是1，而不是2，其中的机理，后面会分析
有的程序会设置map的数目，那么map数目是怎样影响分片的数目的呢？
如果文件大小为0，是否会作为一个分片传给map任务？

流程

FileInputFormat.getSplits返回文件的分片数目，这部分将介绍其运行流程，后面将粘贴其源码并给出注释

通过listStatus()获取输入文件列表files，其中会遍历输入目录的子目录，并过滤掉部分文件，如文件_SUCCESS
获取所有的文件大小totalSIze
goalSIze=totalSize/numMaps。numMaps是用户指定的map数目
files中取出一个文件file
计算splitSize。splitSize=max(minSplitSize,min(file.blockSize,goalSize))，其中minSplitSize是允许的最小分片大小，默认为1B
后面根据splitSize大小将file分片。在分片的时候，如果剩余的大小不大于splitSize*1.1，且大于0B的时候，会将该区域整个作为一个分片。这样做是为了防止一个mapper处理的数据太小
将file的分片加入到splits中
返回4，直到将files遍历完
结束，返回splits

源码

public InputSplit[] getSplits(JobConf job, int numSplits)    throws IOException {  //获取输入文件列表files，其中会遍历输入目录的子目录，并过滤掉部分文件，如文件_SUCCESS    FileStatus[] files = listStatus(job);        // Save the number of input files for metrics/loadgen    job.setLong(NUM_INPUT_FILES, files.length);    long totalSize = 0;                           // compute total size    for (FileStatus file: files) {                // check we have valid files      if (file.isDirectory()) {        throw new IOException("Not a file: "+ file.getPath());      }      totalSize += file.getLen();    }    /*     * numSplits为设置的map数目     * 期待的分片大小     */    long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);    /*     * FileInputFormat.SPLIT_MINSIZE为参数值：mapreduce.input.fileinputformat.split.minsize，默认为0     * minSplitSize默认为1     */     long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.      FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);    // generate splits    ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);    NetworkTopology clusterMap = new NetworkTopology();    for (FileStatus file: files) {      Path path = file.getPath();      long length = file.getLen();      if (length != 0) {        FileSystem fs = path.getFileSystem(job);        BlockLocation[] blkLocations;        if (file instanceof LocatedFileStatus) {          blkLocations = ((LocatedFileStatus) file).getBlockLocations();        } else {          blkLocations = fs.getFileBlockLocations(file, 0, length);        }        if (isSplitable(fs, path)) {          long blockSize = file.getBlockSize();          /*           * 计算分片的大小，每一个文件都要计算一次           *computeSplitSize的计算公式为 Math.max(minSize, Math.min(goalSize, blockSize));           */          long splitSize = computeSplitSize(goalSize, minSize, blockSize);          long bytesRemaining = length;          while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {            String[] splitHosts = getSplitHosts(blkLocations,                length-bytesRemaining, splitSize, clusterMap);            splits.add(makeSplit(path, length-bytesRemaining, splitSize,                splitHosts));            bytesRemaining -= splitSize;          }          if (bytesRemaining != 0) {            String[] splitHosts = getSplitHosts(blkLocations, length                - bytesRemaining, bytesRemaining, clusterMap);            splits.add(makeSplit(path, length - bytesRemaining, bytesRemaining,                splitHosts));          }        } else {          String[] splitHosts = getSplitHosts(blkLocations,0,length,clusterMap);          splits.add(makeSplit(path, 0, length, splitHosts));        }      } else {         //Create empty hosts array for zero length files        splits.add(makeSplit(path, 0, length, new String[0]));      }    }    LOG.debug("Total # of splits: " + splits.size());    return splits.toArray(new FileSplit[splits.size()]);  }

总结

看源码还是很有用的。很多时候，博客或者书介绍的不是很中肯，或者会有错误，看源码就不会出现这些问题。

请回答下面问题：
1.map和reduce的数量过多会导致什么情况？
2.Reduce可以通过什么设置来增加任务个数？
3.一个task的map数量由谁来决定？
4.一个task的reduce数量由谁来决定？

具体答案：

一般情况下，在输入源是文件的时候，一个task的map数量由splitSize来决定的，那么splitSize是由以下几个来决定的
goalSize = totalSize / mapred.map.tasks
inSize = max {mapred.min.split.size, minSplitSize}
splitSize = max (minSize, min(goalSize, dfs.block.size))
一个task的reduce数量，由partition决定。
在输入源是数据库的情况下，比如mysql，对于map的数量需要用户自己指定，比如
jobconf.set(“mapred.map.tasks.nums”,20)；
如果数据源是HBase的话，map的数量就是该表对应的region数量。
map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交map/reduce作业时应该在一个合理的范围内，这样既可以增强系统负载匀衡，也可以降低任务失败的开销。

1 map的数量
map的数量通常是由hadoop集群的DFS块大小确定的，也就是输入文件的总块数，正常的map数量的并行规模大致是每一个Node是10~100个，对于CPU消耗较小的作业可以设置Map数量为300个左右，但是由于hadoop的每一个任务在初始化时需要一定的时间，因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片是这样的，InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片，每一个分片会由一个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交client端进行自定义设置。还有一个重要参数就是mapred.map.tasks，这个参数设置的map数量仅仅是一个提示，只有当InputFormat 决定了map任务的个数比mapred.map.tasks值小时才起作用。同样，Map任务的个数也能通过使用JobConf 的conf.setNumMapTasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数，但是不能设定任务的个数小于Hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率，可以设置一个默认的map数量，当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相对交大的默认值，从而提高整体hadoop集群的效率。

2 reduece的数量
reduce在运行时往往需要从相关map端复制数据到reduce节点来处理，因此相比于map任务。reduce节点资源是相对比较缺少的，同时相对运行较慢，正确的reduce任务的个数应该是0.95或者1.75 *（节点数 ×mapred.tasktracker.tasks.maximum参数值）。如果任务数是节点个数的0.95倍，那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍，那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务，这样的情况更有利于负载均衡。同时需要注意增加reduce的数量虽然会增加系统的资源开销，但是可以改善负载匀衡，降低任务失败带来的负面影响。同样，Reduce任务也能够与 map任务一样，通过设定JobConf 的conf.setNumReduceTasks(int num)方法来增加任务个数。

3 reduce数量为0
有些作业不需要进行归约进行处理，那么就可以设置reduce的数量为0来进行处理，这种情况下用户的作业运行速度相对较高，map的输出会直接写入到 SetOutputPath(path)设置的输出目录，而不是作为中间结果写到本地。同时Hadoop框架在写入文件系统前并不对之进行排序。

0 0