YARN详解_参数配置

来源：互联网发布：淘宝让你提供质检报告编辑：程序博客网时间：2024/05/17 19:14

原文地址： http://bise.aliapp.com/index.php/435.html

需要在yarn-site.xml中配置。

（1） yarn.resourcemanager.address

参数解释：ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序，杀死应用程序等。

默认值：${yarn.resourcemanager.hostname}:8032

（2） yarn.resourcemanager.scheduler.address

参数解释：ResourceManager 对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资源等。

默认值：${yarn.resourcemanager.hostname}:8030

（3） yarn.resourcemanager.resource-tracker.address

参数解释：ResourceManager 对NodeManager暴露的地址.。NodeManager通过该地址向RM汇报心跳，领取任务等。

默认值：${yarn.resourcemanager.hostname}:8031

（4） yarn.resourcemanager.admin.address

参数解释：ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。

默认值：${yarn.resourcemanager.hostname}:8033

（5） yarn.resourcemanager.webapp.address

参数解释：ResourceManager对外web ui地址。用户可通过该地址在浏览器中查看集群各类信息。

默认值：${yarn.resourcemanager.hostname}:8088

（6） yarn.resourcemanager.scheduler.class

参数解释：启用的资源调度器主类。目前可用的有FIFO、Capacity Scheduler和Fair Scheduler。

默认值：

org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler

（7） yarn.resourcemanager.resource-tracker.client.thread-count

参数解释：处理来自NodeManager的RPC请求的Handler数目。

默认值：50

（8） yarn.resourcemanager.scheduler.client.thread-count

参数解释：处理来自ApplicationMaster的RPC请求的Handler数目。

默认值：50

（9） yarn.scheduler.minimum-allocation-mb/ yarn.scheduler.maximum-allocation-mb

参数解释：单个可申请的最小/最大内存资源量。比如设置为1024和3072，则运行MapRedce作业时，每个Task最少可申请1024MB内存，最多可申请3072MB内存。

默认值：1024/8192

（10） yarn.scheduler.minimum-allocation-vcores / yarn.scheduler.maximum-allocation-vcores

参数解释：单个可申请的最小/最大虚拟CPU个数。比如设置为1和4，则运行MapRedce作业时，每个Task最少可申请1个虚拟CPU，最多可申请4个虚拟CPU

默认值：1/32

（11） yarn.resourcemanager.nodes.include-path /yarn.resourcemanager.nodes.exclude-path

参数解释：NodeManager黑白名单。如果发现若干个NodeManager存在问题，比如故障率很高，任务运行失败率高，则可以将之加入黑名单中。注意，这两个配置参数可以动态生效。（调用一个refresh命令即可）

默认值：“”

（12） yarn.resourcemanager.nodemanagers.heartbeat-interval-ms

参数解释：NodeManager心跳间隔

默认值：1000（毫秒）

NodeManager相关配置参数

需要在yarn-site.xml中配置。

（1） yarn.nodemanager.resource.memory-mb

参数解释：NodeManager总的可用物理内存。注意，该参数是不可修改的，一旦设置，整个运行过程中不可动态修改。另外，该参数的默认值是8192MB，即使你的机器内存不够8192MB，YARN也会按照这些内存来使用（傻不傻？），因此，这个值通过一定要配置。不过，Apache已经正在尝试将该参数做成可动态修改的。

默认值：8192

（2） yarn.nodemanager.vmem-pmem-ratio

参数解释：每使用1MB物理内存，最多可用的虚拟内存数。

默认值：2.1

（3） yarn.nodemanager.resource.cpu-vcores

参数解释：NodeManager总的可用虚拟CPU个数。

默认值：8

（4） yarn.nodemanager.local-dirs

参数解释：中间结果存放位置，类似于1.0中的mapred.local.dir。注意，这个参数通常会配置多个目录，已分摊磁盘IO负载。

默认值：${hadoop.tmp.dir}/nm-local-dir

（5） yarn.nodemanager.log-dirs

参数解释：日志存放地址（可配置多个目录）。

默认值：${yarn.log.dir}/userlogs

（6） yarn.nodemanager.log.retain-seconds

参数解释：NodeManager上日志最多存放时间（不启用日志聚集功能时有效）。

默认值：10800（3小时）

（7） yarn.nodemanager.aux-services

参数解释：NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序

默认值：“”

权限相关配置参数

这里的权限由三部分组成，分别是：（1）管理员和普通用户如何区分（2）服务级别的权限，比如哪些用户可以向集群提交ResourceManager提交应用程序，（3）队列级别的权限，比如哪些用户可以向队列A提交作业等。

管理员列表由参数yarn.admin.acl指定，需要在yarn-site.xml中配置。

服务级别的权限是通过配置hadoop-policy.xml实现的，这个与Hadoop 1.0类似

队列级别的权限是由对应的资源调度器内部配置的，比如Fair Scheduler或者Capacity Scheduler等

日志聚集相关配置参数

日志聚集是YARN提供的日志中央化管理功能，它能将运行完成的Container/任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个中央化存储和分析机制。默认情况下，Container/任务日志存在在各个NodeManager上，如果启用日志聚集功能需要额外的配置。需要在yarn-site.xml中配置。

（1） yarn.log-aggregation-enable

参数解释：是否启用日志聚集功能。

默认值：false

（2） yarn.log-aggregation.retain-seconds

参数解释：在HDFS上聚集的日志最多保存多长时间。

默认值：-1

（3） yarn.log-aggregation.retain-check-interval-seconds

参数解释：多长时间检查一次日志，并将满足条件的删除，如果是0或者负数，则为上一个值的1/10。

默认值：-1

（4） yarn.nodemanager.remote-app-log-dir

参数解释：当应用程序运行结束后，日志被转移到的HDFS目录（启用日志聚集功能时有效）。

默认值：/tmp/logs

（5） yarn.log-aggregation.retain-seconds

参数解释：远程日志目录子目录名称（启用日志聚集功能时有效）。

默认值：日志将被转移到目录

${yarn.nodemanager.remote-app-log-dir}/${user}/${thisParam}下

MapReduce JobHistory相关配置参数

这些参数全部在mapred-site.xml中设置，可只在JobHistory所在节点的mapred-site.xml中配置。如果用户指定了参数，将覆盖掉默认参数。

（1）mapreduce.jobhistory.address

参数解释：MapReduce JobHistory Server地址。

默认值： 0.0.0.0:10020

（2） mapreduce.jobhistory.webapp.address

参数解释：MapReduce JobHistory Server Web UI地址。

默认值： 0.0.0.0:19888

（3） mapreduce.jobhistory.intermediate-done-dir

参数解释：MapReduce作业产生的日志存放位置。

默认值： /mr-history/tmp

（4） mapreduce.jobhistory.done-dir

参数解释：MR JobHistory Server管理的日志的存放位置。

默认值： /mr-history/done

MapReduce作业配置参数

这些参数全部在mapred-site.xml中设置，可只在客户端的mapred-site.xml中配置，作为MapReduce作业的缺省配置参数。也可以在作业提交时，个性化指定这些参数。

参数名称缺省值说明mapreduce.job.name 作业名称mapreduce.job.priorityNORMAL作业优先级yarn.app.mapreduce.am.resource.mb1536MR ApplicationMaster占用的内存量yarn.app.mapreduce.am.resource.cpu-vcores1MR ApplicationMaster占用的虚拟CPU个数mapreduce.am.max-attempts2MR ApplicationMaster最大失败尝试次数mapreduce.map.memory.mb1024每个Map Task需要的内存量mapreduce.map.cpu.vcores1每个Map Task需要的虚拟CPU个数mapreduce.map.maxattempts4Map Task最大失败尝试次数mapreduce.reduce.memory.mb1024每个Reduce Task需要的内存量mapreduce.reduce.cpu.vcores1每个Reduce Task需要的虚拟CPU个数mapreduce.reduce.maxattempts4Reduce Task最大失败尝试次数mapreduce.map.speculativefalse是否对Map Task启用推测执行机制mapreduce.reduce.speculativefalse是否对Reduce Task启用推测执行机制mapreduce.job.queuenamedefault作业提交到的队列mapreduce.task.io.sort.mb100任务内部排序缓冲区大小mapreduce.map.sort.spill.percent0.8Map阶段溢写文件的阈值（排序缓冲区大小的百分比）mapreduce.reduce.shuffle.parallelcopies5Reduce Task启动的并发拷贝数据的线程数目

注意，MRv2重新命名了MRv1中的所有配置参数，但兼容MRv1中的旧参数，只不过会打印一条警告日志提示用户参数过期。MapReduce新旧参数对照表可参考Java类org.apache.hadoop.mapreduce.util.ConfigUtil，举例如下：

过期参数名新参数名mapred.job.namemapreduce.job.namemapred.job.prioritymapreduce.job.prioritymapred.job.queue.namemapreduce.job.queuenamemapred.map.tasks.speculative.executionmapreduce.map.speculativemapred.reduce.tasks.speculative.executionmapreduce.reduce.speculativeio.sort.factormapreduce.task.io.sort.factorio.sort.mbmapreduce.task.io.sort.mb

Fair Scheduler相关参数

首先在yarn-site.xml中，将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。

Fair Scheduler的配置选项包括两部分，其中一部分在yarn-site.xml中，主要用于配置调度器级别的参数，另外一部分在一个自定义配置文件（默认是fair-scheduler.xml）中，主要用于配置各个队列的资源量、权重等信息。

配置文件yarn-site.xml

（1） yarn.scheduler.fair.allocation.file ：自定义XML配置文件所在位置，该文件主要用于描述各个队列的属性，比如资源量、权重等，具体配置格式将在后面介绍。

（2） yarn.scheduler.fair.user-as-default-queue：当应用程序未指定队列名时，是否指定用户名作为应用程序所在的队列名。如果设置为false或者未设置，所有未知队列的应用程序将被提交到default队列中，默认值为true。

（3） yarn.scheduler.fair.preemption：是否启用抢占机制，默认值是false。

（4） yarn.scheduler.fair.sizebasedweight：在一个队列内部分配资源时，默认情况下，采用公平轮询的方法将资源分配各各个应用程序，而该参数则提供了另外一种资源分配方式：按照应用程序资源需求数目分配资源，即需求资源数量越多，分配的资源越多。默认情况下，该参数值为false。

（5） yarn.scheduler.assignmultiple：是否启动批量分配功能。当一个节点出现大量资源时，可以一次分配完成，也可以多次分配完成。默认情况下，该参数值为false。

（6） yarn.scheduler.fair.max.assign：如果开启批量分配功能，可指定一次分配的container数目。默认情况下，该参数值为-1，表示不限制。

（7） yarn.scheduler.fair.locality.threshold.node：当应用程序请求某个节点上资源时，它可以接受的可跳过的最大资源调度机会。当按照分配策略，可将一个节点上的资源分配给某个应用程序时，如果该节点不是应用程序期望的节点，可选择跳过该分配机会暂时将资源分配给其他应用程序，直到出现满足该应用程序需的节点资源出现。通常而言，一次心跳代表一次调度机会，而该参数则表示跳过调度机会占节点总数的比例，默认情况下，该值为-1.0，表示不跳过任何调度机会。

（8） yarn.scheduler.fair.locality.threshold.rack：当应用程序请求某个机架上资源时，它可以接受的可跳过的最大资源调度机会。

（9） yarn.scheduler.increment-allocation-mb：内存规整化单位，默认是1024，这意味着，如果一个Container请求资源是1.5GB，则将被调度器规整化为ceiling(1.5 GB / 1GB) * 1G=2GB。

（10） yarn.scheduler.increment-allocation-vcores：虚拟CPU规整化单位，默认是1，含义与内存规整化单位类似。

自定义配置文件

Fair Scheduler允许用户将队列信息专门放到一个配置文件（默认是fair-scheduler.xml），对于每个队列，管理员可配置以下几个选项：

（1） minResources ：最少资源保证量，设置格式为“X mb, Y vcores”，当一个队列的最少资源保证量未满足时，它将优先于其他同级队列获得资源，对于不同的调度策略（后面会详细介绍），最少资源保证量的含义不同，对于fair策略，则只考虑内存资源，即如果一个队列使用的内存资源超过了它的最少资源量，则认为它已得到了满足；对于drf策略，则考虑主资源使用的资源量，即如果一个队列的主资源量超过它的最少资源量，则认为它已得到了满足。

（2） maxResources：最多可以使用的资源量，fair scheduler会保证每个队列使用的资源量不会超过该队列的最多可使用资源量。

（3） maxRunningApps：最多同时运行的应用程序数目。通过限制该数目，可防止超量Map Task同时运行时产生的中间输出结果撑爆磁盘。

（4） minSharePreemptionTimeout：最小共享量抢占时间。如果一个资源池在该时间内使用的资源量一直低于最小资源量，则开始抢占资源。

（5） schedulingMode/schedulingPolicy：队列采用的调度模式，可以是fifo、fair或者drf。

（6） aclSubmitApps：可向队列中提交应用程序的Linux用户或用户组列表，默认情况下为“*”，表示任何用户均可以向该队列提交应用程序。需要注意的是，该属性具有继承性，即子队列的列表会继承父队列的列表。配置该属性时，用户之间或用户组之间用“，”分割，用户和用户组之间用空格分割，比如“user1, user2 group1,group2”。

（7） aclAdministerApps：该队列的管理员列表。一个队列的管理员可管理该队列中的资源和应用程序，比如可杀死任意应用程序。

管理员也可为单个用户添加maxRunningJobs属性限制其最多同时运行的应用程序数目。此外，管理员也可通过以下参数设置以上属性的默认值：

userMaxJobsDefault：用户的maxRunningJobs属性的默认值。
defaultMinSharePreemptionTimeout ：队列的minSharePreemptionTimeout属性的默认值。
defaultPoolSchedulingMode：队列的schedulingMode属性的默认值。
fairSharePreemptionTimeout：公平共享量抢占时间。如果一个资源池在该时间内使用资源量一直低于公平共享量的一半，则开始抢占资源。

实例

假设要为一个Hadoop集群设置三个队列queueA、queueB和queueC，其中，queueB和queueC为queueA的子队列，且规定普通用户最多可同时运行40个应用程序，但用户userA最多可同时运行400个应用程序，那么可在自定义配置文件中进行如下设置：

<allocations>
<queue name=”queueA”>
<minResources>100 mb, 100 vcores</minResources>
<maxResources>150 mb, 150 vcores</maxResources>
<maxRunningApps>200</maxRunningApps>
<minSharePreemptionTimeout>300</minSharePreemptionTimeout>
<weight>1.0</weight>
<queue name=”queueB”>
<minResources>30 mb, 30 vcores</minResources>
<maxResources>50 mb, 50 vcores</maxResources>
</queue>
<queue name=”queueC”>
<minResources>50 mb, 50 vcores</minResources>
<maxResources>50 mb, 50 vcores</maxResources>
</queue>
</queue>
<user name=”userA”>
<maxRunningApps>400</maxRunningApps>
</user>
<userMaxAppsDefault>40</userMaxAppsDefault>
<fairSharePreemptionTimeout>6000</fairSharePreemptionTimeout>
</allocations>

Capacity Scheduler相关参数

Capacity Scheduler是YARN中默认的资源调度器。

在Capacity Scheduler的配置文件中，队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y，为了简单起见，我们记为Y，则每个队列可以配置的参数如下

资源分配相关参数

（1） capacity：队列的资源容量（百分比）。当系统非常繁忙时，应保证每个队列的容量得到满足，而如果每个队列应用程序较少，可将剩余资源共享给其他队列。注意，所有队列的容量之和应小于100。

（2） maximum-capacity：队列的资源使用上限（百分比）。由于存在资源共享，因此一个队列使用的资源量可能超过其容量，而最多使用资源量可通过该参数限制。

（3） minimum-user-limit-percent：每个用户最低资源保障（百分比）。任何时刻，一个队列中每个用户可使用的资源量均有一定的限制。当一个队列中同时运行多个用户的应用程序时中，每个用户的使用资源量在一个最小值和最大值之间浮动，其中，最小值取决于正在运行的应用程序数目，而最大值则由minimum-user-limit-percent决定。比如，假设minimum-user-limit-percent为25。当两个用户向该队列提交应用程序时，每个用户可使用资源量不能超过50%，如果三个用户提交应用程序，则每个用户可使用资源量不能超多33%，如果四个或者更多用户提交应用程序，则每个用户可用资源量不能超过25%。

（4） user-limit-factor：每个用户最多可使用的资源量（百分比）。比如，假设该值为30，则任何时刻，每个用户使用的资源量不能超过该队列容量的30%。

限制应用程序数目相关参数

（1） maximum-applications ：集群或者队列中同时处于等待和运行状态的应用程序数目上限，这是一个强限制，一旦集群中应用程序数目超过该上限，后续提交的应用程序将被拒绝，默认值为10000。所有队列的数目上限可通过参数yarn.scheduler.capacity.maximum-applications设置（可看做默认值），而单个队列可通过参数yarn.scheduler.capacity.<queue-path>.maximum-applications设置适合自己的值。

（2） maximum-am-resource-percent：集群中用于运行应用程序ApplicationMaster的资源比例上限，该参数通常用于限制处于活动状态的应用程序数目。该参数类型为浮点型，默认是0.1，表示10%。所有队列的ApplicationMaster资源比例上限可通过参数yarn.scheduler.capacity. maximum-am-resource-percent设置（可看做默认值），而单个队列可通过参数yarn.scheduler.capacity.<queue-path>. maximum-am-resource-percent设置适合自己的值。

队列访问和权限控制参数

（1） state ：队列状态可以为STOPPED或者RUNNING，如果一个队列处于STOPPED状态，用户不可以将应用程序提交到该队列或者它的子队列中，类似的，如果ROOT队列处于STOPPED状态，用户不可以向集群中提交应用程序，但正在运行的应用程序仍可以正常运行结束，以便队列可以优雅地退出。

（2） acl_submit_applications：限定哪些Linux用户/用户组可向给定队列中提交应用程序。需要注意的是，该属性具有继承性，即如果一个用户可以向某个队列中提交应用程序，则它可以向它的所有子队列中提交应用程序。配置该属性时，用户之间或用户组之间用“，”分割，用户和用户组之间用空格分割，比如“user1, user2 group1,group2”。

（3） acl_administer_queue：为队列指定一个管理员，该管理员可控制该队列的所有应用程序，比如杀死任意一个应用程序等。同样，该属性具有继承性，如果一个用户可以向某个队列中提交应用程序，则它可以向它的所有子队列中提交应用程序。

配置文件实例

<configuration>
<property>
<name>yarn.scheduler.capacity.maximum-applications</name>
<value>10000</value>
<description>最多可同时处于等待和运行状态的应用程序数目</description>
</property>

<property>
<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
<value>0.1</value>
<description>集群中可用于运行application master的资源比例上限，这通常用于限制并发运行的应用程序数目。</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.queues</name>
<value>default</value>
<description>root队列的所有子队列，该实例中只有一个</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.default.capacity</name>
<value>100</value>
<description>default队列的资源容量</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.default.user-limit-factor</name>
<value>1</value>
<description>
每个用户可使用的资源限制
</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
<value>100</value>
<description>
Default队列可使用的资源上限.
</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.default.state</name>
<value>RUNNING</value>
<description>
Default队列的状态，可以是RUNNING或者STOPPED.
</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.default.acl_submit_applications</name>
<value>*</value>
<description>
限制哪些用户可向default队列中提交应用程序.
</description>
</property>

<property>
<name>yarn.scheduler.capacity.root.default.acl_administer_queue</name>
<value>*</value>
<description>
限制哪些用户可管理default队列中的应用程序，“*”表示任意用户
</description>
</property>

<property>
<name>yarn.scheduler.capacity.node-locality-delay</name>
<value>-1</value>
<description>调度器尝试调度一个rack-local container之前，最多跳过的调度机会，通常而言，该值被设置成集群中机架数目，默认情况下为-1，表示不启用该功能。
</description>
</property>
</configuration>

常见问题

（1）默认情况下，各个节点的负载不均衡（任务数目不同），有的节点很多任务在跑，有的没有任务，怎样让各个节点任务数目尽可能均衡呢？

答：默认情况下，资源调度器处于批调度模式下，即一个心跳会尽可能多的分配任务，这样，优先发送心跳过来的节点将会把任务领光（前提：任务数目远小于集群可以同时运行的任务数量），为了避免该情况发生，可以按照以下说明配置参数：

如果采用的是fair scheduler，可在yarn-site.xml中，将参数yarn.scheduler.fair.max.assign设置为1（默认是-1,）

如果采用的是capacity scheduler（默认调度器），则不能配置，目前该调度器不带负载均衡之类的功能。

当然，从hadoop集群利用率角度看，该问题不算问题，因为一般情况下，用户任务数目要远远大于集群的并发处理能力的，也就是说，通常情况下，集群时刻处于忙碌状态，没有节点一直空闲着。

（2）某个节点上任务数目太多，资源利用率太高，怎么控制一个节点上的任务数目?

答：一个节点上运行的任务数目主要由两个因素决定，一个是NodeManager可使用的资源总量，一个是单个任务的资源需求量，比如一个 NodeManager上可用资源为8 GB内存，8 cpu，单个任务资源需求量为1 GB内存，1cpu，则该节点最多运行8个任务。

NodeManager上可用资源是由管理员在配置文件yarn-site.xml中配置的，相关参数如下：

yarn.nodemanager.resource.memory-mb：总的可用物理内存量，默认是8096

yarn.nodemanager.resource.cpu-vcores：总的可用CPU数目，默认是8

对于MapReduce而言，每个作业的任务资源量可通过以下参数设置：

mapreduce.map.memory.mb：物理内存量，默认是1024

mapreduce.map.cpu.vcores：CPU数目，默认是1

默认情况，各个调度器只会对内存资源进行调度，不会考虑CPU资源，你需要在调度器配置文件中进行相关设置

（3）如何设置单个任务占用的内存量和CPU数目？

答：对于MapReduce而言，每个作业的任务资源量可通过以下参数设置：

mapreduce.map.memory.mb：物理内存量，默认是1024

mapreduce.map.cpu.vcores：CPU数目，默认是1

需要注意的是，默认情况，各个调度器只会对内存资源进行调度，不会考虑CPU资源，你需要在调度器配置文件中进行相关设置。

（4）用户给任务设置的内存量为1000MB，为何最终分配的内存却是1024MB？

答：为了易于管理资源和调度资源，Hadoop YARN内置了资源规整化算法，它规定了最小可申请资源量、最大可申请资源量和资源规整化因子，如果应用程序申请的资源量小于最小可申请资源量，则 YARN会将其大小改为最小可申请量，也就是说，应用程序获得资源不会小于自己申请的资源，但也不一定相等；如果应用程序申请的资源量大于最大可申请资源量，则会抛出异常，无法申请成功；规整化因子是用来规整化应用程序资源的，应用程序申请的资源如果不是该因子的整数倍，则将被修改为最小的整数倍对应的值，公式为ceil(a/b)*b，其中a是应用程序申请的资源，b为规整化因子。

以上介绍的参数需在yarn-site.xml中设置，相关参数如下：

yarn.scheduler.minimum-allocation-mb：最小可申请内存量，默认是1024

yarn.scheduler.minimum-allocation-vcores：最小可申请CPU数，默认是1

yarn.scheduler.maximum-allocation-mb：最大可申请内存量，默认是8096

yarn.scheduler.maximum-allocation-vcores：最大可申请CPU数，默认是4

对于规整化因子，不同调度器不同，具体如下：

FIFO和Capacity Scheduler，规整化因子等于最小可申请资源量，不可单独配置。

Fair Scheduler：规整化因子通过参数yarn.scheduler.increment-allocation-mb和yarn.scheduler.increment-allocation-vcores设置，默认是1024和1。

通过以上介绍可知，应用程序申请到资源量可能大于资源申请的资源量，比如YARN的最小可申请资源内存量为1024，规整因子是1024，如果一个应用程序申请1500内存，则会得到2048内存，如果规整因子是512，则得到1536内存。

（5）我们使用的是Fairscheduler，配置了多个队列，当用户提交一个作业，指定的队列不存在时，Fair Scheduler会自动创建一个新队列而不是报错（比如报错：队列XXX不存在），如何避免这种情况发生？

答：在yarn-site.xml中设置yarn.scheduler.fair.allow-undeclared-pools，将它的值配置为false（默认是true）。

（6）使用Hadoop 2.0过程中，遇到了错误，怎样排查错误？

答：从hadoop 日志入手

0 0