关于"failed to report status for 600 seconds. killing"的错误

来源:互联网 发布:p6软件 编辑:程序博客网 时间:2024/06/05 15:47

在做CPU密集型的MR任务时,有时会出现failed to report status for 600 seconds. killing的错误,分析了一下,是因为task长时间在跑任务,没有向jobtracker发送心跳包。 有以下方法可以改善这个问题。

1. 延长task超时时间

这种方法通过修改配置项mapred.task.timeout来延长超时时间。 默认是600000ms,可以根据任务的不同在相应job的configuration配置。 或者修改hadoop系统的配置文件更改全局配置。

在mapred-site.xml里面多加上
<property>
<name>mapred.task.timeout</name>
<value>600000</value><!--這是預設-->
</property>

更换这个属性,设置成0表示不限制。
conf.set("mapred.task.timeout","0");...結果是一樣的

2. 手动汇报

在task里可以定期调用org.apache.hadoop.mapreduce.TaskAttemptContext.progress()来向jobtracker发送心跳包,防止任务超时。

0 0
原创粉丝点击