JobTracker节点后台线程之RetireJobs
来源:互联网 发布:江西网络干部学院 app 编辑:程序博客网 时间:2024/05/23 15:57
参考:http://blog.csdn.net/xhh198781/article/details/7342282
Hadoop中的用户作业在其整个生命周期中有5个状态,它们分别是:PREP、RUNNING、SUCCEEDED、FAILED、KILLED,而这其中的SUCCEEDED、FAILED、KILLED三个状态是互斥的,都可看做是Job的完成状态。当用户成功的提交了一个Job之后,这个Job就会进入PREP状态,然后这个Job的map启动任务会被首先交给一个TaskTracker节点来完成,当这个任务被成功执行之后,Job就会进入RUNNING状态,最后随着Job的map任务和reduce任务的完成状态,Job进入FAILED或SUCCEEDED或KILLED中的某一个状态,这个状态图如下:
当一个作业处于完成状态之后,JobTracker节点的任务调度器就不需要再考虑该Job了,也就是JobTracker需要把该Job从作业队列中删除。但是,JobTracker节点并不是马上就把与这个Job相关的信息删除掉,而是先把它缓存起来,同时建立一个用户与Job的映射,这个用户是指提交该作业的用户。至于JobTracker为什么会这么做,笔者目前也没有完全弄明白,推测可能与用户作业历史记录有关,也或者和集群的负载统计有关(如果有朋友知道这其中的原因可以@我)。当然这里可能有一个问题就是,JobTracker节点是否一直会缓存这些已完成Job的信息呢?实际上是不会的,因为JobTracker节点为每一个缓存的已完成Job信息设置了一个生命周期,当过了这个生命周期,这个缓存信息就会被清除掉。这个清理工作被设计成了JobTracker节点的一个组件——RetireJobs,这个RetireJobs作为JobTracker节点的后台线程,会定时的检测每一个缓存的已完成Job信息的生存时间是够已过期,如果过期了,他就会被清除。这个检查的间隔时间为RETIRE_JOB_CHECK_INTERVAL ms,默认值是60000,但也可通过配置文件来设置,对应的配置项为:mapred.jobtracker.retirejob.check。而每一个已完成Job信息的生存时间为RETIRE_JOB_INTERVAL ms,它的默认值24*60*60*1000,当然也可以通过配置文件来设置,对应的配置项为:mapred.jobtracker.retirejob.interval。这个过程的具体源码如下:
- static final int MIN_TIME_BEFORE_RETIRE = 60000;
- public void run() {
- while (true) {
- try {
- Thread.sleep(RETIRE_JOB_CHECK_INTERVAL);
- List<JobInProgress> retiredJobs = new ArrayList<JobInProgress>();
- long now = System.currentTimeMillis();
- long retireBefore = now - RETIRE_JOB_INTERVAL;
- synchronized (jobs) {
- for(JobInProgress job: jobs.values()) {
- if (job.getStatus().getRunState() != JobStatus.RUNNING &&
- job.getStatus().getRunState() != JobStatus.PREP &&
- (job.getFinishTime() + MIN_TIME_BEFORE_RETIRE < now) &&
- (job.getFinishTime() < retireBefore)) {
- retiredJobs.add(job);
- }
- }
- }
- if (!retiredJobs.isEmpty()) {
- synchronized (JobTracker.this) {
- synchronized (jobs) {
- synchronized (taskScheduler) {
- for (JobInProgress job: retiredJobs) {
- removeJobTasks(job);
- jobs.remove(job.getProfile().getJobID());
- for (JobInProgressListener l : jobInProgressListeners) {
- l.jobRemoved(job);
- }
- String jobUser = job.getProfile().getUser();
- synchronized (userToJobsMap) {
- ArrayList<JobInProgress> userJobs = userToJobsMap.get(jobUser);
- synchronized (userJobs) {
- userJobs.remove(job);
- }
- if (userJobs.isEmpty()) {
- userToJobsMap.remove(jobUser);
- }
- }
- LOG.info("Retired job with id: '" + job.getProfile().getJobID() + "' of user '" + jobUser + "'");
- // clean up job files from the local disk
- JobHistory.JobInfo.cleanupJob(job.getProfile().getJobID());
- }
- }
- }
- }
- }
- } catch (InterruptedException t) {
- break;
- } catch (Throwable t) {
- LOG.error("Error in retiring job:\n" + StringUtils.stringifyException(t));
- }
- }
- LOG.debug("Job Retire Thread is to stop..");
- }
但是,JobTracker节点的资源是有限的,如果某一个用户频繁的提交Job,那么这个用户对应的已完成Job信息缓存会占用大量的系统资源,所以JobTracker节点又设计了另一个检测机制,就是当一个作业完成时,它会判断这个Job对应的提交用户缓存的已完成Job信息的数量有没有达到一个阈值MAX_COMPLETE_USER_JOBS_IN_MEMORY,如果达到了这个阈值的话,就会删除他的所有缓存时间超过 MIN_TIME_BEFORE_RETIRE ms的已完成Job信息,直到这个用户缓存的已完成Job信息的数量下降到这个阈值。MAX_COMPLETE_USER_JOBS_IN_MEMORY可以通过配置文件来配置,对应的配置项为:mapred.jobtracker.completeuserjobs.maxinum,但它的默认值是100。
- JobTracker节点后台线程之RetireJobs
- JobTracker节点后台线程之RetireJobs
- JobTracker节点后台线程之ExpireTrackers
- JobTracker节点后台线程之ExpireLaunchingTasks
- JobTracker节点后台线程之CompleteJobStatusStore
- Hadoop源码之JobTracker
- Hadoop源码之JobTracker
- Hadoop JobTracker之ExpireLaunchingTasks
- JobTracker节点上的作业恢复RecoveryManager
- JobTracker
- JobTracker
- mapreduce源码分析之JobTracker
- Hadoop之JobTracker源码分析
- Hadoop之Jobtracker启动过程
- Hadoop之JobTracker,TaskTracker,Scheduler
- 线程扫盲之联合线程和后台线程
- JobTracker节点对Task实例状态报告的处理
- JobTracker任务调度器之JobQueueTaskScheduler
- 7.31 计算器基本完工
- Android 判断手机网络状态
- Android res汇总
- ftp下载方法-师兄的创作
- Java 6的下载失败
- JobTracker节点后台线程之RetireJobs
- RCP开发之绑定Action快捷键
- [C]if (CONDITION)语句中CONDITION的情况
- Java SE 7的程序员二级考试
- Java Servlet的基本教程介绍的Java servlet
- Java SE的Java虚拟机(JVM)
- poj3692Kindergarten
- tokyo tyrant/tokyo cabinet安装配置
- 复制书稿