整理spark中的job stage task几个概念以及运行案例
来源:互联网 发布:夏朝存在吗 知乎 编辑:程序博客网 时间:2024/06/03 18:06
Job :
是一个比task 和 stage 更大的逻辑概念,job 可以认为是我们在driver 或是通过spark-submit 提交的程序中一个action ,在我们的程序中有很多action 所有也就对应很多的jobs
Stage:
是spark 中一个非常重要的概念 ,在一个job 中划分stage 的一个重要依据是否有shuflle 发生 ,也就是是否会发生数据的重组 (重新组织数据)。在一个stage 内部会有很多的task 被执行,在同一个stage 中 所有的task 结束后才能根据DAG 依赖执行下一个stage 中的task.
在spark streaming中,一个application可以在时间维度上划分为无数个job, 一个job 有很多任务组成,每组任务可以任务是一个stage , 而Task 是spark 中另一个很重要的概念 ,
task 跟 partition block 等概念紧密相连 ,task 是执行job 的逻辑单元 ,在task 会在每个executor 中的cpu core 中执行
下面是一个基于streaming实时计算的wordcount案例:
1. 首先基于yarn-cluster的模式 提交一个wordcount application
2. 在sparkcontext配置中 Durations.seconds(1) 设置为1秒,因此相隔1秒的时间段内的RDD数据 作为计算对象 来触发一个action,也就是一个job
3. 在id 为4988的job中,根据wordcount的逻辑主要有两个stage
4. 点击id为9977的 stage 即对应的foreach stage中,可以看到 该stage 由N个task来实际执行计算任务
阅读全文
0 0
- 整理spark中的job stage task几个概念以及运行案例
- spark job, stage ,task介绍。
- spark job, stage, task介绍
- 深入研究 spark 运行原理之 job, stage, task
- Spark的stage & job & task 到底是什么 ,以及划分原理
- Spark的stage & job & task 到底是什么 ,以及划分原理
- Spark job, stage, task, partition相关问题
- 『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
- spark中的job和stage
- spark中stage运行的触发器--job
- Spark中Job、Stage和Task的关系
- Spark的几个基本概念:Driver和Job,Stage
- Spark的几个基本概念:Driver和Job,Stage
- Spark的几个基本概念:Driver和Job,Stage
- Spark的几个基本概念:Driver和Job,Stage
- spark中的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。
- 【Spark】worker、executor、core、stage、task、partition概念
- Spark中job、stage、task的划分+源码执行过程分析
- 求sinx的近似值
- PAT考试乙级1028(C语言实现)重点题目
- hbase filter(过滤器)和coprocessor(协处理器)统计行数的简单应用
- Linux下安装jdk、tomcat
- 三大流行的编排系统 orchestration: Docker Swarm,Google Kubernetes, Apache Mesos
- 整理spark中的job stage task几个概念以及运行案例
- es6 学习笔记
- CentOS安装升级高版本git
- 前端面试题8
- dialog中的EditText无法弹出输入框解决方法
- 十四 Java 方法
- Python中的LEGB规则
- retrofit2一个key值上传多个文件
- 多线程,高并发的情况下操作redis当中的数据,如何加锁?