spark论文阅读笔记(三)
来源:互联网 发布:php技术论坛 编辑:程序博客网 时间:2024/06/08 11:42
一、作业调度(Job scheduler)
在spark中,一个作业一般就是对一个RDD的action操作。当该操作发生时,调度器会根据记录,为这个程序构建一个若干阶段组成的DAG(有向无环图),如下:
每个阶段(stage)的划分标准是,尽可能多的包含连续的窄依赖(如上图的stage 2),各个阶段通过宽依赖对应的操作划分,如stage2、3之间的join操作。有了这个DAG,接下来调度器就用多个任务(可能在不同的worker上)来计算各个阶段的分区。
二、解析器(spark-shell)
需要注意的是,spark的解析器不止spark-shell,还有pyspark等,这里只是以spark-shell举例。
简单来说shell是逐行翻译命令,比如var
println(x)
println(Lines1.getInstance().x)
总之,spark-shell对应的,不是一般的scala解释器,而是经过加工的适用于RDD的特殊scala解释器。
阅读全文
0 0
- spark论文阅读笔记(三)
- 论文阅读笔记(三)
- spark论文阅读笔记(一)
- spark论文阅读笔记(二)
- 论文阅读(三)
- Apache Spark源码走读之1 -- Spark论文阅读笔记
- Apache Spark源码走读之1 -- Spark论文阅读笔记
- 论文阅读笔记(三)细粒度图像检索
- 详细阅读Spark论文
- Spark源码阅读笔记之Broadcast(三)
- spark源码阅读笔记Dataset(三)structField、structType、schame
- 论文阅读笔记(六)
- 论文阅读笔记(五)
- 论文阅读笔记(四)
- 论文阅读笔记(二)
- 论文阅读笔记(一)
- 深度学习论文阅读笔记(三)之深度信念网络DBN
- 阅读笔记(三)
- leetcode:atoi(含去除首空格与字…
- leetcode:最大容器问题
- spark说明手册阅读笔记
- spark论文阅读笔记(一)
- spark论文阅读笔记(二)
- spark论文阅读笔记(三)
- leetcode:字符排列组合
- Nginx基本配置(PHP)
- 用JS写的一个简单的导航栏
- leetcode:4sum以及快慢指针
- SparkInternal阅读笔记(一)
- linux杂项命令笔记(scp、tar、find…
- 深度学习与CNN、RNN(一)(反向传…
- 深度学习与CNN、RNN(二)