spark工作机制见解
来源:互联网 发布:网络机顶盒浏览器下载 编辑:程序博客网 时间:2024/05/21 22:24
1.spark执行机制总览
在Spark的底层实现中,通过RDD进行数据的管理,RDD中有一组分布在不同节点的数据块,当spark的应用在对这个RDD进行操作时,调度器将包含操作的任务分发到指定的机器上执行,在计算节点通过多线程的方式执行任务。一个操作执行完毕,RDD变转换为另一个RDD,这样,用户的操作依次执行。Spark为了系统的内存不至于快速用完,使用延迟执行的方式执行,即只有操作累计到Action(行动),算子才会触发整个操作序列的执行,中间结果不会单独再重新分配内存,而是在同一个数据块上进行流水线操作。
在集群的程序实现上,有一个重要的分布式数据结构,即弹性分布式数据集。Spark实现了分布式计算和任务处理,并实现了任务的分发,跟踪,执行等工作,最终聚合结果,完成Spark应用的计算。
对RDD的块管理通过BlockManager完成,BlockManager将数据抽象伪数据块,在内存或者磁盘进行存储,如果数据不在本节点,则还可以通过远端节点复制到本机进行计算。
在计算节点的执行器Executor中会创建线程池,这个执行器将需要执行的任务通过线程池并发执行。
0 0
- spark工作机制见解
- Spark工作机制
- Spark的工作机制
- spark工作机制
- spark 工作机制
- Spark工作机制
- spark架构及其工作机制
- Spark(四) -- Spark工作机制
- Spark征程——Spark工作机制
- 【Spark系列】三、Spark工作机制
- 【Spark工作机制详解】 执行机制
- 【Spark工作机制详解】 I/O 机制
- 【Spark工作机制详解】容错机制
- 【Spark工作机制详解】 Shuffle机制
- 【Spark工作机制详解】通信模块
- Spark-core 架构及工作机制综述
- spark的工作机制详细介绍、spark源码编译、spark编程实战
- 【Spark工作机制详解】调度与任务分配
- 解决微信H5背景音乐不自动播放问题
- <Linux>三个网络配置文件 /etc/hosts、/etc/host.conf、/etc/resolv.conf
- js获取当前行元素
- HTML表单知识
- js删除数组元素
- spark工作机制见解
- _.remove删除数组元素
- $.inArray在数组中搜索指定的值
- Note02--1NF&2NF&3NF&4NF
- linux下memcached安装
- html水平导航栏设置
- 实时监听input输入的变化
- 内存溢出(java.lang.OutOfMemoryError )解决方法!
- 机器学习技能树