Spark源码走读7——Broadcast
来源:互联网 发布:简单的网页制作软件 编辑:程序博客网 时间:2024/04/29 07:09
Broadcast变量是Spark所支持的两种共享变量。主要共享分布式计算过程中各个task都会用到的只读变量。
广播变量允许程序员在每台机器上保持一个只读变量的缓存,而不是发送它的一个副本任务。他们可以用于:给一个大量输入数据集的副本以有效的拷贝到每个节点。Spark也尝试使用高效广播算法来降低通信成本。
以下是源码结构:
Spark目前提供了两种广播形式:
l HttpBroadcast:实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问
l TorrentBroadcast:一个BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。
HttpBroadcast
实现HTTP Server作为广播机制。第一次HTTP广播变量(发送一部分任务)反序列化执行。从driver(在driver上执行的HTTP Server)抓取广播数据,然后存储到Block中,以便下次更快速度访问。
Initialize方法:
源码如下:
1、在driver端创建createServer。
1、创建定时器
MetadataCleaner封装了一个定时器TimerTask,用于定时清理元数据。
TorrentBroadcast
一种BT实现。driver将序列化对象划分一个个小块,教给BlockManager处理存储。每一个执行器executor将首先尝试从BlockManager获取的对象。如果没有找到,它然后使用远程从driver或者其他执行器抓取数据块。一旦它得到的这个数据块,它会把块在自己的BlockManager,准备其他执行人从获取。
Initialize:
Torrent在此处没做什么,这也可以看出和Http的区别,Torrent的处理方式就是p2p,去中心化。而Http是中心化服务,需要启动服务来接受请求。
- Spark源码走读7——Broadcast
- Spark源码走读——Spark Streaming
- Spark源码走读1——RDD
- Spark源码走读4——Scheduler
- Spark源码走读5——Storage
- Spark源码走读6——Shuffle
- Spark源码走读8——NetWork
- Spark源码走读9——Metrics
- Spark源码走读11——Standalone
- Spark源码走读1——RDD
- Spark源码走读2——Spark Submit
- Spark源码走读10——Spark On Yarn
- Spark源码走读12——Spark Streaming
- Spark源码走读3——Job Runtime
- Spark源码走读(一)——Eclipse环境
- Spark源码走读(二) —— Job的提交
- Spark源码学习(7)——Broadcast
- Spark源码走读概述
- dae格式文件解析(顶点、蒙皮)
- 新人推浪
- 【坐在马桶上看算法】算法9:开启“树”之旅
- Mongodb启动命令mongod参数说明
- 015-DbgPrintMine与变参函数 郁金香灬老师 2015年游戏外挂视频教程第15课内容
- Spark源码走读7——Broadcast
- 【坐在马桶上看算法】算法10:二叉树
- [codevs 1913] 数字梯形问题
- Python核心编程 第九章
- 【啊哈!算法】算法11:堆——神奇的优先队列(上)
- 016-代码运行久了游戏为何异常分析 郁金香灬老师 2015年游戏外挂视频教程第16课内容
- C/C++中如何获取数组的长度?
- 让datagrid中的columns属性支持对象的子属性(类似user.userName)的方法
- Spark源码走读8——NetWork