Spark的standalone源码分析(五)
来源:互联网 发布:python 量化教程 编辑:程序博客网 时间:2024/06/03 12:58
承接上文,本节继续介绍broadcast机制中的BitTorrentBroadcast;
3. BitTorrentBroadcast
BitTorrentBroadcast即采用BitTorrent的方式来广播变量;
大致流程如下:
1. 首先,work节点通过GuideMultipleRequests服务向master节点获得selectedSources;master节点通过random select的方式从当前的listOfSources选出sources返回;当然,刚开始的时候master的listOfSources只有master节点,随着work节点的connect,listOfSources会不断增加;因此,BitTorrentBroadcast的work节点会间歇的与master节点通信以update master节点的listOfSources到本地;
class TalkToGuide(gInfo: SourceInfo) extends Thread with Logging { override def run() { // Keep exchaning information until all blocks have been received while (hasBlocks.get < totalBlocks) { talkOnce Thread.sleep(MultiTracker.ranGen.nextInt( MultiTracker.MaxKnockInterval - MultiTracker.MinKnockInterval) + MultiTracker.MinKnockInterval) } // Talk one more time to let the Guide know of reception completion talkOnce }
2. 然后,将selectedSources加入该work节点的listOfSources中,在pickPeerToTalkToRandom方法中,选择一个SourceInfo;pickPeerToTalkToRandom首先将已经connect的节点从候选节点中去除,从剩下的节点中选择拥有当前节点没有的blocks最多的那个节点;
// Select the peer that has the most blocks that this receiver does not peersNotInUse.foreach { eachSource => var tempHasBlocksBitVector: BitSet = null hasBlocksBitVector.synchronized { tempHasBlocksBitVector = hasBlocksBitVector.clone.asInstanceOf[BitSet] } tempHasBlocksBitVector.flip(0, tempHasBlocksBitVector.size) tempHasBlocksBitVector.and(eachSource.hasBlocksBitVector) if (tempHasBlocksBitVector.cardinality > curMax) { curPeer = eachSource curMax = tempHasBlocksBitVector.cardinality } }
3. 最后,根据2选择出来的SourceInfo,通过TalkToPeer,获取blocks;TalkToPeer会开启一个threadpool,向newPeerToTalkTo节点请求blocks数据,为防止重复的download block数据,会维护一个blocksInRequestBitVector位图,让其他的thread知道该block已经被同步;
// Let other threads know that blockToAskFor is being requested blocksInRequestBitVector.synchronized { blocksInRequestBitVector.set(blockToAskFor) }
- Spark的standalone源码分析(五)
- Spark的standalone源码分析(一)
- Spark的standalone源码分析(二)
- Spark的standalone源码分析(三)
- Spark的standalone源码分析(四)
- 深入理解Spark 2.1 Core (五):Standalone模式运行的原理与源码分析
- 深入理解Spark 2.1 Core (五):Standalone模式运行的原理与源码分析
- Standalone模式下Spark 中通信机制的源码分析
- 深入理解Spark 2.1 Core (六):Standalone模式运行的原理与源码分析
- 深入理解Spark 2.1 Core (七):Standalone模式任务执行的原理与源码分析
- Spark源码(1)- Master的启动(standalone)
- 深入理解Spark 2.1 Core (八):Standalone模式容错及HA的原理与源码分析
- 深入理解Spark 2.1 Core (八):Standalone模式容错及HA的原理与源码分析
- Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
- 源码-spark Standalone部署模式及其容错性分析
- Spark(一)-- Standalone HA的部署
- Spark的Standalone部署
- Spark源码分析(五)调度管理3
- UVa 644 - Immediate Decodability
- UIApplicationMain、UIApplication 和 UIApplicationDelegate 协议的关系
- poj - 2528 - Mayor's posters(线段树(区间更新))
- Groovy安装与入门实例
- 通宵以后怎样更快恢复身体
- Spark的standalone源码分析(五)
- Android PULL解析XML
- hibernate配置文件hibernate.cfg.xml的详细解释
- Creo二次开发--实例(1)
- 图解 RHEL6.0 的安装过程
- Java的传值和传引用
- boost库在工作(7)使用数组智能指针scoped_array
- 关于fflush
- 2013需要学习的课程