大数据运算系统(2)--- 图计算系统

来源:互联网 发布:淘宝购物微信群号大全 编辑:程序博客网 时间:2024/06/06 09:21
同步图运算:消息传递
异步图运算:共享内存,可以立即看到完成的计算结果

一、同步图运算系统
1、图算法
(1)PageRank
Google用于对网页重要性打分的算法。

顶点:网页
边:超链接

(2)计算方法
初始化:所有顶点的PageRank为1/N
迭代:用公式迭代直至收敛

迭代公式:

Ru:所求u的PageRank
Rv:顶点v的PageRank
Lv:顶点v的出度(出边的条数)
Bu:顶点u的入邻居集合
d:damping factor
N:总顶点个数
(3)出现问题
由于N很大,造成的数据精度可能不够。
所以Ru’=NRu

改进算法计算方法:
初始化:所有顶点的PageRank为1
迭代:用新公式迭代直至收敛

新的迭代公式:

Ru:所求u的PageRank*N
Rv:顶点v的PageRank*N
Lv:顶点v的出度(出边的条数)
Bu:顶点u的入邻居集合
d:damping factor
N:总顶点个数

2、同步图运算
(1)图计算模型
运算分成多个超步。
超步内,并行执行每个顶点。
超步间,全局同步

顶点算法通常步骤:
接收上个超步发出的in-neighbor的消息。
计算当前顶点的值。
向out-neighbor发消息。
 (2)图计算模型的特点
特点1:BSP模型  Bulk Synchronous Processing

特点2:基于顶点的编程模型  
每个顶点有一个value。
顶点为中心的运算:程序员实现一个compute函数。在每个超步中,同步图系统对每一个顶点调用一次Compute。Compute通常接收消息,计算,发送消息。
(3)图计算如何结束
顶点有两种状态:
活跃态:图系统只对活跃顶点调用Compute;顶点初始状态均为活跃态。
非活跃态:Compute调用Vote to halt时,顶点变为非活跃态;非活跃态的顶点也可以重新变为活跃态。

当所有的顶点处于非活跃状态时,图系统结束本次图运算。

3、图计算编程
GraphLite编程
实现class Vertex的一个子类
class Vertex中有两类函数:
(1)图计算程序员需要实现的:Compute()
(2)系统提供的,可以在Compute调用的。例如:
getValue(),mutableValue(),
getOutEdgeIterator(),sendMessageTo(),sendMessageToAllNeighbors(),
voteToHalt()
superstep():获取当前超步数:从0开始计数
acculate(),getAggregate():全局统计量

4、系统实现
master worker
每个worker对应一个graph partition。

5、小结
基于BSP模型实现同步图运算
运算在内存中完成
容错依靠定期地把图状态写入硬盘生成检查点:在一个超步开始时,master可以要求所有的worker都进行检查点操作。
可以比较容易地表达一些图操作

二、异步图运算系统
可以用来实现一些机器学习算法。允许不同的顶点有不同的更新速度;一个顶点的更新,它的邻居顶点立即可见,而不是等到下一个超步开始。从而可以更快读地收敛。

1、数据模型
(1)Data graph G=(V,E) 
每个顶点、每条边都可以有数据D
(2)全局数据表(SDT,shared data table)
SDT[key] -> value
可以定义全局可见的数据

2、计算过程
Dscopev = update(Dscopev;  SDT)
update:类似compute,程序员定义的顶点运算
Dscopev:顶点运算设计的范围。包括顶点v,v的相邻边,v的相邻顶点。
0 0