大数据Spark企业级实战版【学习笔记】----Spark Streaming

来源:互联网 发布:python现实世界 编辑:程序博客网 时间:2024/05/18 05:59

3. Spark GraphX

从官网的说明来看,GraphX是Spark中用于图与图并行计算的API,可以认为是GraphLab和Pregel(图计算模型)在Spark上的重写及优化。跟其他分布式图计算框架相比,GraphX最大的贡献是在Spark之上提供了一栈式数据解决方案,可以方便且高效的完成图计算的一整套流水作业。

       GraphX的核心抽象是Resilient Distributed Property Graph,一种点和边都带属性的有向多重图。它扩展了Spark RDD的抽象,有Table和Graph两种视图,而只需要一份物理存储。两种视图都有自己独有的操作符,从而提高了操作灵活性和执行效率。

       Table视图将图看成Vertex Property Table和Edge Property Table等的组合,这些Table继承了Spark RDD的API,如filter、map等。

       Graph视图包括reverse、subgraph、mapV(E)、joinV(E)、mrTriplets等操作。

       GraphX也提供了一套图算法工具包,方便用户对图进行分析。GraphX目前依然处于快速发展中。GraphX的架构如图1-12所示:


       

阅读全文
0 0
原创粉丝点击