Spark GraphX相关使用方法

来源:互联网 发布:淘宝网店助理 编辑:程序博客网 时间:2024/06/05 18:26

Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即对图进行并行计算。


Spark GraphX基本操作:

[plain] view plaincopy
  1. import org.apache.spark.SparkContext  
  2. import org.apache.spark._  
  3. import org.apache.spark.graphx._  
  4. import org.apache.spark.graphx.Graph  
  5. import org.apache.spark.graphx.Edge  
  6. import org.apache.spark.graphx.VertexRDD  
  7. import org.apache.spark.graphx.util.GraphGenerators  
  8. import org.apache.spark.graphx.GraphLoader  
  9. import org.apache.spark.storage.StorageLevel  
  10. import org.apache.spark.rdd.RDD  
  11.   
  12. object SparkGraphx1 {  
  13.   
  14.   def main(args: Array[String]) {  
  15.   
  16.     val sc = new SparkContext("spark://centos.host1:7077", "Spark Graphx")  
  17.   
  18.     //创建点RDD  
  19.     val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array(  
  20.         (3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),  
  21.         (5L, ("franklin", "prof")), (2L, ("istoica", "prof"))))  
  22.     //创建边RDD  
  23.     val relationships: RDD[Edge[String]] = sc.parallelize(Array(  
  24.         Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),  
  25.         Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi")))  
  26.     //定义一个默认用户,避免有不存在用户的关系  
  27.     val defaultUser = ("John Doe", "Missing")  
  28.     //构造Graph  
  29.     val graph = Graph(users, relationships, defaultUser)  
  30.       
  31.     //点RDD、边RDD过滤  
  32.     val fcount1 = graph.vertices.filter { case (id, (name, pos)) => pos == "postdoc" }.count  
  33.     println("postdocs users count: " + fcount1)  
  34.     val fcount2 = graph.edges.filter(edge => edge.srcId > edge.dstId).count  
  35.     println("srcId > dstId edges count: " + fcount2)  
  36.     val fcount3 = graph.edges.filter { case Edge(src, dst, prop) => src > dst }.count  
  37.     println("srcId > dstId edges count: " + fcount3)  
  38.       
  39.     //Triplets(三元组),包含源点、源点属性、目标点、目标点属性、边属性  
  40.     val triplets: RDD[String] = graph.triplets.map(triplet => triplet.srcId + "-" +   
  41.         triplet.srcAttr._1 + "-" + triplet.attr + "-" + triplet.dstId + "-" + triplet.dstAttr._1)  
  42.     triplets.collect().foreach(println(_))  
  43.       
  44.     //度、入度、出度  
  45.     val degrees: VertexRDD[Int] = graph.degrees;  
  46.     degrees.collect().foreach(println)  
  47.     val inDegrees: VertexRDD[Int] = graph.inDegrees  
  48.     inDegrees.collect().foreach(println)  
  49.     val outDegrees: VertexRDD[Int] = graph.outDegrees  
  50.     outDegrees.collect().foreach(println)  
  51.       
  52.     //构建子图  
  53.     val subGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")  
  54.     subGraph.vertices.collect().foreach(println(_))  
  55.     subGraph.triplets.map(triplet => triplet.srcAttr._1 + " is the " + triplet.attr + " of " + triplet.dstAttr._1)  
  56.         .collect().foreach(println(_))  
  57.      
  58.     //Map操作,根据原图的一些特性得到新图,原图结构是不变的,下面两个逻辑是等价的,但是第一个不会被graphx系统优化  
  59.     val newVertices = graph.vertices.map { case (id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")) }  
  60.     val newGraph1 = Graph(newVertices, graph.edges)  
  61.     val newGraph2 = graph.mapVertices((id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")))  
  62.       
  63.     //构造一个新图,顶点属性是出度  
  64.     val inputGraph: Graph[Int, String] =  
  65.         graph.outerJoinVertices(graph.outDegrees)((vid, _, degOpt) => degOpt.getOrElse(0))  
  66.     //根据顶点属性为出度的图构造一个新图,依据PageRank算法初始化边与点  
  67.     val outputGraph: Graph[Double, Double] =  
  68.         inputGraph.mapTriplets(triplet => 1.0 / triplet.srcAttr).mapVertices((id, _) => 1.0)  
  69.           
  70.     //图的反向操作,新的图形的所有边的方向相反,不修改顶点或边性属性、不改变的边的数目,它可以有效地实现不必要的数据移动或复制    
  71.     var rGraph = graph.reverse  
  72.       
  73.     //Mask操作也是根据输入图构造一个新图,达到一个限制制约的效果  
  74.     val ccGraph = graph.connectedComponents()  
  75.     val validGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")  
  76.     val validCCGraph = ccGraph.mask(validGraph)  
  77.           
  78.     //Join操作,原图外连出度点构造一个新图  ,出度为顶点属性  
  79.     val degreeGraph2 = graph.outerJoinVertices(outDegrees) { (id, attr, outDegreeOpt) =>  
  80.         outDegreeOpt match {  
  81.             case Some(outDeg) => outDeg  
  82.             case None => 0 //没有出度标识为零  
  83.         }  
  84.     }  
  85.       
  86.     //缓存。默认情况下,缓存在内存的图会在内存紧张的时候被强制清理,采用的是LRU算法  
  87.     graph.cache()  
  88.     graph.persist(StorageLevel.MEMORY_ONLY)  
  89.     graph.unpersistVertices(true)  
  90.       
  91.     //GraphLoader构建Graph  
  92.     var path = "/user/hadoop/data/temp/graph/graph.txt"  
  93.     var minEdgePartitions = 1  
  94.     var canonicalOrientation = false // if sourceId < destId this value is true  
  95.     val graph1 = GraphLoader.edgeListFile(sc, path, canonicalOrientation, minEdgePartitions,  
  96.       StorageLevel.MEMORY_ONLY, StorageLevel.MEMORY_ONLY)  
  97.   
  98.     val verticesCount = graph1.vertices.count  
  99.     println(s"verticesCount: $verticesCount")  
  100.     graph1.vertices.collect().foreach(println)  
  101.   
  102.     val edgesCount = graph1.edges.count  
  103.     println(s"edgesCount: $edgesCount")  
  104.     graph1.edges.collect().foreach(println)  
  105.   
  106.     //PageRank  
  107.     val pageRankGraph = graph1.pageRank(0.001)  
  108.     pageRankGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.pr")  
  109.     pageRankGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)  
  110.       
  111.     //Connected Components  
  112.     val connectedComponentsGraph = graph1.connectedComponents()  
  113.     connectedComponentsGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.cc")  
  114.     connectedComponentsGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)  
  115.       
  116.     //TriangleCount主要用途之一是用于社区发现 保持sourceId小于destId  
  117.     val graph2 = GraphLoader.edgeListFile(sc, path, true)  
  118.     val triangleCountGraph = graph2.triangleCount()  
  119.     triangleCountGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.tc")  
  120.     triangleCountGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)  
  121.   
  122.     sc.stop()  
  123.   }  
  124.     
  125. }  

—————————————————————————————————————————————————————————————————————————————

Spark GraphX的一些其他有用操作:

[plain] view plaincopy
  1. import org.apache.spark._  
  2. import org.apache.spark.SparkContext  
  3. import org.apache.spark.graphx._  
  4. import org.apache.spark.graphx.Graph  
  5. import org.apache.spark.graphx.util.GraphGenerators  
  6. import org.apache.spark.rdd.RDD  
  7.   
  8. object SparkGraphx {  
  9.   
  10.   def main(args: Array[String]) {  
  11.   
  12.     val sc = new SparkContext("spark://centos.host1:7077", "Spark Graphx")  
  13.   
  14.     //通过GraphGenerators构建一个随机图  
  15.     val numVertices = 100  
  16.     val numEParts = 2  
  17.     val mu = 4.0  
  18.     val sigma = 1.3  
  19.     val graph: Graph[Double, Int] = GraphGenerators.logNormalGraph(  
  20.       sc, numVertices, numEParts, mu, sigma).mapVertices((id, _) => id.toDouble)  
  21.         
  22.     graph.triplets.collect.foreach(triplet => println(triplet.srcId + "-" + triplet.srcAttr + "-" +   
  23.         triplet.attr + "-" + triplet.dstId + "-" + triplet.dstAttr))  
  24.   
  25.     //mapReduceTriplets函数使用样例  
  26.     //计算年龄大于自己的关注者的总人数和总年龄  
  27.     val olderFollowers: VertexRDD[(Int, Double)] = graph.mapReduceTriplets[(Int, Double)](  
  28.       //Map函数  
  29.       triplet => {  
  30.         if (triplet.srcAttr > triplet.dstAttr) {  
  31.           Iterator((triplet.dstId, (1, triplet.srcAttr)))  
  32.         } else {  
  33.           Iterator.empty  
  34.         }  
  35.       },  
  36.       //Reduce函数  
  37.       (a, b) => (a._1 + b._1, a._2 + b._2)  
  38.     )  
  39.     //计算年龄大于自己的关注者的平均年龄  
  40.     val avgAgeOfOlderFollowers: VertexRDD[Double] =  
  41.       olderFollowers.mapValues((id, value) => value match {case (count, totalAge) => totalAge / count })  
  42.       
  43.     avgAgeOfOlderFollowers.collect.foreach(println(_))  
  44.   
  45.     //定义一个Reduce函数来计算图中最大度的点  
  46.     def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = {  
  47.       if (a._2 > b._2) a else b  
  48.     }  
  49.     val maxInDegree: (VertexId, Int) = graph.inDegrees.reduce(max)  
  50.     println(s"maxInDegree: $maxInDegree")  
  51.     val maxOutDegree: (VertexId, Int) = graph.outDegrees.reduce(max)  
  52.     println(s"maxOutDegree: $maxOutDegree")  
  53.     val maxDegrees: (VertexId, Int) = graph.degrees.reduce(max)  
  54.     println(s"maxDegrees: $maxDegrees")  
  55.   
  56.     //计算邻居相关函数,这些操作是相当昂贵的,需要大量的重复信息作为他们的通信,因此相同的计算还是推荐用mapReduceTriplets   
  57.     val neighboorIds:VertexRDD[Array[VertexId]] = graph.collectNeighborIds(EdgeDirection.Out)  
  58.     val neighboors:VertexRDD[Array[(VertexId, Double)]] = graph.collectNeighbors(EdgeDirection.Out);  
  59.   
  60.     //Pregel API。计算单源最短路径  
  61.     val graph1 = GraphGenerators.logNormalGraph(sc, numVertices, numEParts, mu, sigma).mapEdges(e => e.attr.toDouble)  
  62.     //定义一个源值 点  
  63.     val sourceId: VertexId = 42  
  64.     //初始化图的所有点,除了与指定的源值点相同值的点为0.0以外,其他点为无穷大  
  65.     val initialGraph = graph1.mapVertices((id, _) => if (id == sourceId) 0.0 else Double.PositiveInfinity)  
  66.     //Pregel有两个参数列表,第一个参数列表包括的是:初始化消息、迭代最大数、边的方向(Out)。第二个参数列表包括的是:用户定义的接受消息、计算消息、联合合并消息的函数。  
  67.     val sssp = initialGraph.pregel(Double.PositiveInfinity)(  
  68.       //点程序  
  69.       (id, dist, newDist) => math.min(dist, newDist),  
  70.       //发送消息  
  71.       triplet => {  
  72.         if (triplet.srcAttr + triplet.attr < triplet.dstAttr) {  
  73.           Iterator((triplet.dstId, triplet.srcAttr + triplet.attr))  
  74.         } else {  
  75.           Iterator.empty  
  76.         }  
  77.       },  
  78.       //合并消息  
  79.       (a, b) => math.min(a, b)  
  80.       )  
  81.     println(sssp.vertices.collect.mkString("\n"))  
  82.   
  83.     //aggregateUsingIndex操作  
  84.     val setA: VertexRDD[Int] = VertexRDD(sc.parallelize(0L until 100L).map(id => (id, 1)))  
  85.     val rddB: RDD[(VertexId, Double)] = sc.parallelize(0L until 100L).flatMap(id => List((id, 1.0), (id, 2.0)))  
  86.     val setB: VertexRDD[Double] = setA.aggregateUsingIndex(rddB, _ + _)  
  87.     val setC: VertexRDD[Double] = setA.innerJoin(setB)((id, a, b) => a + b)  
  88.   
  89.     sc.stop()  
  90.       
  91.   }  
  92.   
  93. }  
本文转自

转自:http://blog.csdn.net/fighting_one_piece/article/details/39668267

http://blog.csdn.net/fighting_one_piece/article/details/39673193,所有权力归原作者所有。
0 0
原创粉丝点击