spark【例子】同类合并、计算（主要使用groupByKey）

来源：互联网发布：校园网络连接ip网关编辑：程序博客网时间：2024/05/16 18:08

例子描述：

【同类合并、计算】

主要为两部分，将同类的数据分组归纳到一起，并将分组后的数据进行简单数学计算。
难点在于怎么去理解groupBy和groupByKey

原始数据
2010-05-04 12:50,10,10,10
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-04 12:50,10,10,10
2010-05-04 11:50,10,10,10

结果数据
2010-05-05 13:50,40,40,40
2010-05-04 12:50,20,20,20
2010-05-06 14:50,60,60,60
2010-05-04 11:50,10,10,10

代码片段：

/* 同类合并、计算 */val source = Source.fromFile("E:test.txt").getLines.toArrayval sourceRDD = sc.parallelize(source)                                  /* spark单机读取数据 */sourceRDD.map {  line =>    val lines = line.split(",")                                         /* 拆分数据 */    (s"${lines(0)}", s"${lines(1)},${lines(2)},${lines(3)}")            /* 找出同样的数据为K，需要进行计算的为V，拼成map */}.groupByKey.map {                                                      /* 分组，最重要的就是这，同类的数据分组到一起，后面只需要计算V了 */  case (k, v) =>    var a, b, c = 0                                                     /* 定义几个存数据的变量，恩，这很java，一般scala中很少见到var */    v.foreach {                                                         /* 遍历需要计算的V  */      x =>        val r = x.split(",")                                            /* 将V拆分 */        a += r(0).toInt                                                 /* 计算 */        b += r(1).toInt        c += r(2).toInt    }    s"$k,$a,$b,$c"                                                      /* 拼字符串，返回数据 */}.foreach(println)1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

阅读全文

0 0