spark【例子】同类合并、计算(主要使用groupByKey)
来源:互联网 发布:校园网络连接ip网关 编辑:程序博客网 时间:2024/05/16 18:08
例子描述:
【同类合并、计算】
主要为两部分,将同类的数据分组归纳到一起,并将分组后的数据进行简单数学计算。
难点在于怎么去理解groupBy和groupByKey
原始数据
2010-05-04 12:50,10,10,10
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-04 12:50,10,10,10
2010-05-04 11:50,10,10,10
结果数据
2010-05-05 13:50,40,40,40
2010-05-04 12:50,20,20,20
2010-05-06 14:50,60,60,60
2010-05-04 11:50,10,10,10
代码片段:
/* 同类合并、计算 */val source = Source.fromFile("E:test.txt").getLines.toArrayval sourceRDD = sc.parallelize(source) /* spark单机读取数据 */sourceRDD.map { line => val lines = line.split(",") /* 拆分数据 */ (s"${lines(0)}", s"${lines(1)},${lines(2)},${lines(3)}") /* 找出同样的数据为K,需要进行计算的为V,拼成map */}.groupByKey.map { /* 分组,最重要的就是这,同类的数据分组到一起,后面只需要计算V了 */ case (k, v) => var a, b, c = 0 /* 定义几个存数据的变量,恩,这很java,一般scala中很少见到var */ v.foreach { /* 遍历需要计算的V */ x => val r = x.split(",") /* 将V拆分 */ a += r(0).toInt /* 计算 */ b += r(1).toInt c += r(2).toInt } s"$k,$a,$b,$c" /* 拼字符串,返回数据 */}.foreach(println)
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
阅读全文
0 0
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark【例子】同类合并、计算(主要使用groupByKey)
- spark【例子】同类合并、计算2
- spark【例子】同类合并、计算2
- spark【例子】同类合并、计算2
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
- Spark groupbykey和cogroup使用示例
- 在Spark中尽量少使用GroupByKey函数
- 在Spark中尽量少使用GroupByKey函数
- Spark使用小结:Java版的GroupByKey示例
- 在Spark中尽量少使用GroupByKey函数
- [spark]groupbykey reducebykey
- spark groupByKey操作
- spark--transform算子--groupByKey
- OpenCV自学笔记8:读取视频文件
- 分位数概念
- ubuntu14.04安装cudnn
- 转发
- Lua笔记补充
- spark【例子】同类合并、计算(主要使用groupByKey)
- 算法笔记--贪心(田忌赛马)
- python2和python3的区别
- makefile常用函数和自动化变量
- 【基础】JavaEE中Web服务器、Web容器、Application服务器区别以及联系
- pymongo库学习
- 【利用Python进行数据分析——经验篇2】计算微博转发/评论/点赞h指数的Python代码
- java数据类型(八种基本数据类型+三种引用类型)
- javascript本地对象String对象方法;