程序博客网 > 开源数据展示平台

3个案例教你用Spark解决Map Reduce问题！

来源：互联网发布：开源数据展示平台编辑：程序博客网时间：2024/06/05 22:34

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。同时spark也让传统的mapreducejob开发变得更加简单快捷。之前我们大圣众包小编也为大家整理过Spark书单和方法，而本文将简单介绍几个经典hadoop的mr按理用spark实现，来让大家熟悉spark的开发。

　　最大值最小值

　　求最大值最小值一直是Hadoop的经典案例，我们用Spark来实现一下，借此感受一下spark中mr的思想和实现方式。话不多说直接上code

　　预期结果：

　　max:1001min:2

　　思路和hadoop中的mr类似，设定一个key，value为需要求最大与最小值的集合，然后再groupBykey聚合在一起处理。第二个方法就更简单，性能也更好。

　　平均值问题

　　求每个key对应的平均值是常见的案例，在spark中处理类似问题常常会用到combineByKey这个函数，详细介绍请google一下用法，下面看代码：

　　我们让每个partiton先求出单个partition内各个key对应的所有整数的和sum以及个数count，然后返回一个pair(sum,count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.

　　TopN问题

　　Topn问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢：

　　思路很简单，把数据groupBykey以后按key形成分组然后取每个分组最大的2个。预期结果：

　　以上简单介绍了一下hadoop中常见的3个案例在spark中的实现。如果读者们已经接触过或者写过一些hadoop的mapreducejob，那么会不会觉得在spark中写起来方便快捷很多呢。

0 0

开源数据展示平台

开源数据展示平台

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子 601558 华瑞风电信阳师范学院华锐学院 601558股票信阳学院正方教务系统信阳学院是几本信阳学院首页股票华锐风电信阳华锐学院华锦股份华锦里华锦华锦股份股吧华锦股份股票 000059华锦股份辽宁华锦化工集团有限公司华锦股份股票分析南宁君华锦云华锦阿美石油化工有限公司华阳华阳夫人华阳国际华阳古镇华阳湖华阳集团华阳公主华阳湖旅游华阳股票高华阳成都华阳华阳景区华阳之战华阳镇华阳国志华阳中学华阳邮编华阳客运站华阳湖壹号双流华阳华阳租房华阳电子