Spark相对于MapReduce的优势
来源:互联网 发布:mysql怎么卸载干净 编辑:程序博客网 时间:2024/05/16 01:12
Spark是类Hadoop MapReduce的通用的并行计算框架,但不同于MapReduce的是Job中间输出和结果可以保存在内存中,也就是说spark是基于内存计算的,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法
这里简单说一下对spark相对于mapreduce的优势:
1.中间结果:
传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型(由于每一次MapReduce的输入/输出数据,都需要读取/写入磁盘当中,如果涉及到多个作业流程,就意味着多次读取和写入HDFS),使得在迭代计算式要进行大量的磁盘IO操作
RDD抽象出一个被分区、不可变、且能并行操作的数据集;从HDFS读取的需要计算的数据,在经过处理后的中间结果会作为RDD单元缓存到内存当中,并可以作为下一次计算的输入信息。最终Spark只需要读取和写入一次HDFS,这样就避免了Hadoop MapReduce的大IO操作
2.执行策略:
MapReduce在数据shuffle之前需要进行排序,而spark不需要对所有场景进行排序,这也就加快了spark的计算速度
3.更好的容错性:
spark中RDD之间维护了血缘关系,一旦某个RDD失败了,就能通过父类RDD自动重建,保证了容错性
4.spark更适合做实时流处理
MapReduce 更 加 适 合 处 理 离 线 数 据( 当 然, 在 YARN 之 后,Hadoop也可以借助其他工具进行流式计算)。Spark 很好地支持实时的流计算,依赖Spark Streaming 对数据进行实时处理。Spark Streaming 具备功能强大的 API,允许用户快速开发流应用程序。
5.易用性
spark的代码量比mapreduce少的多
6.spark的社区非常活跃
Spark 非常重视社区活动,组织也极为规范,会定期或不定期地举行与 Spark相关的会议。会议分为两种 :一种是 Spark Summit,影响力极大,可谓全球 Spark顶尖技术人员的峰会,目前已于 2013—2015 年在 San Francisco 连续召开了三届Summit 大会 ;另一种是 Spark 社区不定期地在全球各地召开的小型 Meetup 活动。Spark Meetup 也会在我国的一些大城市定期召开
- Spark相对于MapReduce的优势
- Spark相比MapReduce的优势
- 线程相对于进程的优势
- epoll 相对于select的优势
- epoll 相对于select的优势
- Linux相对于VxWorks的优势
- Hbase相对于Mysql的优势
- mybatis相对于ibatis的优势
- 延云YDB相对于Mdrill的优势
- 条件随机场(CRF)相对于HMM,MEMM的优势
- C#脚本实践(六): 脚本相对于C++的优势
- 多进程编程 相对于 多线程编程的优势
- 组播相对于单播和广播的优势
- 小程序相对于传统推广的优势所在
- spring注解配置相对于传统xml配置的优势
- Spark的5大优势
- Spark的MapReduce
- java中的垃圾收集器相对于以前的语言的优势
- windows内核exploit训练项目HackSysExtremeVulnerableDriver(HEVD)-整数溢出
- idea使用转载【别人的专栏】
- SQL server 将数据导出到文件方法
- SRIO学习(二)——SRIO结构
- cocos2d-x SpriteBatchNode
- Spark相对于MapReduce的优势
- leofs 安装部署
- ejs模板使用:Layout,Blocks,Partials
- 打开.class文件的方法
- 爱测未来移动-Android静默安装
- Mybatis--使用mybatis generator插件映射数据库,自动生成pojo对象,dao接口,mapper.xml文件的方法
- Unity3D 陀螺仪两种方法
- 了解和使用Android神器Xposed框架
- 数据压缩原理实验6_MPEG音频编码