话题讨论：Spark VS Hadoop有哪些异同点？(转)

来源：互联网发布：淘宝如何查看店铺粉丝编辑：程序博客网时间：2024/06/05 15:57

Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性，现已逐渐获得很多企业的支持，如阿里巴巴、百度、网易、英特尔等公司。

就以下几个问题发表自己的观点
1、Spark VS Hadoop有哪些异同点？
2、Spark在容错性方面是否比其他工具更有优越性？
3、Spark对于数据处理能力和效率有哪些特色？
4、说说您阅读迷你书的感想？

活动时间：2014年5月5日-5月20日。

活动奖励：我们会在讨论结束后，我们随机抽取5名网友赠送《Spark快速数据处理》这本书作为奖励。

图书信息

书名：Spark快速数据处理
作者：Holden Karau著
译者：余璜，张磊译
出版社：机械工业出版社
迷你书免费下载：http://wenku.it168.com/d_001429950.shtml
活动已结束，恭喜以下五位获奖者：
oracle_cj
Detaillee
苏上人
harkjim
dongmusic

Spark, Hadoop, 通用, 并行, 分布式, Spark, Hadoop, 通用, 并行, 分布式

本主题由 System 于 2014-5-12 10:00 解除限时置顶

相关帖子
本版精华
热门专题

【有奖话题讨论】大数据：互联网大规模数据挖掘与分布式处理（已公布获奖）
新课出炉《Spark大数据平台》开始上线招募喽！欢迎大家一起探索学习！
如何做到敏捷数据分析：用Hadoop创建数据分析应用
话题讨论：菜鸟必看 Hadoop 入门到精通
话题讨论：大数据时代的数据处理方案部署（已公布获奖）
话题讨论：高手接招破解Hadoop 技术内幕
话题讨论：想成为Hadoop技术高手吗？
求问跨行支付渠道
【四川省】【外资大型会议系统公司】【数据存储】
hadoop安装，从start-all.sh,stop-all.sh和jps都正常，但查看集群状态有效数据节点确0

使用道具举报

在分析strace输出的时候，发现有 ... | 源码安装php，遇到问题。 | RHEL 7.1 还没发布啊！！ | awk怎么排除一列输出其他的列呢？ ...

oracle_cj

注册会员

Jason

精华贴数: 0
专家积分: 293
技术积分: 7148
社区积分: 6170
注册时间: 2013-6-30

论坛徽章:: 385

加好友
发消息

2^#

发表于 2014-5-5 09:27:48 |只看该作者

本帖最后由 oracle_cj 于 2014-5-16 21:34 编辑

1、 Spark VSHadoop有哪些异同点？

Hadoop:分布式批处理计算，强调批处理，常用于数据挖掘、分析

Spark:是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms,Machines,and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

虽然 Spark 与 Hadoop 有相似之处，但它提供了具有有用差异的一个新的集群计算框架。首先，Spark 是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟.

在大数据处理方面相信大家对hadoop已经耳熟能详，基于GoogleMap/Reduce来实现的Hadoop为开发者提供了map、reduce原语，使并行批处理程序变得非常地简单和优美。Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map,filter, flatMap,sample, groupByKey, reduceByKey, union,join, cogroup,mapValues, sort,partionBy等多种操作类型，他们把这些操作称为Transformations。同时还提供Count,collect, reduce, lookup, save等多种actions。这些多种多样的数据集操作类型，给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的分区等。可以说编程模型比Hadoop更灵活.

2、Spark在容错性方面是否比其他工具更有优越性？

从Spark的论文《Resilient Distributed Datasets: AFault-TolerantAbstraction for In-Memory Cluster Computing》中没看出容错性做的有多好。倒是提到了分布式数据集计算，做checkpoint的两种方式，一个是checkpoint data，一个是loggingthe updates。貌似Spark采用了后者。但是文中后来又提到，虽然后者看似节省存储空间。但是由于数据处理模型是类似DAG的操作过程，由于图中的某个节点出错，由于lineage chains的依赖复杂性，可能会引起全部计算节点的重新计算，这样成本也不低。他们后来说，是存数据，还是存更新日志，做checkpoint还是由用户说了算吧。相当于什么都没说，又把这个皮球踢给了用户。所以我看就是由用户根据业务类型，衡量是存储数据IO和磁盘空间的代价和重新计算的代价，选择代价较小的一种策略。取代给中间结果进行持久化或建立检查点，Spark会记住产生某些数据集的操作序列。因此，当一个节点出现故障时，Spark会根据存储信息重新构造数据集。他们认为这样也不错，因为其他节点将会帮助重建。

3、Spark对于数据处理能力和效率有哪些特色？

Spark提供了高的性能和大数据处理能力，使得用户可以快速得到反馈体验更好。另一类应用是做数据挖掘，因为Spark充分利用内存进行缓存，利用DAG消除不必要的步骤，所以比较合适做迭代式的运算。而有相当一部分机器学习算法是通过多次迭代收敛的算法，所以适合用Spark来实现。我们把一些常用的算法并行化用Spark实现，可以从R语言中方便地调用，降低了用户进行数据挖掘的学习成本。

Spark配有一个流数据处理模型，与Twitter的 Storm框架相比，Spark采用了一种有趣而且独特的办法。Storm基本上是像是放入独立事务的管道，在其中事务会得到分布式的处理。相反，Spark采用一个模型收集事务，然后在短时间内（我们假设是5秒）以批处理的方式处理事件。所收集的数据成为他们自己的RDD，然后使用Spark应用程序中常用的一组进行处理。作者声称这种模式是在缓慢节点和故障情况下会更加稳健，而且5秒的时间间隔通常对于大多数应用已经足够快了。这种方法也很好地统一了流式处理与非流式处理部分。

4、说说您阅读迷你书的感想？

迷你书，主要在于提供一个索引,以至于快速扫描内容,有一个大致的感性认识

Standing on Shoulders of Giants

使用道具举报

arron刘

版主

精华贴数: 0
专家积分: 100
技术积分: 4896
社区积分: 2331
注册时间: 2012-4-25

认证徽章

论坛徽章:: 21

加好友
发消息

3^#

发表于 2014-5-5 09:34:22 |只看该作者

随着大数据相关技术和产业的逐渐成熟，单个组织内往往需要同时进行多种类型的大数据分析作业：传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等。在Spark出现前，要在一个组织内同时完成以上数种大数据分析任务，就不得不与多套独立的系统打交道，一方面引入了不容小觑的运维复杂性，另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目，拥有着庞大的社区支持（活跃开发者人数已超过Hadoop MapReduce），技术也逐渐走向成熟。

http://weibo.com/909405905

使用道具举报

2009532140