话题讨论:Spark VS Hadoop有哪些异同点?(转)

来源:互联网 发布:淘宝如何查看店铺粉丝 编辑:程序博客网 时间:2024/06/05 15:57
  Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。

就以下几个问题发表自己的观点
    1、Spark VS Hadoop有哪些异同点?
    2、Spark在容错性方面是否比其他工具更有优越性?
    3、Spark对于数据处理能力和效率有哪些特色?
    4、说说您阅读迷你书的感想?

活动时间:2014年5月5日-5月20日。

活动奖励:我们会在讨论结束后,我们随机抽取5名网友赠送《Spark快速数据处理》这本书作为奖励。

图书信息
      11.jpg     
    书名:Spark快速数据处理 
    作者:Holden Karau著  
    译者:余璜,张磊 译
    出版社:机械工业出版社
    迷你书免费下载:http://wenku.it168.com/d_001429950.shtml
活动已结束,恭喜以下五位获奖者:
oracle_cj
Detaillee
苏上人
harkjim
dongmusic


Spark, Hadoop, 通用, 并行, 分布式, Spark, Hadoop, 通用, 并行, 分布式
本主题由 System 于 2014-5-12 10:00 解除限时置顶
  • 相关帖子
  • 本版精华
  • 热门专题
  • 【有奖话题讨论】大数据:互联网大规模数据挖掘与分布式处理(已公布获奖)
  • 新课出炉《Spark大数据平台》开始上线招募喽!欢迎大家一起探索学习!
  • 如何做到敏捷数据分析:用Hadoop创建数据分析应用
  • 话题讨论:菜鸟必看 Hadoop 入门到精通
  • 话题讨论:大数据时代的数据处理方案部署(已公布获奖)
  • 话题讨论:高手接招 破解Hadoop 技术内幕
  • 话题讨论:想成为Hadoop技术高手吗?
  • 求问跨行支付渠道
  • 【四川省】【外资大型会议系统公司】【数据存储】
  • hadoop安装,从start-all.sh,stop-all.sh和jps都正常,但查看集群状态有效数据节点确0
 

使用道具 举报

在分析strace输出的时候,发现有 ...  |  源码安装php,遇到问题。  |  RHEL 7.1 还没发布啊!!  |  awk怎么排除一列输出其他的列呢? ...  
  
oracle_cj

注册会员

Jason

精华贴数
0
专家积分
293
技术积分
7148
社区积分
6170
注册时间
2013-6-30
论坛徽章:
385
行业板块每日发贴之星日期:2014-07-29 14:05:01设计板块每日发贴之星日期:2014-07-05 21:01:40季节之章:春日期:2014-07-28 20:02:07季节之章:夏日期:2014-07-30 12:21:20季节之章:秋日期:2014-07-30 12:20:33Heart of PUB日期:2014-12-16 17:50:25红宝石日期:2014-08-10 11:19:48季节之章:冬日期:2015-01-28 15:03:02ERP板块每日发贴之星日期:2014-06-27 16:41:22季节之章:冬日期:2014-12-16 17:38:45最佳人气徽章日期:2015-03-19 09:44:03红钻日期:2014-12-16 17:51:41
  • 加好友
  • 发消息
2#
 发表于 2014-5-5 09:27:48 |只看该作者
本帖最后由 oracle_cj 于 2014-5-16 21:34 编辑

1、   Spark VSHadoop有哪些异同点?

       Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析

       Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms,Machines,and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

虽然 Spark 与 Hadoop 有相似之处,但它提供了具有有用差异的一个新的集群计算框架。首先,Spark 是为集群计算中的特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。为了优化这些类型的工作负载,Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟.

在大数据处理方面相信大家对hadoop已经耳熟能详,基于GoogleMap/Reduce来实现的Hadoop为开发者提供了map、reduce原语,使并行批处理程序变得非常地简单和优美。Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map,filter, flatMap,sample, groupByKey, reduceByKey, union,join, cogroup,mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。同时还提供Count,collect, reduce, lookup, save等多种actions。这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活.


    2、Spark在容错性方面是否比其他工具更有优越性?

       从Spark的论文《Resilient Distributed Datasets: AFault-TolerantAbstraction for In-Memory Cluster Computing》中没看出容错性做的有多好。倒是提到了分布式数据集计算,做checkpoint的两种方式,一个是checkpoint data,一个是loggingthe updates。貌似Spark采用了后者。但是文中后来又提到,虽然后者看似节省存储空间。但是由于数据处理模型是类似DAG的操作过程,由于图中的某个节点出错,由于lineage chains的依赖复杂性,可能会引起全部计算节点的重新计算,这样成本也不低。他们后来说,是存数据,还是存更新日志,做checkpoint还是由用户说了算吧。相当于什么都没说,又把这个皮球踢给了用户。所以我看就是由用户根据业务类型,衡量是存储数据IO和磁盘空间的代价和重新计算的代价,选择代价较小的一种策略。取代给中间结果进行持久化或建立检查点,Spark会记住产生某些数据集的操作序列。因此,当一个节点出现故障时,Spark会根据存储信息重新构造数据集。他们认为这样也不错,因为其他节点将会帮助重建。


   3、Spark对于数据处理能力和效率有哪些特色?

    Spark提供了高的性能和大数据处理能力,使得用户可以快速得到反馈体验更好。另一类应用是做数据挖掘,因为Spark充分利用内存进行缓存,利用DAG消除不必要的步骤,所以比较合适做迭代式的运算。而有相当一部分机器学习算法是通过多次迭代收敛的算法,所以适合用Spark来实现。我们把一些常用的算法并行化用Spark实现,可以从R语言中方便地调用,降低了用户进行数据挖掘的学习成本。

Spark配有一个流数据处理模型,与Twitter的 Storm框架相比,Spark采用了一种有趣而且独特的办法。Storm基本上是像是放入独立事务的管道,在其中事务会得到分布式的处理。相反,Spark采用一个模型收集事务,然后在短时间内(我们假设是5秒)以批处理的方式处理事件。所收集的数据成为他们自己的RDD,然后使用Spark应用程序中常用的一组进行处理。作者声称这种模式是在缓慢节点和故障情况下会更加稳健,而且5秒的时间间隔通常对于大多数应用已经足够快了。这种方法也很好地统一了流式处理与非流式处理部分。



    4、说说您阅读迷你书的感想?

  迷你书,主要在于提供一个索引,以至于快速扫描内容,有一个大致的感性认识

Standing on Shoulders of Giants
 

使用道具 举报

  
arron刘

版主

精华贴数
0
专家积分
100
技术积分
4896
社区积分
2331
注册时间
2012-4-25
认证徽章
论坛徽章:
21
技术图书徽章日期:2013-08-16 14:31:52问答徽章日期:2013-11-04 08:53:14目光如炬日期:2013-12-23 06:00:11目光如炬日期:2013-12-30 06:00:11明星写手日期:2014-02-22 06:00:12马上有钱日期:2014-03-31 14:09:05
  • 加好友
  • 发消息
3#
 发表于 2014-5-5 09:34:22 |只看该作者
随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业:传统Hadoop MapReduce最为擅长的批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等。在Spark出现前,要在一个组织内同时完成以上数种大数据分析任务,就不得不与多套独立的系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持(活跃开发者人数已超过Hadoop MapReduce),技术也逐渐走向成熟。
http://weibo.com/909405905
 

使用道具 举报

  
2009532140

版主

求职 : 数据库管理员
招聘 : Java研发
精华贴数
0
专家积分
194
技术积分
5746
社区积分
6467
注册时间
2012-3-30
认证徽章
论坛徽章:
3725
  • 加好友
  • 发消息
4#
 发表于 2014-5-5 09:46:56 |只看该作者
不懂,帮顶~~~~
没有任何一种品格可以高枕无忧。
一个人清高,需要宽容,否则清高就成孤傲。
仁慈,需要果断,否则仁慈就成软弱。
强大,也要有所敬畏,否则强大会生暴戾。
富有,需要节俭,否则易成奢靡。
博学,说话时需要浅显,否则易成刁钻。
尊贵,需要谦卑,否则易生傲慢。
凡事有阴阳。
物无善恶,过则为灾。
 

使用道具 举报

  
jief

注册会员

老会员

精华贴数
0
专家积分
1
技术积分
214
社区积分
9
注册时间
2004-7-10
论坛徽章:
11
ITPUB 11周年纪念徽章日期:2012-10-09 18:05:372014年新春福章日期:2014-02-18 16:41:11技术图书徽章日期:2013-11-19 14:48:37ITPUB社区12周年站庆徽章日期:2013-10-08 17:44:422013年新春福章日期:2013-02-25 14:51:24奥运纪念徽章日期:2012-11-28 09:37:30奥运纪念徽章日期:2012-11-27 15:37:34奥运纪念徽章日期:2012-11-27 09:46:242013年新春福章日期:2013-04-08 17:42:48奥运会纪念徽章:篮球日期:2012-10-12 15:12:02马上有车日期:2014-02-18 16:41:11
  • 加好友
  • 发消息
5#
 发表于 2014-5-5 11:25:37 |只看该作者
占个位置
  

使用道具 举报

  
hooyang

注册会员

胡杨

精华贴数
0
专家积分
0
技术积分
1491
社区积分
1077
注册时间
2003-1-15
论坛徽章:
40
2010广州亚运会纪念徽章:乒乓球日期:2011-01-14 12:19:22沸羊羊日期:2015-03-04 14:43:43懒羊羊日期:2015-02-10 10:36:35马上有房日期:2014-10-16 11:54:092014年世界杯参赛球队: 伊朗日期:2014-07-07 11:29:28马上有车日期:2014-02-18 16:41:11一汽日期:2014-02-09 19:14:24雪佛兰日期:2013-11-06 16:23:39茶鸡蛋日期:2012-01-13 00:24:29灰彻蛋日期:2011-12-23 22:56:122015年新春福章日期:2015-03-06 11:57:31
  • 加好友
  • 发消息
6#
 发表于 2014-5-5 14:13:31 |只看该作者
靠 这更新的脚步也太快了,刚开始搞hadoop的人围观
参与了一段时间的银行产品管理平台开发。
希望能有一个沉淀
欢迎对此感兴趣的同仁一起讨论学习
 

使用道具 举报

  
qingduo04

注册会员

初级会员

精华贴数
0
专家积分
42
技术积分
1412
社区积分
556
注册时间
2006-3-26
认证徽章
论坛徽章:
51
2014数据库大会纪念章日期:2015-03-18 10:16:21itpub13周年纪念徽章日期:2014-10-08 15:17:53itpub13周年纪念徽章日期:2014-10-08 15:17:53itpub13周年纪念徽章日期:2014-10-08 15:17:53itpub13周年纪念徽章日期:2014-10-08 15:17:532014年世界杯参赛球队: 俄罗斯日期:2014-07-24 16:18:03马上有钱日期:2014-06-16 15:55:42马上有房日期:2014-06-16 15:55:42马上加薪日期:2014-05-30 16:36:41马上有房日期:2014-05-16 14:12:02马上加薪日期:2014-04-25 14:18:13萤石日期:2014-10-17 17:26:57
  • 加好友
  • 发消息
7#
 发表于 2014-5-6 06:27:10 |只看该作者
路过支持..............
虽然没有接触过
只有不断努力,才能站立在世界前沿!
 

使用道具 举报

  
iqlife

注册会员

精华贴数
0
专家积分
4
技术积分
172
社区积分
3
注册时间
2013-6-18
论坛徽章:
7
ITPUB社区12周年站庆徽章日期:2013-10-08 17:44:42ITPUB社区12周年站庆徽章日期:2013-11-07 10:34:33优秀写手日期:2013-12-18 09:29:112014年新春福章日期:2014-02-18 16:50:09马上有车日期:2014-02-18 16:50:09马上有钱日期:2014-03-20 15:53:11马上有车日期:2014-03-31 15:10:16
  • 加好友
  • 发消息
8#
 发表于 2014-5-6 09:31:21 |只看该作者
本帖最后由 iqlife 于 2014-5-6 09:31 编辑

内存计算,估计将来大部分的是数据处理产品都会是这种模式了

hadoop有hbase,不知道spark底层数据库用的是什么?
先看看迷你书,了解下!
  

使用道具 举报

  
alexkidder

注册会员

精华贴数
0
专家积分
1
技术积分
422
社区积分
3432
注册时间
2007-5-31
论坛徽章:
499
生肖徽章:马日期:2012-10-24 13:25:07生肖徽章:马日期:2012-10-24 13:25:07生肖徽章:马日期:2012-10-24 13:25:07生肖徽章:马日期:2012-10-24 13:25:07生肖徽章:马日期:2012-10-24 13:25:07生肖徽章:马日期:2012-10-24 13:25:07生肖徽章:马日期:2012-10-24 13:25:07生肖徽章:马日期:2012-10-24 13:25:07生肖徽章2007版:马日期:2012-10-24 13:24:51生肖徽章2007版:马日期:2012-10-24 13:24:51生肖徽章2007版:马日期:2012-10-24 13:24:51生肖徽章2007版:马日期:2012-10-24 13:24:51
  • 加好友
  • 发消息
9#
 发表于 2014-5-6 13:10:31 |只看该作者
1、Spark VS Hadoop有哪些异同点?
spark在内存管理上比hadoop要好一些,进行迭代计算效率更高
【找红包】
【找徽章】
 

使用道具 举报

  
littlebaggio

注册会员

初级会员

精华贴数
0
专家积分
1
技术积分
234
社区积分
2207
注册时间
2007-1-31
认证徽章
论坛徽章:
73
马上有对象日期:2014-04-11 13:07:11奥运会纪念徽章:体操日期:2014-04-11 13:07:38奥运会纪念徽章:皮划艇激流回旋日期:2014-04-11 13:07:38马上有对象日期:2014-04-11 13:07:112014年新春福章日期:2014-04-14 09:54:08美羊羊日期:2015-03-24 17:16:272014年新春福章日期:2014-04-14 09:54:082014年新春福章日期:2014-04-14 09:54:082014年新春福章日期:2014-04-14 09:54:082014年新春福章日期:2014-04-14 09:54:08马上加薪日期:2014-03-20 16:14:11马上有对象日期:2014-03-20 16:14:11
  • 加好友
  • 发消息
10#
 发表于 2014-5-6 16:43:35 |只看该作者
Answer 1:Spark 并行运算处理的速度更快;与Hadoop的api兼容,可运行在hadoop的cluster环境上...
0 0
原创粉丝点击