话题讨论:Spark VS Hadoop有哪些异同点?(转)
来源:互联网 发布:淘宝如何查看店铺粉丝 编辑:程序博客网 时间:2024/06/05 15:57
就以下几个问题发表自己的观点
1、Spark VS Hadoop有哪些异同点?
2、Spark在容错性方面是否比其他工具更有优越性?
3、Spark对于数据处理能力和效率有哪些特色?
4、说说您阅读迷你书的感想?
活动时间:2014年5月5日-5月20日。
活动奖励:我们会在讨论结束后,我们随机抽取5名网友赠送《Spark快速数据处理》这本书作为奖励。
图书信息
书名:Spark快速数据处理
作者:Holden Karau著
译者:余璜,张磊 译
出版社:机械工业出版社
迷你书免费下载:http://wenku.it168.com/d_001429950.shtml
活动已结束,恭喜以下五位获奖者:
oracle_cj
Detaillee
苏上人
harkjim
dongmusic
- 相关帖子
- 本版精华
- 热门专题
使用道具 举报
注册会员
1、 Spark VSHadoop有哪些异同点?
Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析
Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms,Machines,and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
虽然 Spark 与 Hadoop 有相似之处,但它提供了具有有用差异的一个新的集群计算框架。首先,Spark 是为集群计算中的特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。为了优化这些类型的工作负载,Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟.
在大数据处理方面相信大家对hadoop已经耳熟能详,基于GoogleMap/Reduce来实现的Hadoop为开发者提供了map、reduce原语,使并行批处理程序变得非常地简单和优美。Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map,filter, flatMap,sample, groupByKey, reduceByKey, union,join, cogroup,mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。同时还提供Count,collect, reduce, lookup, save等多种actions。这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活.
2、Spark在容错性方面是否比其他工具更有优越性?
从Spark的论文《Resilient Distributed Datasets: AFault-TolerantAbstraction for In-Memory Cluster Computing》中没看出容错性做的有多好。倒是提到了分布式数据集计算,做checkpoint的两种方式,一个是checkpoint data,一个是loggingthe updates。貌似Spark采用了后者。但是文中后来又提到,虽然后者看似节省存储空间。但是由于数据处理模型是类似DAG的操作过程,由于图中的某个节点出错,由于lineage chains的依赖复杂性,可能会引起全部计算节点的重新计算,这样成本也不低。他们后来说,是存数据,还是存更新日志,做checkpoint还是由用户说了算吧。相当于什么都没说,又把这个皮球踢给了用户。所以我看就是由用户根据业务类型,衡量是存储数据IO和磁盘空间的代价和重新计算的代价,选择代价较小的一种策略。取代给中间结果进行持久化或建立检查点,Spark会记住产生某些数据集的操作序列。因此,当一个节点出现故障时,Spark会根据存储信息重新构造数据集。他们认为这样也不错,因为其他节点将会帮助重建。
3、Spark对于数据处理能力和效率有哪些特色?
Spark提供了高的性能和大数据处理能力,使得用户可以快速得到反馈体验更好。另一类应用是做数据挖掘,因为Spark充分利用内存进行缓存,利用DAG消除不必要的步骤,所以比较合适做迭代式的运算。而有相当一部分机器学习算法是通过多次迭代收敛的算法,所以适合用Spark来实现。我们把一些常用的算法并行化用Spark实现,可以从R语言中方便地调用,降低了用户进行数据挖掘的学习成本。
Spark配有一个流数据处理模型,与Twitter的 Storm框架相比,Spark采用了一种有趣而且独特的办法。Storm基本上是像是放入独立事务的管道,在其中事务会得到分布式的处理。相反,Spark采用一个模型收集事务,然后在短时间内(我们假设是5秒)以批处理的方式处理事件。所收集的数据成为他们自己的RDD,然后使用Spark应用程序中常用的一组进行处理。作者声称这种模式是在缓慢节点和故障情况下会更加稳健,而且5秒的时间间隔通常对于大多数应用已经足够快了。这种方法也很好地统一了流式处理与非流式处理部分。
4、说说您阅读迷你书的感想?
迷你书,主要在于提供一个索引,以至于快速扫描内容,有一个大致的感性认识
使用道具 举报
版主
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持(活跃开发者人数已超过Hadoop MapReduce),技术也逐渐走向成熟。
使用道具 举报
版主
使用道具 举报
注册会员
使用道具 举报
注册会员
使用道具 举报
注册会员
虽然没有接触过
使用道具 举报
注册会员
内存计算,估计将来大部分的是数据处理产品都会是这种模式了
hadoop有hbase,不知道spark底层数据库用的是什么?
先看看迷你书,了解下!
使用道具 举报
注册会员
spark在内存管理上比hadoop要好一些,进行迭代计算效率更高
使用道具 举报
注册会员
- 话题讨论:Spark VS Hadoop有哪些异同点?(转)
- Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点?
- Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点?
- Spark VSHadoop有哪些异同点?
- Rancher 环境模板里都有哪些组件?有什么异同点?
- 讨论话题:还有一年就毕业了,该找工作了,那么在专业就业上有哪些方向呢?
- hadoop和spark的异同
- Hadoop和Spark的异同
- hadoop与spark的异同
- Hadoop和Spark的异同
- Hadoop 和 Spark 的异同
- hadoop和spark的异同
- 15.2 SQL的连接有哪些不同的类型?并解释其异同点
- 在大公司和小公司做产品经理有哪些异同点
- 总监级思考!TO B 和 TO C产品有哪些异同点?
- spark vs hadoop
- hadoop vs spark
- Hadoop MR VS Spark
- html5图片预览
- 解析String类型的数据的方法
- Composite设置背景透明(以避免设置子控件背景代码):
- IR的评价指标-MAP和NDCG
- python使用mysql数据库
- 话题讨论:Spark VS Hadoop有哪些异同点?(转)
- IOS 用UISearchController搜索Tableview
- POST/GET QUERYSTRING
- 利用SYS_CONTEXT函数跟踪oracle字段内容无故改变
- 514E (矩阵快速幂+DP)
- InterruptedException的解读
- JS 页面加载触发事件 document.ready和onload的区别
- ubantu下安装Nginx
- linux进程简述