大数据框架之Spark框架
来源:互联网 发布:php好学还是java好学 编辑:程序博客网 时间:2024/04/26 05:39
大数据软件框架之
Spark框架:
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。(引自百度百科)
由于原来的批处理框架MapReduce适合离线计算,却无法满足实时性较高的业务,所以Spark诞生了。Spark速度快,开发简单,可以同时兼顾批处理和实时数据分析。有时Spark框架被称作实时计算框架、内存计算框架或流式计算框架。
Hadoop使用数据复制来实现容错性,而Spark使用RDD(resilient Distributed Datasets ,弹性分布式数据集)数据存储模式来实现数据的容错性。RDD是只读的,分区记录的集合,在数据丢失后,RDD含有如何重建分区的相关信息,这就避免了使用数据复制,减少了对磁盘的访问。
Spark也需要集群管理器和分布式存储系统,集群管理器有Hadoop YARN、Apache Mesos 和Spark原生集群,分布式存储可以用HDFFS、Casanadra、OpenStaack Swift和Amazon S3。Spark也支持多语言,其中,最推荐的是Scala,Spark和Scala可以紧密集成。
Spark的内存适合于迭代计算,机器学习算法需要多次遍历训练集,可以将训练集缓存在内存里,节省了访问磁盘的开销。尽管如此,Spark本身的复杂性也困扰着开发人员,它的统计功能和R语言没有可比性。
阅读全文
0 0
- 大数据框架之Spark框架
- Spark - 大数据Big Data处理框架
- Spark - 大数据Big Data处理框架
- Spark - 大数据Big Data处理框架
- 大数据时代,为什么使用Spark框架?
- spark + GlusterFS 大数据轻量级框架
- 聊聊spark这个大数据计算框架
- spark+mongodb大数据框架搭建
- 大数据开源框架之二:Berkeley Data Analytics Stack(tachyon, spark, shark, spark streaming)
- [大数据]大数据框架Hadoop和Spark的异同
- 大数据软件框架之Hadoop框架
- 大数据计算框架Hadoop, Spark和MPI
- 大数据框架Hadoop和Spark的异同
- Spark大数据分析框架的核心部件
- 大数据框架 Hadoop 和 Spark 的异同
- 大数据框架 Hadoop 和 Spark 的异同
- 大数据计算框架Hadoop, Spark和MPI
- 基于spark的大数据提取校验框架
- 如何利用python把文章到数组中存储等待处理
- SPFA模板
- Service播放音乐
- HDU 2844 Coins[【经典题】【模板题】
- 初探PLC远程通讯技术
- 大数据框架之Spark框架
- 【正一专栏】八月是中国体面解决中印洞朗问题的最后机会
- POJ
- 7.Reverse Integer
- 关于 中国剩余定理 的两道水题练手
- elementary os 登录后卡死解决办法
- 2017年08月09日
- linux内核升级
- icp备案是什么意思?什么是ICP备案?