Spark概述

来源:互联网 发布:淘宝宝贝设置价格区间 编辑:程序博客网 时间:2024/06/01 03:58

概述:

ApacheSpark™ is a fast and general engine for large-scale data processing.

如官网所说,Spark是快速处理大规模数据的引擎,对应的Hadoop的MR引擎

我们听到的Spark比Hadoop快100倍,其实是比MR快,MR将数据的中间结果写入磁盘,而Spark则是直接写入内存,在一定程度上,加速了程序的处理。

Spark特点

快速:

1.DAG: Spark建立各个RDD之间的依赖关系,组成有向无环图(DAG),提升了任务的执行效率

2.将中间结果写入内存而非磁盘,减少了大量IO

通用:

Spark生态圈的生态圈包含了SparkSQL、Spark Streaming实时流处理、MLlib机器学习、GraphX图处理等组件。




Spark可运行在Yarn、Mentos资源调度系统之上,以HDFS分布式文件系统、Techyon分布式内存文件系统为数据源

MR与Spark的区别

MR:可以处理大规模数据,适合日志的分析挖掘,较少的IO
Spark:适合用于数据挖掘、机器学习等多伦迭代式计算任务

容错性:

Hadoop的容错:HDFS副本元数据快照等
Mapreduce的容错:
TaskTracker宕机,JobTracker会将上一个失败的任务放到另外一个节点上重新运行,map任务和reduce任务失败对应重做
Spark lineage是记录RDD之间的血统关系的,即每一个RDD是怎么演变而来,又往哪演变。当节点宕机或者RDD中数据部分丢失的时候,系统会通过lineage获取上一个RDD,从而重新开始计算和恢复丢失的数据






0 0