Spark——并行计算框架

来源：互联网发布：centos 7 mirror 编辑：程序博客网时间：2024/05/14 09:45

Spark

Spark是一个通用的并行计算框架，是一种快速处理大规模数据的通用引擎，由UCBerkeley的AMP实验室开发。

其架构如下图所示：
Spark架构

Spark的中间数据放到内存中，对于迭代运算效率比较高
- Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念；
Spark比Hadoop更通用
- Spark提供多种数据集操作类型，而Hadoop只提供了Map和Reduce两种；
- 与Scala的完美契合，使得编程模型比Hadoop更加灵活；
性能与速度
- Spark性能超Hadoop百倍，算法实现仅有其1/10或1/100,是可以革命Hadoop的目前唯一替代者，能够做Hadoop做的一切事情，同时速度比Hadoop快了100倍以上。
容错性
- 在分布式数据集计算时通过checkpoint的两种方式：checkpoint data和logging the updates来实现容错；
可用性
- Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性。

Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。

Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小
由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
总的来说Spark的适用面比较广泛且比较通用。

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query Parsing和 Logic
Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。
Spark streaming:构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎（100ms+）可以用于实时计算，另一方面相比基于Record的其它处理框架（如Storm），RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。
Bagel: Pregel on Spark，可以用Spark进行图计算，这是个非常有用的小项目。Bagel自带了一个例子，实现了Google的PageRank算法。

1 0