Spark简介

来源:互联网 发布:js获取当前设备信息 编辑:程序博客网 时间:2024/05/09 23:18

Spark是一个支持大数据计算的快速和广泛使用的框架

此文为翻译spark官方文档,原文地址:https://spark.apache.org/

Speed

在内存上spark比hadoop mapreduce快100倍,在磁盘存储的情况下快10倍以上。

Ease of use

支持有java、scala、python、R编写spark应用程序,并且友好的这次此类程序的交互式编写。spark提供了超过80个的高级算子。

Generality

spark中包含了SQL、DataFrame、Mlib等支持机器学习的模块,GraphX和Sparkstreaming等。用户可在同一程序中使用多个模块功能。

Runs Everywhere

spark支持在Hadoop、Mesos、Standalone上运行。支持不同的数据源,如hdfs、Cassandra、Hbase、S3、Hive等。

0 0