Spark学习之一-Spark的概念机器发展简史

来源:互联网 发布:mac 编译安装php5.6 编辑:程序博客网 时间:2024/05/29 03:18

1.Spark是什么?
spark是一个用来实现快速而通用的集群计算的平台
速度方面:扩展了MapReduce的计算模型
特点:在内存中进行计算,就算是在磁盘上计算也比MapReduce快
Spark使我们可以简单而低耗的把各种处理流程结合在一起
Spark可以运行在Hadoop集群之上,访问包括Cassanda在内的任意hadoop数据源
2.Spark软件栈
SparkCore、SparkSQL(操作结构化数据的程序包)、Spark Streaming(对实时数据库进行流式计算的组件)
MLib(机器学习功能组件)、GraphX
3、Sprak简史
产生的原因:研究人员发现MapReduce在迭代计算和交互式计算的任务下表现的效率低下,因此Spark的产生将为交互式查询和迭代算法设计的,同时还支持内存式存储和高效的容错机制。



原创粉丝点击