spark入门笔记

来源:互联网 发布:亚马逊好还是淘宝好 编辑:程序博客网 时间:2024/06/06 11:43

1. 特点

  • 快速的:基于内存
  • 通用的:批处理,迭代
  • 高度开放:

2. 生态介绍

1.内存存储,紧密集成
2.组件

  • Core
  • SQL
  • Streaming
  • Mlib:1.一个包含机器学习功能的包,包含分类聚类回归,还包含模型评估和数据导入。 *2.都支持集群上的横向拓展 3.应用场景:机器学习
  • Graphx:1.处理图的库进行图的并行计算,和streaming,SQL一样,也继承了RDD API。2. 应用:图计算
  • Cluster Manager:集群管理

3. Spark与hadoop的比较

  • Hadoop:离线处理,对时效性要求不高
  • Spark:时效性要求高,机器学习领域

4. Doug Cutting的观点:

1.这是生态系统,每个组件都有其作用,各擅其职即可。
2.Spark不具有HDFS的存储能力,要借助HDFS等持久化数据。
3.大数据将会孕育出更多的新技术

原创粉丝点击