程序博客网 > js focus有什么

第一章：Spark数据分析导论

来源：互联网发布：js focus有什么编辑：程序博客网时间：2024/05/19 03:44

1.Spark是什么？

Spark是一个快速而通用的集群计算平台。

快速：
- spark扩展了MapReduce模型，更高效地支持更多计算模式，包括交互式查询和流处理。
- Spark能在内存中进行计算，即使是必须在磁盘上进行计算，spark仍然比MapReduce高效。

通用：
- 适用于多种分布式计算场景，包括批处理、迭代算法、交互式查询、流处理。
- 接口丰富，支持Python、java、Scala、SQL，支持的数据源也很丰富。

2.一个大一统的软件栈

这里写图片描述

Spark core：任务调度、内存管理、错误恢复、与存储系统交互，包含RDD（弹性分布式数据集，是Spark主要的编程抽象，表示分布在多个节点上可以并行操作的元素集合）的API。
Spark SQL：通过Spark SQL可以使用SQL或者HQL查询数据，前身是Shark。支持多种数据源（Hive表，JSOn，Parquet等）。
Spark streaming：对实时数据进行流式计算的组件。
MLlib：机器学习库。包括分类、回归、聚类、协同过滤，模型评估，数据导入等
GraphX：操作图的库。
集群管理器：Hadoop Yarn、Apache Mesos、独立调度器（Spark自带的一个简易调度器）

3.Spark的用户和用途

用户：数据科学家、工程师
用途：数据科学任务、数据处理应用

4.Spark简史

2009年在加州大学伯克利分校诞生，为了改进MapReduce在迭代计算和交互式计算任务下效率低下的问题，Spark一开始就是为了交互式查询和迭代算法设计的，同时支持内存式存储和高效的容错机制。
如今已是apache的顶级项目。

5.Spark的存储层次

Spark可以将任何Hadoop HDFS上的文件读取为分布式数据集
Hadoop并非Spark的必要条件，Spark支持任何实现了Hadoop接口的存储系统，比如本地文件，亚马逊S3，Cassandra，Hive，Hbase等。

阅读全文

0 0

js focus有什么

js focus有什么

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子喷绘广告布价格 x展架制作广告公司广告发光字标牌标识广告门头第一章熟花m喷芬芳泌蜜汁花安乐抑菌喷剂花安乐喷剂喷花机舌尖抵着花蕾汁水喷了出来哪些花不能用啤酒喷喷花花安乐足爽喷剂多少钱一盒孕妇可以喷花露水吗冷喷锌设备电弧喷锌铝锌钢喷塑护栏厂家热喷锌喷锌机喷锚暗挖法锡类散喷剂纳米喷镀药水配方镀膜剂一喷一擦好吗纳米喷镀配方纳米喷镀机价格纳米喷镀设备价格喷镀工艺纳米喷镀喷门喷门炎喷门炎症状胃喷门炎症状贲门贲门炎贲门炎症状贲门炎的症状喷雪尾迹喷雾器防晒喷雾