Spark 简介

来源：互联网发布：王克晶java百度百科编辑：程序博客网时间：2024/05/18 06:25

spark历史：伯克利实验室研究项目，基于Hadoop的Mapreduce机制，引入内存管理机制，提高了迭代式计算和交互式中的效率。spark组件：spark core:spark基本功能，包括任务调度，内存管理，容错机制内部定义了RDDs(弹性分布式数据集),提供多个APIs调用，为其他组件提供底层服务spark sql:spark处理结构化数据的库，类似Hive SQL,MySql，主要为企业提供报表统计spark streaming：实时数据流处理组件，类似Storm，提供API操作实时流数据，企业中用来从Kafka中接收数据做实时统计Mlib:机器学习功能包，包括聚类，回归，模型评估和数据导入。同时支持集群平台上的横向扩展Graphx：处理图的库，并进行图的并行计算Cluster Manager是：spark自带的集群管理Spark紧密集成的优点：spark底层优化，基于spark底层的组件也得到相应的优化，紧密集成节省了组件的部署，测试时间

Hadoop应用场景：离线处理，时效性要求不高的场景：Hadoop中间数据落到硬盘上，导致Hadoop处理大数据时，时效性不高，时间在几分钟到几小时不等，但数据可以存储。Spark应用场景：时效性要求高的场景和机器学习：Spark基于内存，中间数据多在内存中，数据处理块，但Spark不具备hdfs存储功能，需借助hdfs

阅读全文

0 0