Spark 简介

来源:互联网 发布:王克晶java百度百科 编辑:程序博客网 时间:2024/05/18 06:25
spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。spark组件:spark core:spark基本功能,包括任务调度,内存管理,容错机制内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为其他组件提供底层服务spark sql:spark处理结构化数据的库,类似Hive SQL,MySql,主要为企业提供报表统计spark streaming:实时数据流处理组件,类似Storm,提供API操作实时流数据,企业中用来从Kafka中接收数据做实时统计Mlib:机器学习功能包,包括聚类,回归,模型评估和数据导入。同时支持集群平台上的横向扩展Graphx:处理图的库,并进行图的并行计算Cluster Manager是:spark自带的集群管理Spark紧密集成的优点:spark底层优化,基于spark底层的组件也得到相应的优化,紧密集成节省了组件的部署,测试时间
Hadoop应用场景:离线处理,时效性要求不高的场景:Hadoop中间数据落到硬盘上,导致Hadoop处理大数据时,时效性不高,时间在几分钟到几小时不等,但数据可以存储。Spark应用场景:时效性要求高的场景和机器学习:Spark基于内存,中间数据多在内存中,数据处理块,但Spark不具备hdfs存储功能,需借助hdfs

原创粉丝点击