Spark的介绍
来源:互联网 发布:mac腾讯视频 编辑:程序博客网 时间:2024/06/10 08:15
Spark 是快速的、hadoop数据的通用处理引擎;可以运行在hadoop的YARN集群上或者单机模式;可以处理任何格式的hadoop数据;为了批处理和新的流处理、机器学习而设计。
一、优点:
1、快速:
在内存中,spark可以比hadoop的MR快100多倍;在磁盘上,快10多倍。
2、易用性:
Java, Scala, Python, R.
3、普适性:
including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming
4、运行环境多:
runs on Hadoop, Mesos, standalone, or in the cloud.
二、内置库:
1、Spark SQL:http://spark.apache.org/docs/latest/sql-programming-guide.html
无缝融入sql查询语句:
context = HiveContext(sc)
results = context.sql(
"SELECT * FROM people")
names = results.map(lambda p: p.name)
统一数据连接:可以用sql关联不同数据源的表!!!
context.jsonFile("s3n://...")
.registerTempTable("json")
results = context.sql(
"""SELECT *
FROM people
JOIN json ...""")
HIVE兼容:可以用UDF。
标准连接:BI工具利用JDBC|ODBC连接,通过Spark SQL来访问大数据。
2、Spark Streaming:http://spark.apache.org/docs/latest/streaming-programming-guide.html
可以很容易的构建可伸缩性、容错性强的流处理应用。
3、MLlib:http://spark.apache.org/docs/latest/ml-guide.html
可用性:Usable in Java, Scala, Python, and R.
效果好:比mapreduce快100多倍
易部署。
4、GraphX:http://spark.apache.org/docs/latest/graphx-programming-guide.html
图形计算
5、第三方项目:
第三方公共库:spark-packages.org
基础项目:
SparkR - R frontend for Spark、
Zeppelin - an IPython-like notebook for Spark.
Reference:
http://spark.apache.org/
- spark的一些介绍
- Spark的基本介绍
- Spark的介绍
- Spark Streaming的入门介绍
- Spark的Shuffle过程介绍
- spark介绍
- spark介绍
- spark介绍
- Spark 介绍
- spark 介绍
- Spark介绍
- spark-graphx以及图的相关介绍
- Spark的基本数据结构RDD介绍
- Spark RDD的定义和介绍
- spark的工作机制详细介绍、spark源码编译、spark编程实战
- Spark的RDD原理以及2.0特性的介绍
- Spark的RDD原理以及2.0特性的介绍
- Spark的RDD原理以及2.0特性的介绍
- Java List 用法代码分析(非常详细)
- jackson框架
- 个人经验总结
- Java中HashMap和TreeMap的区别深入理解
- 机器学习笔记 - 决策树基本算法
- Spark的介绍
- Andriod 的四大组件及其作用
- URAL 1910. Titan Ruins: Hidden Entrance
- RTAI的用户空间编程(八)——中断
- SIA实战(二):不用XML,使用java类配置Bean
- hdoj1076
- Python爬虫实战(二)
- pjmedia高级API实现放音
- bzoj 2002 link cut tree(LCT)