官方Spark Programming Guide学习心得(V2.1.0)
来源:互联网 发布:linux项目开发实例 编辑:程序博客网 时间:2024/06/14 00:44
原文地址:http://spark.apache.org/docs/latest/programming-guide.html
写的简单明了,实际中要注意的几点:
1、客户端版本库引用,开始不支持JDK7:
spark引用groupId = org.apache.sparkartifactId = spark-core_2.11version = 2.1.0如果需要hdfs,需要引用groupId = org.apache.hadoopartifactId = hadoop-clientversion = <your-hdfs-version>
2、初始化环境
SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);JavaSparkContext sc = new JavaSparkContext(conf);
本地集成环境运行的话,要设置master为local
3、常用的RDD操作
Transformations
Actions
4、通过介绍reduceByKey
来解释Shuffle operations
文档写的真棒!
推荐infoq上一篇文章,也非常好:
http://www.infoq.com/cn/articles/spark-core-rdd 理解Spark的核心RDD,摘要:
5、RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。针对数据处理有几种常见模型,包括:Iterative Algorithms,Relational Queries,MapReduce,Stream Processing。例如Hadoop MapReduce采用了MapReduces模型,Storm则采用了Stream Processing模型。
6、图解RDD
本图来自Matei Zaharia撰写的论文An Architecture for Fast and General Data Processing on Large Clusters。图中,一个box代表一个RDD,一个带阴影的矩形框代表一个partition。
注意理解:map /groupBy/union/join的RDD操作的shuffle
7、推荐论文: An Architecture for Fast and General Data Processing on Large Clusters
- 官方Spark Programming Guide学习心得(V2.1.0)
- Spark官方文档《Spark Programming Guide》解读
- Spark1.1.0 Spark Programming Guide
- Spark官方文档翻译:Spark Programming Guide(一)
- Spark1.1.0 Spark Streaming Programming Guide
- Spark1.1.0 Spark SQL Programming Guide
- Spark Programming Guide
- Spark programming guide
- Spark Programming Guide 中文版
- Spark Programming Guide
- Spark Programming Guide 翻译
- Spark Programming Guide
- spark programming guide
- Spark Programming Guide(二)
- Spark Programming Guide(三)
- Spark Programming Guide(四)
- Spark Programming Guide(五)
- Spark Streaming Programming Guide
- 马震宇-360问答系统(基于HDPHP)
- 记录一次很遗憾的面试经历
- InnoDB存储引擎——后台线程
- 数的划分 不同思路与解法
- django---first application
- 官方Spark Programming Guide学习心得(V2.1.0)
- 关于数据库优化
- LQB 1K
- 10的100次方是哪个公司
- Docker存储驱动之OverlayFS简介
- 事件驱动VS消息驱动
- 伪代码--懂点就行,不要当真
- 计算机三级考试准备笔记
- nginx配合rtmp模块搭建流服务器