Spark资料总结

来源:互联网 发布:nba2konline李慕豪数据 编辑:程序博客网 时间:2024/06/08 03:08

前言

最近看了一些关于Spark的资料,总结一下,为了以后再看或理解方便一点

正文

1,安装Spark,并了解基础操作

首先安装上Spark,再执行一下基础操作,就可以了。这里的目的是通过Spark的Shell,了解一下Spark的基础操作。接下来看看文章下面的一些概念和作用什么的就可以,不用看的太细。

  • Spark快速入门指南 - Spark安装与基础使用

2,了解如何使用Java编写Spark程序

(1)先看一下官方的文档。如果对于不了解Spark的人来说,直接看官方文档可能很难理解,所以在官方文档下面有一个中文版的官方文档。

  • Spark编程指南(官方英文版)
  • Spark编程指南(中文版)

(2)在看官方文档时,会看到关于RDD中使用Closure的问题,对于这个问题可以看一下下面3个文档来了解一一下。

  • 理解Spark中的闭包(closure)
  • Spark——共享变量
  • Spark 3. RDD 操作一 基础 ,放入方法,闭包,输出元素, 使用 K-V 工作

(3)在看官方文档时,可能还会看到一些Driver、Node、Partition等词汇。想了解关于Spark的一些基础概念的话,可以看下面的文章。

  • Spark里几个重要的概念及术语:这个文章对基本概念作了简单说明。
  • 『 Spark 』2. spark 基本概念解析:这个文章对基本介绍的比较多,而且这个博客的其它博文,对基础概念大部都做了很详细的介绍。可以看看其它的文章。
  • Distributed Systems Architecture:这个文章里有很多关于Spark结构的图,介绍的看起来挺详细的。而文章里还有其它文章的链接,想详细知道的可以看看。
    还有一个关于Spark架构的PPT和它的讲演视频:
  • Spark Architecture Video
  • Spark Architecture PPT

(4)在看官方文档时,会看到一些Map和Reduce的API,下面的文章,让你能快速知道这个API的用法。

  • Spark RDD API详解(一) Map和Reduce
0 0
原创粉丝点击