Spark 安装 及 HelloWorld

来源:互联网 发布:淘宝拍图用什么相机 编辑:程序博客网 时间:2024/06/05 17:51

说明

本篇主要介绍 Spark 的安装 及 HelloWorld程序(其实是计算一个文件的行数)。
环境: spark-2.1.0-bin-hadoop2.6.tgz

安装

Spark 其实属于免安装,所有的安装过程只不过是解压:

tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz

Hello World

Spark可以进入到shell环境中进行操作,提供有 pySpark 和 scalaSpark,可根据个人偏好选择。

# 进入pySpark./bin/pyspark# 进入scalaSpark./bin/spark-shell# 启动过程会看到如下内容:……# 由于我使用的IP是 10.0.2.113 ,所以我的WEB UI 是在 http://10.0.2.113:4040Spark context Web UI available at http://10.0.2.113:4040# Spark context 可在shell 环境中通过 sc 访问Spark context available as 'sc' (master = local[*], app id = local-1490427434293).# Spark session 可在shell 环境中通过 spark 访问Spark session available as 'spark'.……# =======================Hello World ===================# 在 spark shell 中统计 Spark 根目录下 README.MD 文件的行数# 1. 将 README.MD 文件读入 RDDscala> val lines = sc.textFile("./README.md")    lines: org.apache.spark.rdd.RDD[String] = ./README.md MapPartitionsRDD[5] at textFile at <console>:24# 2. 计算文件行数scala> lines.count()    res2: Long = 104# 3. 获取第一行内容scala> lines.first()    res3: String = # Apache Spark# 4. 查看帮助scala> :help# 5. 退出spark shellscala> :quit
0 0
原创粉丝点击