spark-2.1.0
来源:互联网 发布:gs2107用哪种编程软件 编辑:程序博客网 时间:2024/06/11 21:37
一、安装scala
spark 官方对配套的Scala版本有规定,要根据具体的spark的版本决定Scala的版本。
1.官方下载地址:http://www.scala-lang.org/download
2.解压到要安装的位置,我就解压在了桌面。
3.修改环境变量。
终端命令
sudo gedit ~/.bashrc修改:#scalaexport SCALA_HOME=/home/hadoop/scala-2.11.8 (scala的绝对路径)export PATH=$SCALA_HOME/bin:$PATHsource ~/.bashrc
4.查看 scala -version
5 .输入scala就可以进入scala的命令交互界面
6.slave端同样设置就可以
二、安装Spark
先在master配置。配置完成后复制到salves中即可
1.下载安装包 http://spark.apache.org/downloads.html
解压到自己安装的位置,我也解压到了桌面
2.配置环境变量
sudo gedit ~/.bashrc修改:#scala#sparkexport SPARK_HOME=/home/hadoop/spark-2.1.0(spark的绝对路径)export PATH=$SPARK_HOME/bin:$PATHsource ~/.bashrc
3.配置Spark。需要配置spark文件下的conf文件夹下spark-env.sh和slaves文件
首先需要把spark-env.sh.template和slaves template 都复制成spark-env.sh和slaves
cd spark-2.1.0/conf//复制cp spark-env.sh.template spark-env.sh cp slave.template slave.sh //修改spark-env.sh gedit spark-env.sh //写入export SCALA_HOME=/home/hadoop/scala-2.11.8 export JAVA_HOME=/usr/lib/jvm/javajdk1.8export HADOOP_HOME=/home/hadoop/hadoop2.7export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopSPARK_MASTER_IP=masterSPARK_LOCAL_DIRS=/home/hadoop/spark-2.1.0SPARK_DRIVER_MEMORY=1Gexport SPARK_WORKER_CORES=1export SPARK_WORKER_INSTANCES=1
JAVA_HOME 指的是java的安装目录
SCALA_HOME是scala的安装目录
HADOOP_HOME是hadoop的安装目录
SPARK_MASTER_IP spark的master节点的ip
SPARK_DRIVER_MEMORY 指的是每个slave节点能够最大的分配给exectors的内存大小
SPARK_WORKER_CORES=1 指的每个slave节点所占有的cpu核数目
export SPARK_WORKER_INSTANCES=1 每台机器上开启的worker 节点数目
修改slavegedit slave.sh添加节点名称1节点名称2
4.slave中由master复制过去,spark文件夹和bashrc文件
5.启动并测试
//启动hadoopcd hadoop2.7/sbin./start-all.sh//启动sparkcd spark-2.1.0/sbin./start-all.sh//查查看jpsmaster端:namenodesalve端:datanode //启动spark-shell控制台cd spark-2.1.0/binspark-shell//有park字样
浏览器查看
spark的webUI页面 master:8080
了解spark shell
master:4040
三、测试
(1)启动spark shell
(2) 进入spark/bin目录下
./run-example org.apache.spark.examples.LocalPi //运行出3.13...
测试二
1.往hdfs上传文件在hadoop hdfs 上创建文件夹datacd hadoopbin/hdfs dfs-mkdir /data//查看浏览器 master:500702.上传文件到data文件夹bin/hdfs dfs -put {需要上传的文件路径} 空格 {/data} -put /home/spark/README.md /data
3.对README.md文件进行操作
启动 spark shellcd spark/binspark-shell//获取文件scala > val rdd=sc.textFile("/data/README.md")scala > rdd.count
- Spark 2.1.0 -- Spark Streaming Programming Guide
- spark-2.1.0安装
- spark(2.1.0)
- spark-2.1.0
- ubuntu安装spark 2.1.0
- spark-2.1.0集群搭建
- spark 2.1 spark.yarn.services
- 创建Spark 2.1.0 Docker镜像
- Spark 2.1.0的运行模式
- Spark 2.1.0 单机版 centos 安装
- spark 2.1.0安装指南完整版
- Spark 2.1.0官方文档翻译
- 3台机器配置spark-2.1.0集群
- spark 2.1 spark-shell Startup Process
- spark 2.1 spark executor topology information
- maven编译spark源码(spark-2.3.0)
- Spark 2.1 structured streaming
- Spark 2.1 CallSite
- assets 文件夹到底放哪里 android studio
- 我的算法16
- Linux 系统下搭建Ftp服务器
- java数据库的增删改查
- 百度地图定位
- spark-2.1.0
- 793C Mice problem
- 矢量量化——LBG算法
- axis2所需最小包
- 迷宫寻宝 南阳82题
- 训练过程概要
- cocos2dx游戏开发学习笔记(一)
- android webview里设置cookie
- sdut 2604 Thrall’s Dream bfs