(一)spark学习笔记-开发环境

来源:互联网 发布:网络造字 编辑:程序博客网 时间:2024/05/22 03:15

(一)spark学习笔记-开发环境

1.基本软件

Vmware,ubuntu,IDEA

2.配置

1.我是使用Vmware虚拟机,下的ubuntu系统,spark是放在虚拟机里的,然后又在自己的机器上使用IDEA,写的代码,然后导成jar包,放到虚拟机里跑。
所以首先是Vmware和ubuntu的下载和安装,这个百度一下前面那几个都行,也就不细说。
2.hadoop与spark的下载与安装
首先是给用户添加权限。
输入:sudo gedit /etc/sudoers单击回车
这里写图片描述
将这一部分的用户权限改成这样,hadoop是我的用户名。
接下来是安装ssh,因为hadoop是集群,如果不安装ssh,那各台机器之间就无法访问了,所以如果你要安装伪分布式或者真的集群,还是要装一下。
输入sudo apt-get install openssh-server
安装完成后启动
sudo /etc/init.d/ssh start
设置免密码登陆
ssh-keygen -t rsa -P “”
接下来输入
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
将当前用户的文件添加到授权文件中。
输入
ssh localhost
如果登陆成功。
这里写图片描述
这表示登陆成功了。
输入exit退出。


3.安装hadoop
首先是到hadoop官网
点这里
最好选择镜像下载,应该会快一点。
输入sudo tar xzf hadoop-2.7.2.tar.gz解压
我是把hadoop放到了/usr/local目录下
sudo mv hadoop-2.7.2 /usr/local/hadoop
接下来要对hadoop的一些文件进行修改,所以要赋予读写权限。
sudo chmod 774 /usr/local/hadoop
首先是修改配置,添加路径。
输入~/.bashrc
添加如下配置
这里写图片描述
然后输入
source ~/.bashrc
使其生效
执行
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
修改环境配置,找到java的路径那一栏,将java路径改为正确路径。这里写图片描述


到这一步已经可以执行一些wordcount之类的程序了,接下来是伪分布式的安装过程。
找到/usr/local/hadoop/etc/hadoop/文件夹下的core-site.xml文件,对其进行修改。

这里写图片描述
改成这个样子,这里的ip地址最好不要写localhost,之前在看攻略的时候写成了localhost,虽然在这里运行没有问题,但是后来自己在用eclipse连hadoop的时候,就会无法连接。
接下来是修改配置文件hdfs-site.xml这里写图片描述
最后一步是格式化,输入
hadoop-namenode-format
这是第一次启动的时候才要输入的,之后并不需要输入,完成之后进入sbin启动,输入start-all.sh进行启动,这是比较偷懒的方式,正常是要一个一个启动过来的,才可以对出现的问题进行排查。但是这里只是单机版,所以不再过多讲述。完成之后输入
jps

这里写图片描述

如果你有这么几个东西,就差不多ok了。


3.spark配置
首先,spark都是由scala写的,所以要先下载scala。
点这里下载
scala下载完之后,解压scala
输入 tar -xvf scala-2.11.7.tgz
接下来 cat ~/.bashrc修改配置文件。
这里写图片描述
使修改的配置文件立即生效
source ~/.bashrc
要验证是否scala是否安装成功,则输入
scala -version
这里写图片描述
接下来下载spark
地址点这里
同样,也是选择镜像站下载。
同样,解压,解压完成之后,配置环境变量
export SPARK_HOME=/home/spark/opt/spark-1.2.0-bin-hadoop2.4
完成之后记得输入 source ~/.bashrc使其生效
完成之后要验证spark是否成功安装,可以进入spark的文件夹,然后按照图示这里写图片描述
如此则证明安装成功,由于机器原因,并没有安装成集群,想要安装集群,可以另行找之。

0 0
原创粉丝点击