（一）spark学习笔记-开发环境

来源：互联网发布：网络造字编辑：程序博客网时间：2024/05/22 03:15

（一）spark学习笔记-开发环境

1.基本软件

Vmware，ubuntu，IDEA

2.配置

1.我是使用Vmware虚拟机，下的ubuntu系统，spark是放在虚拟机里的，然后又在自己的机器上使用IDEA，写的代码，然后导成jar包，放到虚拟机里跑。
所以首先是Vmware和ubuntu的下载和安装，这个百度一下前面那几个都行，也就不细说。
2.hadoop与spark的下载与安装
首先是给用户添加权限。
输入：sudo gedit /etc/sudoers单击回车
这里写图片描述
将这一部分的用户权限改成这样，hadoop是我的用户名。
接下来是安装ssh，因为hadoop是集群，如果不安装ssh，那各台机器之间就无法访问了，所以如果你要安装伪分布式或者真的集群，还是要装一下。
输入sudo apt-get install openssh-server
安装完成后启动
sudo /etc/init.d/ssh start
设置免密码登陆
ssh-keygen -t rsa -P “”
接下来输入
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
将当前用户的文件添加到授权文件中。
输入
ssh localhost
如果登陆成功。
这里写图片描述
这表示登陆成功了。
输入exit退出。

3.安装hadoop
首先是到hadoop官网
点这里
最好选择镜像下载，应该会快一点。
输入sudo tar xzf hadoop-2.7.2.tar.gz解压
我是把hadoop放到了/usr/local目录下
sudo mv hadoop-2.7.2 /usr/local/hadoop
接下来要对hadoop的一些文件进行修改，所以要赋予读写权限。
sudo chmod 774 /usr/local/hadoop
首先是修改配置，添加路径。
输入~/.bashrc
添加如下配置
这里写图片描述
然后输入
source ~/.bashrc
使其生效
执行
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
修改环境配置，找到java的路径那一栏，将java路径改为正确路径。

到这一步已经可以执行一些wordcount之类的程序了，接下来是伪分布式的安装过程。
找到/usr/local/hadoop/etc/hadoop/文件夹下的core-site.xml文件，对其进行修改。

这里写图片描述
改成这个样子，这里的ip地址最好不要写localhost，之前在看攻略的时候写成了localhost，虽然在这里运行没有问题，但是后来自己在用eclipse连hadoop的时候，就会无法连接。
接下来是修改配置文件hdfs-site.xml
最后一步是格式化，输入
hadoop-namenode-format
这是第一次启动的时候才要输入的，之后并不需要输入，完成之后进入sbin启动，输入start-all.sh进行启动，这是比较偷懒的方式，正常是要一个一个启动过来的，才可以对出现的问题进行排查。但是这里只是单机版，所以不再过多讲述。完成之后输入
jps

这里写图片描述

如果你有这么几个东西，就差不多ok了。

3.spark配置
首先，spark都是由scala写的，所以要先下载scala。
点这里下载
scala下载完之后，解压scala
输入 tar -xvf scala-2.11.7.tgz
接下来 cat ~/.bashrc修改配置文件。
这里写图片描述
使修改的配置文件立即生效
source ~/.bashrc
要验证是否scala是否安装成功，则输入
scala -version

接下来下载spark
地址点这里
同样，也是选择镜像站下载。
同样，解压，解压完成之后，配置环境变量
export SPARK_HOME=/home/spark/opt/spark-1.2.0-bin-hadoop2.4
完成之后记得输入 source ~/.bashrc使其生效
完成之后要验证spark是否成功安装，可以进入spark的文件夹，然后按照图示这里写图片描述
如此则证明安装成功，由于机器原因，并没有安装成集群，想要安装集群，可以另行找之。

0 0