ArchLinux Spark-Hadoop环境配置

来源：互联网发布：淘宝商品标广告靠谱吗编辑：程序博客网时间：2024/06/06 06:43

SSH

Hadoop依靠ssh连接，所以要先保证arch的ssh及sshd可用，同时设置免密码登录
首先启用sshd

systemctl start sshd

使用ifconfig可以查看本机IP地址，此时应该可以使用命令：ssh <本机IP地址> ssh连接本机。
然后设置ssh的免密码登录（需要先在/etc/hosts文件中添加本机IP地址和主机名）

ssh-keygenssh-copy-id -i ~/.ssh/id_rsa.pub <hostname>

此时可以使用命令ssh <hostname> 免密码ssh登录

Hadoop

首先是解压下载好的Hadoop软件包（包括JAVA，Scala在内，不建议直接使用pacman安装，会对后期路径添加造成麻烦）
然后添加路径到全局变量：

#/etc/profileexport JAVA_HOME=export SCALA_HOME=export HADOOP_HOME=export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

此时输入：hadoop version 应当可以看到对应的Hadoop版本信息
进入hadoop文件夹内，在对应文件内添加对应代码：

#/hadoop-2.7.3/etc/hadoop/hadoop-env.shexport JAVA_HOME=/lib/jvm/java-8-openjdk

#/hadoop-2.7.3/etc/hadoop/hdfs-site.xml<property>        <name>dfs.datanode.data.dir</name>        <value>file:///<Hadoop安装路径>/hadoop-2.7.3/data/datanode</value>    </property>    <property>        <name>dfs.namenode.name.dir</name>        <value>file:///<Hadoop安装路径>/hadoop-2.7.3/data/namenode</value>    </property>    <property>        <name>dfs.namenode.http-address</name>        <value><hostname>:50070</value>    </property>    <property>        <name>dfs.namenode.secondary.http-address</name>        <value>Felix-Arch-X230:50090</value>    </property>

#/hadoop-2.7.3/etc/hadoop/yarn-site.xml<property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value></property><property>    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>    <value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property>    <name>yarn.resourcemanager.resource-tracker.address</name>    <value><hostname>:8025</value></property><property>    <name>yarn.resourcemanager.scheduler.address</name>    <value><hostname>:8030</value></property><property>    <name>yarn.resourcemanager.address</name>    <value><hostname>:8050</value></property>

#/hadoop-2.7.3/etc/hadoop/core-site.xml<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://<hostname>/</value>        <description>NameNode URI</description>    </property></configuration>

添加完毕后，使用如下代码格式化，并启动hadoop服务

hadoop namenode -formatcd <hadoop安装路径>/sbin./start-all.sh

启动完成后，输入：

jps

查看进程，此时应当可以看到六个正在运行的进程
在浏览器输入主机地址，可以看到Hadoop的相关信息

192.168.1.xxx:50070

Spark

同样先解压spark，之后进入spark文件夹内的conf文件夹，修改文件名

mv spark-env.sh.template spark-env.shmv slaves.template slaves

将对应代码写入对应文件内

#spark-env.shexport JAVA_HOME=export SCALA_HOME=export SPARK_MASTER_IP=<hostname>export SPARK_WORKER_CORES=2export SPARK_WORKER_MEMORY=1gexport HADOOP_CONF_DIR=<Hadoop安装路径>/hadoop-2.3.7/etc/hadoop

#slaves<hostname>

启动spark服务

cd <spark的安装路径>/sbin./start-all.sh

然后输入：

jps

此时除了之前hadoop启动的六个进程外，还应当新增两个进程，共八个进程
在浏览器中输入如下地址，则可以看到spark的相关信息

192.168.1.xxx:8080

Idea

Don’t use spark version 2.0, for there’s no lib file to import

0 0