ArchLinux Spark-Hadoop环境配置

来源:互联网 发布:淘宝商品标广告靠谱吗 编辑:程序博客网 时间:2024/06/06 06:43

SSH

Hadoop依靠ssh连接,所以要先保证arch的ssh及sshd可用,同时设置免密码登录
首先启用sshd

systemctl start sshd

使用ifconfig可以查看本机IP地址,此时应该可以使用命令:ssh <本机IP地址> ssh连接本机。
然后设置ssh的免密码登录(需要先在/etc/hosts文件中添加本机IP地址和主机名)

ssh-keygenssh-copy-id -i ~/.ssh/id_rsa.pub <hostname>

此时可以使用命令ssh <hostname> 免密码ssh登录

Hadoop

首先是解压下载好的Hadoop软件包(包括JAVA,Scala在内,不建议直接使用pacman安装,会对后期路径添加造成麻烦)
然后添加路径到全局变量:

#/etc/profileexport JAVA_HOME=export SCALA_HOME=export HADOOP_HOME=export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

此时输入:hadoop version 应当可以看到对应的Hadoop版本信息
进入hadoop文件夹内,在对应文件内添加对应代码:

#/hadoop-2.7.3/etc/hadoop/hadoop-env.shexport JAVA_HOME=/lib/jvm/java-8-openjdk
#/hadoop-2.7.3/etc/hadoop/hdfs-site.xml<property>        <name>dfs.datanode.data.dir</name>        <value>file:///<Hadoop安装路径>/hadoop-2.7.3/data/datanode</value>    </property>    <property>        <name>dfs.namenode.name.dir</name>        <value>file:///<Hadoop安装路径>/hadoop-2.7.3/data/namenode</value>    </property>    <property>        <name>dfs.namenode.http-address</name>        <value><hostname>:50070</value>    </property>    <property>        <name>dfs.namenode.secondary.http-address</name>        <value>Felix-Arch-X230:50090</value>    </property>
#/hadoop-2.7.3/etc/hadoop/yarn-site.xml<property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value></property><property>    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>    <value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property>    <name>yarn.resourcemanager.resource-tracker.address</name>    <value><hostname>:8025</value></property><property>    <name>yarn.resourcemanager.scheduler.address</name>    <value><hostname>:8030</value></property><property>    <name>yarn.resourcemanager.address</name>    <value><hostname>:8050</value></property>
#/hadoop-2.7.3/etc/hadoop/core-site.xml<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://<hostname>/</value>        <description>NameNode URI</description>    </property></configuration>

添加完毕后,使用如下代码格式化,并启动hadoop服务

hadoop namenode -formatcd <hadoop安装路径>/sbin./start-all.sh

启动完成后,输入:

jps

查看进程,此时应当可以看到六个正在运行的进程
在浏览器输入主机地址,可以看到Hadoop的相关信息

192.168.1.xxx:50070

Spark

同样先解压spark,之后进入spark文件夹内的conf文件夹,修改文件名

mv spark-env.sh.template spark-env.shmv slaves.template slaves

将对应代码写入对应文件内

#spark-env.shexport JAVA_HOME=export SCALA_HOME=export SPARK_MASTER_IP=<hostname>export SPARK_WORKER_CORES=2export SPARK_WORKER_MEMORY=1gexport HADOOP_CONF_DIR=<Hadoop安装路径>/hadoop-2.3.7/etc/hadoop
#slaves<hostname>

启动spark服务

cd <spark的安装路径>/sbin./start-all.sh

然后输入:

jps

此时除了之前hadoop启动的六个进程外,还应当新增两个进程,共八个进程
在浏览器中输入如下地址,则可以看到spark的相关信息

192.168.1.xxx:8080

Idea

Don’t use spark version 2.0, for there’s no lib file to import

0 0
原创粉丝点击