Linux安装Hadoop

来源：互联网发布：pcl icp源码编辑：程序博客网时间：2024/06/01 19:33

准备linux环境

1.修改主机名

vi  /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=

2.修改ip地址

vi /etc/sysconfig/network-scripts/ifcfg-ens33

DEVICE=ens33
TYPE=Ethernet
BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.139.129
NETMASK=255.255.255.0
BROADCAST=192.168.139.255
#桥接模式
#GATEWAY=192.168.80.1
#DNS1=
#DNS2=

3.重启网络服务

service network restart

4.配置主机名和IP地址的映射关系

192.168.139.129 hadoop.edu360.cn

hostname hadoop.edu360.cn

5.关闭防火墙

service iptables statusservice iptables stop

6.关闭防火墙的开机启动

chkconfig iptables --listchkconfig iptables off

7.安装JDK

1.上传JDK

2.解压

3.修改环境变量

vi /etc/profile

export JAVA_HOME=/usr/java/jdk1.8.0_131
export PATH=&PATH:$JAVA_HOME/bin

4.重新加载环境变量脚本

source /etc/profile

5.验证Java是否有效

java -version

8.安装Hadoop

1.上传Hadoop安装包

2.解压

在Hadoop安装包目录下有几个比较重要的目录
sbin:启动或停止Hadoop相关服务的脚本
bin:对Hadoop相关服务(HDFD,YARN)进行操作的脚本
etc:Hadoop的配置文件目录
share:Hadoop的依赖jar包和文档，文档可以被删掉
lib:Hadoop的本地库(对数据进行压缩解压缩功能)

3.配置Hadoop(伪分布式),修改其中的5个配置文件即可

cd /usr/bigdata/hadoop-2.8.0/etc/hadoop/

修改第一个配置文件

vi hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_131

修改第二个配置文件
core-site.xml

<configuration> <!-- 配置hdfd的namenode的地址 --> <property>  <name>fs.defaultFS</name>  <value>hdfs://hadoop.edu360.cn:9000</value> </property> <!-- 配置Hadoop运行时产生数据的存储目录，不是临时的数据 --> <property>  <name>hadoop.tmp.dir</name>  <value>/usr/bigdata/tmp</value> </property></configuration>

修改第三个配置文件
hdfs-site.xml

<configuration> <!-- 指定HDFS存储数据的数量 --> <property>  <name>dfs.replication</name>  <value>1</value> </property></configuration>

修改第四个配置文件

mv mapred-site.xml.template mapred-site.xmlvi mapred-site.xml

<configuration> <!-- 指定mapreduce编程模型运行在yarn上 --> <property>  <name>mapreduce.framework.name</name>  <value>yarn</value> </property></configuration>

修改第五个配置文件
yarn-site.xml

<configuration><!-- 指定yarn的老大(ResourceManager的地址) --><property> <name>yarn.resourcemanager.hostname</name> <value>hadoop.edu360.cn</value></property><!-- mapreduce执行shuffle时获取数据的方式 --><property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property></configuration>

对hdfs进行初始化（格式化hdfs）
bin目录下

./hdfs namenode -format

4.启动并测试Hadoop

sbin目录下

./start-dfs.sh./start-yarn.sh

使用jps查看进程是否存在
14161 ResourceManager
15009 Jps
14260 NodeManager
14006 SecondaryNameNode
13850 DataNode
13726 NameNode

访问hdfs的管理界面
http://192.168.139.129:50070
访问yarn的管理界面
http://192.168.139.129:8088

5.配置SSH免密码登录

生成ssh公钥和私钥

ssh-keygen -t rsa

~/.ssh
id_rsa(私钥)
id_rsa.pub(公钥)

拷贝公钥

ssh-copy-id localhost

~/.ssh目录下
authorized_keys(这个文件中包含了公钥的内容)

阅读全文

0 0