Hadoop2.x.x伪分布式环境搭建、测试

来源:互联网 发布:天界五行进化数据 编辑:程序博客网 时间:2024/06/05 22:52
0、使用host-only方式
将Windows上的虚拟网卡改成跟Linux上的网卡在同一个网段
注意:一定要将Windows上的VMnet1的IP设置和你的虚拟机在同一网段,但是IP不能相同。
1、Linux环境配置
1.1修改主机名
vim /etc/sysconfig/network

修改:HOSTNAME=hadoop01
1.2修改IP
vim /etc/sysconfig/network-scripts/ifcfg-eth0

修改:BOOTPROTO="dhcp" > BOOTPROTO="static"
添加:IPADDR="192.168.135.110"
NETMASK="255.255.255.0"
GATEWAY="192.168.135.1"
//DNS1="8.8.8.8"
//DNS2="8.8.4.4"
1.3修改主机名和IP的映射关系
vim /etc/hosts

添加:192.168.135.101 hadoop01
1.4关闭防火墙
service iptables status //查看防火墙状态
service iptables stop //关闭防火墙
chkconfig iptables --list //查看防火墙在哪种状态下会开机自动开启
chkconfig iptables off //关闭开机启动
1.5Linux重新启动查看状态
hostname ifconfig service iptables status ping more /etc/hosts(查看主机名与IP地址的映射关系)
1.6安装JDK
tar -zxvf
z:通过gzip支持压缩或解压缩。
x:解压缩。c是压缩。(extract,compression)
v:在压缩或解压缩过程中显示正在处理的文件名。
f:f后面必须跟上要处理的文件名。

vim /etc/profile //设置环境变量

文件尾添加:
export JAVA_HOME=
export PATH=$PATH:$JAVA_HOME/bin($PATH取出老的PATH,添加新的PATH进去;:路径分隔符)

刷新配置:
source /etc/profile
2、Hadoop环境配置
archive.apache.org/dist/(Apache所有项目列表)
2.1修改文件:
(1)hadoop-env.sh //修改hadoop环境变量,依赖jdk(esc shift :echo $JAVA_HOME打印出jdk安装路径)
vim hadoop-env.sh
export JAVA_HOME=
(2)core-site.xml
添加:
<!--用来指定HDFS老大(NameNode)的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:9000</value>
</property>
<!--用来指定hadoop运行时产生文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name> //配置一个具体的目录,这个目录用于存储hadoop运行时产生的一些非常重要的文件
<value>/home/hadoop/JavaTools/hadoop5.4.7/tmp</value>
</property>
(3)hdfs-site.xml
添加:
<!--用来指定HDFS保存数据副本的数量,1在伪分布式环境下保存一份-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
(4)mapred-site.xml(mv mapred-site.xml.template mapred-site.xml//将文件重命名)
添加:
<!--用来告诉hadoop以后MR运行在YARN上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
(5)yarn-site.xml(Linux中将要赋值的内容选中,按y复制,按p粘贴)
添加:
<!--NodeManager获取数据的方式是shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--用来指定YARN的老大(ResourceManager)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
2.2将Hadoop添加到环境变量
vim /etc/profile
添加:
export HADOOP_HOME=
PATH=$PATH:$HADOOP_HOME/bin
刷新配置:
source /etc/profile
2.3初始化HDFS(格式化文件系统)
hdfs namenode -fomat(不需要经常格式化,看到...successfully formated格式化成功)
2.4启动HDFS和YARN(/sbin)
./start-all.sh(过时)
jps(java process snapshot,查看Java进程快照,在jdk/bin/jps)
2.5通过浏览器验证
http://hadoop01:50070(hdfs管理界面)
http://hadoop01:8088(yarn管理界面)
2.6测试HDFS
上传文件:
hadoop fs -put 需要上传的文件 hdfs://hadoop01:9000/jdk (hadoop fs是运行hadoop filesystem的一个客户端)
下载文件:
hadoop fs -get hdfs://hadoop01:9000/jdk 需要保存到的路径下(/home/jdk1.7)
2.7测试MR和YARN
首先将本地文件上传到HDFS上,把输出结果也上传到HDFS上(若该文件不存在,则自动创建)
hadoop安装路径/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount hdfs://hadoop01:9000/words hdfs://hadoop01:9000/wcout
2.8查看日志文件
hadoop安装路径/logs/*.log
3、配置ssh免密码登陆
ls -la(显示该目录下所有文件包括隐藏文件)
生成ssh免密码登陆密钥:
ssh-keygen -t rsa(ssh-keygen生成密钥,-t使用的加密类型,非对称加密)
执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥),将公钥拷贝到本机则启动hadoop不需要使用密码,将公钥拷贝到要免密码登录的 

机器上。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys(若该文件不存在则创建该文件)或ssh-copy-id hadoop01

ssh工作原理如下图所示:
0 0