Hadoop安装

来源：互联网发布：海鹰数据网编辑：程序博客网时间：2024/06/01 07:12

1.前提
Hadoop安装之前必须在主机以及虚拟机中都配置静态IP地址，修改完主机名以及把主机名和IP绑定，并在window中验证将其ping通，这些安装步骤在上文中都已经提到，在此不再详细叙述，具体参见上篇文档。
其次就是JDK安装以及路径的配置，具体的在上篇文档也都已经提及，具体的安装及环境配置参见上篇文档。
2.Hadoop安装步骤
2.1 关闭防火墙
首先查看防火墙状态，如图中看到防火墙已处于关闭状态，若没有显示代码，则输入service iptables stop关闭防火墙，其次就是要在配置文件中永久关掉防火墙，chkconfig iptables off。
这里写图片描述
2.2 配置SSH免密码登录
（1）SSH实现原理，具体可以百度搜索。
（2）执行命令，在当前用户主目录下的.SSH文件夹下产生公私钥对，具体如图中所示。

如图所示，即为产生成功，可以看到.SSH下多了两个文件，其中末尾有pub的即为公钥文件，其次是要把当前的公钥文件复制到authorized_keys中，再次输入如下命令：
这里写图片描述
此时即完成了对自身的SSH免密码登录。如果是要对其它机器进行ssh的话，那就把自身的公钥文件复制到其它机器.ssh目录下的authorized_keys文件中。接下来验证配置是否成功：

如果第一次ssh自身需要输入密码，第二次ssh自身不再用输入密码，即说明配置成功。
2.3 安装hadoop
（1）首先用将远程文件传送到linux的softwares文件夹下，输入tar –zxvf file将其解压，其次将其移到modules文件夹中。
这里写图片描述
（2）设置环境变量，环境变量一般都是在profile文件中的。当编辑文件时，文件文字色彩多样，则说明用户对该文件只有只读权限。

此时，需要用root用户变更文件所属，再变更当前用户对文件的可修改权限，具体的见上面一章节。同时，在profile新增HADOOP_HOME环境变量的值，并将其加入到PATH路径下。
这里写图片描述
如图，新增环境变量，但是一定注意HADOOP_HOME变量一定要放在PATH之前，不然PATH中的$HADOOP_HOME将不会存在值。
（3）修改hadoop的配置文件，在此一共有四个配置文件需要修改，位于hadoop-1.2.1的conf文件夹下，分别是hadoop-env.sh，core-site.xml，hdfs-site.xml，mapred-site.xml。
在hadoop-env.sh中增加export JAVA_HOME=/opt /modules /jdk1.6.0_45，输入jdk的安装路径。
下面就是具体的配置文件了。
这里写图片描述
这其中增加浏览器中进入namenode的名字和端口，特别注意上图中的hadoop-master一定要改成自己的主机名。

这是配置数据的副本数。

这个主要是配置jobtracker的主机名称。
（4）配置完了一定要对hadoop进行格式化。
执行hadoop namenode –format
这里写图片描述
一般在启动hadoop之前都需要进行格式化，不过切忌两次格式化，因为每次格式化namenode之后，其namespaceid都会更新，会导致datanode的namespaceid与之不匹配，所以切忌二次格式化。
如果真的二次格式化之后，那么最好把所有的namenode目录及日志全部删除掉，再重新格式化，当然数据也丢失了，所以不推荐。
格式化的界面如下：
这里写图片描述
其中最后有个has been sucessfully formatted。
2.4 启动hadoop

启动完成报出以上信息，要验证则在命令行中输入jps查看当前进程。

最终可以看到，hadoop启动成功。
2.5 接口中查看NameNode
在浏览器中输入主机名+端口号50070，可进入主节点界面。主机名+端口号：50030可进入JobTracker任务分配界面。
这里写图片描述

最终可在浏览器中看到结果。
3.远程操作文件命令
3.1 远程复制文件命令
（1）一般的复制文件是cp，远程复制文件使用scp命令，scp 用户@主机名：目录/文件名至目录/自定义文件名。
（2）如果是远程复制文件夹的话scp –r 命令，其余类似。
3.2 将本地文件传输到远程机器的目录中去
（1）scp local_file username@remote_ip:remote_file
（2）如果是目录的的话则同理在scp后面-r，其余类似。

0 0