Hadoop安装

来源:互联网 发布:海鹰数据网 编辑:程序博客网 时间:2024/06/01 07:12

1.前提
Hadoop安装之前必须在主机以及虚拟机中都配置静态IP地址,修改完主机名以及把主机名和IP绑定,并在window中验证将其ping通,这些安装步骤在上文中都已经提到,在此不再详细叙述,具体参见上篇文档。
其次就是JDK安装以及路径的配置,具体的在上篇文档也都已经提及,具体的安装及环境配置参见上篇文档。
2.Hadoop安装步骤
2.1 关闭防火墙
首先查看防火墙状态,如图中看到防火墙已处于关闭状态,若没有显示代码,则输入service iptables stop关闭防火墙,其次就是要在配置文件中永久关掉防火墙,chkconfig iptables off。
这里写图片描述
2.2 配置SSH免密码登录
(1)SSH实现原理,具体可以百度搜索。
(2)执行命令,在当前用户主目录下的.SSH文件夹下产生公私钥对,具体如图中所示。
这里写图片描述
如图所示,即为产生成功,可以看到.SSH下多了两个文件,其中末尾有pub的即为公钥文件,其次是要把当前的公钥文件复制到authorized_keys中,再次输入如下命令:
这里写图片描述
此时即完成了对自身的SSH免密码登录。如果是要对其它机器进行ssh的话,那就把自身的公钥文件复制到其它机器.ssh目录下的authorized_keys文件中。接下来验证配置是否成功:
这里写图片描述
如果第一次ssh自身需要输入密码,第二次ssh自身不再用输入密码,即说明配置成功。
2.3 安装hadoop
(1)首先用将远程文件传送到linux的softwares文件夹下,输入tar –zxvf file将其解压,其次将其移到modules文件夹中。
这里写图片描述
(2)设置环境变量,环境变量一般都是在profile文件中的。当编辑文件时,文件文字色彩多样,则说明用户对该文件只有只读权限。
这里写图片描述
此时,需要用root用户变更文件所属,再变更当前用户对文件的可修改权限,具体的见上面一章节。同时,在profile新增HADOOP_HOME环境变量的值,并将其加入到PATH路径下。
这里写图片描述
如图,新增环境变量,但是一定注意HADOOP_HOME变量一定要放在PATH之前,不然PATH中的$HADOOP_HOME将不会存在值。
(3)修改hadoop的配置文件,在此一共有四个配置文件需要修改,位于hadoop-1.2.1的conf文件夹下,分别是hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml。
在hadoop-env.sh中增加export JAVA_HOME=/opt /modules /jdk1.6.0_45,输入jdk的安装路径。
下面就是具体的配置文件了。
这里写图片描述
这其中增加浏览器中进入namenode的名字和端口,特别注意上图中的hadoop-master一定要改成自己的主机名。
这里写图片描述
这是配置数据的副本数。
这里写图片描述
这个主要是配置jobtracker的主机名称。
(4)配置完了一定要对hadoop进行格式化。
执行hadoop namenode –format
这里写图片描述
一般在启动hadoop之前都需要进行格式化,不过切忌两次格式化,因为每次格式化namenode之后,其namespaceid都会更新,会导致datanode的namespaceid与之不匹配,所以切忌二次格式化。
如果真的二次格式化之后,那么最好把所有的namenode目录及日志全部删除掉,再重新格式化,当然数据也丢失了,所以不推荐。
格式化的界面如下:
这里写图片描述
其中最后有个has been sucessfully formatted。
2.4 启动hadoop
这里写图片描述
启动完成报出以上信息,要验证则在命令行中输入jps查看当前进程。
这里写图片描述
最终可以看到,hadoop启动成功。
2.5 接口中查看NameNode
在浏览器中输入主机名+端口号50070,可进入主节点界面。主机名+端口号:50030可进入JobTracker任务分配界面。
这里写图片描述
这里写图片描述
最终可在浏览器中看到结果。
3.远程操作文件命令
3.1 远程复制文件命令
(1)一般的复制文件是cp,远程复制文件使用scp命令,scp 用户@主机名:目录/文件名 至 目录/自定义文件名。
(2)如果是远程复制文件夹的话scp –r 命令,其余类似。
3.2 将本地文件传输到远程机器的目录中去
(1)scp local_file username@remote_ip:remote_file
(2)如果是目录的的话则同理在scp后面-r,其余类似。

0 0