(三)hadoop虚拟机环境下安装以及配置

来源:互联网 发布:华为手机数据恢复 编辑:程序博客网 时间:2024/06/17 02:02

基础文件安装及配置

  1. 上传jdk, hadoop安装包到linux
  2. 解压jdk, 配置JAVA_HOME
  3. 解压hadoop
  4. 配置HADOOP_HOME(针对全局配置就修改/etc/profile,针对当前用户就修改~/.bashrc
  5. 配置$HADOOP_HOME/etc/hadoop/目录下的5个属性文件:

    • hadoop-env.sh
      配置JAVA_HOME路径
    • core-site.xml

      <configuration>     <!--指定NameNode路径-->     <property>         <name>fs.defaultFS</name>         <value>hdfs://hadoop01:9000</value>     </property>    <!--指定运行时临时文件路径-->       <property>         <name>hadoop.tmp.dir</name>         <value>/software/hadoop2.2/tmp</value>     </property></configuration>
    • hdfs-site.xml

      <configuration>     <!--指定hdfs副本数量, 虚拟机环境下,单台机器,所以指定为1-->     <property>         <name>dfs.replication</name>         <value>1</value>     </property></configuration>
    • mapred-site.xml.template

      <!--mv mapred-site.xml.template mapred-site.xml--><configuration>     <!--mapreduce运行在yarn上-->     <property>         <name>mapreduce.framework.name</name>         <value>yarn</value>     </property></configuration>
    • yarn-site.xml

      <configuration>     <!--配置NodeManager获取数据的方式是shuffle-->     <property>         <name>yarn.nodemanager.aux-services</name>         <value>mapreduce_shuffle</value>     </property>     <!--配置ResourceManager的地址-->     <property>         <name>yarn.resourcemanager.hostname</name>         <value>hadoop01</value>     </property></configuration>
  6. 格式化NameNode

    <!--正常情况下格式化一次就行了-->hdfs namenode -format

    执行完成之后,大概在倒数第十几行的地方会提示··· has bean successfully formatted 就表示格式化成功了。
    这里写图片描述

主机之间免密登录

首先查看~/.ssh/目录是否存在,如果存在则查看~/.ssh/目录下是否存在id_rsa和id_ras.pub文件,如果都存在,直接进入2, 否则转1。

  1. 生成主机秘钥

    ssh-keygen -t rsa

    成功执行后,默认会在~/.ssh/目录下生成id_rsa(私钥)和id_rsa.pub(公钥)两个文件。

  2. 将公钥拷贝到需要远程登录的主机上,两种方式:
    第一种:手动复制。
    将~/.ssh/id_rsa.pub里面的所有内容,追加到(末尾换行)需要免秘登陆的主机的~/.ssh/authorized_keys文件里面(没有authorized_keys文件则手工创建)。

    第二种:使用命令。

    ssh_copy_id hadoop01(需要免密登录的主机名,ip也行)

    当然以后有很多台主机,这样操作很麻烦,所以需要写shell脚本进行批量处理。

  3. 免密登录过程
    免密登录过程

启动hadoop

  • 启动命令

    // cd $HADOOP_HOME/sbin./start-all.sh    // 这种方式已经过时

    或者是:

    ./start-dfs.sh && ./start-yarn.sh

    启动之后,jps一下,如果启动成功,则会显示一下几个进程:

    3489 ResourceManager3870 Jps3353 SecondaryNameNode3103 NameNode3191 DataNode3583 NodeManager
  • 在浏览器测试
    在浏览器输入地址:

    http://hadoop01:50070

    可进入HDFS的管理界面。
    输入:

    http://hadoop01:8088

    可进入yarn的管理界面。
    地址栏主机名也可以是ip地址,要想可进行主机名方式访问,必须要在请求访问的当前主机上做好相关映射。

  • hdfs基础命令测试
    可以向hdfs里面上传或者下载数据,删除数据等等操作,测试一下是否能成功,例如上传本地数据到hdfs:

    hdfs dfs -put /software/本地数据文件 /

    然后查看文件是否成功上传到hdfs:

    hdfs dfs -ls /

至此hadoop的基本配置完成

原创粉丝点击