hadoop环境配置在eclipse上配置的总结

来源:互联网 发布:什么是creis中指数据 编辑:程序博客网 时间:2024/06/08 01:00
 这几天配置hadoop以及启动的一些问题的总结。。。。
    
    首先配置!!!
    hadoop配置文件所在地:  $HADOOP_HOME/etc/hadoop/
    解压hadoop2.7.3 jar包 和 jdk1.8.0 的jar包  配置环境变量 ~/.profile 文件下
    export JAVA_HOME="/mysoftware/jdk1.8.0_101"
    export HADOOP_HOME="/mysoftware/hadoop-2.7.3"

    设置java环境 hadoop-env.sh
    export JAVE_HOME=/mysoftware/jdk1.8.0_101
    
    接下来配置core-site.xml
    <configuration>
    //外部访问hadoop文件系统的URL
    <property>
                <name>fs.default.name</name>
                <value>hdfs://master:9000</value>   <!--master为主机名-->
        </property>

    //hadoop产生临时文件所存放的位置
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/mysoftware/hadoop-2.7.3/tmp</value>
        </property>
</configuration>

    配置 hdfs-site.xml
    <configuration>
    //文件系统中每一个文件块的重复份数 建议使用基数份
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
   
    //文件系统元数据存放的位置    元数据是指对数据信息描述的数据
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/mysoftware/hadoop-2.7.3/dfs/name</value>
    </property>

    //文件系统数据块存放的位置,数据块默认大小是128M
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/mysoftware/hadoop-2.7.3/dfs/data</value>
    </property>

    //对文件系统中数据访问操作时是否进行权限验证 默认是true   这个一定要设置 不然很多命令无法执行
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

    配置mapred-site.xml
    <configuration>
    //hadoop分布式计算框架的处理交给哪个平台管理  yarn平台这里的 
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>  
    </property>
    </configuration>

    配置yarn-site.xml
    <configuration>
    //配置hadoop分布式计算框架的资源调度管理的主机
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>

    // 配置hadoop分布式计算框架的资源处理方式
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

这里是hadoop需要配置的文件  还需要注意的是 在 slaves 下配置好所有从机名
在/etc/hosts 下面配置好 主机与从机的IP地址  ip地址采用静态的防止每次重启虚拟机时都要改ip文件

在所有的都配置好了 关闭虚拟机防火墙 因为防火墙可能导致一些端口不能被访问 一些数据被截止 等等
命令为(sudo ufw disable   |   sudo service iptables stop)

打开cmd  查看主机从机是否ping的通  远程连接是否可以ssh随意切换(这里可以设置免密操作 方便开发  将公钥的数据复制到共享文件里面去 就可以了 ~/.ssh下)

这下就完全配置好了  如果我没记错的话

接下来开启hadoop:
第一次开启hadoop需要格式化   (hdfs namenode -format)
通过jps命令查看hadoop是否启动成功
输入 sbin/start-dfs.sh   namenode、SecondaryNameNode节点激活 可通过jps查看
可以ssh到从机 查看是否从机也启动成功
输入 sbin/start-yarn.sh  启动数据节点  这时候会多一个datanode节点
这时候hadoop算完全启动成功

我们查看namenode的日志文件时 可以看到master:50070端口下有相应hadoop dfs的信息  我们可以通过图形界面来查看 如果服务能够连接 也打的开web页面 但是数据显示有问题 可以查看是否防火墙没有关闭 我就是防火墙没有关闭 导致一些显示的问题 也可能是jar包 但是我感觉都能连接起来 自己没乱删的话 jar包问题应该不大 再就是虚拟机不要进入安全状态 如果进入了 输入 hdfs dfs -salfmode leave来退出安全模式 。

可以通过hdfs dfsadmin -report 查看dfs是否激活成功
可以试着远程创建一个文件 再上传相应的数据 是否可以成功 如果都没有问题那么hadoop在虚拟机下的环境是配好了

接下来配置eclipse的hadoop环境  有三个包  一个是关于hadoop远程的包 一个是关于window下远程的包
hadoop2.7.3_dll.zip  关于win的
hadoop_dll2.6.0.7z
hadoop-eclipse-plugin-2.7.3.jar

解压hadoop2.7.3_dll.zip下的文件放到hadoop2.7.3的bin目录下面
将hadoop-eclipse-plugin-2.7.3.jar放在eclipse安装后plugins文件下

再打开eclipse会多一个远程的标志  再创建一个hadoop来测试 连接之前创建的虚拟机 相应的主机名端口 信息就一通了 

我在配置hadoop的时候出现节点没有激活的状况  可以看一下是不是缓存啊 防火墙啊 状态啊 一些问题
可以通过 rm -rf logs/   rm -rf dfs/  rm -rf tmp/ 删除创建的这些文件 来重新运行一次 看是否能够运行


原创粉丝点击