hadoop环境配置在eclipse上配置的总结

来源：互联网发布：什么是creis中指数据编辑：程序博客网时间：2024/06/08 01:00

这几天配置hadoop以及启动的一些问题的总结。。。。

    首先配置！！！
    hadoop配置文件所在地： $HADOOP_HOME/etc/hadoop/
    解压hadoop2.7.3 jar包和 jdk1.8.0 的jar包配置环境变量 ~/.profile 文件下
    export JAVA_HOME="/mysoftware/jdk1.8.0_101"
    export HADOOP_HOME="/mysoftware/hadoop-2.7.3"

    设置java环境 hadoop-env.sh
    export JAVE_HOME=/mysoftware/jdk1.8.0_101

    接下来配置core-site.xml
    <configuration>
    //外部访问hadoop文件系统的URL
    <property>
                <name>fs.default.name</name>
                <value>hdfs://master:9000</value>   
        </property>

    //hadoop产生临时文件所存放的位置
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/mysoftware/hadoop-2.7.3/tmp</value>
        </property>
</configuration>

    配置 hdfs-site.xml
    <configuration>
    //文件系统中每一个文件块的重复份数建议使用基数份
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>

    //文件系统元数据存放的位置    元数据是指对数据信息描述的数据
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/mysoftware/hadoop-2.7.3/dfs/name</value>
    </property>

    //文件系统数据块存放的位置，数据块默认大小是128M
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/mysoftware/hadoop-2.7.3/dfs/data</value>
    </property>

    //对文件系统中数据访问操作时是否进行权限验证默认是true   这个一定要设置不然很多命令无法执行
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

    配置mapred-site.xml
    <configuration>
    //hadoop分布式计算框架的处理交给哪个平台管理 yarn平台这里的
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    </configuration>

    配置yarn-site.xml
    <configuration>
    //配置hadoop分布式计算框架的资源调度管理的主机
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>

    // 配置hadoop分布式计算框架的资源处理方式
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

这里是hadoop需要配置的文件还需要注意的是在 slaves 下配置好所有从机名
在/etc/hosts 下面配置好主机与从机的IP地址 ip地址采用静态的防止每次重启虚拟机时都要改ip文件

在所有的都配置好了关闭虚拟机防火墙因为防火墙可能导致一些端口不能被访问一些数据被截止等等
命令为（sudo ufw disable   | sudo service iptables stop）

打开cmd 查看主机从机是否ping的通远程连接是否可以ssh随意切换（这里可以设置免密操作方便开发将公钥的数据复制到共享文件里面去就可以了 ~/.ssh下）

这下就完全配置好了如果我没记错的话

接下来开启hadoop：
第一次开启hadoop需要格式化   （hdfs namenode -format）
通过jps命令查看hadoop是否启动成功
输入 sbin/start-dfs.sh   namenode、SecondaryNameNode节点激活可通过jps查看
可以ssh到从机查看是否从机也启动成功
输入 sbin/start-yarn.sh 启动数据节点这时候会多一个datanode节点
这时候hadoop算完全启动成功

我们查看namenode的日志文件时可以看到master:50070端口下有相应hadoop dfs的信息我们可以通过图形界面来查看如果服务能够连接也打的开web页面但是数据显示有问题可以查看是否防火墙没有关闭我就是防火墙没有关闭导致一些显示的问题也可能是jar包但是我感觉都能连接起来自己没乱删的话 jar包问题应该不大再就是虚拟机不要进入安全状态如果进入了输入 hdfs dfs -salfmode leave来退出安全模式。

可以通过hdfs dfsadmin -report 查看dfs是否激活成功
可以试着远程创建一个文件再上传相应的数据是否可以成功如果都没有问题那么hadoop在虚拟机下的环境是配好了

接下来配置eclipse的hadoop环境有三个包一个是关于hadoop远程的包一个是关于window下远程的包
hadoop2.7.3_dll.zip 关于win的
hadoop_dll2.6.0.7z
hadoop-eclipse-plugin-2.7.3.jar

解压hadoop2.7.3_dll.zip下的文件放到hadoop2.7.3的bin目录下面
将hadoop-eclipse-plugin-2.7.3.jar放在eclipse安装后plugins文件下

再打开eclipse会多一个远程的标志再创建一个hadoop来测试连接之前创建的虚拟机相应的主机名端口信息就一通了

我在配置hadoop的时候出现节点没有激活的状况可以看一下是不是缓存啊防火墙啊状态啊一些问题
可以通过 rm -rf logs/   rm -rf dfs/ rm -rf tmp/ 删除创建的这些文件来重新运行一次看是否能够运行

阅读全文

0 0