dfsadmin -report结果分析

来源：互联网发布：魔音变声软件编辑：程序博客网时间：2024/05/01 11:05

最近在搭建hadoop集群实验中，启动集群时常报错：jobtracker.info could only be replicated to 0 nodes, instead of 1

查了好多资料，用了好多方式尝试解决，通过下面的命令总有找到问题所在了。

原因：Configured Capacity也就是datanode 没用分配容量

[root@dev9106 bin]# ./hadoop dfsadmin -report

Configured Capacity: 0 (0 KB)

Present Capacity: 0 (0 KB)

DFS Remaining: 0 (0 KB)

DFS Used: 0 (0 KB)

DFS Used%: ?%

Under replicated blocks: 0

Blocks with corrupt replicas: 0

Missing blocks: 0

解决方法：

1. 查看你的文件系统

[root@dev9106 /]# df -hl

文件系统容量已用可用已用% 挂载点

/dev/sda3 1.9G 1.6G 302M 84% /

/dev/sda8 845G 47G 756G 6% /home

/dev/sda7 5.7G 147M 5.3G 3% /tmp

/dev/sda6 9.5G 4.0G 5.1G 45% /usr

/dev/sda5 9.5G 273M 8.8G 3% /var

/dev/sda1 190M 15M 167M 8% /boot

tmpfs 7.8G 0 7.8G 0% /dev/shm

2. 修改文件Hadoop conf/core-site.xml 中hadoop.tmp.dir的值

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

</property>

</configuration>

3. 停止hadoop服务，重新格式化namenode

4. 重启服务

5. Ok

2. 运行hadoop程序时，中途我把它终止了，然后再向hdfs加文件或删除文件时，出现Name node is in safe mode错误：
rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode

解决的命令：

bin/hadoop dfsadmin -safemode leave 关闭safe mode

终于找到错误原因了，之所以datanode的log为空，是因为版本原因，我是用nutch-1.0自带的hadoop-0.19.1。可能是因为版本过低吧，我在装了hadoop-0.20.2试了下，同样的配置datanode报出了错误，太高兴了（终于有错误了），org.apache.ipc.Client:Retrying connet to server:openlab0/192.168.1.180:9000.Already tried 0 time(s)
…………
not available yet ,Zzzzz...
在网上查了一下原因，把dfs.defaul.name有hdfs://openlab0:9000改成了hdfs://192.168.1.180:900,也就是把主机机器名换成了IP，mapred.job.tracker同样的改发
再重新format就行了。
困扰了半个月的问题终于搞定了，真TMD高兴！！:'(:)

刚查看了一下端口使用情况，发现了一些问题：
master（yanxinhe）结点（既是namenode又是datanode）端口情况：
激活Internet连接 (服务器和已建立连接的)
Proto Recv-Q Send-Q Local Address          Foreign Address       State
tcp       0    0 *:50020                *:*                   LISTEN
tcp       0    0 yanxinhe:38504       *:*                   LISTEN
tcp       0    0 yanxinhe:9000          *:*                   LISTEN
tcp       0    0 yanxinhe:9001          *:*                   LISTEN
tcp       0    0 *:50090                *:*                   LISTEN
tcp       0    0 *:50060                *:*                   LISTEN
tcp       0    0 *:50030                *:*                   LISTEN
tcp       0    0 *:50070                *:*                   LISTEN
tcp       0    0 *:ssh                *:*                   LISTEN
tcp       0    0 yanxinhe:ipp          *:*                   LISTEN
tcp       0    0 *:50010                *:*                   LISTEN
tcp       0    0 *:50075                *:*                   LISTEN
tcp       0    0 yanxinhe.local:ssh    wangchi:38780          ESTABLISHED
tcp       0    0 yanxinhe:60070       yanxinhe:9000          ESTABLISHED
tcp       0    0 yanxinhe:9001          yanxinhe:51473       ESTABLISHED
tcp       0    0 yanxinhe.local:ssh    192.168.1.124:ripd    ESTABLISHED
tcp       0    0 yanxinhe:51473       yanxinhe:9001          ESTABLISHED
tcp       0    0 yanxinhe:9000          yanxinhe:60070       ESTABLISHED
datanode（wangchi）端口使用情况：
Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address          Foreign Address       State
tcp       0    0 *:50060                *:*                   LISTEN
tcp       0    0 *:ssh                *:*                   LISTEN
tcp       0    0 wangchi:ipp          *:*                   LISTEN
tcp       0    0 wangchi:39544          *:*                   LISTEN
tcp       0    0 wangchi.local:38185    wangchi1:ssh          ESTABLISHED
tcp       0    0 wangchi.local:38780    yanxinhe:ssh          ESTABLISHED
tcp6    0    0 [::]:ssh             [::]:*                LISTEN
tcp6    0    0 localhost:ipp          [::]:*                LISTEN
udp       0    0 *:mdns                *:*
udp       0    0 *:39672                *:*
datanode（wangchi1）端口使用情况：
Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address          Foreign Address       State
tcp       0    0 wangchi1:35171       *:*                   LISTEN
tcp       0    0 *:50060                *:*                   LISTEN
tcp       0    0 *:ssh                *:*                   LISTEN
tcp       0    0 wangchi1:ipp          *:*                   LISTEN
tcp       0    0 wangchi1.local:ssh    wangchi:38185          ESTABLISHED
tcp6    0    0 [::]:ssh             [::]:*                LISTEN
tcp6    0    0 localhost:ipp          [::]:*                LISTEN
udp       0    0 *:46504                *:*
udp       0    0 *:mdns                *:*
观察上面的东西可以发现，datanode都只启动了50060端口（TaskTracker  HTTP状态监视地址），而50020端口（DataNode IPC服务的地址），50010端口（DataNode服务的地址），50075端口（DataNode HTTP状态监视地址）没有启动