ambari安装Hadoop总结

来源：互联网发布：网络教学的缺点编辑：程序博客网时间：2024/06/05 17:52

1. namenode hostname 不能有下划线，否则识别不了，要卸载重新安装，安装文件可以不删，要卸载

2.单个数据节点并无数据量的限制，整个集群能存多少数据取决于名称节点的内存有多大，所存储的单个文件的大小取决于整个集群所有数据节点的存储容量之和有多大

可以通过配置 $HADOOP_HOME/conf/hdfs-site.xml 文件里的 dfs.datanode.du.reserved 属性来配置HDFS预留磁盘的空间大小，从而限制 data node 的磁盘使用量（单位是字节数），如以下配置会给磁盘预留900GB的空间：

<property><name>dfs.datanode.du.reserved</name><!-- reserved space in bytes --><value>900000000000</value><description>Reserved space in bytes per volume. Always leave this much space free for non dfs use.</description></property>

3.dfs.name.dir 与 dfs.data.dir，可以配置多个目录以逗号隔开，如下：

<property>
    <name>dfs.name.dir</name>
    <value>/pvdata/hadoopdata/name/,/opt/hadoopdata/name/</value>
</property>
<property>
    <name>dfs.data.dir</name>
    <value>/dev/sda3/hadoopdata/,/dev/sda1/hadoopdata/</value>
</property>

对于有些服务器，总的磁盘会分几个目录，就需要配置多个目录，这样比一个目录要快

4.$dfs.namenode.name.dir/current/seen_txid非常重要，是存放transactionId的文 件，format之后是0，它代表的是namenode里面的edits_*文件的尾数，namenode重启的时候，会按照seen_txid的数字， 循序从头跑edits_0000001~到seen_txid的数字。所以当你的hdfs发生异常重启的时候，一定要比对seen_txid内的数字是不 是你edits最后的尾数，不然会发生建置namenode时metaData的资料有缺少，导致误删Datanode上多余Block的资讯;同时不一致，启动namenode也是有问题5./storage/hadoop/hdfs/namenode/current下：edits_inprogress_0000000000001476880，这个文件在机器断电后，可能出现损坏，把以下<?xml version="1.0" encoding="UTF-8"?><EDITS>  <EDITS_VERSION>-63</EDITS_VERSION>  <RECORD>    <OPCODE>OP_START_LOG_SEGMENT</OPCODE>    <DATA>      <TXID>1473601</TXID>    </DATA>  </RECORD></EDITS>内容，转成2进账，覆盖下这个文件，就不会报错：Gap in transactions. Expected to be able to read up until at least txid 1473601, but...

6.ambari在安装hive，并启动hive 的metastore时，会报：UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 错误，这是python2.*的BUG,

根据其他错误提示，在Python文件开头添加：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

自己添加的文件路径是：/usr/lib/python2.6/site-packages/resource_management/core下的logger.py

1 0