hadoop常用配置

来源:互联网 发布:华云数据待遇如何知乎 编辑:程序博客网 时间:2024/05/17 21:16

Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,经常在物理上在一起.

HDFS集群:

负责存储海量的数据,集群中的角色主要有NameNode/DataNode.

YARN集群:

负责数据运算时的资源调度,集群的主要角色有ResourceManager/NodeManager.


hadoop-env.sh:

编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。

core-site.xml:

fs.defaultFS是NameNode的url地址.

hadoop.tep.dir是hadoop的日志文件,默认是地址是/tmp/hadoop-${user.name}.

io.file.buffer.size是缓存大小的设置,默认是4096(4kb),以byte为单位.

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp-node-01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>
</property>

</configuration>

hdfs-site.xml:

dfs.namenode.name.dir是NameNode日志的存放地址,以逗号分隔可以填写多个地址防止数据损坏.

dfs.datanode.data.dir是DataNode日志的存放地址,以逗号分隔可以填写多个地址防止数据损坏.

dfs.blocksize是hdfs系统中每个块的大小,默认是134217728(byte)也就是128MB.

dfs.namenode.handler.count(默认值是10)是设定namenode server thrreads的数量,这些threads会用ROC跟其它的datanodes沟通.当datanode数量太多时会发现很容易出现

RPC timeout,解决方法是提升网络速度或者提高这个值,但是要注意的是thread数量多也表示namenode小号的内存也随着增加.

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp-node-01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>
</property>
</configuration>
原创粉丝点击