Hadoop部署目录的作用

来源：互联网发布：宁波数据研究院编辑：程序博客网时间：2024/05/11 04:44

一、Hadoop home目录

这是Hadoop home软件安装所在的目录，尽管名称里含有home，但通常不要将Hadoop安装在用户的home目录。当配置正确后，该目录是只读的，如果Hadoop是通过包来安装的，那么该目录通常在/usr/local、/opt或/usr中。

二、DataNode数据目录

其中的一个或多个目录被DataNode用来存储HDFS块数据。DataNode假设所提供的每个目录都是一个单独的物理设备，具有独立的主轴，并且块在不同的磁盘之间流转存储。这些目录作为数据的长期存储地占用了大多数的磁盘空间，它们往往和Tasktracker中MapReduce的本地目录放在相同的设备上。

三、NameNode目录

这些目录中的一个或多个被NameNode用来存储文件系统元数据。NameNode假设所提供的每个目录都是一个单独的物理设备，并会同步复制所有数据到所有磁盘，以确保数据在磁盘发生故障的情况下还可用。这些目录都需要相同大小的空间，通常不会超过100GB，通常这些目录中的某一个是NFS挂载，所以数据的写入可用跟物理无关。

四、MapReduce 本地目录

在MapReduce作业运行时，TaskTracker使用这些目录中的一个或多个来存储临时数据。更多主轴通常意味着更好的性能，因为MapReduce任务之间的干扰较小。根据MapReduce作业的不同要求，存储量大小有所区别，但总的来说存储量不大，这些目录也常常与DataNode的数据目录放在相同的设备上。

五、Hadoop日志目录

这是所有守护进程存储日志数据以及作业和任务级别数据的共用目录。Hadoop生成的日志数据量通常与集群的使用率成正比，更多的MapReduce作业意味着更多的日志。

六、Hadoop pid 目录

这是所有守护进程存储pid文件的目录，其数据量非常小而且不增长。

七、Hadoop临时目录

Hadoop需要一个临时目录，因为有时需要创建生存时间短的小文件，临时目录使用得最显著的是在MapReduce作业所提交到的机器，这些机器保留了一份最终发送到JobTracker的JAR文件。目录的默认配置是/tmp/hadoop-<${user.name}>,许多管理员都不需要管这个。

1 0