【hadoop】 2001-hdfs原理

来源：互联网发布：kmeans算法介绍编辑：程序博客网时间：2024/06/06 15:24

HDFS是一个主/从（Mater/Slave）体系结构，从最终用户的角度来看，它就像传统的文件系统一样，可以通过目录路径对文件执行 CRUD（Create、Read、Update和Delete）操作。但由于分布式存储的性质，HDFS集群拥有一个NameNode和一些 DataNode。NameNode管理文件系统的元数据，DataNode存储实际的数据。客户端通过同NameNode和DataNodes的交互访问文件系统。客户端联系NameNode以获取文件的元数据，而真正的文件I/O操作是直接和DataNode进行交互的。

1、HDFS

由NameNode（管理者）-DataNode（工作者）组成

NameNode：管理文件系统命名、维护所有文件和目录、记录每个文件中各个块在数据节点的信息，接收用户的操作请求。
DataNode：文件存储基本单元。文件系统工作节点，存储并检索数据块，并且定期向NameNode发送他们所存储块的列表。

fsimage: 存储NameNode内存元数据信息，存储内存数据，内存数据序列化到磁盘上。

edits：操作日志文件

fstime：保持最近一次checkpoint的时间。

fsimage + edits 合并，生成新的fsimage，在本地保存，并将其推送到NameNode，

替换旧的fsimage

fs.checkpoint.period : 两次checkpoint的最大时间间隔，默认3600s。需要满足两足

Hadoop2.x 版本在HDFS中增加对高可用性（HA）的支持，配置一对活动-备用（active-standby)namenode

HDFS中的数据块（block）

Hadoop1.x版本HDFS默认数据块大小64M
Hadoop2.x版本HDFS默认数据块大小128M
数据块：是文件存储处理的单元

2、HDFS架构

3、元数据存储细节

NameNode Metadata

文件名： /test/a.log

复制因子： 3

文件分成两块： blk_1,blk_2

每块存储位置： blk_1 存储在 h0,h1,h3 主机上，bllk_2存储在 h0,h2,h4主机上

1）NameNode、DataNode和Client

NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。
Client就是需要获取分布式文件系统文件的应用程序。

　　2）文件写入

Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

　　3）文件读取

Client向NameNode发起文件读取的请求。
NameNode返回文件存储的DataNode的信息。
Client读取文件信息。

参考文章：

hdfs读文件详解： http://www.cnblogs.com/maybob/archive/2013/04/25/3042780.html

hdfs架构： http://blog.csdn.net/xman_2009/article/details/9391745

0 0