程序博客网 > 数据存储方案hadoop

Hadoop中hdfs的体系结构和读写过程

来源：互联网发布：数据存储方案hadoop 编辑：程序博客网时间：2024/05/17 08:26

HDFS的体系架构

整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过MR来实现对分布式并行任务处理的程序支持。

HDFS采用主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的（在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能，在最新的版本中就已经实现了）。NameNode作为主服务器，管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。

从内部来看，文件被分成若干个数据块，这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。NameNode是所有HDFS元数据的管理者，用户数据永远不会经过NameNode。

这里写图片描述
如图：HDFS体系结构图

图中涉及三个角色：NameNode、DataNode、Client。NameNode是管理者，DataNode是文件存储者、Client是需要获取分布式文件系统的应用程序。

文件写入：

1） Client向NameNode发起文件写入的请求。

2） NameNode根据文件大小和文件块配置情况，返回给Client它管理的DataNode的信息。

3） Client将文件划分为多个block，根据DataNode的地址，按顺序将block写入DataNode块中。

文件读取：

1） Client向NameNode发起读取文件的请求。

2） NameNode返回文件存储的DataNode信息。

3） Client读取文件信息。

HDFS作为分布式文件系统在数据管理方面可借鉴点：

文件块的放置：一个Block会有三份备份，一份在NameNode指定的DateNode上，一份放在与指定的DataNode不在同一台机器的DataNode上，一根在于指定的DataNode在同一Rack上的DataNode上。备份的目的是为了数据安全，采用这种方式是为了考虑到同一Rack失败的情况，以及不同数据拷贝带来的性能的问题。

阅读全文

0 0

数据存储方案hadoop

数据存储方案hadoop

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子炒股的书炒股看的书炒股初学者看什么书学习炒股的书初学炒股看什么书关于炒股的书炒股入门看什么书炒股需要看什么书炒股要学习哪几本书关于股票的书炒股书炒股书比较好的炒股书炒股的入门书关于炒股书股票学习书籍股市书籍股票书籍推荐股票经典书籍学股票看什么书炒股指期货的技巧炒股指期货如何开户炒股指模拟炒股指期货股票交易收费新手如何投资股票炒股要多少钱炒股老师炒股歌曲炒股票的步骤在哪里炒股票炒股票的书籍炒股票需要多少资金我要炒股票炒股票的原则怎么样才能炒股票手机炒股票软件排行榜新手炒股票入门晚上炒股票炒股票课程这样炒股票