Hadoop之HDFS文件读取流程

来源：互联网发布：洛阳师范网络编辑：程序博客网时间：2024/05/17 08:56

Hadoop之HDFS文件读取流程

一、HDFS文件读取流程

1、Client调用FileSystem.open（）方法：
a) FileSystem通过RPC（协议）与NameNode通信，NameNode返回该文件的部分或者全部block（块）列表（含有block拷贝的DataNode地址）
b) 选取举例客户端最近的DataNode建立连接，读取block，返回FSDataInputStream

2、Client调用输入流的read（）方法：
a) 当读到block结尾时，FSDataInputStream关闭与当前DataNode的连接，并为读取下一个block寻找最近DataNode
b) 读取完一个block都会进行checksum验证，如果读取DataNode时出现错误，客户端会通知NameNode，然后再从狭义个拥有该block拷贝的DataNode继续读
c) 如果block列表读完，文件还未结束，FileSystem会继续从NameNode获取下一批block列表

3、关闭FSDataInputStream

二、HDFS文件写入流程

1、Client调用FileSystem的create（）方法：
a) FileSystem向NameNode发出请求，在NameNode的namespace里面创建一个新文件，但是并不关联任何块
b) NameNode检查文件是否已存在、操作权限。如果检查通过，NameNode记录新文件信息，并在某一个DataNode上创建数据块
c) 返回FSDataOutputStream，将Client引导至该数据块执行写入操作

2、Client条用输出流的write（）方法：HDFS默认将每个数据块放置3份。FSDataOutputStream将数据首先写到第一个节点，第一个节点将数据包传送并写入第二个节点，第二个节点写入第三个节点

3、Client调用流的close（）方法：flush缓冲区的数据包，block完成复制分数后，NameNode返回成功消息

以上就是Hadoop之HDFS文件读取流程全部内容了。参考了，云帆大数据视频课程。如果有错误或问题，评论留言一起积极讨论。

0 0