程序博客网 > 死海古卷知乎

一起艳学大数据Hadoop（三）——java操作HDFS的增删改查

来源：互联网发布：死海古卷知乎编辑：程序博客网时间：2024/06/02 02:18

这里写图片描述

具体过程描述如下：

1、Client调用DistributedFileSystem对象的create方法，创建一个文件输出流（FSDataOutputStream）对象
2、通过DistributedFileSystem对象与Hadoop集群的NameNode进行一次RPC远程调用，在HDFS的Namespace中创建一个文件条目（Entry），该条目没有任何的Block
3、通过FSDataOutputStream对象，向DataNode写入数据，数据首先被写入FSDataOutputStream对象内部的Buffer中，然后数据被分割成一个个Packet数据包
4、以Packet最小单位，基于Socket连接发送到按特定算法选择的HDFS集群中一组DataNode（正常是3个，可能大于等于1）中的一个节点上，在这组DataNode组成的Pipeline上依次传输Packet
5、这组DataNode组成的Pipeline反方向上，发送ack，最终由Pipeline中第一个DataNode节点将Pipeline ack发送给Client
6、完成向文件写入数据，Client在文件输出流（FSDataOutputStream）对象上调用close方法，关闭流
7、调用DistributedFileSystem对象的complete方法，通知NameNode文件写入成功

DFSOutputStream内部原理

打开一个DFSOutputStream流，Client会写数据到流内部的一个缓冲区中，然后数据被分解成多个Packet，每个Packet大小为64k字节，每个Packet又由一组chunk和这组chunk对应的checksum数据组成，默认chunk大小为512字节，每个checksum是对512字节数据计算的校验和数据。
当Client写入的字节流数据达到一个Packet的长度，这个Packet会被构建出来，然后会被放到队列dataQueue中，接着DataStreamer线程会不断地从dataQueue队列中取出Packet，发送到复制Pipeline中的第一个DataNode上，并将该Packet从dataQueue队列中移到ackQueue队列中。ResponseProcessor线程接收从Datanode发送过来的ack，如果是一个成功的ack，表示复制Pipeline中的所有Datanode都已经接收到这个Packet，ResponseProcessor线程将packet从队列ackQueue中删除。
在发送过程中，如果发生错误，所有未完成的Packet都会从ackQueue队列中移除掉，然后重新创建一个新的Pipeline，排除掉出错的那些DataNode节点，接着DataStreamer线程继续从dataQueue队列中发送Packet。

源码下载：链接：http://pan.baidu.com/s/1nvGCj9J 密码：h6l1

阅读全文

0 0

死海古卷知乎

死海古卷知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子求微分方程的通解求微分方程的通解步骤二阶微分方程的通解二阶齐次微分方程通解齐次微分方程的通解通讯稿通讯稿范文通讯地址通讯稿格式军训通讯运动会通讯 485通讯通讯协议通讯格式鼎信通讯通讯作者人物通讯异次元通讯量子通讯通讯稿模板数学通讯通讯专业畅通讯会畅通讯通讯的特点闻泰通讯通讯怎么写键桥通讯通讯特点国美通讯通讯邮编通讯系统通讯平台通讯软件通讯塔通讯管理机通讯工具通讯工程通讯器材近场通讯网络通讯