程序博客网 > 淘宝服装商标男装取名

Hadoop：HDFS数据组织

来源：互联网发布：淘宝服装商标男装取名编辑：程序博客网时间：2024/06/05 17:27

Hadoop培训内容：HDFS数据组织，1.数据块，2.Staging，3.流水线式的复制

1.数据块

HDFS最适合的应用场景是处理大数据集合，同时这些应用多是一次写入多次读取，并且读的速度要满足流式读，即write-once-read-many的语义。一个典型的Block大小是64MB，因此文件总是按照64MB切分成Chunk，每个Chunk存储于不同的DataNode服务器中。

2.Staging

在某个客户端上创建文件的请求其实并没有立即发给NameNode，事实上，HDFS客户端会将文件数据缓存到本地的一个临时文件中，应用写文件时被透明地重定向到这个临时文件。

当这个临时文件累积的数据超过一个Block的大小(默认为64MB)，客户端才会联系NameNode。NameNode将文件名插入文件系统的层次结构中，并且分配一个数据块给它，然后返回DataNode的标识符和目标数据块给客户端。客户端将本地临时文件flush到指定的DataNode上。当文件关闭时，在临时文件中剩余的没有flush的数据也会传输到指定的DataNode，然后客户端告诉NameNode文件已经关闭。此时NameNode才将文件创建操作提交到持久存储。如果NameNode在文件关闭前挂机，该文件将丢失。

上述方法是对在HDFS上运行的目标应用认真考虑的结果。如果不采用客户端缓存，网络速度和网络堵塞因素会对吞吐量造成比较大的影响。

3.流水线式的复制

当某个客户端向HDFS文件写数据的时候，一开始是写入本地的临时文件，假设该文件的replication因子为3，那么客户端会从NameNode获取一张DataNode列表来存放副本。然后客户端开始向第一个DataNode传输数据，第一个DataNode会一小部分一小部分(4KB)地接收数据，将每个部分写入本地仓库，同时传输该部分到第二个DataNode。第二个DataNode也是这样，边收边传，一小部分一小部分地接收，将每个部分存储在本地仓库，同时传给第三个DataNode。第三个DataNode仅仅接收并存储。这就是流水线式的复制。来源：CUUG官网

0 0

淘宝服装商标男装取名

淘宝服装商标男装取名

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子奥秘造句地球的奥秘专杀奥秘法地球奥秘海洋的奥秘动物的奥秘奥秘的解释探索奥秘大脑的奥秘植物的奥秘奥秘探索月球的奥秘奥秘之家奥秘猎世界的奥秘发现奥秘记忆的奥秘品牌的奥秘性的生理奥秘探索宇宙奥秘奥秘拼音怎么写探索宇宙的奥秘什么奥秘填动词奥秘什么意思奥秘是什么意思探寻鲸的奥秘太极拳推手奥秘奥秘的拼音是什么奥秘的意思是什么道德经的奥秘曾仕强奥秘之家密室逃脱大自然的奥秘奥秘之家黑暗祭坛探索宇宙奥秘手抄报宇宙奥秘的手抄报奥秘的近义词是什么探索地球奥秘探索心理学的奥秘期末答案2018 泰学道德经的奥秘探索太阳系的奥秘曾仕强道德经的奥秘全集