HDFS简单介绍汇总

来源:互联网 发布:网盘 知乎 编辑:程序博客网 时间:2024/05/16 17:48

1,hadoop是什么
Hadoop:一个分布式系统的基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力告诉运算和存储
Distributed:分布式计算是利用互联网上的计算机cpu的共同处理能力来解决大型计算的问题的一种计算科学
file system:文件系统是操作系统用于明确磁盘或分区上的文件的方法和数据结构,即在磁盘上组织文件的方法

2,hadoop与hdfs的关系
hadoop实现了一个分布式文件系统简称hdfs,对外部客户机而言,hdfs就像一个传统的分级文件系统,可以创建删除移动或者重命名文件。

3,什么是文件系统
操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,只要有文件管理,就得又文件系统。
文件系统有三部分组成 文件管理软件 被管理软件 文件存储结构

4,文件系统是对文件存储器空间进行组着和分配,负责文件存储并对存入的文件进行保护和检索的系统

5,为什么需要hdfs
a,因为读取一块磁盘的所有数据需要很长时间,写入需要更长的时间(写入一般是读取的三倍),
  一块磁盘的传输能力有限,多块磁盘可以同时传输
b,当数据集的大小超过一台独立的物理计算机的能力时,就有必要对其进行分区并存储在若干台单独的计算机上
c,分布化的文件系统为因为分布后的机构不完整,导致系统复杂度加大,并且引入网络编程,同样导致分布式文件系统更加复杂

对于上面的问题,hdfs迎刃而解。hdfs以流处理访问模式来存储文件,一次写入,多次读取,数据源通常有源生成或者从数据源直接复制而来,接着长时间在此数据集上进行各类分析,大数数据不需要搬来搬去

完整性文件----》经dfs存储后---》分片文件

HDFS解决海量校验的方法:分片冗余,本地校验

完整性校验----分片后--》每个分片文件需要分片服务器校验

只要冗余文件的分片文件有一片是完整的,经过多次协调,其它分片文件也将完整


分片后存在的问题:因为文件不在一个磁盘导致读取访问操作延时

6,hdfs中block默认64m

7,hdfs提供mapreduce数据服务

8,分布式文件抽象优势
a,一个文件可大于每个硬盘
b,文件不用全在一个磁盘上
c,简化了存储子系统设计

9,配置hdfs集群的成本主要是内存和硬盘 master内存 slaver硬盘

 


http://wenku.baidu.com/view/7d9021bcf121dd36a32d82bd.html
http://wenku.baidu.com/view/c1a3df4033687e21af45a9f6.html###

http://wenku.baidu.com/view/7d9021bcf121dd36a32d82bd.html###

0 0