Hadoop之分布式文件系统—HDFS(1)
来源:互联网 发布:淘宝天猫客服工作流程 编辑:程序博客网 时间:2024/06/07 03:01
虽然现在业内用Hadoop自带的Map Reduce来处理数据的已经不是很多了,但还是用Hadoop的分布式存储系统HDFS结合Spark来处理大数据。所以这里先分享我所学习的有关HDFS的知识。
HDFS简介
自从Hadoop问世以后,它的文件存储机制就成为了一种虚拟化存储中的经典。这就是HDFS。HDFS是Hadoop的最高级文件存储系统,包含了其自身特有的文件存储机制、本地文件系统和Amazon S3等优秀的系统。
HDFS的特点
1.少存储,多读取。减少写入次数,即一次写入大量数据;然后分多次读取数据,把更多的时间留给对数据的处理上。
2.Hadoop的硬件基础往往是便宜的普通零件,而不是特别高质量的硬件组,所以硬件的损坏还是很可观的。但是HDFS又被设计成了具有较高容能力的虚拟化系统。
3.HDFS牺牲了一定的时间来换取了较高的吞吐率,所以它的数据访问速度不如Hive和HBase。
4.HDFS的存储块很大,至少大到物理磁盘的100多倍。这使得HDFS在节省存储空间、寻找数据地址的能力有了一定的提升。
5.HDFS在大文件上的优势要远远大于小文件。如果小文件的数量足够大,那么在HDFS管理下很有可能硬件设备就不满足了需求了。
6.单用户管理写入和修改,多用户读取数据。
HDFS的数据分块
HDFS主要处理大数据,这个数据量非常大,以至于如果按照普通的文件系统分块方法,会极大地增加数据寻找时间,这在效率上会带来弊端。所以HDFS的默认块大小是64MB,当然可以提升至更高。但是由于HDFS处理数据是按块读取,块空间过大,块数量就会过少,这样处理效率也会减慢。
HDFS好处
HDFS是将所有硬件磁盘虚拟化的一个大仓库。所以一个文件很有可能被分为几部分,分别存放在不同的物理磁盘上。但在HDFS这个层面上看到的还是一个完整的文件。这也就意味这文件的安全性得到了提高—HDFS的高容错和高回复在这里起到了至关重要的作用。同时HDFS中应该有正常空闲或专门用来备用的机器,这些用来在节点物理破坏后进行数据恢复和维持集群正常、保持负载均衡时使用。
- Hadoop之分布式文件系统—HDFS(1)
- Hadoop之HDFS(分布式文件系统)-yellowcong
- hadoop之HDFS(分布式文件系统)
- Hadoop之Hdfs分布式文件系统
- Hadoop — 分布式文件系统HDFS(初识 )
- Hadoop分布式文件系统(HDFS)
- Hadoop分布式文件系统(HDFS)
- Hadoop分布式文件系统(HDFS)
- Hadoop数据管理之分布式文件系统HDFS
- Hadoop系列之六:分布式文件系统HDFS
- 深入HDFS:Hadoop之分布式文件系统
- HDFS-hadoop分布式文件系统
- Hadoop HDFS分布式文件系统
- HDFS--Hadoop分布式文件系统
- HDFS--Hadoop分布式文件系统
- hdfs:Hadoop分布式文件系统
- HDFS【Hadoop分布式文件系统】
- Hadoop分布式文件系统HDFS
- DAY02 学习心得
- 携程实时大数据平台实践分享
- java实现excel的导入导出(poi详解)
- SSH自动认证远程登录
- 争做史上最详细教程之--用VS运行dlib的face_landmark_detection
- Hadoop之分布式文件系统—HDFS(1)
- Servlet web项目中 使用XML技术的时候的错误
- IOS开发之协议和代理
- PCB原理图的设计
- Kinect学习笔记二DepthFrame
- Android Studio安装导致Myeclipse 2014Android SDK无法使用
- 随机过程及应用(一) - 特征函数
- C语言_密码不回显+"*"函数
- 腾讯笔试编程题--小Q上厕所