HDFS和MapReduce
来源:互联网 发布:管家婆软件辉煌版 编辑:程序博客网 时间:2024/06/05 10:41
Hadoop的核心就是HDFS和MapReduce
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。
HDFS的设计特点是:
1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。
2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多得都。
3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。
4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。
5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。
MapReduce是一套从海量源数据中提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。
MapReduce的基本原理就是:将大的数据分析分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得我们想要的内容。
总的来说Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。
Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。
阅读全文
0 0
- MapReduce 和 HDFS介绍
- MapReduce和HDFS
- HDFS和MapReduce
- HDFS和MapReduce核心思想
- hadoop思维:HDFS和MapReduce
- HDFS、YARN和MapReduce简介
- 0000 0001 、HDFS 和 MapReduce
- Hadoop学习:HDFS和MapReduce
- HDFS和MapReduce核心思想
- MapReduce 和 HDFS的一些介绍
- Hadoop HDFS和MapReduce 架构浅析
- Hadoop —— HDFS 和 MapReduce
- HDFS的架构和MapReduce的架构
- Hadoop-hdfs和mapreduce学习笔记二
- Hadoop中HDFS和MapReduce的概念和机制
- hdfs和mapreduce中各个组件之间的RPC
- hadoop是由mapreduce和hdfs组成的
- HDFS和MapReduce 架构分析----阿冬专栏
- Python3学习笔记4-函数,全局变量&局部变量,内置函数
- 通向架构师的道路(第二十天)spring(二)maven结合spring与ibatis
- java基础之面向对象的介绍
- Linux下的多进程编程
- Java构造器和方法的区别
- HDFS和MapReduce
- 蛇形矩阵
- 十五、组合模式——设计模式学习笔记
- Select非阻塞Socket Server
- 贝叶斯网络(又称贝叶斯信念网络或信念网络)
- perceptron 感知机
- Hadoop的心脏:中央异步调度器AsyncDispatcher代码和设计解析
- PAT乙级 1046. 划拳(15)
- 解题报告:D