Hadoop-入门-01
来源:互联网 发布:陆逊 知乎 编辑:程序博客网 时间:2024/06/11 04:55
一、 Hadoop是什么?
Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS、MapReduce、Yarn,使得它可以分布式处理海量数据。
1、HDFS(分布式文件系统):
它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提交等,如图是HDFS的基础架构
2、MapReduce(并行计算架构):
它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。
3、Yarn()
资源调度管理集群(可以理解为一个分布式的操作系统,管理和分配集群硬件资源)
二、Hadoop发展史
1、最早来自于google的三大技术论文:GFS/MAPREDUCE/BIG TABLE;谷歌这三大论文讲解了谷歌是如何解决海量数据问题的。
2、Hadoop作者doug cutting 当时正在负责爬虫项目,lucene(搜索引擎),对于大数据场景doug cutting遇到了与谷歌一样的困难;后来经过doug cutting山寨,出现了java版本的hdfs、mapreduce、hbase并成为apache的顶级项目;经过演化hadoop组件又多了个yarn,随着大数据的火爆,围绕hadoop出现了大量的组件,形成了庞大的hadoop生态圈。
- Hadoop-入门-01
- Hadoop入门
- Hadoop 入门
- Hadoop入门
- hadoop入门
- Hadoop入门
- hadoop入门
- Hadoop入门
- Hadoop入门
- Hadoop 入门
- hadoop-入门
- hadoop入门
- Hadoop入门
- Hadoop入门
- Hadoop入门
- hadoop入门
- Hadoop入门
- hadoop入门
- 程序设计思维
- HDU5769后缀数组,高度数组模板
- 关于margin与padding设置百分比的问题
- 下拉刷新——Android使用SwipeRefreshLayout简单实现下拉刷新与加载跟多
- opencv 高斯滤波
- Hadoop-入门-01
- JavaScript学习小结(2)
- console.log()用法
- 贪心算法-nyoj-91-阶乘之和
- 嵌入式系统学习——S3C2451之RTC时钟
- 启动tomcat,提示: Several ports (8005, 8080, 8009) required by Tomcat v8.0 Server at local
- Poj 1339 poker card game (哈夫曼树)
- vim退出快捷键
- 博弈论学习笔记(二)