hadoop基础概述
来源:互联网 发布:php 获取公网ip 编辑:程序博客网 时间:2024/05/22 08:07
1. hadoop的诞生
Google大数据技术主要包含三大部分,MapReduce、BigTable、GFS,主要具有以下特点:
- 成本降低,能用pc机就不用大型机和高端存储。
- 软件容错,硬件故障视为常态,通过软件保证高可靠性
- 简化并行分布式计算,无须控制节点同步和数据交换。
Hadoop就是根据谷歌发布的相关技术论文,模仿谷歌大数据技术的一个开源实现。
Hadoop是开源的分布式存储、分布式计算平台,包含hdfs和MapReduce两大部分。
- hdfs:分布式文件系统,存储海量数据
- MapReduce:并行处理框架,实现任务分解和调度
优势:
1.高扩展
2.低成本
3.成熟的生态圈(开源)
2. hadoop的生态圈
hadoop的生态系统主要包括以下5个部分:
- hdfs
- MapReduce
- Hive:SQL语句 ==> MapReduce任务
- HBase:与传统HDFS不同的是,放弃事物特性,追求更高地扩展,提供数据的随机读写和实时访问,实现对表数据的读写功能。
- ZooKeeper:监控Hadoop集群中每个节点的状态,管理整个集群的配置,维护节点间的一致性等
3. hadoop安装
安装有三点需要配置
1.Linux环境
2.jdk
3.配置hadoop:修改四个配置文件
4. hdfs基本概念
hdfs的文件被分成块进行存储,hdfs块的默认大小是64MB,块是文件存储处理的逻辑单元。
hdfs中有两类节点,NameNode和DataNode。
NameNode:管理节点,存放文件元数据
1.文件和数据块的映射表
2.数据块与数据节点的映射表
DataNode是hdfs的工作节点,存放数据块。
数据管理策略:
- 每个数据块默认是3个副本,分布在两个机架内的三个节点。
- 心跳检测:DataNode定期向NameNode发送心跳检测,让NameNode知道哪些DataNode挂了,哪些在正常工作。
- 二级NameNode:定期同步元数据映像文件和修改日志,NameNode故障后,将SecondNameNode转正
hdfs中文件的读写操作流程:
读操作如下图所示:
写操作如下图所示:
hdfs的特点:
1. 数据冗余,硬件容错
2. 流式的数据访问
3. 存储大文件,都是小文件的话,NameNode压力大
适用性和局限性:
1. 适合一次写入多次读取,顺序读写
2. 不支持多用户并发写相同文件
hdfs常用命令行:
hadoop fs -ls
hadoop fs -put
hadoop fs -mkdir
hadoop fs -cat
5. MapReduce原理
5.1 基本原理:分而治之,一个大任务分成很多小的子任务(map),并行执行后,合并结果(reduce)。
5.2 执行基本流程:
Input ==> Input split ==> map task ==> shuffle(交换) ==> reduce task ==> output
5.3 基本概念:
- Job & Task:客户端发起一个Job,一个Job会拆分为多个Task
- JobTracker:分发任务给TaskTracker
主要负责:1. 作业调度 2. 分配任务,监控任务执行进度 3.监控TaskTracker的状态。
- TaskTracker:通常和DataNode是同一种节点,保证计算跟着数据走,保证最快找到需要的数据。
主要负责: 1. 执行任务 2. 汇报任务状态
5.4 MapReduce的容错机制
1. 对于运行出错的任务重复执行,默认重复执行4次
2. 推测执行:某个节点算的特别慢的时候,让这个节点继续算,但重新开一个TaskTracker来计算,看谁先算完,保证计算效率不会因为某个节点计算缓慢而大大折扣。
6. wordCount程序:
- hadoop基础概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- hadoop概述
- hadoop概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- hadoop概述
- Hadoop概述
- hadoop---概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- hadoop学习序曲之java基础篇--java概述
- 基础概述
- 乱搞 Evensgn 的债务
- 探索c++的new和delete
- linux下configure命令详细介绍
- 剑指offer——13.调整数组顺序
- torch中如何找出矩阵中元素之大于某个阈值的所有元素的下标?torch.find() ?
- hadoop基础概述
- 机器学习汇总
- # 配置CentOS7本地yum源和国内网络yum源
- AndroidStudio-cannot resolve symbol 'Activity'
- 文件系统编程——标准I/O库
- 17. Letter Combinations of a Phone Number
- HDU6092(83/600)
- HDU-1087-Super Jumping! Jumping! Jumping!
- Lua脚本编程