Hadoop大数据平台架构与实践学习笔记
来源:互联网 发布:环球期货交易软件 编辑:程序博客网 时间:2024/05/18 12:29
学习慕课网上的《Hadoop大数据平台架构与实践》的学习笔记
原视频地址:http://www.imooc.com/learn/391
- 大数据技术的相关概念
- 大数据的存储与分析(Hadoop)
- 降低成本
- 软件保证可靠性
- 简化并行分布式计算,无须控制节点同步和数据交换
- Hapoop
- 分布式存储和分布式计算平台
- 两个核心
- HDFS:分布式文件系统,存储海量的数据
- MapReduce:并行处理框架,实现任务分解和调度
- 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务
- 优点:高扩展、低成本、成熟的生态圈
- HIVE
- 将SQL语句转化
- HBASE
- zookeeper
- 监控Hadoop每个节点的状态
- 大数据的存储与分析(Hadoop)
- Hadoop的架构和运行机制
- HDFS设计架构
- 块(Block)64MB,是文件存储处理的逻辑单元
- NameNode是管理节点,存放文件元数据
- DataNode是HDFS的工作节点,存放数据块
- HDFS的数据管理策略
- 每个数据块3个副本,分布在两个机架内的三个节点
- 心跳检测:DataNode定期向NameNode发送心跳信息
- 二级NameNode定期同步元数据映像文件和修改日志
- HDFS读取写入文件
- 特点:
- 数据冗余,硬件容错
- 流式数据访问
- 存储大文件
- 适合数据批量读写,吞吐量高
- 不适合交互式应用,低延迟很难满足
- 适合一次写入多次读取,顺序读写
- 不支持多用户并发写相同文件
- MapReduce
- 一个大任务分成多个小的子任务,并行执行后合并结果
- 运行流程
- job&task
- jobtracker : 作业调度、分配任务,监控任务执行进度,监控Taktracker运行状态
- tasktracker : 执行任务,汇报任务状态
- 输入数据——Map任务——中间结果——Reduce任务——输出结果
- 容错机制
- 重复执行
- 推测执行
- HDFS设计架构
- Hadoop开发
- 《Hadoop技术详解》、《Hadoop开发指南》
阅读全文
0 0
- Hadoop大数据平台架构与实践学习笔记
- Hadoop 大数据平台架构与实践
- hadoop大数据平台架构与实践
- Hadoop大数据平台架构与实践--基础篇
- [练习]Hadoop大数据平台架构与实践
- 【学习】Hadoop大数据平台架构与实践--基础篇上
- 【学习】Hadoop大数据平台架构与实践--基础篇中
- 【学习】Hadoop大数据平台架构与实践--基础篇下
- hadoop大数据平台架构与实践——基础篇(慕课)
- 友盟数据平台负责人吴磊:移动大数据平台的架构与实践
- 移动大数据平台的架构、实践与数据增值(1)
- 友盟吴磊:移动大数据平台的架构、实践与数据增值
- 【MDCC 2015】友盟数据平台负责人吴磊:移动大数据平台的架构与实践
- 大数据与Hadoop简单入门[学习笔记]
- 大数据学习笔记:Hadoop中的IPC与RPC
- 大数据架构hadoop
- 大数据架构hadoop
- Hadoop数据分析平台学习笔记1
- Java8/30
- JVM学习之GC日志
- 数据结构 单链表的插入详解 例子
- Eclipse+pydev环境搭建
- shell
- Hadoop大数据平台架构与实践学习笔记
- Apache2.4安装
- 关于centos6.5的防火墙规则使用--iptables命令
- 如何使用docker搭建oracle测试环境
- 机器人与变位机协调轨迹仿真
- 【C语言】【unix c】如何创建无名管道
- hdu 4734 F(x)(数位dp)
- iBATIS SQL Map简介。
- 初步学习linux