Hadoop 介绍
来源:互联网 发布:y系列电机绕组数据 编辑:程序博客网 时间:2024/05/16 06:12
本文以下内容是传智播客视频学习笔记
* hadoop是什么?
hadoop是一个可靠的、可扩展的、分布式计算的开源软件。
* 解决问题:
海量数据的存储(HDFS)
海量数据的分析(MapReduce)
* MapReduce、Storm、Spark、MPA 都可以运行在YARN上
* 作者:Doug Cutting
* 受Google三篇论文的启发(GFS、MapReduce、BigTable)
* hadoop具体能干什么?
1、hadoop擅长日志分析,主要处理离线数据(Storm是实时的,可以运行在YARN上,与hadoop完美结合)。facebook就用Hive来进行日志分析,上用淘宝搜索中的
自定义筛选也使用的Hive。利用Pig还可以在做高级的数据处理,包括Twitter、
LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的
推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25日更新,天猫的推荐系统是hive,少量尝试mahout,现在使用storm )
* 哪些公司使用hadoop
Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。2014年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。
* hadoop在淘宝
1、从09年开始,对于海量数据的离线处理,例如对日志的分析,交易记录的分析等
2、规模从当初的3~4百台节点,增加到现在的一个集群有3000个节点,淘宝现在已经有2~3个这样的集群。
3、在支付宝的集群规模也有700台节点,使用Hbase对用户的消费记录可以实现毫秒级查询。
* 版本:
1、Apache
2、Cloudera(CDH)
使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。
3、HDP(Hortonworks Data Platform)
Hortonworks公司发行版本
* hadoop核心:
1、HDFS:Hadoop Distributed File System 分布式文件系统
2、MapReduce:并行计算框架
3、YARN:Yet Another Resource Negotiator:资源管理调度系统
* hadoop 1.0 和 hadoop 2.0的区别?(如下图)
* YARN产生背景
1、直接源于MRv1在几方面的无能
1)扩展受限
2)单点故障
3)难以支持MR之外的计算
2、多计算框架各自为战,数据共享困难
1)MR离线计算框架
2)Storm实时计算框架
3)Spark内存计算框架
* 怎样解决海量数据的存储?(如下图)
* HDFS的架构
1、主从结构
1)主节点只有一个:namenode
2)从节点有很多个:datanode
2、namenode负责:
1)接收用户请求
2)维护文件系统的目录结构
3)管理文件与block之间的关系,block与datanode之间的关系
3、datanode负责:
1)存储文件
2)文件被分成block存储在磁盘上
3)为保证数据安全,文件会有多个副本
* 怎样解决海量数据的计算?(如下图)
* Hadoop集群的物理分布(如下图)
* 单节点物理结构(如下图)
* Hadoop部署方式
1、本地模式
2、伪分布式模式
3、集群模式
- hadoop 介绍
- hadoop 介绍
- Hadoop介绍
- Hadoop介绍
- hadoop介绍
- Hadoop 介绍
- Hadoop介绍
- Hadoop介绍
- Hadoop介绍
- hadoop介绍
- hadoop介绍
- Hadoop介绍
- Hadoop介绍
- hadoop介绍
- HADOOP介绍
- Hadoop 介绍
- Hadoop介绍
- hadoop介绍
- HTML XHTML HTML5
- 1.Maven+SpringMVC+Eclipse软件安装配置,Maven报插件错误,Eclipse总是卡死的解决办法,导入一个maven工程后 一直显示importing maven project
- 算法:数组中只出现了一次的数字
- POJ - 1256 Anagram
- 第29天【健身】
- Hadoop 介绍
- 第一章 统计学习方法概论
- 算法与数据结构——更新
- 黑马程序员——Foundation之集合类
- 知难而进 ——反思我带的第一个版本
- leetcode Add Two Numbers
- 设计模式六大原则(4):接口隔离原则
- 挑战2.3(POJ 3616 Milking Time)
- 实例4:osganimationsolid例子实现关键帧插值动画(OSG程序开发实例集)