Hadoop 介绍

来源:互联网 发布:y系列电机绕组数据 编辑:程序博客网 时间:2024/05/16 06:12

本文以下内容是传智播客视频学习笔记

* hadoop是什么?
hadoop是一个可靠的、可扩展的、分布式计算的开源软件。

* 解决问题:
 海量数据的存储(HDFS)
 海量数据的分析(MapReduce)

* MapReduce、Storm、Spark、MPA 都可以运行在YARN上

* 作者:Doug Cutting

* 受Google三篇论文的启发(GFS、MapReduce、BigTable)

* hadoop具体能干什么?
1、hadoop擅长日志分析,主要处理离线数据(Storm是实时的,可以运行在YARN上,与hadoop完美结合)。facebook就用Hive来进行日志分析,上用淘宝搜索中的
自定义筛选也使用的Hive。利用Pig还可以在做高级的数据处理,包括Twitter、
LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的
推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25日更新,天猫的推荐系统是hive,少量尝试mahout,现在使用storm )

* 哪些公司使用hadoop
Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。2014年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。

* hadoop在淘宝
1、从09年开始,对于海量数据的离线处理,例如对日志的分析,交易记录的分析等
2、规模从当初的3~4百台节点,增加到现在的一个集群有3000个节点,淘宝现在已经有2~3个这样的集群。
3、在支付宝的集群规模也有700台节点,使用Hbase对用户的消费记录可以实现毫秒级查询。



* 版本:
1、Apache
2、Cloudera(CDH)
  使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。
3、HDP(Hortonworks Data Platform)
  Hortonworks公司发行版本

* hadoop核心:
1、HDFS:Hadoop Distributed File System 分布式文件系统
2、MapReduce:并行计算框架
3、YARN:Yet Another Resource Negotiator:资源管理调度系统


* hadoop 1.0 和 hadoop 2.0的区别?(如下图)


* YARN产生背景
1、直接源于MRv1在几方面的无能
    1)扩展受限
    2)单点故障
    3)难以支持MR之外的计算
2、多计算框架各自为战,数据共享困难
    1)MR离线计算框架
    2)Storm实时计算框架
    3)Spark内存计算框架

* 怎样解决海量数据的存储?(如下图)

* HDFS的架构
1、主从结构
    1)主节点只有一个:namenode
    2)从节点有很多个:datanode
2、namenode负责:
    1)接收用户请求
    2)维护文件系统的目录结构
    3)管理文件与block之间的关系,block与datanode之间的关系
3、datanode负责:
    1)存储文件
    2)文件被分成block存储在磁盘上
    3)为保证数据安全,文件会有多个副本

* 怎样解决海量数据的计算?(如下图)

* Hadoop集群的物理分布(如下图)

* 单节点物理结构(如下图)

* Hadoop部署方式
1、本地模式
2、伪分布式模式
3、集群模式

0 0