Hadoop 介绍

来源：互联网发布：y系列电机绕组数据编辑：程序博客网时间：2024/05/16 06:12

本文以下内容是传智播客视频学习笔记

* hadoop是什么？
hadoop是一个可靠的、可扩展的、分布式计算的开源软件。

* 解决问题:
海量数据的存储（HDFS）
海量数据的分析（MapReduce）

* MapReduce、Storm、Spark、MPA 都可以运行在YARN上

* 作者：Doug Cutting

* 受Google三篇论文的启发（GFS、MapReduce、BigTable)

* hadoop具体能干什么？
1、hadoop擅长日志分析，主要处理离线数据（Storm是实时的，可以运行在YARN上，与hadoop完美结合）。facebook就用Hive来进行日志分析，上用淘宝搜索中的
自定义筛选也使用的Hive。利用Pig还可以在做高级的数据处理，包括Twitter、
LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的
推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。（2012年8月25日更新，天猫的推荐系统是hive，少量尝试mahout,现在使用storm ）

* 哪些公司使用hadoop
Hadoop被公认是一套行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。2014年大型IT公司，如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。

* hadoop在淘宝
1、从09年开始，对于海量数据的离线处理，例如对日志的分析，交易记录的分析等
2、规模从当初的3~4百台节点，增加到现在的一个集群有3000个节点，淘宝现在已经有2~3个这样的集群。
3、在支付宝的集群规模也有700台节点，使用Hbase对用户的消费记录可以实现毫秒级查询。

* 版本：
1、Apache
2、Cloudera（CDH）
使用下载最多的版本，稳定，有商业支持，在Apache的基础上打上了一些patch。推荐使用。
3、HDP(Hortonworks Data Platform)
Hortonworks公司发行版本

* hadoop核心：
1、HDFS：Hadoop Distributed File System 分布式文件系统
2、MapReduce：并行计算框架
3、YARN：Yet Another Resource Negotiator：资源管理调度系统

* hadoop 1.0 和 hadoop 2.0的区别？（如下图）

* YARN产生背景
1、直接源于MRv1在几方面的无能
   1）扩展受限
   2）单点故障
   3）难以支持MR之外的计算
2、多计算框架各自为战，数据共享困难
   1）MR离线计算框架
   2）Storm实时计算框架
   3）Spark内存计算框架

* 怎样解决海量数据的存储？（如下图）

* HDFS的架构
1、主从结构
   1）主节点只有一个：namenode
   2）从节点有很多个：datanode
2、namenode负责：
   1）接收用户请求
   2）维护文件系统的目录结构
   3）管理文件与block之间的关系，block与datanode之间的关系
3、datanode负责：
   1）存储文件
   2）文件被分成block存储在磁盘上
   3）为保证数据安全，文件会有多个副本

* 怎样解决海量数据的计算？（如下图）

* Hadoop集群的物理分布（如下图）

* 单节点物理结构（如下图）

* Hadoop部署方式
1、本地模式
2、伪分布式模式
3、集群模式

0 0