hadoop入门六(基础知识入门)

来源:互联网 发布:暗黑修仙数据库 编辑:程序博客网 时间:2024/06/05 05:38

Hadoop的起源-Lucene

这里写图片描述

  • lucene 也是一个搜索引擎,也迫使它去模仿和学习谷歌如何实现的。

从lucene到nutch 从nutch到hadoop

这里写图片描述

目前Hadoop达到的高度

  • 实现云计算的事实标准开源软件
  • 包涵数十个具有强大生命力的子项目
  • 已经能在数千节点上运行,处理的数据量和排序时间不断的打破世界纪录

Hadoop子项目家族

这里写图片描述

  • pig:自动转化成mapreduce语言
  • hive:sql到mapreduce的分布式的任务 到节点中运行
  • HBase:nosql非关系数据库 链式存储 提高速度
  • ZooKeeper:通信协调软件
  • Chukwa:抓取数据到项目中

Hadoop的架构

这里写图片描述

Namenode

这里写图片描述
起到核心的功能:一点它崩溃 其他都崩溃

SecondaryNamenode

这里写图片描述
最好翻译成:辅助节点

DataNode

这里写图片描述

JobTracker

这里写图片描述
这里写图片描述

  • jobtracker和namenode都是单点的

TaskTracker

这里写图片描述

Master和Slave

这里写图片描述

为啥要用Hadoop?

这里写图片描述

  • 可以做信号检测 可以分析某个基站附近 的用户 通话几秒中,回拨。

场景:电商运营商信令分析与检测

这里写图片描述

  • CPU 扩展很有限
  • 查询:数据量大了,导致查询速度瓶颈

数据分析者的瓶颈

这里写图片描述

  • 直接用到分析的结果 推荐一些商品 有些场景要求很高:实时或者半实时
  • 我们的模型越来越复杂 以前都是最大值 最小值 现在神经网络的学习 计算规模的扩展 呈指数级增长 少量的计算机肯定搞不成这个事情

数据期待者期待的解决方案

这里写图片描述

Hadoop的思想

这里写图片描述

在hadoop,貌似没有天花板,只要加节点就可以了。

为啥不用hadoop?

  1. java:主流的分析语言是用java,你怎么培训java人员,培训成本。
  2. 开源的,假设用户是高手,看起来难以驾驭
  3. 数据集成困难:原来是在关系型数据库中 如何转移数据到hadoop中
  4. Hadoop vs Oracle

推荐教程

这里写图片描述

这里写图片描述

左边的书已经老了,所以滞后一些。
Hadoop实战第二版的推荐看
这里写图片描述
这个没有纸质版的书,只有电子版,而且很严谨。

企业机型选型配置

这里写图片描述
解释:标准的意思是普通的可以替换的机型

网络拓扑设计

这里写图片描述
还是主张:运行在局域网下面

操作系统的选择

这里写图片描述

JDK

这里写图片描述
实际上也是能在树莓派上装hadoop!

原创粉丝点击