hadoop入门六(基础知识入门)
来源:互联网 发布:暗黑修仙数据库 编辑:程序博客网 时间:2024/06/05 05:38
Hadoop的起源-Lucene
- lucene 也是一个搜索引擎,也迫使它去模仿和学习谷歌如何实现的。
从lucene到nutch 从nutch到hadoop
目前Hadoop达到的高度
- 实现云计算的事实标准开源软件
- 包涵数十个具有强大生命力的子项目
- 已经能在数千节点上运行,处理的数据量和排序时间不断的打破世界纪录
Hadoop子项目家族
- pig:自动转化成mapreduce语言
- hive:sql到mapreduce的分布式的任务 到节点中运行
- HBase:nosql非关系数据库 链式存储 提高速度
- ZooKeeper:通信协调软件
- Chukwa:抓取数据到项目中
Hadoop的架构
Namenode
起到核心的功能:一点它崩溃 其他都崩溃
SecondaryNamenode
最好翻译成:辅助节点
DataNode
JobTracker
- jobtracker和namenode都是单点的
TaskTracker
Master和Slave
为啥要用Hadoop?
- 可以做信号检测 可以分析某个基站附近 的用户 通话几秒中,回拨。
场景:电商运营商信令分析与检测
- CPU 扩展很有限
- 查询:数据量大了,导致查询速度瓶颈
数据分析者的瓶颈
- 直接用到分析的结果 推荐一些商品 有些场景要求很高:实时或者半实时
- 我们的模型越来越复杂 以前都是最大值 最小值 现在神经网络的学习 计算规模的扩展 呈指数级增长 少量的计算机肯定搞不成这个事情
数据期待者期待的解决方案
Hadoop的思想
在hadoop,貌似没有天花板,只要加节点就可以了。
为啥不用hadoop?
- java:主流的分析语言是用java,你怎么培训java人员,培训成本。
- 开源的,假设用户是高手,看起来难以驾驭
- 数据集成困难:原来是在关系型数据库中 如何转移数据到hadoop中
- Hadoop vs Oracle
推荐教程
左边的书已经老了,所以滞后一些。
Hadoop实战第二版的推荐看
这个没有纸质版的书,只有电子版,而且很严谨。
企业机型选型配置
解释:标准的意思是普通的可以替换的机型
网络拓扑设计
还是主张:运行在局域网下面
操作系统的选择
JDK
实际上也是能在树莓派上装hadoop!
阅读全文
0 0
- hadoop入门六(基础知识入门)
- hadoop入门三(基础知识入门)
- hadoop入门四(基础知识入门)
- hadoop入门五(基础知识入门)
- Hadoop入门基础知识[1]
- 菜鸟进阶学堂(六):硬盘基础知识入门
- <Hadoop实战>学习 -- 基础知识,初级入门
- Hadoop入门基础知识[2]-运行原理
- Hadoop那些事儿(六)---Hive入门程序
- hibernate基础知识(入门)
- 入门学习(六)
- AngularJS入门(六)
- node入门(六)
- Python入门(六)
- Hadoop入门(转)
- Hadoop入门(转)
- Hadoop入门(1)
- Hadoop入门(2)
- leetcode_587.Erect the Fence?待解决
- hdu5950(递推+矩阵快速幂函) 2016亚洲区域赛沈阳站C题(铜牌题)
- HDU1757(矩阵快速幂+简单的矩阵构造)
- Authentication for Hadoop HTTP web-consoles ---Hadoop 1.2.1
- okHttp封装
- hadoop入门六(基础知识入门)
- ACM-10月15日周日周末训练心得
- java根据经纬度获取该经纬度的省市区
- SQL语句范例之表、空间、特权和dump
- 批处理命令Start的使用介绍
- 分析Android 搜狗输入法在微信和QQ中发送图片和表情
- 先序遍历用于优化树形分组背包问题
- 微信应用开发总结
- 验证表单