1.hadoop的认识
来源:互联网 发布:淘宝内部券app哪个好 编辑:程序博客网 时间:2024/05/16 10:53
占有率:Hadoop57.5% Hbase23.2%
截至2012年12月23日,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性
Hadoop是:
Apache开源软件基金会开发的,运用于大规模普通服务器上的,大数据存储,计算,分析的分布式存储系统和分布式运算框架
Hadoop2.0:
(三部分组成)
分布式文件系统HDFS:操作系统级别上的
资源分配系统Yarn:(动态计算<cpu[单位是路和颗]内存>资源调度谁先做谁后做等)
分布式运算框架MapReduce:!!!
BigTable
HBase
MR
MR
GFS
HDFS
数据分析
数据检索
数据展现
数据分享
Hadoop生态系统:
Mahout
(驾驭大象的人)数据挖掘的工具包 基于MR的算法库
HBase
列式数据库Nosql
Hive
数据仓库 (用sql)
Avro
快速序列化 ,持久化(内存-->本地) 接口序列化开发工具
Zookeeper
通信的管理和协调 分布式协同调度
Flume
日志采集和管理 数据流收集工具
Sqoop
ETL:抽取转化 加载
Pig
数据的预处理(有自己的语言) 类比Hive竞争关系
搜狗案例剖析
详情页+列表页+搜索页
date id key rank order url
搜索数据介绍
系统架构与核心功能模块:
WEB SERVER :<Server:机架式塔式小机式大机式>
日志采集平台:traffic流量
日志清洗,加载:rush+load
数据仓库:(Nosql->关系型数据库->展现web页面)
离线分析系统
ETL加载
关系型数据库
WEB系统数据展示
0 0
- 1.hadoop的认识
- Hadoop的初步认识
- Hadoop概要-HDFS的认识
- Hadoop概要-MapReduce的认识
- 认识Hadoop
- 认识hadoop
- 认识Hadoop
- Hadoop认识
- 认识Hadoop
- Hadoop相关的概念的粗浅认识
- 认识的误区:Hadoop=云计算
- Hadoop云计算的初步认识
- Hadoop云计算的初步认识
- Hadoop云计算的初步认识
- Hadoop云计算的初步认识
- hadoop日志分析系统一 Hadoop的认识
- Hadoop的一些认识--------我与Hadoop不得不说的故事
- hadoop(一):认识
- C#中WriteLine与Write的区别
- OpenSceneGraph几个重要功能节点练习
- Quartz
- Swift - 闭包的介绍及用法(以数组排序为例)
- V210 时区
- 1.hadoop的认识
- shell脚本无法使用source的原因及解决方法
- Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
- Java永久代去哪儿了
- 静态final变量的初始化
- bukket插件例子(2)编译
- Kiwi,BDD行为测试框架–iOS攻城狮进阶必备技能
- socket编程服务器客户端例子
- Linux鸟哥的私房菜—1