Hadoop的一些相关信息
来源:互联网 发布:centos ssh目录 编辑:程序博客网 时间:2024/06/04 17:49
1、hadoop的诞生
Nutch和Lucene之父Doug Cutting在2006年完成Hadoop项目。
Hadoop并不是一个单词,它来源于Doug Cutting小儿子对所玩的小象玩具牙牙学语的称呼。就像是google也是由小孩子命名一样。
后又经过5年的开发,hadoop在所有云计算系统是稳居第一。
Hadoop目前使用最广泛的版本为hadoop-0.20版本。目前最新版本为hadoop-1.03。
Hadoop运行在Linux系统中。在windows上安装可使用cgywin模拟linux环境。
2、hadoop的组成
hadoop Common – 是hadoop的核心,包括文件系统、远程调用RPC的序列化函数。
HDSF : 提供高吞吐量的可靠分布式文件系统是 GFS的开源实现。
· Hadoop的文件系统。必须通过hadoop fs 命令来读取。支持分布式。
MapReduce : 大型分布式数据处理模型,是Google MapReduce的开源实现。
· 合并/计算模型。
其他相关组成:
• Hbase:结构化分部式数据库。BigTable的开源实现。
• Hive:提供摘要和查询功能的数据仓库。
• Cassandra:由Facebook开发分布式数据仓库。目前已经捐献给apache。且apache已经将Cassandra应用到了各种云计算系统中。
3、hadoop的体系结构
NameNode - 主节点 主服务器
SecondaryNameNode – 是辅助nameNode
DataNode -数据保存用的
TaskTracker – 接收任务
JobTracker - 分数据 -100M Datanode1,DataNode2,DataNode3
NameNode:这是hadoop的守护进程(注意是进程JVM)。负责记录文件是如何分割成数据块,以及这些数据块分别存储到哪些数据节点上。对内存进行集中管理。NameNode在整个hadoop中只有一个。一旦NameNode服务器宕机,整个系统将无法运行。
DataNode:集群中的每个从服务器都运行一个DataNode后台程序。这个后台程序负责将HDFS数据块写到本地的文件系统。
Secondary NomeNode:用来监控HDFS状态的辅助后台程序。如保存NameNode的快照。
JobTracker:用户连接应用程序和hadoop。每一个hadoop集群中只一个 JobTracker,一般它运行在Master节点上。
TaskTracker:负责与DataNode进行结合。
4、Hadoop的市场
淘宝
360
京东
yahoo
暴风
- Hadoop的一些相关信息
- hadoop相关的一些技巧
- Hibernate的一些相关信息
- hadoop启动的一些相关命令
- Hadoop HDFS的一些相关代码code
- Hadoop MapReduce的一些相关代码Code
- 请求相关的一些信息request_info.jsp
- Hibernate的一些相关信息(续)
- jvm性能相关信息的一些命令
- 查询Oracle的一些相关信息
- 用户画像的一些相关信息链接
- Hadoop Demo(二)【获取天气相关的统计信息】
- Hadoop一些相关知识点整理
- Hadoop集群服务器以及相关硬件选择的一些认识
- Hadoop集群服务器以及相关硬件选择的一些认识
- 一些与中断相关的信息(收集整理的)
- 获取iPhone一些相关信息
- 国内一些著名风险投资机构的相关信息
- Evaluate Reverse Polish Notation
- Unicast与Multicast
- Reactos当中的Rundll的实现
- linux 安装 mysql 备注
- Asp.Net页面生命周期
- Hadoop的一些相关信息
- css匹配选择第n个子元素
- 再说千遍万遍,都不如这四句话管用,不服不行!
- 采用maven方式开发android
- 完美解读Linux文件系统的目录结构(附简明查阅手册)
- PAT 1039. Course List for Student
- MYSQL查询优化:profile功能
- 嵌入式学习笔记——字符设备驱动编写
- linux 硬链接 , 备注