复习hadoop

来源:互联网 发布:禁止别人安装软件 编辑:程序博客网 时间:2024/06/07 02:03

1 do what
ssh-交互 hadoop-计算
2 what is apache hadoop?
是个服务于开源软件(提供可靠可扩展分布式计算)的project。
3 解决的问题包含有:

  1. 海量数据存储(数据量很大hdfs)
  2. 海量数据分析(mapreduce)
  3. 资源管理调度(细节,yarn)

大数据用到很多技术,融入了很多名企的优秀技术;例如hive(facebook的技术)
mahout(亚马逊贡献的)
nutch(爬虫)等等都属于其底层东西。。。。

集群(模块或节点之间互相协作)分布式是hadoopd 的关键词,核心是HDFS分布式文件系统(和NDFS有许多相似处) YARN资源管理调度系统 Mapreduce分布式运算框架(程序)

云计算 和大数据不一样,云计算这块当中完全成熟的技术是虚拟化技术。
hdfs,实现机制:文件被切块存在多台服务器 ,对客户端,不需要关心分布式的细节,hdfs提供了一个抽象的统一的目录树;每一个文件块可以保存多个副本;hdfs中的文件和具体实际存储的位置之间的对应关系由一个专门的服务器管理-namenode。
mapreduce*较复杂*
map(高并发 互不干扰的运算)得到局部结果==> 遍历汇总==>reduce(经过一定逻辑运算)后得到全局结果。总而言之就是

  1. 将一个业务处理需求分成两个阶段 map阶段和reduce阶段
  2. 将分布式计算中面临的公共的问题封装成框架来实现(jar包的分发 任务的启动 任务的容错 调度 中间结果的分组传递)
    (应用开发人员只需要关心业务逻辑)
    类似的mapreduce(离线分析计算)分布式运算框架还有 storm(流式计算) spark(内存迭代计算)..
0 0
原创粉丝点击