/**一:初识Hadoop*/

来源:互联网 发布:python实例100例 编辑:程序博客网 时间:2024/06/07 00:05

1.1 Hadoop核心价值

  1. HDFS(HadoopDistributeFileSystem):Hadoop的文件系统。实现了数据存储
  2. MapReduce:提出了一个模型,该模型抽象出硬盘读写问题并将其转化为对一个数据集(由键值对组成)的计算。实现数据的分析和处理。

1.2 与关系型数据库管理系统的比较

  1. 计算机硬盘的发展趋势:寻址时间的提升远远不敌传输速率的提升。

  2. 关系型数据库处理结构化的,规范的数据;

  3. MapReduce处理半结构化、非结构化的非规范的数据更为有效;

  4. 关系型数据库与MapReduce比较

传统的关系型数据库 MapReduce 数据大小 GB PB 数据存取 交互式和批处理 批处理 更新 多次读/写 一次写入,多次读取 结构 静态模式 动态模式 完整性 高 低 横向扩展 非线性的 线性的

1.3 术语

  1. Namenode:
    1.1)HDFS采用master/salve架构;
    1.2) 一个HDFS集群是由一个Namenode和一定数目的Datanodes组成;
    1.3)Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问;
    1.4)Namenode执行文件系统的名字空间操作,如打开、关闭、重命名文件或目录;
    1.5)负责确定数据块到具体Datenode节点的映射;

  2. Datanode
    2.1)一般一个节点一个Datanode,负责管理他所在节点上的存储;
    2.2) 一个文件其实被分成一个或多个数据块,存储在一组Datanode上;
    2.3) Datanode负责处理文件系统客户端读写请求;
    2.4) 在Namenode的统一调度下进行数据块的创建、删除和复制;

  3. Secondnamenode:
    3.1)一般一个节点一个Datanode,负责管理他所在节点上的存储;
    3.2) 一个文件其实被分成一个或多个数据块,存储在一组Datanode上;
    3.3) Datanode负责处理文件系统客户端读写请求;
    3.4) 在Namenode的统一调度下进行数据块的创建、删除和复制;

  4. Jobtracker和Tasktracher:
    4.1)所有的job的执行都由Jobtracker来调度;
    4.2) Hadoop系统中只配置一个JobTracker应用;
    4.3)TaskTracker都需要运行在HDFS的DataNode上;

1 0
原创粉丝点击