初识Hadoop

来源:互联网 发布:关于ai人工智能的书籍 编辑:程序博客网 时间:2024/05/23 14:13

1.数据

我们生活在一个全新的互联网时代,一个数据的时代。个人数据的增长是大势所趋,对于海量数据的读取与处理是一个重要的研究方向,我们称之为大数据分析。


2.数据的存储和分析

Hadoop的文件系统:HDFS(Hadoop distributed Filesystem,即Hadoop分布式文件系统)。主要解决大数据存储问题!

MapReduce:提供了一个编程模型,其抽象出磁盘读写的问题,将其转化为计算一个由成对键/值组成的数据集。只要解决大数据计算问题!


3.Hadoop的优点

磁盘驱动器的发展趋势:寻址时间的提高速度远远慢于传输速率的提高,这样一来寻址的时间就会成为数据存取的瓶颈问题。在许多情况下,MapReduce能够被视为一种RDBMS(关系型数据库管理系统)的补充,二者的比较如下表所示:RDBMS和MapReduce的比较比较项目传统关系数据库MapReduce数据大小GBPB访问交互型和批处理批处理更新多次读写一次写入和多次读取结构静态模式动态模式集成度高低伸缩性非线性

线性

MapReduce和关系型数据库还有一个重要的区别就在于他们操作的数据集中的结构化数据的数量。
  • 结构化数据:拥有准确定义的实体化数据,具有诸如XML文档或数据库表定义的格式,符合特定的预定义模式。
  • 半结构化数据:如一张电子表格,其中的结构便是单元格组成的网格。
  • 非结构化数据:没有特别的内部结构,比如纯文本和图像数据。
MapReduce对于半结构化和非结构化数据非常有效,因为他被处理为在处理时间内解释数据。
MapReduce是一种线性的可伸缩性的编程模型。程序员编写两个函数:map函数和Reduce函数。每一个都定义一个键/值对集映射到另一个,这些函数无视数据的大小,和他们正在使用的集群的特性,这样他们可以原封不动的运用到小规模数据或者大的数据集上。


高性能计算(High Performance Computing,HPC)和网格计算社区多年来一直在做大规模数据处理。
广义上来说,高性能计算的方法是将作业分配给一个机器集群,这些机器集群访问共享文件系统,由一个存储区域网络进行管理。MapReduce尝试在计算节点上保存数据,因此访问速度较快。


原创粉丝点击