hadoop 学习之hadoop基础

来源：互联网发布：中国民航飞行学院知乎编辑：程序博客网时间：2024/05/16 10:46

一、学习内容

1.hadoop 介绍

2.mapreduce学习

二、学习目的

1.通过学习hadoop基础知识，了解hadoop，通过hadoop和其他架构的比较，深入了解hadoop的优缺点，及其适应的场景

2.mapreduce是hadoop的核心工能，通过mapreduce的学习掌握hadoop处理分析大数据的基本思路

三、详细内容

1.为什么不能用关系型数据库批量处理大数据？

这问题的答案跟另一个发展趋势有关，寻址时间的提高远远慢于传输速率的提高。另外如果数据库系统只更新一部分数据，那么传统的B树更有优势（关系型数据库使用的一种数据结构，受限于寻址比例），但数据库系统需要批量处理大规模数据的时候，B树效率比mapreduce低得多，因为要“排序/合并”来重建数据库。

2.mapreduce和关系型数据库库的区别?

关系型数据库一般只能对结构化数据进行处理，而mapredure则能处理半结构化和非结构数据，因为mapreduce的数据类型是程序员自己选择的，而不是数据库系统的一部分。

3.hadoop与其他分布式计算系统的比较？

a)网格计算，网格计算的模式为将作业分散到集群的各个主机，而各个主机享用一个共享存储，这样带来的问题是当处理的数据非常大的时候，一台主机进行处理的时候，耗光了网络资源，所以其他的主机就得排队等待。而hadoop的本地化，将是首选执行主机上存储的数据，这样将大大提高性能，本地化也是hadoop的核心特性之一。

b)志愿计算，是通过互联网让全球的普通大众志愿提供空闲的PC时间，参与科学计算或数据分析的一种计算方式。这种方式为解决基础科学运算规模较大、计算资源需求较多的难题提供了一种行之有效的解决途径。他们试图把一个大的问题分成若干个小的问题，称为一个工作单元，然后把这些单元分发到全世界各个机器上执行。表面上看这样的工作方式和hadoop很像，但是还是有很大差别，首选两者背景不一样，因为志愿计算工作单元计算的时候远大于传输的时间，志愿者贡献的是CPU周期，而非网络带宽。mapreduce设计的目标是服务于那些只需要数分钟或者数小时即可完成的作业，并且运行于内部通过高速网络连接的单一数据中心，并且该数据中心内的计算机需要由可靠、定制的硬件构成。