hadoop 学习之hadoop基础

来源:互联网 发布:中国民航飞行学院知乎 编辑:程序博客网 时间:2024/05/16 10:46

一、学习内容

1.hadoop 介绍

2.mapreduce学习

二、学习目的

1.通过学习hadoop基础知识,了解hadoop,通过hadoop和其他架构的比较,深入了解hadoop的优缺点,及其适应的场景

2.mapreduce是hadoop的核心工能,通过mapreduce的学习掌握hadoop处理分析大数据的基本思路

三、详细内容

1.为什么不能用关系型数据库批量处理大数据?

这问题的答案跟另一个发展趋势有关,寻址时间的提高远远慢于传输速率的提高。另外如果数据库系统只更新一部分数据,那么传统的B树更有优势(关系型数据库使用的一种数据结构,受限于寻址比例),但数据库系统需要批量处理大规模数据的时候,B树效率比mapreduce低得多,因为要“排序/合并”来重建数据库。

2.mapreduce和关系型数据库库的区别?

关系型数据库一般只能对结构化数据进行处理,而mapredure则能处理半结构化和非结构数据,因为mapreduce的数据类型是程序员自己选择的,而不是数据库系统的一部分。

3.hadoop与其他分布式计算系统的比较?

a)网格计算,网格计算的模式为将作业分散到集群的各个主机,而各个主机享用一个共享存储,这样带来的问题是当处理的数据非常大的时候,一台主机进行处理的时候,耗光了网络资源,所以其他的主机就得排队等待。而hadoop的本地化,将是首选执行主机上存储的数据,这样将大大提高性能,本地化也是hadoop的核心特性之一。

b)志愿计算,是通过互联网让全球的普通大众志愿提供空闲的PC时间,参与科学计算或数据分析的一种计算方式。这种方式为解决基础科学运算规模较大、计算资源需求较多的难题提供了一种行之有效的解决途径。他们试图把一个大的问题分成若干个小的问题,称为一个工作单元,然后把这些单元分发到全世界各个机器上执行。表面上看这样的工作方式和hadoop很像,但是还是有很大差别,首选两者背景不一样,因为志愿计算工作单元计算的时候远大于传输的时间,志愿者贡献的是CPU周期,而非网络带宽。mapreduce设计的目标是服务于那些只需要数分钟或者数小时即可完成的作业,并且运行于内部通过高速网络连接的单一数据中心,并且该数据中心内的计算机需要由可靠、定制的硬件构成。