数据科学之hadoop大数据存储技术研究之路(一)

来源：互联网发布：恶搞老鼠软件编辑：程序博客网时间：2024/05/16 02:20

我们所处的信息化时代，数据越来越多，越来越庞杂，成几何级、爆炸式地增长，并且人们对数据的的实时处理要求也高。使得传统的单服务器+盘阵的存储模式，只能满足海量数据存储，但不能满足人们对数据处理的实时性或者快速反应的高处理性需求。

这就需要我们必须研究新的“大数据存储”技术，即要有不断的扩大存储能力，又要保证高效的数据处理能力。

近年来大数据存储技术非常火爆，但技术不再是传统的单一的个体，研究一两点就行了。而是系统的、全面的“生态圈”。这个“生态圈”让初学者很无从下手。这里所讲述的就本人在云里雾里中学习hadoop后的小结，希望能为初学hadoop的同学起到抛砖引玉的作用。

先看下面本人研究过程中总结的思维导图：

从上图右侧可以看出，hadoop生态圈中，包括的软件应用有：hadoop(hdfs\mr)、hbase、hive、pig、sqoop等等。

其中hadoop(hdfs\mr)是核心，必须研究的，因为hdfs是数据存储介质，一切源于这里。数据文件全存储在这里，所以需要先学习研究它。

hbase可理解为架在hdfs上的数据库，规范数据存储形态。

hive为数据仓库，只有数据处理能力（hql），很象sql。元数据存储在mysql中，与hbase集成后，才能具体数据处理能力，切记它没有数据存储能力，数据还是存储在hdfs上。它的数据处理能力，也只是简单将开发的hql转为mr，所以实际上是在hadoop中执行mr计算的。

pig和hql相近，只是数据处理能力。

sqoop是异构数据源导入hadoop的工具，方便将外部的关系型数据导入。

从上所述，可以看出，hadoop是一个系统的，有序的生态圈技术，每个应用软件都有它自己的功能。我们可以用序的学习，各个击破。从而缩短学习曲线。

那么，如何与实际项目对应，作出解决方案？如何运维？将在之后的博文与大家共同学习。

声明：本人也是初学者，文中内容纯属个人笔记，如有错误还请指正与包含。谢谢！！

0 0