数据科学之hadoop大数据存储技术研究之路(一)

来源:互联网 发布:恶搞老鼠软件 编辑:程序博客网 时间:2024/05/16 02:20

我们所处的信息化时代,数据越来越多,越来越庞杂,成几何级、爆炸式地增长,并且人们对数据的的实时处理要求也高。使得传统的单服务器+盘阵的存储模式,只能满足海量数据存储,但不能满足人们对数据处理的实时性或者快速反应的高处理性需求。

       这就需要我们必须研究新的“大数据存储”技术,即要有不断的扩大存储能力,又要保证高效的数据处理能力。

        近年来大数据存储技术非常火爆,但技术不再是传统的单一的个体,研究一两点就行了。而是系统的、全面的“生态圈”。这个“生态圈”让初学者很无从下手。这里所讲述的就本人在云里雾里中学习hadoop后的小结,希望能为初学hadoop的同学起到抛砖引玉的作用。

       先看下面本人研究过程中总结的思维导图:

       

        从上图右侧可以看出,hadoop生态圈中,包括的软件应用有:hadoop(hdfs\mr)、hbase、hive、pig、sqoop等等 。

       其中hadoop(hdfs\mr)是核心,必须研究的,因为hdfs是数据存储介质,一切源于这里。数据文件全存储在这里,所以需要先学习研究它。

      hbase可理解为架在hdfs上的数据库,规范数据存储形态。

      hive为数据仓库,只有数据处理能力(hql),很象sql。元数据存储在mysql中,与hbase集成后,才能具体数据处理能力,切记它没有数据存储能力,数据还是存储在hdfs上。它的数据处理能力,也只是简单将开发的hql转为mr,所以实际上是在hadoop中执行mr计算的。

      pig和hql相近,只是数据处理能力。

      sqoop是异构数据源导入hadoop的工具,方便将外部的关系型数据导入。

      从上所述,可以看出,hadoop是一个系统的,有序的生态圈技术,每个应用软件都有它自己的功能。我们可以用序的学习,各个击破。从而缩短学习曲线。 

        那么,如何与实际项目对应,作出解决方案?如何运维?将在之后的博文与大家共同学习。

        

        声明:本人也是初学者,文中内容纯属个人笔记,如有错误还请指正与包含。谢谢!!

0 0
原创粉丝点击