数据科学之hadoop大数据存储技术研究之路(一)
来源:互联网 发布:恶搞老鼠软件 编辑:程序博客网 时间:2024/05/16 02:20
我们所处的信息化时代,数据越来越多,越来越庞杂,成几何级、爆炸式地增长,并且人们对数据的的实时处理要求也高。使得传统的单服务器+盘阵的存储模式,只能满足海量数据存储,但不能满足人们对数据处理的实时性或者快速反应的高处理性需求。
这就需要我们必须研究新的“大数据存储”技术,即要有不断的扩大存储能力,又要保证高效的数据处理能力。
近年来大数据存储技术非常火爆,但技术不再是传统的单一的个体,研究一两点就行了。而是系统的、全面的“生态圈”。这个“生态圈”让初学者很无从下手。这里所讲述的就本人在云里雾里中学习hadoop后的小结,希望能为初学hadoop的同学起到抛砖引玉的作用。
先看下面本人研究过程中总结的思维导图:
从上图右侧可以看出,hadoop生态圈中,包括的软件应用有:hadoop(hdfs\mr)、hbase、hive、pig、sqoop等等 。
其中hadoop(hdfs\mr)是核心,必须研究的,因为hdfs是数据存储介质,一切源于这里。数据文件全存储在这里,所以需要先学习研究它。
hbase可理解为架在hdfs上的数据库,规范数据存储形态。
hive为数据仓库,只有数据处理能力(hql),很象sql。元数据存储在mysql中,与hbase集成后,才能具体数据处理能力,切记它没有数据存储能力,数据还是存储在hdfs上。它的数据处理能力,也只是简单将开发的hql转为mr,所以实际上是在hadoop中执行mr计算的。
pig和hql相近,只是数据处理能力。
sqoop是异构数据源导入hadoop的工具,方便将外部的关系型数据导入。
从上所述,可以看出,hadoop是一个系统的,有序的生态圈技术,每个应用软件都有它自己的功能。我们可以用序的学习,各个击破。从而缩短学习曲线。
那么,如何与实际项目对应,作出解决方案?如何运维?将在之后的博文与大家共同学习。
声明:本人也是初学者,文中内容纯属个人笔记,如有错误还请指正与包含。谢谢!!
- 数据科学之hadoop大数据存储技术研究之路(一)
- 我的hadoop大数据之路(一)
- 大数据时代之hadoop(一):hadoop安装
- 大数据时代之hadoop(一):hadoop安装
- 大数据时代之hadoop(一):hadoop安装
- 大数据时代之hadoop(一):hadoop安装
- 大数据之hadoop【hdfs】
- hadoop之大数据初识
- 大数据分析技术研究报告(一)
- 每周一本书之《Hadoop金融大数据分析》
- 大数据存储之分表分库
- (大数据之hadoop)hadoop远程调试
- 大数据存储之分布式文件系统(一)
- 大数据存储之分布式文件系统(一)
- Android 数据存储:五大存储之SQLite数据存储
- android之数据存储(一)
- Hadoop-No.1之数据存储选型
- 大数据测试之hadoop命令大全
- hihocoder-补提交卡
- <Android 异常> Framgment常见异常
- java 读取excel获取真实行数
- 关于Genimotion的那些比较好的帖子
- linux内核Makefile中的build构建机制
- 数据科学之hadoop大数据存储技术研究之路(一)
- Spring技术内幕——深入解析Spring架构与设计原理(一)IOC实现原理
- 文件系统中的io请求的传递
- POJ 3233 Matrix Power Series(矩阵快速幂)
- ubuntu下源码安装gitlab(可汉化)
- 338. Counting Bits
- oracle 分组后取每组第一条数据
- cocoapods的安装和使用以及版本升级遇到的问题
- 新闻客户端04 - 请求网络数据