hadoop、hive、hbase的通俗解释,带你快速了解
来源:互联网 发布:java 返回值类 怎么用 编辑:程序博客网 时间:2024/06/08 18:51
定义:
hadoop是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用。
hive是一个构建在Hadoop基础设施之上的数据仓库。
hbase是一种Key/Value系统,它运行在HDFS之上,是一个分布式的、面向列的开源数据库。
特点:
hive把数据文件加载进来作为一个hive表(或者外部表),它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,hive会把语句转换成MapReduce,然后交给hadoop执行。这里的计算,仅限于查找和分析,而不是更新、增加和删除。
hbase只是利用hadoop的hdfs帮助其管理数据的持久化文件(HFile),它跟MapReduce没任何关系。它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。
优势:
hive的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的底层是MapReduce,MapReduce在实时计算上性能很差。
hbase的优势在于实时计算,所有实时数据都直接存入hbase中,客户端通过API直接访问hbase,实现实时计算。
总结:
hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。
hive适用于离线数据的分析,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的java代码来的更加方便,它的定位是数据仓库,存储和分析历史数据。
hbase适用于实时计算,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS。
补充:
hive可以直接操作hdfs中的文件作为它的表的数据,也可以使用hbase数据库作为它的表。
- hadoop、hive、hbase的通俗解释,带你快速了解
- 带你快速了解“存储过程”的定义及优点
- 带你快速了解EDIUS各版本序列号的内容
- 老司机带你了解hadoop
- 带你快速了解Beyond Compare
- 我的Hadoop、Hbase、Hive、Impala总结
- Hadoop中的Hive与Hbase的理解
- hadoop+hbase+hive+pig的部署实践
- Hadoop平台下的Hive和HBase
- hive/hbase/hadoop的pom文件配置
- Hive 和 HBase 的快速入门
- 配置hadoop,hive,hbase
- HADOOP、HIVE、HBASE整合
- hadoop+hive+hbase入门
- hadoop+zookeeper+hbase+hive
- Hadoop:Hbase&Hive
- hadoop +hbase +hive
- HADOOP+ZOOKEEPER+HBASE+HIVE
- STM32 小于100引脚封装的 AD参考电压问题
- CART决策树
- 2017中国顶级软件研发盛会TID,oKit创始人荣誉出席!!!
- sql建立不同服务器上的数据库之间的通讯
- vue-waterfall
- hadoop、hive、hbase的通俗解释,带你快速了解
- 怎么超越一个人?
- 仿千牛网登录
- 如何在本机上安装两个不同版本的python
- spring的模块化配置文件加载
- 云监控服务使用教程详解
- Border Class
- 下拉菜单
- Python3的正则表达式,re模块