hadoop、spark、Hbase、Hive、hdfs,是什么

来源:互联网 发布:mac磁盘工具抹掉 失败 编辑:程序博客网 时间:2024/05/29 09:11

这些都是“大数据”相关的概念,即和关系型数据库,相比较而产生的新技术。即j2ee的web开发中,数据库部分(如传统的关系型数据库的oracle),的内容

1Hbase:是一个nosql数据库,和mongodb类似。


2hdfs:hadoop distribut file system,hadoop的分布式文件系统。

3Hive:


Hive说白了,也是一个数据库。

用来处理结构化(关系型数据库中的数据,如oracle)或者非结构化数据(如10G的txt文本中的数据)。

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件(或者非结构化的数据)映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

使用Hive,就不用去写MapReduce,而是写sql语句就行了。


5spark


6hadoop


7sqoop

sqoop是和Hive一起使用的。

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

http://lookqlp.iteye.com/blog/1666449
使用sqoop导入数据至hive常用语句 


    直接导入hive表 
     sqoop import --connect jdbc:postgresql://ip/db_name--username user_name  --table table_name  --hive-import -m 5 
    内部执行实际分三部,1.将数据导入hdfs(可在hdfs上找到相应目录),2.创建hive表名相同的表,3,将hdfs上数据传入hive表中


0 0
原创粉丝点击