hadoop、spark、Hbase、Hive、hdfs，是什么

来源：互联网发布：mac磁盘工具抹掉失败编辑：程序博客网时间：2024/05/29 09:11

这些都是“大数据”相关的概念，即和关系型数据库，相比较而产生的新技术。即j2ee的web开发中，数据库部分（如传统的关系型数据库的oracle），的内容

1Hbase：是一个nosql数据库，和mongodb类似。

2hdfs：hadoop distribut file system，hadoop的分布式文件系统。

3Hive：

Hive说白了，也是一个数据库。

用来处理结构化（关系型数据库中的数据，如oracle）或者非结构化数据（如10G的txt文本中的数据）。

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件（或者非结构化的数据）映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

使用Hive，就不用去写MapReduce，而是写sql语句就行了。

5spark

6hadoop

7sqoop

sqoop是和Hive一起使用的。

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

http://lookqlp.iteye.com/blog/1666449
使用sqoop导入数据至hive常用语句

    直接导入hive表
     sqoop import --connect jdbc:postgresql://ip/db_name--username user_name --table table_name --hive-import -m 5
    内部执行实际分三部，1.将数据导入hdfs（可在hdfs上找到相应目录），2.创建hive表名相同的表，3，将hdfs上数据传入hive表中

0 0