Hive编程指南 读书笔记

来源:互联网 发布:日本福岛核事故知乎 编辑:程序博客网 时间:2024/05/08 07:54

Hadoop生态系统是为了处理大数据集而产生的一个合乎成本效益的剞劂方案。Hadoop实现了一个特别的计算模型也就是MapReduce ,它可以将计算任务分割成多个处理单元然后反三刀一群家用的或是服务器级别的硬件机器上,从而降低成本并提供了平台可以伸缩性。这个计算模型的下面是一个被称为HDFS的hadoop分布式文件系统。这个系统是可插拔的。

HIVE出现的原因就是,用户需要这样一个工具去把现有的数据转移到Hadoop上,这个基础结构是给予关系型数据库和结构化查询语言的。

Hive 提供了一个Hive查询语言,简称HiveQL或HQL的SQL方言来查询和存储Hadoop集群中的数据。

SQL知识分布广泛的一个原因,他是一个有效地,直观地组织和使用数据模型。在hadoop中,用MapReduce Java API对于Java工程师来说,实现这些常见的数据运算也是大工程来的。

Hive 适用于数据仓库,使用该应用程序进行一些静态数据的分析,不需要进行快速的相应,数据本身也不会发生频繁的变化。

其实Hive不是一个完整的数据库。

个人理解hive的 表试试一个指向hadoop文件的一个指向,用来读取hadoop上面的文件数据,从而读取到 表的信息。

所以HDFS的局限性将影响到Hive数据库。hive最大的局限性就是不能支持行级别上的数据更新插入或者删除操作。只能通过写入来进行数据刷新。由于MapReduce的任务分割的任务处理,hive数据库的查询有延迟。hive不支持事务(OLTP),这个也是有关于hive数据库在hadoop上的提交查询和返回结果有很大的延迟的原因。


PIG是hive替代工具。Pig被描述成一种数据流语言。Pig常用于ETL过程的一部分。


Hadoop上的HBase就是替代hive,支持纲吉的更新,快速查询的响应以及单行记录事务。HBase使用了HDFS持久化存储数据,使用内存缓存技术和本地文件进行追加数据更新操作日志。持久化文件将第七使用附加日志进行更新等操作。


安装hadoop,安装hive 略。


一下是hive一次使用的命令,可以在Hive Shell命令窗口上用。

1.查询表3条记录:

$ hive -e "SELECT * FROM MYTABLE LIMIT 3";

2.执行hql文件:

$ hive -f /withqueries.hql

$ hive 

hive>source /withqueries.hql

3.在hive CLI执行简单的bash shell命令:

hive>! /bin/echo "what up dog";

"what up dog"

hive> ! pwd;

/home/me/hiveplay

4.在Hive中使用dfs命令:只需要把hadoop命令中的关键字hadoop去掉,然后可以以分号结尾就可以了:

hive>  dfs -ls / ;

hive>  dfs -ls / ;

5.Hive脚本中的注释:在开头 加“--”进行行注释

6.返回值加入字段名称

hive> set hive.cli.print.header=true;    (可以加入到$HOME/.hiverc 文件中,每次都可以初始化成这样了。















0 0
原创粉丝点击