Hive使用笔记
来源:互联网 发布:搜相似图片软件 编辑:程序博客网 时间:2024/05/16 09:12
Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。
Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提供了HDFS分布式存储系统和map/reduce分布式计算系统,而Hive在这两个系统之上,使得用户只需使用熟悉SQL语言就能进行分布式计算,而map/reduce编程往往是相当复杂的。Hive在少量数据运算或是短时间内的重复查询上,是不能和Oracle那样的数据库相比的。它的查询量通常相当大,一个大的job运行几个小时算是正常的。
数据类型。HiveQL只支持以下几种基本数据类型TINYINT, SMALLINT, INT, BIGINT, DOUBLE, STRING。
支持的复杂数据类型有Structs, Maps, Arrays。
创建表。Hive不同于其他数据库,它只有一个默认数据库"default",所有的table都保持在里面。
CREATE TABLE user(id BIGINT, name STRING);
可以指定将表创建到外部hdfs文件系统中。
CREATE EXTERNAL TABLE foo(id INT)
STORED AS TEXTFILE LOCALTION '/user/foo/foo_data';
将数据文件导入到Hive表中。
LOAD DATA [LOCAL] INPATH '/data/userdata' [OVERWRITE] INTO TABLE user;
使用LOCAL选项将使用本地文件系统,否则将使用hdfs文件系统。使用OVERWRITE选项将删除原来table中的数据,否则将新数据添加到文件末尾。
Loaddata导入数据将仅仅将文件拷贝到hive管理的目录下,并用table的元数据去解释这个文件。所以必须保证数据文件的结构必须和table的结构一致,否则可以loaddata成功但是数据解释不正确。特别注意fields分隔符和lines分隔符要和Table一致。我使用自定义分隔符导入数据,一直没有成功。不管我怎么指定,Hive总是使用默认的分隔符来解释我的文件(默认使用001(ctrl-A)分隔列,012(/n)分隔行)。问题未解决。
查询语句。这里列出一些和标准SQL不同的地方。
不能使用select count(*);需要指定count的列下标,select count(1)。
不能使用CREATE TABLE newtable SELECT * FROM user;必须事先Create table,再用INSERT向其中写入数据。
排序关键字是SORT BY。
LIMIT关键字只能跟一个数字,即从第一条记录开始选出若干条。
INSERT语句变换很大,不能直接插入一条记录。插入的数据必须用SELECT子查询获取或者从某个文件导入。我还没细看。
> SELECT * FROM user LIMIT 10;
> INSERT OVERWRITE TABLE foo SELECT DESTIN(id) FROM user;
> SELECT M.id FROM user M JOIN foo S ON M.id = S.id;
> SELECT id FROM user GROUP BY id;
- Hive使用笔记
- Hive SQL 使用笔记
- hive使用笔记
- Hive使用笔记
- hive使用笔记
- Hive学习笔记 --- Hive的Beeline使用
- hive函数使用学习笔记
- hive的使用和优化笔记
- Hive基础(1)概念、安装、使用笔记
- HIVE笔记
- hive笔记
- Hive笔记
- hive笔记
- Hive笔记
- Hive笔记
- hive笔记
- hive笔记
- hive笔记
- java时间格式大全
- 日本僧人不懂中国禅堂规矩第一天挨香板
- Js 获取HTML DOM节点元素的方法小结
- Visual Studio 2005中编译调试新功能
- Xen介绍
- Hive使用笔记
- 开源的GIS
- 如何用命令行方式进入我的电脑、回收站、网上邻居
- Axis2 与 Eclipse整合开发Web Service
- linux 内存管理浅谈
- oracle 9i 下 PRO C编程
- c3p0属性详解
- JS 数组
- Hibernate cascade和inverse详解