Hive&SQL笔记

来源:互联网 发布:淘宝开店品牌信息怎么写 编辑:程序博客网 时间:2024/06/06 02:04

1.unix时间转换

在hive中将UTC转为正常时间的方法

参考:http://ju.outofmemory.cn/entry/125067

看第二行,使用from_unixtime将UTC转为string时间,这里虽然这样说了,但是在处理的时候还是有要注意的地方的(注意下面的/1000

SELECT from_unixtime(cast(1426041039030/1000 as bigint));

返回值为

-03-11 10:30:39

两个方法:

from_unixtime(unixtime/1000, 'yyyyMMdd')  //第二个参数是可选的,其格式也可以自己指定

注意:unixtime一定要除以1000,得到的结果才是正确的。


2. 判断空值

if channel=''

3.查询Hive中map中包含的key值:

参考:http://jimi68.iteye.com/blog/980573

select distinct paramaters['label'] from beacon where ...;


4. join时造成 表扩行。导致查询出的结果中,相同记录会重复出现多行。

例:user表中每个用户只有一条记录,但是order表中,一个用户有多条记录。如果两张表进行join,会将order表中的内容进行扩行。

解决办法:结合需求 进行调整。一般可以先将其中一张表进行group 不要操作。例如此处可以在order表中 先按user_id进行group by,然后再两表join,就不会出现扩行了。


5.踩过了好多坑。为此而耗费好多时间。

1)字段英文,看含义啊,不要一个劲儿的找中文。。

2)有聚合函数时,千万别丢了group by。今天因为少了它,上千行的记录 办成了一条,怎么都查不到原因。(2017-01-10)


6.mySQL性能。substr(字符串)有时效率不高。

substr(updated_at,1,10)>'2017-01-10' 不如  updated_at>'2017-01-10'效率高。


7.shell中,'$date2' 千万别少了单引号,否则数据会变得很奇怪。


0 0