hive size计算数组长度的一个坑

来源:互联网 发布:linux网速测试命令 编辑:程序博客网 时间:2024/05/18 06:28

hive上有个表,其中某列p_9的数据格式是用逗号分隔的字符串。通过下面的方式计算p_9列使用逗号分隔后元素的长度。

select rg,sum(size(split(p_9,","))) from ttengine_api_data where dt='2017-08-07' group by rg;OK01376831150155

如果p_9列不为空,那么计算是没问题的。如果是空(“”或者null),则计算后是有问题的。仔细查了一下,发现是size(split(p_9,",")) 有问题,即:

如果p_9是空或者null,那么split成数组后,在计算数据的长度居然是1.知道了原因,那么改起来很简单,使用下面的方式统计就没问题了:

select rg,sum(if(length(p_9)==0,0,size(split(p_9,",")))) from ttengine_api_data where dt='2017-08-07' group by rg;OK0016373


原创粉丝点击