hive笔记-----用户定义函数

来源:互联网 发布:核聚变进展知乎 编辑:程序博客网 时间:2024/06/08 23:34

一、UDF

一个udf必须满足下面两个条件:

1、必须是org.apache.hadoop.hive.ql.exec.UDF的子类

2、必须至少实现了evaluate()方法

在编写了UDF之后,需要在调用之前引入这个UDF打成的jar包

add jar /path/to/hive-examples.jar

还需要为java类取一个别名

create temporary function strip as 'com.hadoopbook.hive.Strip'

其中单引号中是UDF所在的命名空间,之后可以直接通过调用strip()函数来完成指定的功能了

实际应用可以参考一下这个链接:http://blog.csdn.net/zhangzhaokun/article/details/26960081


二、UDAF

UDAF是org.apache.hadoop.hive.ql.exec.UDAF的子类,且包含了一个或多个嵌套的,实现了org.apache.hadoop.hive.ql.UDAFEvaluator的静态类

一个静态类中必须实现下面5个方法

init()对计算函数进行初始化,并重设其内部状态

iterate()每次对一个新值进行聚集计算时需要调用iterate()方法

terminatePartial()获取部分聚集的结果,对部分聚集的结果进行封装返回

merge()合并部分聚集的结果时调用

terminate()返回计算函数最终产生的结果

0 0
原创粉丝点击