hive笔记-----用户定义函数

来源：互联网发布：核聚变进展知乎编辑：程序博客网时间：2024/06/08 23:34

一、UDF

一个udf必须满足下面两个条件：

1、必须是org.apache.hadoop.hive.ql.exec.UDF的子类

2、必须至少实现了evaluate()方法

在编写了UDF之后，需要在调用之前引入这个UDF打成的jar包

add jar /path/to/hive-examples.jar

还需要为java类取一个别名

create temporary function strip as 'com.hadoopbook.hive.Strip'

其中单引号中是UDF所在的命名空间，之后可以直接通过调用strip()函数来完成指定的功能了

实际应用可以参考一下这个链接：http://blog.csdn.net/zhangzhaokun/article/details/26960081

二、UDAF

UDAF是org.apache.hadoop.hive.ql.exec.UDAF的子类，且包含了一个或多个嵌套的，实现了org.apache.hadoop.hive.ql.UDAFEvaluator的静态类

一个静态类中必须实现下面5个方法

init()对计算函数进行初始化，并重设其内部状态

iterate()每次对一个新值进行聚集计算时需要调用iterate()方法

terminatePartial()获取部分聚集的结果，对部分聚集的结果进行封装返回

merge()合并部分聚集的结果时调用

terminate()返回计算函数最终产生的结果

0 0