Pig Java Udf 简介

来源：互联网发布：骑马与砍杀领主数据编辑：程序博客网时间：2024/05/18 16:39

在用pig的过程中，经常需要自己写udf，一般我会写java的udf，配置一个maven的项目来管理。

一个基本的pig java udf的maven项目的pom定义如下：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.x</groupId><artifactId>PigUdf</artifactId><version>0.0.1-SNAPSHOT</version><dependencies><!-- ProtoBuf --><dependency><groupId>com.google.protobuf</groupId><artifactId>protobuf-java</artifactId><version>2.5.0</version><scope>provided</scope></dependency><dependency><groupId>com.x</groupId><artifactId>commons-protobuf</artifactId><version>0.1.1</version><scope>system</scope> <systemPath>${basedir}/jars/commons-protobuf.jar</systemPath> </dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.2.0</version></dependency><dependency><groupId>org.apache.pig</groupId><artifactId>pig</artifactId><version>0.13.0</version><scope>provided</scope></dependency></dependencies><build><finalName>${project.artifactId}</finalName><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>2.3.2</version><configuration><source>1.6</source><target>1.6</target><compilerVersion>1.6</compilerVersion></configuration></plugin><plugin><artifactId>maven-assembly-plugin</artifactId><configuration><descriptorRefs><descriptorRef>jar-with-dependencies</descriptorRef></descriptorRefs></configuration><executions><execution><id>config</id><phase>package</phase><goals><goal>single</goal></goals></execution></executions></plugin></plugins></build></project>

其中这个dependency来自pig java的接口：

<dependency><groupId>org.apache.pig</groupId><artifactId>pig</artifactId><version>0.13.0</version><scope>provided</scope></dependency>

然后配置好maven的repository，执行命令

mvn clean package

在taget目录下，会得到一个jar包。假设我们写了一个udf叫：CalcMetric()，编译得到myudf-jar-with-dependencies.jar

这个时候，假设我们有个pig：

register PigUdf.jar;DEFINE CalcMetric com.x.pig.udf.CalcMetric();raw_data = load '$input' using PigStorage('\u0001') as (val:long);metrics_data = foreach raw_data generate CalcMetric(val) as metric;store metrics_data into '$output' using PigStorage('\0001', '-schema');

那么我们这么运行pig：

pig -f mypig.pig -param input=/user/tom/test/input_data -param output=/user/tom/test/output_data

Pig中register语句指明需要使用的jar包，后面跟着jar包的路径，这是一个local路径，不是HDFS路径。也可以在pig script中只写jar包名字，在命令行指定classpath：

-cp $your_path

或者

-Dpig.additional.jars='your_jar_path'

如果需要访问其他数据文件，比如这个java udf依赖于一个本地文件来初始化。因为java udf会在hadoop grid node上也做一次初始化，所以必须保证在grid node上也有这个问题，这个时候，需要使用到hadoop的DistributedCache。可以用这个命令：

-Dtmpfiles='$your_file'

或者，在pig script中写上：

set mapred.cache.files 'your_file'

0 0