Hive永久UDF依赖包问题以及几个日期相关的自定义函数

来源:互联网 发布:非洲男士防晒霜 知乎 编辑:程序博客网 时间:2024/05/23 05:10

最近项目用到了hive,需要从mysql中读取一些数据用于hive计算,所以进行了各种百度查询,然后又处理了一些坑问题,最终得到了一个实际可以运行的UDF,其中比较坑的就是依赖包的问题,所以这边记录下

首先hive永久UDF很简单,当然目前百度上能查到的都是临时UDF,旧版本的Hive要添加永久函数需要改hive源代码编译然后发布替换package,新版本的hive已经有比较简单的添加永久UDF的方式,你所需要做的就是以下几步:

1、package你的UDF函数所在的java项目

2、将打包后的package上传至hive能识别的目录,可以是hdfs,也可以是hive所在服务器路径

3、通过hive shell连接hive,然后输入指令"create function 自定义函数名 as '你的自定义函数package路径' using jar '你的package所在物理路径'; "

然后你就可以通过select 自定义函数名(参数) 的方式进行测试了

因为我们实际用的mysql包是6.x版本,而hive自带的mysql包是5.x版本,所以测试时报包找不到问题,解决方法也很简单,将对应的包上传至hive/lib目录下即可(当然并不是所有包都能这么解决,比如为了考虑性能,在UDF中使用的Ehcache就不知道为什么直接错误跳出了函数,但报的问题又不是缺少包,后来没办法自己简单写了个cache)

当然还有没能解决的问题,就是外部资源文件的问题,如果将资源文件打包在package里面,那就跟硬编码没太大区别,而放在外部的话,测试下来add files也不行,网上看到别人的做法往往也是将配置通过udf函数来传入……

最后再附加几个项目中用到的日期相关的自定义函数,为了减少依赖包问题,所有方法都只用了java基础包

WeeksFunc用于获取指定日期为日期所在年的第几周
public class WeeksFunc extends UDF {    /**     * 获取指定日期所在周为当年内的第几周,以周一为每周的第一天(注意如果最后一周跨年,java默认将最后那几天归入下一年的第一周)     * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss     * @return 年周格式,例如201740,代表2017年第40周,如果format.parse失败,则返回-1     */    public int evaluate(String... formats) {        Calendar calendar = Calendar.getInstance();        calendar.setFirstDayOfWeek(Calendar.MONDAY);        try {            if (formats.length > 0) {                SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");                Date dt = formatter.parse(formats[0]);                calendar.setTime(dt);            }        } catch (ParseException e) {            e.printStackTrace();            return -1;        }        int year = calendar.get(Calendar.YEAR);        int weeks = calendar.get(Calendar.WEEK_OF_YEAR);        if (calendar.get(Calendar.MONTH) > 1 && weeks <= 1) {            year += 1;        }        return year * 100 + weeks;    }}
MonthsFunc用于获取指定日期为日期所在年的第几月
public class MonthsFunc extends UDF {    /**     * 获取指定日期所在月为当年内的第几月     * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss     * @return 年月格式,例如201701,代表2017年1月,如果format.parse失败,则返回-1     */    public int evaluate(String... formats) {        Calendar calendar = Calendar.getInstance();        try {            if (formats.length > 0) {            SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss");                Date dt = formatter.parse(formats[0]);                calendar.setTime(dt);            }        } catch (ParseException e) {            e.printStackTrace();            return -1;        }        int year = calendar.get(Calendar.YEAR);        int month = calendar.get(Calendar.MONTH);        return year * 100 + month + 1;    }}
DayDiffFunc用于获取与当日指定差异天数的日期
public class DayDiffFunc extends UDF {    /**     * 获取与当前日期比较差异天数的日期     * @param diffDays 差异天数,负值表示向前取的天数,0表示当天,正值表示向后取的天数     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式     * @return format指定格式的日期字符串     */    public String evaluate(int diffDays, String... formats) {        String format = "yyyy-MM-dd";        if (formats != null && formats.length > 0 && formats[0] != null) {            format = formats[0];        }        SimpleDateFormat formatter = new SimpleDateFormat(format);        Calendar cal = Calendar.getInstance();        cal.add(Calendar.DAY_OF_MONTH, diffDays);        return formatter.format(cal.getTime());    }}
WeekDiffFunc获取与当前日期所在周比较差异周数内指定周内第几天的日期
public class WeekDiffFunc extends UDF {    /**     * 获取与当前日期所在周比较差异周数内指定周内第几天的日期     * @param diffWeeks 差异周数,负值表示向前取的周数,0表示当周,正值表示向后取的周数     * @param dayInWeek 获取该周内的第几天,以周一为每周的第一天     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式     * @return format指定格式的日期字符串     */    public String evaluate(int diffWeeks, int dayInWeek, String... formats) {        String format = "yyyy-MM-dd";        if (formats != null && formats.length > 0 && formats[0] != null) {            format = formats[0];        }        SimpleDateFormat formatter = new SimpleDateFormat(format);        Calendar cal = Calendar.getInstance();        cal.setFirstDayOfWeek(Calendar.MONDAY);        cal.add(Calendar.WEEK_OF_YEAR, diffWeeks);        cal.set(Calendar.DAY_OF_WEEK, cal.getFirstDayOfWeek() + dayInWeek - 1);        return formatter.format(cal.getTime());    }}
MonthDiffFunc获取与当前日期所在月比较差异月数内指定月内第几天的日期
public class MonthDiffFunc extends UDF {    /**     * 获取与当前日期所在月比较差异月数内指定月内第几天的日期     * @param diffMonths 差异月数,负值表示向前取的月数,0表示当月,正值表示向后取的月数     * @param dayInMonth 获取该月内的第几天,注意因为每月天数存在差异,所以假设当月为9月,传入31时,取到的是10月1号     * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式     * @return format指定格式的日期字符串     */    public String evaluate(int diffMonths, int dayInMonth, String... formats) {        String format = "yyyy-MM-dd";        if (formats != null && formats.length > 0 && formats[0] != null) {            format = formats[0];        }        SimpleDateFormat formatter = new SimpleDateFormat(format);        Calendar cal = Calendar.getInstance();        cal.add(Calendar.MONTH, diffMonths);        cal.set(Calendar.DATE, dayInMonth);        return formatter.format(cal.getTime());    }}

原创粉丝点击