Hive永久UDF依赖包问题以及几个日期相关的自定义函数
来源:互联网 发布:非洲男士防晒霜 知乎 编辑:程序博客网 时间:2024/05/23 05:10
最近项目用到了hive,需要从mysql中读取一些数据用于hive计算,所以进行了各种百度查询,然后又处理了一些坑问题,最终得到了一个实际可以运行的UDF,其中比较坑的就是依赖包的问题,所以这边记录下
首先hive永久UDF很简单,当然目前百度上能查到的都是临时UDF,旧版本的Hive要添加永久函数需要改hive源代码编译然后发布替换package,新版本的hive已经有比较简单的添加永久UDF的方式,你所需要做的就是以下几步:
1、package你的UDF函数所在的java项目
2、将打包后的package上传至hive能识别的目录,可以是hdfs,也可以是hive所在服务器路径
3、通过hive shell连接hive,然后输入指令"create function 自定义函数名 as '你的自定义函数package路径' using jar '你的package所在物理路径'; "
然后你就可以通过select 自定义函数名(参数) 的方式进行测试了
因为我们实际用的mysql包是6.x版本,而hive自带的mysql包是5.x版本,所以测试时报包找不到问题,解决方法也很简单,将对应的包上传至hive/lib目录下即可(当然并不是所有包都能这么解决,比如为了考虑性能,在UDF中使用的Ehcache就不知道为什么直接错误跳出了函数,但报的问题又不是缺少包,后来没办法自己简单写了个cache)
当然还有没能解决的问题,就是外部资源文件的问题,如果将资源文件打包在package里面,那就跟硬编码没太大区别,而放在外部的话,测试下来add files也不行,网上看到别人的做法往往也是将配置通过udf函数来传入……
最后再附加几个项目中用到的日期相关的自定义函数,为了减少依赖包问题,所有方法都只用了java基础包
public class WeeksFunc extends UDF { /** * 获取指定日期所在周为当年内的第几周,以周一为每周的第一天(注意如果最后一周跨年,java默认将最后那几天归入下一年的第一周) * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss * @return 年周格式,例如201740,代表2017年第40周,如果format.parse失败,则返回-1 */ public int evaluate(String... formats) { Calendar calendar = Calendar.getInstance(); calendar.setFirstDayOfWeek(Calendar.MONDAY); try { if (formats.length > 0) { SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss"); Date dt = formatter.parse(formats[0]); calendar.setTime(dt); } } catch (ParseException e) { e.printStackTrace(); return -1; } int year = calendar.get(Calendar.YEAR); int weeks = calendar.get(Calendar.WEEK_OF_YEAR); if (calendar.get(Calendar.MONTH) > 1 && weeks <= 1) { year += 1; } return year * 100 + weeks; }}MonthsFunc用于获取指定日期为日期所在年的第几月
public class MonthsFunc extends UDF { /** * 获取指定日期所在月为当年内的第几月 * @param formats 如果不传参数,则默认以当天为基准,否则format[0]为日期字符串,format[1]为日期格式,默认为yyyy-MM-dd HH:mm:ss * @return 年月格式,例如201701,代表2017年1月,如果format.parse失败,则返回-1 */ public int evaluate(String... formats) { Calendar calendar = Calendar.getInstance(); try { if (formats.length > 0) { SimpleDateFormat formatter = new SimpleDateFormat(formats.length > 1 ? formats[1] : "yyyy-MM-dd HH:mm:ss"); Date dt = formatter.parse(formats[0]); calendar.setTime(dt); } } catch (ParseException e) { e.printStackTrace(); return -1; } int year = calendar.get(Calendar.YEAR); int month = calendar.get(Calendar.MONTH); return year * 100 + month + 1; }}DayDiffFunc用于获取与当日指定差异天数的日期
public class DayDiffFunc extends UDF { /** * 获取与当前日期比较差异天数的日期 * @param diffDays 差异天数,负值表示向前取的天数,0表示当天,正值表示向后取的天数 * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式 * @return format指定格式的日期字符串 */ public String evaluate(int diffDays, String... formats) { String format = "yyyy-MM-dd"; if (formats != null && formats.length > 0 && formats[0] != null) { format = formats[0]; } SimpleDateFormat formatter = new SimpleDateFormat(format); Calendar cal = Calendar.getInstance(); cal.add(Calendar.DAY_OF_MONTH, diffDays); return formatter.format(cal.getTime()); }}WeekDiffFunc获取与当前日期所在周比较差异周数内指定周内第几天的日期
public class WeekDiffFunc extends UDF { /** * 获取与当前日期所在周比较差异周数内指定周内第几天的日期 * @param diffWeeks 差异周数,负值表示向前取的周数,0表示当周,正值表示向后取的周数 * @param dayInWeek 获取该周内的第几天,以周一为每周的第一天 * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式 * @return format指定格式的日期字符串 */ public String evaluate(int diffWeeks, int dayInWeek, String... formats) { String format = "yyyy-MM-dd"; if (formats != null && formats.length > 0 && formats[0] != null) { format = formats[0]; } SimpleDateFormat formatter = new SimpleDateFormat(format); Calendar cal = Calendar.getInstance(); cal.setFirstDayOfWeek(Calendar.MONDAY); cal.add(Calendar.WEEK_OF_YEAR, diffWeeks); cal.set(Calendar.DAY_OF_WEEK, cal.getFirstDayOfWeek() + dayInWeek - 1); return formatter.format(cal.getTime()); }}MonthDiffFunc获取与当前日期所在月比较差异月数内指定月内第几天的日期
public class MonthDiffFunc extends UDF { /** * 获取与当前日期所在月比较差异月数内指定月内第几天的日期 * @param diffMonths 差异月数,负值表示向前取的月数,0表示当月,正值表示向后取的月数 * @param dayInMonth 获取该月内的第几天,注意因为每月天数存在差异,所以假设当月为9月,传入31时,取到的是10月1号 * @param formats 如果不传参数,则默认返回的字符串格式为yyyy-MM-dd,否则返回format[0]指定的格式 * @return format指定格式的日期字符串 */ public String evaluate(int diffMonths, int dayInMonth, String... formats) { String format = "yyyy-MM-dd"; if (formats != null && formats.length > 0 && formats[0] != null) { format = formats[0]; } SimpleDateFormat formatter = new SimpleDateFormat(format); Calendar cal = Calendar.getInstance(); cal.add(Calendar.MONTH, diffMonths); cal.set(Calendar.DATE, dayInMonth); return formatter.format(cal.getTime()); }}
- Hive永久UDF依赖包问题以及几个日期相关的自定义函数
- hive udf开发以及永久注册udf函数
- hive udf开发以及永久注册udf函数
- hive 永久udf函数
- hive 永久udf函数
- HIVE 自定义函数 UDF
- Hive自定义函数-UDF
- hive自定义函数UDF
- Hive自定义函数UDF
- Hive自定义UDF函数
- 自定义HIVE-UDF函数
- hive自定义函数UDF
- 几个日期相关的自定义函数
- 开发HIVE的UDF自定义函数
- 1006-Hive的自定义UDF函数
- 开发HIVE的UDF自定义函数
- Hive内部自定义函数UDF
- hive 自定义函数UDF,UDAF
- 总结:mac下使用mamp pro给php7.0以上版本安装redis扩展的坑
- 微信token验证
- ajax跨域的响应头
- Android设计模式之访问者模式
- Golang中的panic和recover
- Hive永久UDF依赖包问题以及几个日期相关的自定义函数
- yii2高级模板借助于yii2-admin&yii2-adminlte-asset的RBAC权限管理
- 全面掌握 Java 内部类
- 关于点击空白关闭弹窗的js写法推荐
- 3Sum Closest
- 软件系统性能的常见指标
- 四种常见排序算法--PHP版本
- Tomcat使用IDEA远程Debug调试[转]
- 软件工程师必须知道20个知识点