使用Hive UDF和GeoIP库为Hive加入IP识别功能
来源:互联网 发布:淘宝上相纸 编辑:程序博客网 时间:2024/05/22 12:36
Hive是基于Hadoop的数据管理系统,作为分析人员的即时分析工具和ETL等工作的执行引擎,对于如今的大数据管理与分析、处理有着非常大的意义。GeoIP是一套IP映射数据库,它定时更新,并且提供了各种语言的API,非常适合在做地域相关数据分析时的一个数据源。
UDF是Hive提供的用户自定义函数的接口,通过实现它可以扩展Hive目前已有的内置函数。而为Hive加入一个IP映射函数,我们只需要简单地在UDF中调用GeoIP的Java API即可。
GeoIP的数据文件可以从这里下载:http://www.maxmind.com/download/geoip/database/,由于需要国家和城市的信息,我这里下载的是http://www.maxmind.com/download/geoip/database/GeoLiteCity.dat.gz
GeoIP的各种语言的API可以从这里下载:http://www.maxmind.com/download/geoip/api/
import java.io.IOException;import org.apache.hadoop.hive.ql.exec.UDF;import com.maxmind.geoip.Location;import com.maxmind.geoip.LookupService;import java.util.regex.*;public class IPToCC extends UDF {private static LookupService cl = null;private static String ipPattern = "\\d+\\.\\d+\\.\\d+\\.\\d+";private static String ipNumPattern = "\\d+";static LookupService getLS() throws IOException{String dbfile = "GeoLiteCity.dat";if(cl == null)cl = new LookupService(dbfile, LookupService.GEOIP_MEMORY_CACHE);return cl;}/** * @param str like "114.43.181.143" * */public String evaluate(String str) {try{Location Al = null;Matcher mIP = Pattern.compile(ipPattern).matcher(str);Matcher mIPNum = Pattern.compile(ipNumPattern).matcher(str);if(mIP.matches())Al = getLS().getLocation(str);else if(mIPNum.matches())Al = getLS().getLocation(Long.parseLong(str));return String.format("%s\t%s", Al.countryName, Al.city);}catch(Exception e){e.printStackTrace();if(cl != null)cl.close();return null;}}}
add file /tje/path/to/GeoLiteCity.dat;add jar /the/path/to/iptocc.jar;create temporary function ip2cc as 'your.company.udf.IPToCC';
然后就可以在Hive的CLI中使用这个函数了,这个函数接收标准的IPv4地址格式的字符串,返回国家和城市信息;同样这个函数也透明地支持长整形的IPv4地址表示格式。如果想在每次启动Hive CLI的时候都自动加载这个自定义函数,可以在hive命令同目录下建立.hiverc文件,在其中写入以上三条语句,重新启动Hive CLI即可;如果在这台服务器上启动Hive Server,使用JDBC连接,执行以上三条语句之后,也可以正常使用这个函数;但是唯一一点不足是,HUE的Beeswax不支持注册用户自定义函数。
虽然不尽完美,但是加入这样一个函数,对于以后做地域相关的即时分析总是提供了一些方便的,还是非常值得加入的。
- 使用Hive UDF和GeoIP库为Hive加入IP识别功能
- hive使用案例和UDF
- 编写hive udf和使用hive udf:hue的hive界面中使用hive udf函数、oozie使用hive udf函数、hive命令行使用udf函数
- 编写hive udf和使用hive udf:hue的hive界面中使用hive udf函数、oozie使用hive udf函数、hive命令行使用udf函数
- HIVE UDF函数使用
- hive udf使用间隔
- hive udf使用
- hive udf和udaf
- hive中UDF、UDAF和UDTF使用
- hive中UDF、UDAF和UDTF使用
- hive中UDF、UDAF和UDTF使用
- hive中UDF、UDAF和UDTF使用
- hive中UDF、UDAF和UDTF使用
- hive中UDF、UDAF和UDTF使用
- hive中UDF、UDAF和UDTF使用
- Hive中UDF、UDAF和UDTF使用
- Hive中UDF和UDAF的使用
- #hive#HIVE中使用python实现UDF
- Navicat 10 for MySQL 注册码
- 一种不大合适的文档存储功能的实现
- 管人用人育人留人之道-海潮效应
- poj1321棋盘问题
- 查找第K小的元素
- 使用Hive UDF和GeoIP库为Hive加入IP识别功能
- Shell脚本编程——Linux下去掉^M回车符的四种办法
- 函数式编程(二)
- 写给自己,也写给正准备开始创业的人
- QQ空间技术架构之深刻揭密
- JavaSE第一百零八讲:基于TCP协议的网络编程详解
- Java 初始化
- cas服务下单点登录
- CURL 修改增进版,可以设置用户名和密码 2013-1-30