Hive的正则解析器RegexSerDe
来源:互联网 发布:软件定制一般价格 编辑:程序博客网 时间:2024/04/29 13:32
通常情况下,Hive导入的是单一分割符的数据。如果需要导入格式复杂一点的data,可以使用hive自导的RegexSerDe来实现。
RegexSerDe类是hive自带的,使用正则表达式来支持复杂的data导入。
在hive0.11中,自带了两个RegexSerDe类:
org.apache.Hadoop.hive.contrib.serde2.RegexSerDe;
org.apache.hadoop.hive.serde2.RegexSerDe;
这两个类的区别在:
org.apache.hadoop.hive.serde2.RegexSerDe; 不支持output.format.string设定,设定了还会报警~~~~
org.apache.hadoop.hive.contrib.serde2.RegexSerDe;全部支持,功能比org.apache.hadoop.hive.serde2.RegexSerDe更强大,推荐使用org.apache.hadoop.hive.contrib.serde2.RegexSerDe。
这条日志里面有九列,每列之间是用空格分割的,
每列的含义分别是客户端访问IP、用户标识、用户、访问时间、请求页面、请求状态、返回文件的大小、跳转来源、浏览器UA。
我们使用Hive中的正则表达式匹配这九列:
([^ ]*) ([^ ]*) ([^ ]*) (.∗) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")
于此同时我们可以在Hive中指定解析文件的序列化和反序列化解析器(SerDe),并且在Hive中内置了一个org.apache.hadoop.hive.serde2.RegexSerDe正则解析器,我们可以直接使用它。
4、加载数据:
查询每小时的访问量超过100的IP地址:
5、注意事项:
a、使用RegexSerDe类时,所有的字段必须为string
b、input.regex里面,以一个匹配组,表示一个字段:([^ ]*)
RegexSerDe类是hive自带的,使用正则表达式来支持复杂的data导入。
在hive0.11中,自带了两个RegexSerDe类:
org.apache.Hadoop.hive.contrib.serde2.RegexSerDe;
org.apache.hadoop.hive.serde2.RegexSerDe;
这两个类的区别在:
org.apache.hadoop.hive.serde2.RegexSerDe; 不支持output.format.string设定,设定了还会报警~~~~
org.apache.hadoop.hive.contrib.serde2.RegexSerDe;全部支持,功能比org.apache.hadoop.hive.serde2.RegexSerDe更强大,推荐使用org.apache.hadoop.hive.contrib.serde2.RegexSerDe。
下面对RegexSerDe类的介绍都是指:org.apache.hadoop.hive.contrib.serde2.RegexSerDe
1、关键参数:
2、使用Hive分析nginx日志,网站的访问日志部分内容为:cat /home/hadoop/hivetestdata/nginx.txt192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png HTTP/1.1" 200 1521 "http://write.blog.linuxidc.net/postlist" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"183.60.212.153 - - [19/Feb/2015:10:23:29 +0800] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" "Mozilla/5.0 (compatible; baiduuSpider; +http://www.baiduu.com/search/spider.html)"
这条日志里面有九列,每列之间是用空格分割的,
每列的含义分别是客户端访问IP、用户标识、用户、访问时间、请求页面、请求状态、返回文件的大小、跳转来源、浏览器UA。
我们使用Hive中的正则表达式匹配这九列:
([^ ]*) ([^ ]*) ([^ ]*) (.∗) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")
于此同时我们可以在Hive中指定解析文件的序列化和反序列化解析器(SerDe),并且在Hive中内置了一个org.apache.hadoop.hive.serde2.RegexSerDe正则解析器,我们可以直接使用它。
3、建表语句
CREATE TABLE logs(host STRING,identity STRING,username STRING,time STRING,request STRING,status STRING,size STRING,referer STRING,agent STRING)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")","output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s")STORED AS TEXTFILE;
4、加载数据:
load data local inpath '/home/hadoop/hivetestdata/nginx.txt' into table logs;
查询每小时的访问量超过100的IP地址:
select substring(time, 2, 14) datetime ,host, count(*) as count from logs group by substring(time, 2, 14), host having count > 100sort by datetime, count;
5、注意事项:
a、使用RegexSerDe类时,所有的字段必须为string
b、input.regex里面,以一个匹配组,表示一个字段:([^ ]*)
阅读全文
1 0
- Hive的正则解析器RegexSerDe
- 使用Hive的正则解析器RegexSerDe分析nginx日志
- 2000-使用Hive的正则解析器RegexSerDe分析Nginx日志
- hive中RegexSerDe的使用
- hive中RegexSerDe的使用
- 关于hive RegexSerDe的源码分析
- 关于hive RegexSerDe的源码分析
- HIVE RegexSerDe使用详解
- hive RegexSerDe View
- Hive ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.RegexSerDe
- Hive 使用RegexSerDe来处理标准格式Apache Web日志
- Hive 使用RegexSerDe来处理标准格式Apache Web日志
- Hive 使用RegexSerDe来处理标准格式Apache Web日志
- hive的sql解析
- Hive ClassNotFoundException: Class org.apache.hadoop.hive.contrib.serde2.RegexSerDe not found
- hive 正则
- 老大的正则式解析器
- 转义字符\(在hive+shell以及java中注意事项):正则表达式的转义字符为双斜线,split函数解析也是正则
- Java 习题7和习题10 参考答案及解析
- 夏季夜宵_吃货程序员们_你们准备好了吗?
- Javac编译原理
- Linux系统下开发java程序
- 消息队列的使用场景
- Hive的正则解析器RegexSerDe
- Linux运维排查问题
- Elasticsearch5.4集群(三)Flume1.6sink兼容
- Lintcode84 Single Number |||solution 题解
- NB-IOT物联网平台是如何工作的
- Selenium+java分层(二)
- VIM编辑器中的快捷键
- LightOJ
- java学习 —————— 异常