hive相关问题总结
来源:互联网 发布:有线网络 编辑:程序博客网 时间:2024/05/20 20:55
hive mysql 中文乱码问题研究。
首先mysql 字符集修改
1:[client] 下面增加:
default-character-set = utf8
2:[mysqld]下面增加:
character-set-server = utf8
3:[mysql] 下面增加:
default-character-set = utf8
4:重启mysql数据库:service mysqld restart
5:hive-site.xml配置文件中指定utf-8:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://IP:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
6:启动hive,执行show tables;
第一次执行hive会创建相关元数据库表,此时会报错,具体原因是package.jdo中定义的字段太长,因为默认是按照latin1编码的长度,utf8编码的话要长度缩小3倍。
latin1编码的index和pk字段都有长度限制最大为767,utf8的话最大只能设置255了。所以就有下一步操作
7:修改hive-metastore-0.10.0-cdh4.2.2.jar中的package.jdo文件,将index和pk字段的长度大于255的字段定义都改小,默认是缩小3倍把。比如原文件定义的是256,那么改成85.
然后把修改好的jar包替换掉HIVE_HOME/lib目录下的hive-metastore-0.10.0-cdh4.2.2.jar。
8:删除mysql中的hive元数据库,drop database hive; 删除hdfs上的 /user/hive目录和/tmp/hive-hadoop目录(如果有的话)
9:重新运行hive命令,执行show tables;重新创建元数据库表。此时应该能够创建成功,不会报哪个超过767长度的错误了。
10:测试一下load中文分区:
create table userinfo(id int ,name string,age int) partitioned by (province string) row format delimited fields terminated by '\t';
load data local inpath '/home/hadoop/hive_example_data/province_jx.txt' overwrite into table userinfo partition (province='上海');
select * from userinfo;
查询结果能够正常显示中文的分区。
但是show partitions userinfo;显示的分区还是乱码,没解决。
今天执行hive带条件的查询select * from userinfo where province='江西',结果报错:java.io.FileNotFoundException: File does not exist: hdfs://master24:9000/home/hadoop/hive-0.10.0-cdh4.2.2/lib/hive-builtins-0.10.0-cdh4.2.2.jar,job无法启动。
感觉很莫名啊,以前都执行的好好的。于是我首先去看了一下hadoop 集群的状态,是正常的,接下来我想到了是不是我跟我今天改了.hiverc文件有关,于是打开.hiverc文件,
把set hive.exec.mode,local.auto=true;这行删除掉了,再试了一下,好了可以提交job了。由于是照着书上配的,都没注意,太坑了,书上说这个参数是让作业可以在本地执行,有优化作用,尼玛啊,我感觉好像是把hdfs认为为单机local模式,而我的环境是集群环境,总之很莫名,不论如何,问题解决了就好。
我们使用hive一般是执行离线统计分析,然后将执行的结果导入到Mysql的表中供前端报表可视化展现来查询。
导回mysql的方式有许多,以前是用sqoop导回Mysql,还有人用hive jdbc查询然后将结果拉回到代码层面,再在代码层面用mysql jdbc写回Mysql数据库。
但是这两种方式都会有一个二次处理环节(虽然我们以前实现了SQL的解析可以把sqoop的操作对使用者来说透明化,比如insert into mysql.table1 select * from hive.table2这样的sql会将hive查询出来的结果插入mysql,但是实现起来复杂度比较高)。
这次介绍另外一种处理方式,直接将Mysql的操作集成在udf中,这样直接写一个hql查询语句就可以了。
上传jar包,注册udf:
CREATE FUNCTION default.mysql_import4 AS 'brickhouse.udf.mysql.MysqlImportUDF' USING JAR 'hdfs://name84:8020/tmp/jar/brickhouse-0.7.1.jar';
然后写一个HQL测试一下:
select default.mysql_import4('hdfs://name84:8020/user/hive/udf/conf/mysql.properties','insert into xj_test1(ds,`mod`,pv,uv) values(?,?,?,?) on duplicate key update pv=pv+?,uv=uv+?',b.ds,b.type,b.pv,b.uv,b.pv,b.uv) from (
select ds,type,count(did) as pv,count(distinct did) as uv
from dd_xyzs_pc_action_detail
where ds='2016-10-23'
group by ds,type
) b
内层子查询是一个聚合查询,业务逻辑是计算每天每个type的pv,uv,然后外层包一层,用上面注册的udf,将计算结果插入mysql。
UDF第一个参数是静态参数,是一个配置文件路径,里面配置了如何开启连接池连接哪个数据库什么的。
第二个参数是一个mysql的sql语句,描述入库方式,然后后面的参数就不固定了,一一对应mysql语句中的占位符,比如我上面有6个占位符,然后我后面就跟了6个参数。
附一个mysql.properties配置文件的内容:
TODO:目前这个udf是每条结果单独执行一个sql插入,准备写一个batch插入的,将查询结果先collect_list变成一个数组,然后一次批量插入数据库。
再附上一个批量插入的udf:
前面两个参数和上面的mysql_import_ext一样.
参数3:传递一个array<struct>类型的字段,array中的元素必须是一个struct类型,并且struct中的field个数必须与sql占位符一致
示例demo将查询结果集再进行一次collect_list操作获得一个array字段作为udf的第三个参数:
select default.mysql_batch_import('mysql_78_26','insert into xj_test1(ds,`mod`,pv,uv) values(?,?,?,?) on duplicate key update pv=pv+?,uv=uv+?',collect_list(struct(ds,type,pv,uv,pv,uv))) from
(
select ds,type,count(did) as pv,count(distinct did) as uv
from dd_xyzs_pc_action_detail
where ds='2016-10-23'
group by ds,type
) a
一、基本聚合函数 数据聚合是按照特定条件将数据整合并表达出来,以总结出更多的组信息。Hive包含内建的一些基本聚合函数,如MAX, MIN, AVG等等,同时也通过GROUPING SETS, ROLLUP, CUBE等函数支持更高级的聚合。Hive基本内建聚合函数通常与GROUP BY连用,默认情况下是对整个表进行操作。在使用GROUP BY时,除聚合函数外其他已选择列必须包含在GROUP BY子句中。
例:计算employee表中数据总条数 hive> SELECT COUNT(*) FROM employee;
例:计算employee表中数据总条数,sex_age必须包含在GROUP BY的子句中,否则报错! hive> SELECT sex_age, count(*) AS row_cnt FROM employee GROUP BY sex_age;
那么有一个问题,如果我需要选择一行,但此时我不想对其进行GROUP BY那应该怎么办呢?这里有两个方法,一个是后面要讲到的使用分析函数,另一个就是使用COLLECT_SET函数,该函数将返回一个包含被GROUP BY排除的列的副本集合。
例:使用COLLECT_SET,其中的列不用进行GROUP BY hive> SELECT sex_age, count(*) AS row_cnt FROM employee GROUP BY sex_age;
注:聚合函数在同一个语句中可以组合使用,但是不能嵌套使用,即不能在一个聚合函数中套用另一个聚合函数!
例:组合使用AVG和COUNT hive> SELECT sex_age.sex, AVG(sex_age.age) AS avg_age, count(*) AS row_cnt FROM employee GROUP BY sex_age.sex;
例:聚合函数与CASE WHEN组合使用 hive> SELECT SUM(CASE WHEN sex_age.sex='Male' THEN sex_age.age ELSE 0 END)/COUNT(CASE WHEN sex_age.sex='Male' THEN 1 ELSE NULL END) AS male_age_avg FROM employee;
例:聚合函数与COALESCE和IF组合使用。COALESCE(arg1, arg2, arg3...):遇到非null参数即返回改值 hive> SELECT SUM(COALESCE(sex_age.age, 0)) AS age_sum, SUM(IF(sex_age.sex='Female',sex_age.age,0)) AS female_age_sum FROM employee;
例:嵌套聚合函数将会报错 hive> SELECT AVG(COUNT(*)) AS row_cnt FROM employee;
例:聚合函数与DISTINCT关键词组合使用。DISTINCT: 去重 hive> SELECT COUNT(DISTINCT sex_age.sex) AS sex_uni_cnt, COUNT(DISTINCT name) AS name_uni_cnt FROM employee; 注:如果COUNT和DISTINCT连用,Hive将忽略对reducer个数的设置(如:set mapred.reduce.tasks=20;), 仅会有一个reducer!此时reduce将成为瓶颈,这时我们可以使用子查询的方式解决该问题。
----------------- 对比 ---------------------- 例:瓶颈问题 hive> SELECT COUNT(DISTINCT sex_age.sex) AS sex_uni_cnt FROM employee;
例:子查询解决COUNT, DISTINCT瓶颈 hive> SELECT COUNT(*) AS sex_uni_cnt FROM (SELECT DISTINCT sex_age.sex FROM employee) a; 注:子句必须有一个别名,否则会解析语句失败。
在Hive的聚合中,如果某个聚合列的值中有null,则包含该null的行将在聚合时被忽略。为了避免这种情况,可以使用COALESCE来将null替换为一个默认值。 例: hive> CREATE TABLE t AS SELECT * FROM (SELECT employee_id-99 AS val1, (employee_id-98) AS val2 FROM employee_hr WHERE employee_id<=101 UNION ALL SELECT null val1, 2 AS val2 FROM employee_hr WHERE employee_id=100) a;
例: hive> SELECT * FROM t;
例:val1=null将被忽略,但该行对应的其他非null值继续被聚合! hive> SELECT SUM(val1), SUM(val1 + val2) FROM t;
例:将值为null的使用COALESCE替换为0 hive> SELECT SUM(COALESCE(val1, 0)), SUM(COALESCE(val1, 0)+val2) FROM t;
可以设置hive.map.aggr属性来控制map阶段的聚合,默认是false。如果设置为true,则将在map任务时进行first-level聚合,这将使得map有更好的性能,但会消耗更多内存。
二、高级聚合 高级聚合主要有以下几种情况:
1. GROUPING SETS 该关键字可以实现对同一个数据集的多重GROUP BY操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅使用一个stage完成这些操作。GROUPING SETS的子句中如果包换()数据集,则表示整体聚合。 例: hive> SELECT name, work_place[0] AS main_place, count(employee_id) AS emp_id_cnt FROM employee_id GROUP BY name, work_place[0] GROUPING SETS((name, work_place[0]), name, work_place[0], ()); || SELECT name, work_place[0] AS main_place, count(employee_id) AS emp_id_cnt FROM employee_id GROUP BY name, work_place[0] UNION ALL SELECT name, NULL AS main_place, count(employee_id) AS emp_id_cnt FROM employee_id GROUP BY name UNION ALL SELECT NULL AS name, work_place[0] AS main_place, count(employee_id) AS emp_id_cnt FROM employee_id GROUP BY work_place[0] UNION ALL SELECT NULL AS name, NULL AS main_place, count(employee_id) AS emp_id_cnt FROM employee_id;
然而GROUPING SETS目前还有未解决的问题,参考HIVE-6950https://issues.apache.org/jira/browse/HIVE-6950 例: hive> SELECT sex_age.sex, sex_age.age, count(name) AS name_cnt FROM employee GROUP BY sex_age.sex, sex_age.age GROUPING SETS((sex_age.sex, sex_age.age));
2. ROLLUP和CUBE 这两个关键字都是GROUP BY的高级实现。
对比于规定了n层聚合的GROUPING SETS,ROLLUP会创建n+1层聚合,在此n表示分组列的个数。 GROUP BY a, b, c WITH ROLLUP 等价于 GROUP BY a,b,c GROUPING SETS ((a,b,c),(a,b),(a),())
CUBE将会对分组列进行所有可能的组合聚合。如果为CUBE指定了n列,则将返回2^n个聚合组合。 GROUP BY a, b, c WITH ROLLUP 等价于 GROUP BY a,b,c GROUPING SETS ((a,b,c),(a,b),(b,c),(a,c),(a),(b),(c),())
三、聚合条件--HAVING 从Hive0.7.0开始HAVING被添加到Hive作为GROUP BY结果集的条件过滤。HAVING可以作为子句的替代。
例: hive> SELECT sex_age.age FROM employee GROUP BY sex_age.age HAVING count(*)<=1;
例:作用同上 hive> SELECT a.age FROM (SELECT COUNT(*) AS cnt, sex_age.age FROM employee GROUP BY sex_age.age) a WHERE a.cnt<=1;
四、解析函数 解析函数是从Hive0.11.0开始被支持,用于扫描多行输入来计算输出值。常与OVER, PARTITION BY, ORDER BY等连用。由于解析函数的用法相对复杂,在此不作讲解,有兴趣的可以上网搜索相关文章进行学习。
五、采样 当数据集非常大的时候,我们需要找一个子集来加快数据分析。此时我们需要数据采集工具以获得需要的子集。在此可以使用三种方式获得采样数据:random sampling, bucket sampling, block sampling.
1. Random sampling 使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY RAND()语句可以获得同样的效果,但是性能没这么高。 --Syntax: SELECT * FROM <Table_Name> DISTRIBUTE BY RAND() SORT BY RAND() LIMIT <N rows to sample>;
2. Bucket table sampling 该方式是最佳化采样bucket表。RAND()函数也可以用来采样整行。如果采样列同时使用了CLUSTERED BY,使用TABLESAMPLE语句会更有效率。 --Syntax: SELECT * FROM <Table_Name> TABLESAMPLE(BUCKET <specified bucket number to sample> OUT OF <total number of buckets> ON [colname|RAND()]) table_alias;
例: hive> CREATE TABLE employee_id_buckets ( name string, employee_id int, work_place ARRAY<string>, sex_age STRUCT<sex:string,age:int>, skills_score MAP<string,int>, depart_title MAP<string,ARRAY<string >> ) CLUSTERED BY (employee_id) INTO 2 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS TERMINATED BY ':';
INSERT OVERWRITE TABLE employee_id_buckets SELECT * FROM employee_id;
SELECT name FROM employee_id_buckets TABLESAMPLE(BUCKET 1 OUT OF 2 ON rand()) a;
3. Block sampling 该方式允许Hive随机抽取N行数据,数据总量的百分比(n百分比)或N字节的数据。 --Syntax: SELECT * FROM <Table_Name> TABLESAMPLE(N PERCENT|ByteLengthLiteral|N ROWS) s; --ByteLengggthLiteral: --(Digit)+ ('b' | 'B' | 'k' | 'K' | 'm' | 'M' | 'g' | 'G')
例:按行抽样 hive> SELECT name FROM employee_id_buckets TABLESAMPLE(4 ROWS) a;
例:按数据量百分比抽样 hive> SELECT name FROM employee_id_buckets TABLESAMPLE(10 PERCENT) a; 注:此方法有待考证,在Hive0.11.0中将所有25条数据全取出来了,在Hive0.13.0中取出了其中的12条,但是都不符合要求!!
例:按数据大小采样 hive> SELECT name FROM employee_id_buckets TABLESAMPLE(1M) a;
总结 聚合和抽样,特别是聚合函数,在大数据处理过程中是处理数据的主要方法。通过自由的条件限制以及聚合函数组合,基本能完成任意要求的数据处理或分组。本文仅仅是针对Hive进行了部分比较细致的讲解,关于像解析函数之类的使用比较复杂一点的处理方式需要进行更深一步的了解和运用。希望本文能提供到一定的帮助!
- hive相关问题总结
- hive 使用相关问题
- hive用法的相关总结
- hive问题总结
- Hive问题总结
- hive近期相关问题列表
- Hive数据倾斜问题总结
- Hive数据倾斜问题总结
- Hive-hive.groupby.skewindata配置相关问题调研
- Hive-hive.groupby.skewindata配置相关问题调研
- Pig Hive相关小问题学习网址
- Windows相关问题总结
- MTK相关问题总结
- AspxGridView 相关问题总结
- qwt相关问题总结
- wdos相关问题总结
- QT相关问题总结
- Weblogic相关问题总结
- format参数时间格式
- c#配置GDAL环境,按照步骤一步一步肯定成功,代码为测试shp转Geojson
- 关于无线网络波动大的解决办法
- Spark --【宽依赖和窄依赖】
- 九宫格显示控件
- hive相关问题总结
- 解决Altium画pcb时出现Unknown Pin的情况
- angularJS指令ng-repeat生成的dom元素js获取不到
- 数据结构实验之图论六:村村通公路
- 数据结构实验之图论九:最小生成树
- jquery点击事件
- 关于Java和OC深浅复制的问题
- jar包(依赖)
- 大学毕业论文指导-内容陈述