hive建外表时默认分隔符错误导致行数增加和数据错误

来源:互联网 发布:dat文件导入数据库 编辑:程序博客网 时间:2024/05/18 14:22

hive根据hdfs建立外表时,一般使用这种格式规范: ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

这种方式识别的默认行分隔符其实并不只是行分隔符'\n',还包括'\r','\r\n','\u0001','\u0002','\u0003'

因此有如果字段中存在'\r',可能会导致外表行数与预期不一致的增加

这种处理应该是为了兼容windows

相关的一个jira https://issues.apache.org/jira/browse/HIVE-3810

根据实践,hive 0.12依然存在这个问题

0 0
原创粉丝点击