用hive分析多服务器合并日志问题总结

来源:互联网 发布:淘宝店铺双十一报名 编辑:程序博客网 时间:2024/06/08 09:25

在用hive做日志分析的过程中遇到个问题

例如将4台服务器日志合并如果原始日志为.gz压缩格式的话

用cat 1.gz 2.gz 3.gz 4.gz>all.gz方法合并日志,然后导入到hdfs中

用hive进行统计分析那么结果就会显示错误,统计的结果只是1.gz中的日志结果

如果将四台服务器日志先解压缩 再用cat合并 cat 1.log 2.log 3.log 4.log>all.log 再进行压缩或者用sort -m -t " " -k 4 -o all.log 1.log 2.log 3.log 4.log

然后压缩 那么统计结果就不会产生错误

原创粉丝点击