hadoop SequenceFileOutputFormat与LzopCodec压缩问题

来源:互联网 发布:如何提高淘宝产品权重 编辑:程序博客网 时间:2024/06/08 19:03

用mahout库做推荐系统,mahout的默认输出格式是SequenceFileOutputFormat,然后对输出进行压缩,集群配置的默认压缩方式是LzopCodec。跑100多G的数据,结果悲剧了,出现“java.io.EOFException: Premature EOF from inputStream”错误。找了N长时间,发现SequenceFileOutputFormat与LzopCodec不匹配,是hadoop自带问题,把压缩方式改为别的就OK。

具体见http://web.archiveorange.com/archive/v/5nvvZ7eWCDGq6ExVf3zX

0 0
原创粉丝点击