.gz文件上载到hdfs中
来源:互联网 发布:js attr方法 编辑:程序博客网 时间:2024/05/22 13:21
.gz文件上载到hdfs中
用 dfs -copyFormLocal的方式,上载后的文件正常,可以用mapreduce直接读取;
终于找到原因了:一个配置问题,
HdfsSink中默认的serializer会每写一行在行尾添加一个换行符,这样会导致每条日志后面多一个空行,修改配置不要自动添加换行符;
OK
用flume的方式,datastream类型,上载后mapreduce操作异常,为何呢?
Error: java.io.EOFException: Unexpected end of input stream
at org.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:145)
at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:85)
at java.io.InputStream.read(InputStream.java:101)
at org.apache.hadoop.util.LineReader.fillBuffer(LineReader.java:180)
at org.apache.hadoop.util.LineReader.readDefaultLine(LineReader.java:216)
at org.apache.hadoop.util.LineReader.readLine(LineReader.java:174)
at org.apache.hadoop.mapreduce.lib.input.LineRecordReader.nextKeyValue(LineRecordReader.java:185)
at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:556)
at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:80)
at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:91)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
设定为hdfs.filetype为sequencefile,然后mr中用sequencefile的文件输入方式也不行:
job.setInputFormatClass(SequenceFileInputFormat.class);
Error: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast to org.apache.hadoop.io.Text
at com.gzmrdemo.GzFileMapper.map(GzFileMapper.java:1)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
- .gz文件上载到hdfs中
- HDFS之上传文件到hdfs中
- MAPGIS6.7 将矢量化后的图形文件上载到SQL Server数据库中
- 从hdfs中读取文件到hbase
- 合并本地文件到HDFS文件中
- delphi中通过TIdhttp控件上载文件
- IE上载Office2007文件时在上载对话框中变成ZIP文件有关问题的解决
- IE上载Office2007文件时在上载对话框中变成ZIP文件有关问题的解决
- 上传文件到HDFS
- 上传文件到HDFS
- 上载EXCEL文件到SAP系统内表FUNCTION
- adb+push上载文件到SD存储卡
- ios上载文件到服务器的工具类EPUploader
- GZ文件输出到TXT,ZIP,GZ文件
- Hadoop中提交HDFS文件到HA中
- 从本地读取文件到hdfs中注意事项
- 如何把文件上传到集群中(HDFS)
- Flume采集数据到HDFS时,文件中有乱码
- 面试问题 activity生命周期,当设备旋转时android生命周期方法的调用顺序
- VC++6.0插件系列(绝对经典)
- mysql 数据库授权(给某个用户授权某个数据库)
- mysql5.7.10取消root密码
- iOS Runloop
- .gz文件上载到hdfs中
- 【人脸识别】人脸验证算法Joint Bayesian详解及实现(Python版)
- IOS处理位图
- HDU 1043 - Eight
- 观察者设计模式
- c++primer第五版第十六章练习
- UI控件RecyclerView浅析
- android opengles 最简单的三角形的方法
- hibernate映射(一)——M到底是如何发生的?