HDFS bytes read与Map input bytes
来源:互联网 发布:打印机网络共享软件 编辑:程序博客网 时间:2024/06/03 14:51
在看Hadoop的执行日志时可以看到HDFS bytes read与Map input bytes这2个参数。这2个参数都属于JOB读入的信息。其中HDFS bytes read是一个文件系统接口层面的统计,它更底层,它直接处理的是文件系统的读。而Map input bytes是对文件系统读入的数据做了进一步的处理,是真正JOB读入的数据流。
理论上讲,对于未压缩的text File,HDFS bytes read与Map input bytes的大小应该是相同的。但是实际测试发现两个大小稍有差别。
对于压缩的text File,HDFS bytes read当然要比Map input bytes小很多。
对于sequence File,HDFS bytes read比Map input bytes要大一些。
下面是一组测试案例(测试版本为Hadoop 0.19,文件大小单位为字节):
sequence File:
源文件:
HDFS bytes read:29083455
Map input bytes:28640815
text File:
源文件:
HDFS bytes read:88831326
Map input bytes:88828602
text File 压缩:
源文件:
HDFS bytes read:27040567
Map input bytes:88828602
- HDFS bytes read与Map input bytes
- read(bytes)
- bytes
- Unable to read entire header; bytes read; expected bytes
- Read and write bytes data
- bytes与bits
- 字符串与bytes
- read GBK code from bytes,string operations
- Can not read response from server. Expected to read 4 bytes, read 0 bytes
- Underlying input stream returned zero bytes
- Underlying input stream returned zero bytes
- Python中的str与bytes
- java.io.IOException: Unable to read entire header; 0 bytes read; expected 32 bytes
- Unable to read entire header; 336 bytes read; expected 512 bytes
- Error: Read from storage 0 bytes, but requested 12 bytes 的解决方法
- Reading given number of bytes with RSocket::Read()
- java.io.EOFException: while trying to read 65557 bytes
- ORA-27063: number of bytes read/written is incorrect
- Hive中对科学计数法表示的字符串的转换
- jdbc的事务管理
- java读取字符串中数字
- Hadoop中map数的计算
- image文件图片显示,存储,读取问题
- HDFS bytes read与Map input bytes
- hdu 4740 (一步一步模拟就好了)考查耐心与细心
- Random的假随机
- 如何修改apusic应用服务器的启动内存
- 两种方式情况页面文本框
- 将apusic添加到windows服务
- GSON使用的学习笔记,入门篇
- 网站建设怪圈之四分析
- explicit构造函数