Hadoop压缩类型
来源:互联网 发布:c语言标识符命名规则 编辑:程序博客网 时间:2024/05/01 14:57
压缩类型
工具
算法
文件名后缀
可分割
DEFLAT
无
DEFLAT
.deflat
不
gzip
gzip
DEFLAT
.gz
不
bzip2
bzip2
bzip2
.bz2
可
LZO
Lzop
LZO
.lzo
不
LZ4
无
LZ4
.lz4
不
Snappy
无
Snappy
.snappy
不
比较而言,gzip在对时间与空间的处理问题上更加均衡一些。相对gzip来说,
bzip2压缩效率更高,比gzip效率更高,压缩后的文件占据的空间更小,但是其
需要的时间更长
在HDFS文件格式,文件时分割在一个个不同的block中进行存储。而gzip是不
可分割的,那么如果采用gzip作为压缩工具,将文件切割成多个block,会发现
程序部能运行,其原因是系统默认的DEFLATE算法(gzip的核心算法)在压缩过
程中将数据进行连续的非指向性排列,若从其中一个位置被分割,那么无法确
保FileSystem实例在获取完一个单独的block后,能够及时准确地获取接下来的那
一个连续的block位置。
但gzip压缩后的大文件可以被Hadoop以串联的方式存储在同一个节点中连续
的block中,即所有的数据都以链式的结构存储在同一个节点上,Hadoop做的仅
仅是对容量进行了压缩。只是由于其后续处理需要对文件进行读取操作时,所
有存储有数据的block将会一次由同一个数据输入任务来处理。
0 0
- Hadoop压缩类型
- hadoop 压缩
- Hadoop压缩
- hadoop lzo压缩
- Hadoop压缩-SNAPPY算法
- Hadoop压缩算法snappy
- hadoop mapreduce中压缩
- Hadoop启用Lzo压缩
- Hadoop之压缩
- hadoop压缩格式
- Hadoop之压缩
- hadoop启动bzip2压缩
- hadoop压缩与解压
- Hadoop压缩与解压
- hadoop压缩汇总
- hadoop的压缩格式
- Hadoop压缩codec
- Hadoop MapReduce中的压缩
- 星期二男孩问题
- 数据结构之链表实现
- 教你如何做个坏人----指令广播骚扰
- 小Y上学记——修学分(拓扑排序)
- 学习《算法导论》第十一章 散列表 总结一
- Hadoop压缩类型
- react-native试玩(16)-iOS分段控制控件
- c++ iterator(迭代器)分类及其使用
- CSS样式规范
- 犀牛——第9章类和模块 9.3JavaScript中java式的类继承
- "编程珠玑" 第一章 磁盘文件排序问题
- 二叉查找树
- hdoj1756Cupid's Arrow【点在多边形内部的判断 射线法】
- 工具:去除文件的行号