spark & 文件压缩
来源:互联网 发布:里士满大学 知乎 编辑:程序博客网 时间:2024/05/16 05:39
hdfs中存储的文件一般都是多副本存储,对文件进行压缩,不仅可以节约大量空间,适当的存储格式还能对读取性能有非常大的提升。
文本文件压缩
bzip2
压缩率最高,压缩解压速度较慢,支持split。
import org.apache.hadoop.io.compress.BZip2Codecrdd.saveAsTextFile("codec/bzip2",classOf[BZip2Codec])
snappy
json文本压缩率 38.2%,压缩和解压缩时间短。
import org.apache.hadoop.io.compress.SnappyCodecrdd.saveAsTextFile("codec/snappy",classOf[SnappyCodec])
gzip
压缩率高,压缩和解压速度较快,不支持split,如果不对文件大小进行控制,下次分析可能可能会造成效率低下的问题。
json文本压缩率23.5%,适合使用率低,长期存储的文件。
import org.apache.hadoop.io.compress.GzipCodecrdd.saveAsTextFile("codec/gzip",classOf[GzipCodec])
parquet文件压缩
parquet为文件提供了列式存储,查询时只会取出需要的字段和分区,对IO性能的提升非常大,同时占用空间较小,即使是parquet的uncompressed存储方式也比普通的文本要小的多。
spark中通过sqlContext.write.parquet("path")
对parquet文件进行存储,默认使用的gzip压缩方式。
可以通过spark.sql.parquet.compression.codec
参数或是在代码中进行修改。
parquet存储提供了lzo,gzip,snappy,uncompressed四种方式。
0 0
- spark & 文件压缩
- Hadoop,Spark :文件输出压缩
- Spark读Lzo压缩格式的文件
- Hadoop,Spark[一]:文件输出压缩
- spark 压缩解压文件(基于scala)
- spark压缩 配置
- spark 加载多个目录; RDD输出到hdfs文件压缩
- 文件压缩和解压缩
- spark core 2.0 Compression 压缩.
- 文件压缩
- 文件压缩
- 文件压缩
- 文件压缩
- 文件压缩
- 文件压缩
- 文件压缩
- 文件压缩
- 文件压缩
- web开发表单的制作
- java执行系统cmd命令(未测试)
- java异常机制剖析
- linux下vi命令大全
- POI使用:用poi接口不区分xls/xlsx格式解析Excel文档(41种日期格式解析方法,5种公式结果类型解析方法,3种常用数值类型精度控制办法)
- spark & 文件压缩
- 欢迎使用CSDN-markdown编辑器
- mPopupWindow.setOutsideTouchable(true)不生效问题
- GET和POST有什么区别?及为什么网上多数答案都是错的
- hdu 5742 It's All In The Mind
- Android中application取值为空
- 关于gamma调整和添加噪声测试
- CABAC 语法解析
- Java 中的类锁和对象锁