Snappy压缩

来源:互联网 发布:戴尔win10修改mac 编辑:程序博客网 时间:2024/05/17 04:09

创建路径及上传数据
这里写图片描述

不设置压缩运行:
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar \
wordcount mapreduce/wordcount/input mapreduce/wordcount/output
这里写图片描述

设置压缩运行:
bin/yarn jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar \
wordcount \
-Dmapreduce.map.output.compress=true \
-Dmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec \
mapreduce/wordcount/input mapreduce/wordcount/output
这里写图片描述

Hive中不压缩执行:
select e.ename ,e.sal ,d.dname from emp e join dept d on e.deptno = d.deptno;
这里写图片描述

设置Hive压缩:
set mapreduce.map.output.compress=true ;
set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec ;
set hive.exec.compress.intermediate = true ;
这里写图片描述
执行:select e.ename ,e.sal ,d.dname from emp e join dept d on e.deptno = d.deptno;
这里写图片描述

数据的存储方式:列式存储,节省内存
Text>RCFile>Parquet>ORCFile
这里写图片描述

0 0
原创粉丝点击