hive中rcfile orcfile和parquetfile对比
来源:互联网 发布:面试技巧 知乎 编辑:程序博客网 时间:2024/06/07 09:39
一.开始创建三种格式的表:
create table rcfile (name string,age int,addr string,desc string) row format delimited fields terminated by ',' stored as rcfile;create table rcfile (name string,age int,addr string,desc string) row format delimited fields terminated by ',' stored as orcfile;create table rcfile (name string,age int,addr string,desc string) row format delimited fields terminated by ',' stored as parquetfile;
二.用shell生成1000W条数据,以”,”隔开,并且load data overwrite到 textfile表里面
三.分别把数据insert到三个表中:
insert into rcfile select * from lijie.textfile;insert into orcfile select * from lijie.textfile;insert into parquetfile select * from lijie.textfile;
四.开始测试
1.select * from xxfile rcfile Time taken: 47.604 seconds, Fetcheds 13756317 row(s) orcfile Time taken: 2.563 seconds, Fetcheds 13756317 row(s) parquetfile Time taken: 43.454 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile 小于 parquet2.select name,addr from xxfile rcfile Time taken: 36.937 seconds, Fetcheds 13756317 row(s) orcfile Time taken: 2.514 seconds, Fetcheds 13756317 row(s) parquetfile Time taken: 43.454 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile 小于 parquet3.select max(name) from xxfile rcfile Time taken: 34.375 seconds, Fetcheds 13756317 row(s) orcfile Time taken: 30.073 seconds, Fetcheds 13756317 row(s) parquetfile Time taken: 38.352 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile 小于 parquet4.select count(1) from xxfile rcfile Time taken: 32.261 seconds, Fetcheds 13756317 row(s) orcfile Time taken: 28.959 seconds, Fetcheds 13756317 row(s) parquetfile Time taken: 32.265 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile=parquet
五.总结
总数据量13756317
列:name,age,addr,desc
orcfile 查询效果更优,rcfile效果略好于parquetfile
0 0
- hive中rcfile orcfile和parquetfile对比
- RCFile 和 ORCFile 【转】
- RCFile 和 ORCFile
- RCFile 和 ORCFile
- RCFile和ORCFile
- RCFile和ORCFile
- hive sequencefile 和rcfile 效率对比
- hive sequencefile 和rcfile 效率对比
- hive存储格式sequencefile和rcfile的对比
- hive存储格式sequencefile和rcfile的对比
- hive中使用rcfile
- hadoop和hive压缩格式对比【数据源建议RCFile+bz或RCFile+gz的方式可以节省空间,计算过程建议RCFile+snappy,空间换时间】
- hive入门们学习:orcFile和parquet存储格式简介
- MapReduce产生RCFile文件在HDFS,HIve将RCFile文件加载到hive的表中
- hive使用orcfile parquet sequencefile
- Hive学习笔记 --- ORCFile介绍
- Hive中的RCFile
- hive的文件格式-RCfile
- Solr5.5导入数据
- 在Linux中永久设置Anaconda环境变量的方法
- marvell 上os_mem_alloc的使用问题
- Java 8系列之重新认识HashMap
- struts.xml配置及例程
- hive中rcfile orcfile和parquetfile对比
- 连续打开多个activity时,需要退出时的操作
- NLP:中文分词
- NoHttp 框架详解
- 经典的机器学习方面源代码库(数据挖掘,计算机视觉,模式识别,信息检索)
- swift中UISegmentController的使用
- 我对APPCAN的初步理解
- Xamarin Android 中Acitvity如何传递数据
- 采样值软件滤波方案