程序博客网 > 杭州网络培训机构

Spark在不同存储格式下的性能对比

来源：互联网发布：杭州网络培训机构编辑：程序博客网时间：2024/05/17 04:39

笔者发现，很多同学在各种项目中尝试使用Spark，大多数同学最初开始尝试使用Spark的原因都很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark进行合理的调优，Spark作业的执行速度可能会很慢，甚至根本体会不到Spark作为一种快速大数据计算引擎的优势。
事实上，Spark系统的性能调优是一个很复杂的过程，需要对Spark以及Hadoop有足够的知识储备，从硬件、操作系统、HDFS、数据存储格式、Spark等多个层面都会对性能产生很大的影响，显然不是调节几个参数就可以搞的定的。本文测试的目的是用来对比 Spark 三种存储格式TEXT、PARQUET、YDB的在性能差异。
因机器环境以及配置的不同，测试结果可能略有差异，该测试报告仅对笔者的软硬件环境负责。

测试结论：
通过以下比较全面测试，发现数据存储格式对Spark的性能有非常大影响。
Text的测试性能表现极差，在绝大部分场景中，YDB相比Parquet有较大的性能提升。

1、检索过滤性能

2、排序性能

1~2个列的TOP N排序

10~12个列的TOP N排序

3、统计性能
1个列的统计

1~2个列的Group By

10~12个列的统计及Group By

4、高纬值列的性能
高纬值列统计及排序性能

高纬值列的Group By性能

5、存储空间使用情况

6、导入速度对比

阅读全文

1 0

杭州网络培训机构

杭州网络培训机构

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子肩膀劳损痛的厉害怎么办颈后面有个囊肿怎么办扭腰了怎么办有偏方吗跑步机点加油了怎么办高二了英语30分怎么办苍蝇往人身上飞怎么办 25岁了写字好丑怎么办我字写得超难看怎么办高三体检有纹身怎么办快高考了有纹身怎么办艺考身上有纹身怎么办初三考试考砸了怎么办考差了我该怎么办发票认购簿丢了怎么办税率开错为17%了怎么办增值税票开错了怎么办发票名字写错了怎么办红米2卡开机画面怎么办三星s4字库坏了怎么办百度云上传很慢怎么办入户网线头断了怎么办针织的衣服起球怎么办网线被车挂断了怎么办挂了光纤跑了怎么办 cf天赋点多了怎么办 cf天赋点点错了怎么办警用记录仪丢了怎么办被伪基站覆盖了怎么办加热包的水喝了怎么办剩米饭放硬了怎么办肉罐头拉环断了怎么办 5大战区拥兵自重怎么办买的期房停工了怎么办怀孕后长了副乳怎么办耳朵冻的红肿了怎么办吃螃蟹吃柿子了怎么办吃了螃蟹和柿子怎么办螃蟹与柿子同吃怎么办手被鞭炮炸伤了怎么办索尼l36h变砖了怎么办 oppor9s手机忘记解锁图案怎么办