Spark在不同存储格式下的性能对比
来源:互联网 发布:杭州网络培训机构 编辑:程序博客网 时间:2024/05/17 04:39
笔者发现,很多同学在各种项目中尝试使用Spark,大多数同学最初开始尝试使用Spark的原因都很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark进行合理的调优,Spark作业的执行速度可能会很慢,甚至根本体会不到Spark作为一种快速大数据计算引擎的优势。
事实上,Spark系统的性能调优是一个很复杂的过程,需要对Spark以及Hadoop有足够的知识储备,从硬件、操作系统、HDFS、数据存储格式、Spark等多个层面都会对性能产生很大的影响,显然不是调节几个参数就可以搞的定的。本文测试的目的是用来对比 Spark 三种存储格式TEXT、PARQUET、YDB的在性能差异。
因机器环境以及配置的不同,测试结果可能略有差异,该测试报告仅对笔者的软硬件环境负责。
测试结论:
通过以下比较全面测试,发现数据存储格式对Spark的性能有非常大影响。
Text的测试性能表现极差,在绝大部分场景中,YDB相比Parquet有较大的性能提升。
1、检索过滤性能
2、排序性能
1~2个列的TOP N排序
10~12个列的TOP N排序
3、统计性能
1个列的统计
1~2个列的Group By
10~12个列的统计及Group By
4、高纬值列的性能
高纬值列统计及排序性能
高纬值列的Group By性能
5、存储空间使用情况
6、导入速度对比
阅读全文
1 0
- Spark在不同存储格式下的性能对比
- 【转载】Sql Server2005不同分页存储过程的性能对比
- 不同的瑞士军刀:对比 Spark 和 MapReduce
- 不同Framework下StringBuilder和String的性能对比,及不同Framework性能比(附Demo)
- WCF托管在IIS、Windows Services下的性能对比
- YDB与spark SQL在百亿级数据上的性能对比测试
- oracle 存储过程在不同模式下调用的问题
- Block 在不同情况下的变量存储区域
- MongoDB的GridFS与文件系统在小文件存储的读取性能对比
- 在不同日期格式下批处理输出自定义格式的日期和时间
- 不同数据类型在32位和64位下所占的字节的对比
- innodb存储引擎中不同sql在不同隔离级别下锁的比较
- Hadoop vs Spark性能对比
- Hadoop vs Spark性能对比
- Hadoop vs Spark性能对比
- Angle和XBGoost以及Spark的性能对比
- (九)Spark应用程序在不同部署模式下的运行方式
- hive中不同数据类型存储在Hbase中的格式解析
- linux目录结构简介
- 图论算法基础-BFS与DFS
- 小白学tkinter(Message组件)
- go by example 之arrays.go
- TeamTalk消息服务器原理及二次开发简介
- Spark在不同存储格式下的性能对比
- PCL编程->VS2013+PCL1.8.0环境配置及初运行
- 数塔问题(动态规划)
- Python搭建插件式框架(基于组件开发)
- 设计模式——Singleton
- 图像处理中距离度量方法总结
- spring的事务管理配置
- 邮箱校验
- Mysql中的索引