说说性能测试中的数据集

来源:互联网 发布:java多线程的创建 编辑:程序博客网 时间:2024/06/05 15:02

 作者:阳光                   2007531 

 

 大家在做性能测试或者提到性能测试想到最多的是什么?测试工具?还是测试概念:像压力测试、负载测试、强度测试、等;但是你们有没有想过,在性能测试过程中还有一个很重要的影响因素——“数据集”,那么什么是“数据集”呢?举个例子说,如果要测试数据库的承受的压力,或者叫做数据库压力测试,在这个测试过程中,我们需要在多并发的情况想对数据库服务器进行访问,但是这就有另外一个问题了,多用户是一个影响因素,同时,数据库本身的数据量和数据的复杂程度在某种程度上也是影响数据库压力测试值的一个参数,很显然大家都会知道在数据库中一条数据和一万条数据情况先对于查询的并发用户肯定是不相同的。所以我们就叫这种影响到系统测试的某种参数的一组数据叫做数据集。
  上面的例子可能还不是很明显;在别如测试音频识别系统性能的时候,所谓的音频识别系统就是可以根据提供的关键字,或者关键音频段,在一组音频中识别出系统配置的音频信息。那么在测试类似系统的性能(这种系统的性能一般为:系统识别的正确率、召回率和F1三个性能)的时候数据集就是要求有一个或者一组已经标识好的音频文件;我们称之为音频库;同样的图像识别系统,文本信息检索系统在测试系统的正确率和召回率的性能的时候必须表示这么一组数据。类似的这种数据就称为测试数据集;
   这些数据集的要具有通用性和覆盖性,我们在准备的过程中需要依据行业标准,或者被测系统的技术特点去准备数据,数据的准本不能太偏,这样测试出来的性能结果可能都比较差,但是又不能都是通用的,这样就无法区分几个类似的系统的性能差异,所以需要根据实际的情况来做仿真数据,原则是越接近实际的使用环境越好。
  总之:在部分系统性能测试的时候数据集的准备是至关重要的,有的数据集需要国家权威机构长期积累;像国内的色情图像库,恶意代码库等。在我们做测试的时候如果遇到类似的性能测试,首先需要了解掌握被测系统的特点,然后对症下药,准备数据。
原创粉丝点击