系统可用性量表（System Usability Scale, SUS）

来源：互联网发布：槽式给料机的数据编辑：程序博客网时间：2024/05/21 10:25

可用性量表很多（见下图），SUS只是其中一个。

SUS简介：

量表作者：John Brooke (DigitalEquipment Corporation, UK, 1986)

问卷组成：10个问题，在5点量表上打分

量表中文版以及计分方式：查看这里

信度：0.85 （见上图）

优点：

问卷短，省时
最后会得出一个分数，直观
免费
对于小样本（ n<14），SUS的优势更明显（见下图），图中的意思：随即抽取14名被试的SUS问卷均能判断网站1比网站2要好，而抽取的CSUQ问卷只有90%能做出这个正确的判断）

用途：

同一个界面，完成不同的任务之间进行比较（因为有的任务可能会更难或不常使用，例如安装软件这个操作可能只需执行一次，而不像其他操作那样频繁使用；用户在完成不同类型和难度的任务之后，分别评多次SUS的分数，然后再进行对比，因为如果所有任务只评一个SUS分数的话，可能会因为某些任务较难而降低了评分）；
同一个界面，先后不同版本之间进行比较（不过需要注意的是增加新功能或改版后，用户在初期可能会不适应，而导致SUS在短期内会下降，但长期会回升）
备用方案之间、竞品之间进行比较。
不同种类的界面之间进行比较（例如同一个产品有PC版、网页版、Android版、iSO版；或者百度地图与微信之间比较）

（Bangor没怎么解释为什么可以在不同任务、不同时间、不同界面之间进行比较）

如何解释SUS分数？

1）SUS分数反映的是总体的可用性，单独抽取某个题目的得分在产品之间作横向比较意义不大

理由：

a）10道题目之间高度相关；

b）Bangor等人在2008年的那篇paper中，通过因素分析结果发现，10道题只提取出一个因素；但2009年有研究者提出，SUS分数反映了总体的满意度，同时第4和第10道题测量了易于学习性（learnability），而其他8道题测量了可用性。（详见）

2）如果某个界面的SUS分数为76，这表示什么？

解决方案一：

AT&T Labs的Bangor,Kortum 和Miller在2009年发了一篇文章来解决这个问题。他们在SUS的结尾增加了1个问题（见下图），让用户使用Poor、Ok、Good等形容词来总体评价这个用户界面，其用意是想将SUS与这些形容词关连起来。

以下是每个形容词对应的SUS分数：按照这次的数据，被用户评为Good的那些界面，SUS的平均分为71.4（标准差为：11.6，感觉有点离散）。

不过Bangor等人并没有明确说，是否有足够的证据来证明可以使用71.4或某个分数来判断一个产品是否合格

解决方案二：

就像GRE的分数一样，将SUS分数转换成percentile百分位数，解释的时候就说：“比百分之xxx的其他界面的SUS分数要高”。（不过这需要一个相对较大的SUS分数库）

例如，由Jeff Sauro开发的SUS Package收集了500多个研究、5000多份SUS问卷。在这个分数库中，如果SUS得分为74，那么它比500多个界面中的70%都要高（见下图）

结合其他2篇paper中的SUS平均分，可以看出当一个界面的SUS得分为78时，可以说它大约比75%的其他用户界面都要好

a) Bangor, Kortum & Miller, 2009的研究中，3个百分数如下

75%：77.8

50%：70.5

25%：62.6

a) Bangor, Kortum & Miller, 2008的研究中，3个百分数如下

75%：78.5

50%：70.9

25%：62.3

如何报告SUS分数？

可以参考一下Jeff Sauro的SUS Package

图A：计算SUS，并区分出Usability和Learnability 2个维度

图B：将SUS转换成百分位数

图C：比较SUS

SUS十年回顾

Bangor等人在2008年发的那篇论文，总结了从1996年开始，收集了206个研究、2324份SUS问卷（即2324个被试）。（注：以下内容以这篇paper为主，同时辅以其他论文上的数据）

一、SUS分数的分布

2324份问卷的SUS平均分为70.14，标准差21.71，取值范围是0-100；206个研究的SUS平均分为 69.69，标准差 = 11.87，取值范围是30-93.9；
2324份问卷的SUS分数呈负偏态分布，206个研究的SUS平均分接近正态分布

(注：Figure 2是直接计算2324个被试的2324份问卷的SUS平均分；

因为一个研究大约会有10个被试左右，所以Figure3是先计算每个研究所有被试的SUS平均分，再计算这206个研究的平均分)

结合其他2篇paper和blog中的SUS平均分，可以看出当一个界面的SUS得分为70时，可以说它达到了平均水平

M=69.69 206个研究、2324份问卷 (Bangor, Kortum & Miller, 2009)
M=69.69 273个研究、3500份问卷 (Bangor, Kortum & Miller, 2008)
M=68 500个研究、>5000份问卷 (Jeff Sauro)

2）不同类型的界面测到的SUS分数差异不大

将206个研究界面分成6类，方差分析发现，6类之间差异不显著

3）SUS与任务完成率、完成时间不太相关

JeffSauro发现，SUS分数与任务完成率、完成时间的相关系数为r=.24，属于轻度相关（但原文中没说是否显著）。r=.24的意思是：任务完成率与完成时间这2个数值5.76%的方差可以用SUS分数来解释（5.76%=0.24 x 0.24）。不知道Sauro是如何可以计算SUS与另外2个变量的相关，却得出一个相关系数，而不是2个。