世界真小:西方可用性规则预言中国在线书店用户的行为

来源:互联网 发布:淘宝买弩什么暗号 编辑:程序博客网 时间:2024/04/27 23:51

[来 源] uigarden  [作 者] Josephine K. Y. Yau & William G. Hayward   [发表时间] 2005-11-22 10:09:31

这项研究调查了西方可用性规则是否可以应用于中文网站。Nielsen 等在2000年根据研究领域内的观察提议了一套207条可用性规则。我们采用了其中48条作为子集,研究四家中文在线书店的依从率(译者注:另译为顺应度)(一个网站所符合的规则条数,除以总的规则条数),任务完成时间,任务准确程度,以及用户的可用性感受和喜好程度。结果显示遵从可用性规则和站点可用性有显著关系:随着站点依从率的升高,用户所感受到的站点的可用性和印象也在提高。这一结果揭示了决定中文用户行为的规则和西方用户极为相似。简言之,这一研究质疑了很多人认为亚洲站点和西方站点的可用性(标准)应该不一样这一普遍的直觉。


关键词:网络可用性,文化,电子商务,人机交互


1、简介


可用性从根本上决定一个界面,飞行员座舱,一个新的射击游戏,或者一个网站的成功与失败是毋庸置疑的。就像2000年新经济的彻底垮台所告诉我们的,无论投入多少资金和注意力在系统的特色,市场以及品牌等方面,如果用户不会使用就不会购买它。不过,技术行业危机的一个好处就是提高了在软件,网站和用品设计中对于可用性的角色的的理解。


1.1 什么是可用性


认识到可用性的重要性是一回事,而真正创造一个更具可用性的界面是另外一回事。对于想要创建更具可用性网站的设计者来说,他们面临着很多的问题。首先,可用性的定义是必需的,特别是可用性是应该作为属性还是过程。前一观点由Jakob Nielsen提出,在许多讨论(比如Nielsen等, 2000; www.useit.com)中,他认为可用性是由遵循一系列协议(测试项目的正确数目,使用正确的可用性规范)所获得的系统状态。按照Nielsen的观点网站的可用性是由同质化建立的,如果不是所有的网站,至少很多是这样(书本销售网站,旅游网站,等等)。Nielsen被广为引用的观点是,因为用户用更多的时间浏览其他网站,你应该按照其他站点的模式设计你的站点(Nielsen, 2000)。按照这一逻辑,Nielsen和同事综合了大量的可用度较高的网站的元素,为电子商务网站提出了幌盗锌捎眯宰荚颉0凑兆髡叩乃捣ǎ玫刈袷卣庑┳荚蚪岽唇ǜ捎玫耐尽W詈驨ielsen认为可用性缺陷可以很容易的被发现,并建议执行仅仅五项用户测试(他认为将会发现85%的问题;Nielsen & Landauer, 1993)。


Jared Spool和用户界面工程(User Interface Engineering, 编者注:此为Jared Spool的公司名称)的合作者们和从事用户界面工程的合作者对于可用性有很不同的观点。按照他们的看法,可用性是一个站点的过程而不是属性。因此,如果一个网站(或者其它界面)经历了提高可用性的过程,这个站点将会变得更加可用;如果不经过,则这个站点很可能会却乏可用性。Spoo对于可用性概念的关键看法是可用性是不可建立规则的。考虑Spool的两个发现。第一,他与Nielsen相反,认为五个用户远远不能够发现网站的可用性问题;大概必须的的数字应该是18-90或者更多(Spool & Schroeder, 2001)。和Nielsen观点之所以不同原因之一是因为Spool对于可用性任务的概念 – 正如Hudson(2001)所指出的,Spool提倡一种开放式的,相对来说不受约束的可用性测试,这种测试需要更多的测试用户以找出站点潜在的可用性问题。


1.2 可用性指导规则的有效性


Spool和Nielsen观点的第二个不同之处是关于可用性指导规则的有效性。为了和“可用性即过程”观点一致,Spool认为除了可用性测试协议以外,没有什么能完善可用性指导规则。他认为指导规则容易执行但是显得相当无效。在最近的一篇论文中(Spool, 2002),他认为指导规则难于解释,或者直接就是错误的。例如,他测试了Bernard(2002)的指导规则,电子商务网站的共同功能,比如加入购物车按钮应该被放置在网页上用户所期待的位置。按照Spool的看法,当那些功能的位置(已经)被熟练使用的时候,用户体验实质上并不是站点可用性的有效预测。因此,指导规则的逻辑不能进行预测用户行为。理所当然地,如果可用性指导规则没有被测试,很难认为遵从这些原则会得到一个可用的界面。


1.3 可用性的文化差异


除了Spool关于可用性指导原则的有效性考虑,我们必须考虑它们的一般性(通用性)。大多数这样的指导规则(例如Bernard, 2002;Nielsen, et al., 2000)是通过观察美国用户和少数欧洲用户制定出来的。然而网络是世界范围的,每个国家的网站设计者都开始考虑可用性(另外,美国的设计者考虑网站对于国际用户的可用性)。为一种文化或者语言群体开发的指导规则在多大程度上能预测另外文化和语言群体的可用性?这有许多种可能性。首先,把计算机界面翻译成另外的语言并非总是切实可行和合适的(Kukulska, 2000)。当把英文界面翻译成亚洲语言比如中文时,这一观点显得尤为真实。书面中文使用基于语义的缩略写法,语言元素的结构内涵关系比在英文中更紧密。另一方面,英语是基于声音的逻辑,因此我们可以把它的视觉形态作为发音提示,但是不能仅从他的结构得到一个单词的意义。中英文语言系统的差异在认知机能上会产生许多差异(即著名的关于语言相关性的沃夫假说,Whorf, 1956; 请查看Roberson et al., 2000, 获得更新的信息)。


第二个将一种文化的标准推广到另一种文化时产生的问题来自社会文化标准和认知方式。心理机能的许多方面,从审美到人际动力动机,会由于文化而不同。因此由一种文化衍生的行为规则不能转化为另一种文化(的规则)。例如,Choong 和Salvendy (1999)调查了文化差异对于中国和美国用户分别适合的界面设计的影响。他们发现中国参试者比美国参试者在具体知识表述和主题界面结构方面有更好的表现。


另一方面,网站可用性指导规则主要着重于基本的人类信息处理,象记忆和注意广度。从这种意义上来说,指导规则应该既适用于东方也适应于西方。因此,判断美国和欧洲的网站可用性指导规则是不是适用于中国网站用户是一个重要的问题。当然,正如Spool所指出的,网站设计者和咨询顾问已经为别人提出了在建设网站时所应该考虑的一系列可用性指导规则,但是并没有进行什么评估试验来验证指导规则是不是真正能够创建了更好的网站。因此,在调查他们跨文化有效性的同时,有必要采取研究在任意背景环境下来系统地测试和验证这些可用性指导规则。


1.4 常规的研究方法


最广为流行的,最新的可用性指导规则来自Nielsen等人(2000)。他们测试了二十个b2c电子商务网站。64个来自美国和丹麦的参与者被要求在这些网站进行购物活动。用户被要求在操作时出声思考,由接受过训练的观测者纪录。基于研究过程中的观测记录,以及专家的经验,Nielsen等(2000)获得了创建更好的电子商务用户体验的207条可用性设计指导规则(后来被称为“尼尔森”法则)。这些指导规则涵盖了大范围的主题,包括销售策略,信任感,分类页面,搜索,产品页面,检验与注册,以及国际性用户。通过制定指导规则Nielsen等提供了一个网站可用性的相对客观的评估方法。然而,这项研究存在一些缺陷。首先,指导规则的应用极大地依赖于技巧,经验,以及观测者和专家的个人能力。不是所有的组织都拥有具足够实施技术的可用性专家。第二,更重要的是,作者没有提供对于他们的指导规则的效用的试验测试。造成的后果是,读者实际上是被告知要相信指导规则的有效性。为了纠正这一问题,需要采用一个额外的实验研究以验证规则的有效性。


在这个研究中,我们评估了Nielsen指导规则是不是预测了香港网站的可用性。尽管全部规则包含了207条原则,我们着重关注和信息发掘有关的指导规则。这个决定有一些原因,首先,定位目标信息是大多数网站的基本任务,特别是在线购物。因此,检查网站怎样被组织以推动信息搜索,以及是否能很容易地获得适当的信息,被认为是在线服务成功的重要因素。根据Nielsen等 (2000)的研究,不能找到信息条目是最常见的任务失败原因。其次,许多指导规则的验证需要对于被试网站的结构和编程的知识,这些在在这次研究中是无法满足的。因此,我们选择了48条有关于导航和产品以及服务信息的指导规则。被选择的规则包括分类区域,搜索功能,筛选工具,产品列表页面,以及产品和客户服务信息。


我们假设,如果Nielsen指导规则适用于香港,一个网站遵从越多的规则就会越易于使用。我们选择了四个中文的在线书店,以便减少网站之间的差异,然后以任务完成时间,任务准确率和一张问卷调查来评估网站的可用性。另外,我们评估了每个网站的用户整体印象。


2. 方法


2.1 设计


这个试验是一个单向的主题确定的设计。有四个不同指导规则遵从度的网站。因变量是任务完成时间,准确率,网站的可用性感受和喜好程度。


2.2 测试参与者


二十个来自香港中文大学的本科学生(十个男生和十个女生)参与了实验。所有参与者母语是中文(粤语),他们都熟悉中文文字处理程序。


2.3 材料


2.3.1 网站可用性指导规则
Nielsen等(2000)的研究中的四十八条规则被采用。包括三类:关于产品信息(比如提供产品的察看和/或者分级);用户服务信息(比如提供首页到运输和递送信息的链接);以及导航方法 i)搜索功能(比如在每页放置搜索输入框)和ii)分类(比如多重分类模式)。一些包含多种含义或者标准的规则被弃置。只有具体和有相当客观解释的规则被选择。另外,我们有两个独立评定人以评价每个网站对规则的遵守程度;这个程序产生了一个相对比较高的认同率(参考下一章节)。


2.3.2 网站
我们选择了四个具有不同指导规则遵从度的中文在线书店。他们是 (A) isubculture.ichannel.com.hk ; (B) www.compubook.com.hk ; (C) www.hongkongbooks.com.hk ; and (D) www.cp1897.com.hk 。这些书店的指导规则遵从度分别是21%, 40%, 52% 和73%。四个网站的内部评估可靠度从0.73到0.92。


注意:这个研究发生在2001年后期,因此每个网站的遵从度有可能已经改变了。


2.3.3 任务
我们设计了三类任务;产品信息(比如 在“电子商务介绍”,作者是不是提到了电子支付系统?);用户服务信息(比如,我能用自动取款机支付账单吗?);以及根据预定义标准搜索一个特定产品(比如,请找到一本能告诉我在蛇年运程的书)。


2.3.4 调查问卷
调查问卷用于评估被试对网站的主观印象。它是一个七分的双向量表,由两个子量表组成。第一子量表关注喜好程度,评估参与者的主观感受,对网站的评价和信任度(比如,你觉得这个网站有吸引力吗?你从这个网站购买货品的可能性有多大?你觉得这个网站可靠吗?)。第二个子量表评估参与者对网站的可用性的知觉。调查问题包括网站是否提供了充分的产品相关信息(比如,你觉得这个网站对于书目的提供了充足的信息吗?);导航和搜索功能(比如,你觉得这个网站导航功能是否容易使用?你觉得在这个网站搜索特定的书目是难不难?)。


2.4 程序
所有被试单独进行测试,呈现给每个被试的网站和测试任务的次序是随机的。在实验前给被试一分钟熟悉网站,然后进行第一个任务。任务完成时间由第一次移动鼠标直到他们第一次尝试动笔写答案的这段时间。在完成对某个网站的三个任务后,要求被试完成一份问卷以衡量喜爱程度和易用性。每个网站的实验程序是相同的。在实验过程中有一个观察员记录每个任务的完成时间并且协助进行实验。观察员不允许回答任何会影响到任务完成效果的问题。


3. 结果和讨论


网站可用性通过任务完成时间、准确性和用户对网站可用性的判断来衡量,同时“喜好”程度(likeability)量表用来衡量用户对网站的偏好。任务完成时间和准确性(客观测量)是把每个网站的三个任务的绩效进行平均后得到的。只有在任务正确完成的前提下才会包含完成时间的测试数据。知觉可用性和“喜好”程度(主观测量)通过百分数表示,其指标是通过计算问卷量表中相关项目的平均得分然后除以总分得到的,百分数越高表明知觉可用性和“喜好”(likeability)程度越高。然后进一步采用重复测量的单向方差分析(ANOVA)比较四个网站在每个因变量上的差异。


图一 用户行为的测量


图一 用户行为的测量左边是每个网站的平均完成时间,右边是完成这个任务的准确性。图1和图2中网站顺序是按照对可用性指南的遵从程度的增加排列的。


3.1 客观测量


前两个因变量测量用户与网站的交互行为。图1表明,随着对可用性指南遵循程度的增加,任务的绩效也在增加。并且在任务完成时间(F(3, 57)= 24.00, p<0.001)和完成准确性(F(3,57)=8.92, p<0.001)都存在显著差异。因此,对Nielsen指南的遵从程度与网站的可用性存在明显的联系。


3.2 主观测量


后两个因变量测量被试对网站不同方面的判断(图2)。与客观测量一样,判断与网站对指南的遵从程度存在联系:遵从的指南越多,可用性和“喜好”的评定就越好。方差分析表明,知觉“喜好”程度(F(3,57)=30.22, p<0.001)和知觉可用性(F(3,57)=33.56, p<0.001)在统计上是存在显著差异的。结果表明Nielsen的指南不仅能够预测用户的行为,而且能够预测用户对他们与网站交互的判断,以及他们是否喜欢这种交互。


3.3 线性趋势


为了进一步证明假设,采用了计划比较的方法分析了四个网站在因变量上的趋势。四个网站在任务完成时间(p<0.001)、任务准确性(p<0.001)、知觉的“喜好”程度 (p<0.001)和知觉的可用性(p<0.001)的线性比较均达到了统计上的显著不同。因此,网站之间不仅在绩效上存在显著差异,而且这些差异呈线性趋势。从图1和图2的可以看出,对于每个因变量这种趋势表现为:当对可用性指南的遵循程度增加时因变量的分数变好(完成时间缩短,其它测量指标升高)


图 2. 用户主观评定的测量


图 2. 用户主观评定的测量左图表示用户对知觉可用性的判断,右图表示用户对网站的喜好程度的评定。


4. 结论


4.1 对中文网站设计者的启示


本研究表明Nielsen的可用性指南对中文网站也是适用的。网站对指南的遵循程度直接与可用性和用户对网站的好感成正比。本结果的重要性表现为:它提供了证据支持可用性原则能够预测非英语、非欧美文化网站的交互效果。此外,本研究的测量同时是以绩效和主观评定为基础,并且都受对可用性指南遵循程度的影响。从这些结果来看,很难认为可用性是不重要的,中文网站的可用性与其它民族的可用性并不存在根本的不同。对可用性原则的遵循能够帮助中文网站提高可用性并给予用户更好的印象,因为用户执行任务的时间和准确性都得到了改善。


我们同时也应该指出,这并不表明中文网站的可用性原则和欧美网站是一模一样的。很明显,文化或者语言的某些特征会影响可用性,这应该在可用性原则中与文化有关的部分适当的表现出来。此外,在其它环境中非常重要的可用性规则对中国或者亚洲可能并不是很重要。然而,虽然上述观点可能是正确的,但并不意味着可以认为“中国/亚洲的可用性与其它地方的可用性存在不同”。正相反,亚洲网站的设计人员具有证明网页使用的哪些方面是与文化有关的的责任。我们认为除非这种证据存在,否则网页设计师应该采用与西方相同的可用性标准。


除了这些共同的地方,研究过程中发现与中文环境相关的一些网页设计问题还是比较明显的。首先,在雅虎搜索页的12个香港网上书店中,几乎所有的网站都不支持组合搜索和搜索操作符(如+,中文的‘和’、‘或’)。组合搜索能帮助用户限制搜索范围,准确的定位所需要的信息。这种搜索工具在英语网站中是比较普遍的,但在中文网站中并没有得到普遍的使用。


其次,在这12个首先被研究的网上书店中,几乎所有网站都不提供中文输入的机制。因为汉字输入比英语输入复杂,用户不会使用汉字输入不是不正常的。即使用户对汉字的操作比较熟练,他们电脑的软件也可能不支持汉字操作。因此,如果网站没有提供一种途径使用户输入汉字到文本框中,搜索功能就是不可用的。


4.2 对网页设计的普遍启示


在文章开头我们讨论了Jakob Nielsen和Jared Spool在可用性观点上的区别。认识到Spool对可用性指南的批评,尤其是对它的有效性的确认的缺乏,本研究可以作为对这个问题的一个校正。尽管没有测试每个单个原则的有效性(即哪些是重要的,哪些并不是本质上的问题),我们确实发现指南的使用和可用性之间存在的联系。因此可以认为尽管设计者需要对可用性指南持谨慎的态度,但它至少能够预测网站的可用性以及对其的主观知觉。虽然没有什么可以作为可用性测试的代替品(“可用性作为过程”),对正确的可用性指南的遵循能够提高不论是东方的网站还是西方的网站的可用性。


尽管本研究证明了Nielsen可用性指南的有效性。我们还是赞成Spool的观点:不进行具体的评估就不能保证可用性。尽管我们这里测试的指南可以作为一般的可用性测量方法,网站的许多重要问题可能并没有被这些测试所反映出来。确实,在我们的研究基础上,让我们对具体每个网站应该如何改善可用性提出建议是比较困难的(虽然我们会在下一节发表一些评论)。要获得更具体的信息,定性测试对任何发展周期都是至关重要。因此,我们推荐适度使用已证的指南作为提高可用性的多种工具中的一种,而不是把指南作为论证最终产品的唯一的工具。


本研究结果的另一个重要方面是可用性和倾向判断之间的紧密联系。除了能够缩短用户搜索信息所需的时间外,对指南的遵循能够增加用户对网站和网站运营商的积极印象。在信息时代,主页或者公司的网站或许是公司和顾客之间最初的联系点。因此,网站的可用性是非常重要的,因为用户对网站的最初印象会对用户对公司的感觉起长久的作用。


4.3 网站的具体问题


总的来说,我们测试的网站的设计离完美还差得很远。这一部分是因为网站设计,特别是香港的网站设计,才刚刚开始发展。在这些结果的基础上,我们建议设计者在建构网站时遵循实验证实有效的可用性指南。本次研究所证明的三类有效的指南是:首先,提供充分的信息和对产品的详细描述;其次,提供顾客服务的信息,如交付时间和邮资;第三,为分类、导航系统和搜索提供清晰的、系统化的结构。


在被试进行实验时,绝大多数在以下几个地方出现了问题:



  • i) 搜索–当被试准确的输入书名,但却没有返回相应的结果时他们非常惊讶。大多数被试于是认为在书店中并不存在这种商品,而不是试图通过其它途径来寻找这种商品。表明网站需要非常仔细的检查搜索数据库,避免这种失误引起销售上的大额损失。
  • ii) 会员注册 – 许多被试在要求注册为会员时就停止了搜索。会员注册是用户使用的阻碍,这与许多报告的结果一致。因此,网站应该最小化注册过程。
  • iii) 信息不明确 – 完成时间延长的一个主要原因是被试常常不能找到所需要的信息。这可能是因为一些有用信息的字体比较小、或者所在的位置比较难以辨认、或者夹杂在一些不重要的信息中。因此,我们建议网站应该强调关键或者重要信息并且将他们放在容易识别的位置,使用户不至于漏掉它们。

4.4 总结


无论是把可用性看作属性还是过程,从本研究可以得到两个结论。首先,指南对网站之间的可用性差异是敏感的。通过使用指南可以整体提高可用性。第二,亚洲(特别是香港)似乎与美国或者欧洲的遵循非常相似的可用性规则。如前所述,我们期望发现东西方可用性的一些差异,但实际上这些差异很难被证明,并且也许真正的情况并不像想象的那么明显。因此,如果除非有明确的原因采用其它方式,亚洲网站的设计者应该把西方的可用性规则用到网站设计中。


5. 参考文献


Bernard, M. (2002). Examining user expectations for the location of common e-commerce web objects. Usability News, 4.1. Downloadable from http://psychology.wichita.edu/surl/usabilitynews/41/web_object-ecom.htm


Choong, Y.Y., & Salvendy, G. (1999). Implications for design of computer interfaces for Chinese users in Mainland China. International Journal of Human Computer Interaction, 11, 29 – 46.


Hudson, W. (2001). How many users does it take to change a web site. SIGCHI Bulletin, May/June 2001, 6.


Kukulska, H.A. (2000). Communication with users: Insights from second language acquisition. Interacting with Computers, 12, 587-599.


Nielsen, J. (2000). End of web design: Alertbox for July 23, 2000. Available at www.useit.com/Alertbox/20000723.html


Nielsen, J., and Landauer, T. K. (1993). A mathematical model of the finding of usability problems. Proc. ACM INTERCHI’93 Conf. (Amsterdam, the Netherlands, 24-29 April), 206-213.


Nielsen, J., Molich, R., Snyder, C., & Farrell, S. (2000). E-commerce user experience. Nielsen Norman Group: Fremont.


Roberson, D., Davies, I, & Davidoff, J. (2000). Color categories are not universal: Replications and new evidence from a stone-age culture. Journal of Experimental Psychology: General, 129, 369-398.


Spool, J. (2002). E??volution trumps usability guidelines??. UIE-tips newsletter, September 9, 2002. Downloadable from http://www.uie.com/Articles/evolution_trumps_usability.htm


Spool, J., & Schroeder, W. (2001). Testing web sites: Five users is nowhere near enough. Proc. CHI 2001, Extended Abstracts, ACM 285-286.


这项研究调查了西方可用性规则是否可以应用于中文网站。Nielsen 等在2000年根据研究领域内的观察提议了一套207条可用性规则。我们采用了其中48条作为子集,研究四家中文在线书店的依从率(译者注:另译为顺应度)(一个网站所符合的规则条数,除以总的规则条数),任务完成时间,任务准确程度,以及用户的可用性感受和喜好程度。结果显示遵从可用性规则和站点可用性有显著关系:随着站点依从率的升高,用户所感受到的站点的可用性和印象也在提高。这一结果揭示了决定中文用户行为的规则和西方用户极为相似。简言之,这一研究质疑了很多人认为亚洲站点和西方站点的可用性(标准)应该不一样这一普遍的直觉。


关键词:网络可用性,文化,电子商务,人机交互


1、简介


可用性从根本上决定一个界面,飞行员座舱,一个新的射击游戏,或者一个网站的成功与失败是毋庸置疑的。就像2000年新经济的彻底垮台所告诉我们的,无论投入多少资金和注意力在系统的特色,市场以及品牌等方面,如果用户不会使用就不会购买它。不过,技术行业危机的一个好处就是提高了在软件,网站和用品设计中对于可用性的角色的的理解。


1.1 什么是可用性


认识到可用性的重要性是一回事,而真正创造一个更具可用性的界面是另外一回事。对于想要创建更具可用性网站的设计者来说,他们面临着很多的问题。首先,可用性的定义是必需的,特别是可用性是应该作为属性还是过程。前一观点由Jakob Nielsen提出,在许多讨论(比如Nielsen等, 2000; www.useit.com)中,他认为可用性是由遵循一系列协议(测试项目的正确数目,使用正确的可用性规范)所获得的系统状态。按照Nielsen的观点网站的可用性是由同质化建立的,如果不是所有的网站,至少很多是这样(书本销售网站,旅游网站,等等)。Nielsen被广为引用的观点是,因为用户用更多的时间浏览其他网站,你应该按照其他站点的模式设计你的站点(Nielsen, 2000)。按照这一逻辑,Nielsen和同事综合了大量的可用度较高的网站的元素,为电子商务网站提出了一系列可用性准则。按照作者的说法,更好地遵守这些准则将会创建更为可用的网站。最后Nielsen认为可用性缺陷可以很容易的被发现,并建议执行仅仅五项用户测试(他认为将会发现85%的问题;Nielsen & Landauer, 1993)。


Jared Spool和用户界面工程(User Interface Engineering, 编者注:此为Jared Spool的公司名称)的合作者们和从事用户界面工程的合作者对于可用性有很不同的观点。按照他们的看法,可用性是一个站点的过程而不是属性。因此,如果一个网站(或者其它界面)经历了提高可用性的过程,这个站点将会变得更加可用;如果不经过,则这个站点很可能会却乏可用性。Spoo对于可用性概念的关键看法是可用性是不可建立规则的。考虑Spool的两个发现。第一,他与Nielsen相反,认为五个用户远远不能够发现网站的可用性问题;大概必须的的数字应该是18-90或者更多(Spool & Schroeder, 2001)。和Nielsen观点之所以不同原因之一是因为Spool对于可用性任务的概念 – 正如Hudson(2001)所指出的,Spool提倡一种开放式的,相对来说不受约束的可用性测试,这种测试需要更多的测试用户以找出站点潜在的可用性问题。


1.2 可用性指导规则的有效性


Spool和Nielsen观点的第二个不同之处是关于可用性指导规则的有效性。为了和“可用性即过程”观点一致,Spool认为除了可用性测试协议以外,没有什么能完善可用性指导规则。他认为指导规则容易执行但是显得相当无效。在最近的一篇论文中(Spool, 2002),他认为指导规则难于解释,或者直接就是错误的。例如,他测试了Bernard(2002)的指导规则,电子商务网站的共同功能,比如加入购物车按钮应该被放置在网页上用户所期待的位置。按照Spool的看法,当那些功能的位置(已经)被熟练使用的时候,用户体验实质上并不是站点可用性的有效预测。因此,指导规则的逻辑不能进行预测用户行为。理所当然地,如果可用性指导规则没有被测试,很难认为遵从这些原则会得到一个可用的界面。


1.3 可用性的文化差异


除了Spool关于可用性指导原则的有效性考虑,我们必须考虑它们的一般性(通用性)。大多数这样的指导规则(例如Bernard, 2002;Nielsen, et al., 2000)是通过观察美国用户和少数欧洲用户制定出来的。然而网络是世界范围的,每个国家的网站设计者都开始考虑可用性(另外,美国的设计者考虑网站对于国际用户的可用性)。为一种文化或者语言群体开发的指导规则在多大程度上能预测另外文化和语言群体的可用性?这有许多种可能性。首先,把计算机界面翻译成另外的语言并非总是切实可行和合适的(Kukulska, 2000)。当把英文界面翻译成亚洲语言比如中文时,这一观点显得尤为真实。书面中文使用基于语义的缩略写法,语言元素的结构内涵关系比在英文中更紧密。另一方面,英语是基于声音的逻辑,因此我们可以把它的视觉形态作为发音提示,但是不能仅从他的结构得到一个单词的意义。中英文语言系统的差异在认知机能上会产生许多差异(即著名的关于语言相关性的沃夫假说,Whorf, 1956; 请查看Roberson et al., 2000, 获得更新的信息)。


第二个将一种文化的标准推广到另一种文化时产生的问题来自社会文化标准和认知方式。心理机能的许多方面,从审美到人际动力动机,会由于文化而不同。因此由一种文化衍生的行为规则不能转化为另一种文化(的规则)。例如,Choong 和Salvendy (1999)调查了文化差异对于中国和美国用户分别适合的界面设计的影响。他们发现中国参试者比美国参试者在具体知识表述和主题界面结构方面有更好的表现。


另一方面,网站可用性指导规则主要着重于基本的人类信息处理,象记忆和注意广度。从这种意义上来说,指导规则应该既适用于东方也适应于西方。因此,判断美国和欧洲的网站可用性指导规则是不是适用于中国网站用户是一个重要的问题。当然,正如Spool所指出的,网站设计者和咨询顾问已经为别人提出了在建设网站时所应该考虑的一系列可用性指导规则,但是并没有进行什么评估试验来验证指导规则是不是真正能够创建了更好的网站。因此,在调查他们跨文化有效性的同时,有必要采取研究在任意背景环境下来系统地测试和验证这些可用性指导规则。


1.4 常规的研究方法


最广为流行的,最新的可用性指导规则来自Nielsen等人(2000)。他们测试了二十个b2c电子商务网站。64个来自美国和丹麦的参与者被要求在这些网站进行购物活动。用户被要求在操作时出声思考,由接受过训练的观测者纪录。基于研究过程中的观测记录,以及专家的经验,Nielsen等(2000)获得了创建更好的电子商务用户体验的207条可用性设计指导规则(后来被称为“尼尔森”法则)。这些指导规则涵盖了大范围的主题,包括销售策略,信任感,分类页面,搜索,产品页面,检验与注册,以及国际性用户。通过制定指导规则Nielsen等提供了一个网站可用性的相对客观的评估方法。然而,这项研究存在一些缺陷。首先,指导规则的应用极大地依赖于技巧,经验,以及观测者和专家的个人能力。不是所有的组织都拥有具足够实施技术的可用性专家。第二,更重要的是,作者没有提供对于他们的指导规则的效用的试验测试。造成的后果是,读者实际上是被告知要相信指导规则的有效性。为了纠正这一问题,需要采用一个额外的实验研究以验证规则的有效性。


在这个研究中,我们评估了Nielsen指导规则是不是预测了香港网站的可用性。尽管全部规则包含了207条原则,我们着重关注和信息发掘有关的指导规则。这个决定有一些原因,首先,定位目标信息是大多数网站的基本任务,特别是在线购物。因此,检查网站怎样被组织以推动信息搜索,以及是否能很容易地获得适当的信息,被认为是在线服务成功的重要因素。根据Nielsen等 (2000)的研究,不能找到信息条目是最常见的任务失败原因。其次,许多指导规则的验证需要对于被试网站的结构和编程的知识,这些在在这次研究中是无法满足的。因此,我们选择了48条有关于导航和产品以及服务信息的指导规则。被选择的规则包括分类区域,搜索功能,筛选工具,产品列表页面,以及产品和客户服务信息。


我们假设,如果Nielsen指导规则适用于香港,一个网站遵从越多的规则就会越易于使用。我们选择了四个中文的在线书店,以便减少网站之间的差异,然后以任务完成时间,任务准确率和一张问卷调查来评估网站的可用性。另外,我们评估了每个网站的用户整体印象。


2. 方法


2.1 设计


这个试验是一个单向的主题确定的设计。有四个不同指导规则遵从度的网站。因变量是任务完成时间,准确率,网站的可用性感受和喜好程度。


2.2 测试参与者


二十个来自香港中文大学的本科学生(十个男生和十个女生)参与了实验。所有参与者母语是中文(粤语),他们都熟悉中文文字处理程序。


2.3 材料


2.3.1 网站可用性指导规则
Nielsen等(2000)的研究中的四十八条规则被采用。包括三类:关于产品信息(比如提供产品的察看和/或者分级);用户服务信息(比如提供首页到运输和递送信息的链接);以及导航方法 i)搜索功能(比如在每页放置搜索输入框)和ii)分类(比如多重分类模式)。一些包含多种含义或者标准的规则被弃置。只有具体和有相当客观解释的规则被选择。另外,我们有两个独立评定人以评价每个网站对规则的遵守程度;这个程序产生了一个相对比较高的认同率(参考下一章节)。


2.3.2 网站
我们选择了四个具有不同指导规则遵从度的中文在线书店。他们是 (A) isubculture.ichannel.com.hk ; (B) www.compubook.com.hk ; (C) www.hongkongbooks.com.hk ; and (D) www.cp1897.com.hk 。这些书店的指导规则遵从度分别是21%, 40%, 52% 和73%。四个网站的内部评估可靠度从0.73到0.92。


注意:这个研究发生在2001年后期,因此每个网站的遵从度有可能已经改变了。


2.3.3 任务
我们设计了三类任务;产品信息(比如 在“电子商务介绍”,作者是不是提到了电子支付系统?);用户服务信息(比如,我能用自动取款机支付账单吗?);以及根据预定义标准搜索一个特定产品(比如,请找到一本能告诉我在蛇年运程的书)。


2.3.4 调查问卷
调查问卷用于评估被试对网站的主观印象。它是一个七分的双向量表,由两个子量表组成。第一子量表关注喜好程度,评估参与者的主观感受,对网站的评价和信任度(比如,你觉得这个网站有吸引力吗?你从这个网站购买货品的可能性有多大?你觉得这个网站可靠吗?)。第二个子量表评估参与者对网站的可用性的知觉。调查问题包括网站是否提供了充分的产品相关信息(比如,你觉得这个网站对于书目的提供了充足的信息吗?);导航和搜索功能(比如,你觉得这个网站导航功能是否容易使用?你觉得在这个网站搜索特定的书目是难不难?)。


2.4 程序
所有被试单独进行测试,呈现给每个被试的网站和测试任务的次序是随机的。在实验前给被试一分钟熟悉网站,然后进行第一个任务。任务完成时间由第一次移动鼠标直到他们第一次尝试动笔写答案的这段时间。在完成对某个网站的三个任务后,要求被试完成一份问卷以衡量喜爱程度和易用性。每个网站的实验程序是相同的。在实验过程中有一个观察员记录每个任务的完成时间并且协助进行实验。观察员不允许回答任何会影响到任务完成效果的问题。


3. 结果和讨论


网站可用性通过任务完成时间、准确性和用户对网站可用性的判断来衡量,同时“喜好”程度(likeability)量表用来衡量用户对网站的偏好。任务完成时间和准确性(客观测量)是把每个网站的三个任务的绩效进行平均后得到的。只有在任务正确完成的前提下才会包含完成时间的测试数据。知觉可用性和“喜好”程度(主观测量)通过百分数表示,其指标是通过计算问卷量表中相关项目的平均得分然后除以总分得到的,百分数越高表明知觉可用性和“喜好”(likeability)程度越高。然后进一步采用重复测量的单向方差分析(ANOVA)比较四个网站在每个因变量上的差异。


图一 用户行为的测量


图一 用户行为的测量左边是每个网站的平均完成时间,右边是完成这个任务的准确性。图1和图2中网站顺序是按照对可用性指南的遵从程度的增加排列的。


3.1 客观测量


前两个因变量测量用户与网站的交互行为。图1表明,随着对可用性指南遵循程度的增加,任务的绩效也在增加。并且在任务完成时间(F(3, 57)= 24.00, p<0.001)和完成准确性(F(3,57)=8.92, p<0.001)都存在显著差异。因此,对Nielsen指南的遵从程度与网站的可用性存在明显的联系。


3.2 主观测量


后两个因变量测量被试对网站不同方面的判断(图2)。与客观测量一样,判断与网站对指南的遵从程度存在联系:遵从的指南越多,可用性和“喜好”的评定就越好。方差分析表明,知觉“喜好”程度(F(3,57)=30.22, p<0.001)和知觉可用性(F(3,57)=33.56, p<0.001)在统计上是存在显著差异的。结果表明Nielsen的指南不仅能够预测用户的行为,而且能够预测用户对他们与网站交互的判断,以及他们是否喜欢这种交互。


3.3 线性趋势


为了进一步证明假设,采用了计划比较的方法分析了四个网站在因变量上的趋势。四个网站在任务完成时间(p<0.001)、任务准确性(p<0.001)、知觉的“喜好”程度 (p<0.001)和知觉的可用性(p<0.001)的线性比较均达到了统计上的显著不同。因此,网站之间不仅在绩效上存在显著差异,而且这些差异呈线性趋势。从图1和图2的可以看出,对于每个因变量这种趋势表现为:当对可用性指南的遵循程度增加时因变量的分数变好(完成时间缩短,其它测量指标升高)


图 2. 用户主观评定的测量


图 2. 用户主观评定的测量左图表示用户对知觉可用性的判断,右图表示用户对网站的喜好程度的评定。


4. 结论


4.1 对中文网站设计者的启示


本研究表明Nielsen的可用性指南对中文网站也是适用的。网站对指南的遵循程度直接与可用性和用户对网站的好感成正比。本结果的重要性表现为:它提供了证据支持可用性原则能够预测非英语、非欧美文化网站的交互效果。此外,本研究的测量同时是以绩效和主观评定为基础,并且都受对可用性指南遵循程度的影响。从这些结果来看,很难认为可用性是不重要的,中文网站的可用性与其它民族的可用性并不存在根本的不同。对可用性原则的遵循能够帮助中文网站提高可用性并给予用户更好的印象,因为用户执行任务的时间和准确性都得到了改善。


我们同时也应该指出,这并不表明中文网站的可用性原则和欧美网站是一模一样的。很明显,文化或者语言的某些特征会影响可用性,这应该在可用性原则中与文化有关的部分适当的表现出来。此外,在其它环境中非常重要的可用性规则对中国或者亚洲可能并不是很重要。然而,虽然上述观点可能是正确的,但并不意味着可以认为“中国/亚洲的可用性与其它地方的可用性存在不同”。正相反,亚洲网站的设计人员具有证明网页使用的哪些方面是与文化有关的的责任。我们认为除非这种证据存在,否则网页设计师应该采用与西方相同的可用性标准。


除了这些共同的地方,研究过程中发现与中文环境相关的一些网页设计问题还是比较明显的。首先,在雅虎搜索页的12个香港网上书店中,几乎所有的网站都不支持组合搜索和搜索操作符(如+,中文的‘和’、‘或’)。组合搜索能帮助用户限制搜索范围,准确的定位所需要的信息。这种搜索工具在英语网站中是比较普遍的,但在中文网站中并没有得到普遍的使用。


其次,在这12个首先被研究的网上书店中,几乎所有网站都不提供中文输入的机制。因为汉字输入比英语输入复杂,用户不会使用汉字输入不是不正常的。即使用户对汉字的操作比较熟练,他们电脑的软件也可能不支持汉字操作。因此,如果网站没有提供一种途径使用户输入汉字到文本框中,搜索功能就是不可用的。


4.2 对网页设计的普遍启示


在文章开头我们讨论了Jakob Nielsen和Jared Spool在可用性观点上的区别。认识到Spool对可用性指南的批评,尤其是对它的有效性的确认的缺乏,本研究可以作为对这个问题的一个校正。尽管没有测试每个单个原则的有效性(即哪些是重要的,哪些并不是本质上的问题),我们确实发现指南的使用和可用性之间存在的联系。因此可以认为尽管设计者需要对可用性指南持谨慎的态度,但它至少能够预测网站的可用性以及对其的主观知觉。虽然没有什么可以作为可用性测试的代替品(“可用性作为过程”),对正确的可用性指南的遵循能够提高不论是东方的网站还是西方的网站的可用性。


尽管本研究证明了Nielsen可用性指南的有效性。我们还是赞成Spool的观点:不进行具体的评估就不能保证可用性。尽管我们这里测试的指南可以作为一般的可用性测量方法,网站的许多重要问题可能并没有被这些测试所反映出来。确实,在我们的研究基础上,让我们对具体每个网站应该如何改善可用性提出建议是比较困难的(虽然我们会在下一节发表一些评论)。要获得更具体的信息,定性测试对任何发展周期都是至关重要。因此,我们推荐适度使用已证的指南作为提高可用性的多种工具中的一种,而不是把指南作为论证最终产品的唯一的工具。


本研究结果的另一个重要方面是可用性和倾向判断之间的紧密联系。除了能够缩短用户搜索信息所需的时间外,对指南的遵循能够增加用户对网站和网站运营商的积极印象。在信息时代,主页或者公司的网站或许是公司和顾客之间最初的联系点。因此,网站的可用性是非常重要的,因为用户对网站的最初印象会对用户对公司的感觉起长久的作用。


4.3 网站的具体问题


总的来说,我们测试的网站的设计离完美还差得很远。这一部分是因为网站设计,特别是香港的网站设计,才刚刚开始发展。在这些结果的基础上,我们建议设计者在建构网站时遵循实验证实有效的可用性指南。本次研究所证明的三类有效的指南是:首先,提供充分的信息和对产品的详细描述;其次,提供顾客服务的信息,如交付时间和邮资;第三,为分类、导航系统和搜索提供清晰的、系统化的结构。


在被试进行实验时,绝大多数在以下几个地方出现了问题:



  • i) 搜索–当被试准确的输入书名,但却没有返回相应的结果时他们非常惊讶。大多数被试于是认为在书店中并不存在这种商品,而不是试图通过其它途径来寻找这种商品。表明网站需要非常仔细的检查搜索数据库,避免这种失误引起销售上的大额损失。
  • ii) 会员注册 – 许多被试在要求注册为会员时就停止了搜索。会员注册是用户使用的阻碍,这与许多报告的结果一致。因此,网站应该最小化注册过程。
  • iii) 信息不明确 – 完成时间延长的一个主要原因是被试常常不能找到所需要的信息。这可能是因为一些有用信息的字体比较小、或者所在的位置比较难以辨认、或者夹杂在一些不重要的信息中。因此,我们建议网站应该强调关键或者重要信息并且将他们放在容易识别的位置,使用户不至于漏掉它们。

4.4 总结


无论是把可用性看作属性还是过程,从本研究可以得到两个结论。首先,指南对网站之间的可用性差异是敏感的。通过使用指南可以整体提高可用性。第二,亚洲(特别是香港)似乎与美国或者欧洲的遵循非常相似的可用性规则。如前所述,我们期望发现东西方可用性的一些差异,但实际上这些差异很难被证明,并且也许真正的情况并不像想象的那么明显。因此,如果除非有明确的原因采用其它方式,亚洲网站的设计者应该把西方的可用性规则用到网站设计中。


5. 参考文献


Bernard, M. (2002). Examining user expectations for the location of common e-commerce web objects. Usability News, 4.1. Downloadable from http://psychology.wichita.edu/surl/usabilitynews/41/web_object-ecom.htm


Choong, Y.Y., & Salvendy, G. (1999). Implications for design of computer interfaces for Chinese users in Mainland China. International Journal of Human Computer Interaction, 11, 29 – 46.


Hudson, W. (2001). How many users does it take to change a web site. SIGCHI Bulletin, May/June 2001, 6.


Kukulska, H.A. (2000). Communication with users: Insights from second language acquisition. Interacting with Computers, 12, 587-599.


Nielsen, J. (2000). End of web design: Alertbox for July 23, 2000. Available at www.useit.com/Alertbox/20000723.html


Nielsen, J., and Landauer, T. K. (1993). A mathematical model of the finding of usability problems. Proc. ACM INTERCHI’93 Conf. (Amsterdam, the Netherlands, 24-29 April), 206-213.


Nielsen, J., Molich, R., Snyder, C., & Farrell, S. (2000). E-commerce user experience. Nielsen Norman Group: Fremont.


Roberson, D., Davies, I, & Davidoff, J. (2000). Color categories are not universal: Replications and new evidence from a stone-age culture. Journal of Experimental Psychology: General, 129, 369-398.


Spool, J. (2002). E??volution trumps usability guidelines??. UIE-tips newsletter, September 9, 2002. Downloadable from http://www.uie.com/Articles/evolution_trumps_usability.htm


Spool, J., & Schroeder, W. (2001). Testing web sites: Five users is nowhere near enough. Proc. CHI 2001, Extended Abstracts, ACM 285-286.