孙正兴:普适计算与计算机视觉

来源:互联网 发布:tcp调试软件 编辑:程序博客网 时间:2024/04/29 19:26
 

孙正兴:普适计算与计算机视觉

(2011-04-20 15:12:59)
标签:

校园

分类: 工作篇
普适计算的过去现在和将来

Weiser提出了普适计算的概念,并提出了人与改进的环境的关系的观点,这样的环境包含了随时随地向人提供信息和服务的计算资源。在过去的十年里,普适计算的研究者们尝试着以辅助人的生活而不是控制人的生活为目标对环境的改进作尝试。Weiser的观点说明了各种规模的设备的迅速增长,从手持的英寸级的个人设备到大型的共享设备。这种设备的增长确实已经发生了,像普遍使用的如PDA、数字平板、膝上型电脑、电子白板等等。对连续的移动计算提供支持的必要的基础设施的发展和部署已经开始了。
 
Weiser的观点的另外一个方面是新的应用应当出现从而来支持这些设备和基础设施。普适计算的发展不仅使得基础设施的发展成为可能,而且提供了新的交互方式即分布广泛的对信息和计算能力的访问。在本文中,我们探究从普适计算项目Xerox PARC开始以来的十年这种普适计算应用前景的发展。特别地,我们在三个主要领域回顾取得的成绩并且概述仍然存在的问题。
 
-我们定义了自然接口,自然接口使得人与计算之间的各种交流变得简单。自然接口的目标在于支持人类表达的共有方式和人在生活中的暗示的动作。以前的工作主要集中在语音输入和手写输入,但这些接口在处理这些系统中自然发生的错误是仍显得鲁棒性不足,而且这些接口很难被建立。
-普适计算要求是上下文感知的,普适计算的行为要能够适应物理环境和计算环境的信息。很多应用已经引进了简单的上下文,如位置、标识,但是要建立可复用的上下文表示、复杂上下文的传感器融合以及行为识别仍然存在很多问题。
-最后,很多系统在自动捕获生活经验和对这些经验提供灵活的全局的访问仍然存在问题。
 
如何对普适计算进行评估在普适计算的定义中是含蓄的。Weiser把计算设备的空间作为评估的标准。类似地,设备在物理空间的分布可以作为评估系统的一个标准,这样使得人脱离桌面计算机束缚的交互方式。考虑到对临界的确认和相互的合作,把人也作为评估系统的一个方面。最后,时间是评估系统的一个新的挑战。不间断交互(每周七天、每天二十四小时)的可用性揭露了大量把普适计算推向二十一世纪的尚未被探究的交互问题。为了用时间来评估系统,我们在第五段介绍一个新的领域——日常计算,它解决日常生活中非格式化、结构不明显的活动。这些活动在时间上是连续的,一种没有明显的起点和终点的活动。熟悉的例子有组织任务、和家人朋友通信、信息管理。
 
本文的结构是按照过去普适计算演化的路径组织的。演化的第一步是由PARCTab和Liveboard阐述的,计算机可以封装在新的形状。这种计算用具推动传统的计算机科学领域的发展,如网络和操作系统。当传统的鼠标键盘等输入设备不能和这种新的计算机很好的工作的时候,发展新的、更自然的输入方式成为了演化的下一步。例如为了PARCTab设计的基于笔的速记语言Unistroke。这些基础设施已经为了应用而在部署设备。例如许多导航系统,类似于Active Bedges,已经被用于实际应用。
 
应用设计者在运用普适计算系统开发新的应用的时候发现,通常注意到用户的隐含输入可以减少技术对日常生活的干预。这种以应用为中心的研究的目标是理解日常工作怎样才能更好地被支持,普适计算的引进给他们带来什么改变。例如,在PARC公共会议任务中被支持的普适计算应用给会议中材料的记录和组织提供了新的方法。可穿戴计算机最初强调对传统的个人任务的持续访问,如email。最近很多应用尝试提高个人的存储量以及在小组之间提供信息共享。普适计算应用研究的方向,即Weiser认为的普适计算最终研究的目标是普适计算系统可信赖地、广泛的应用。
 
现在我们刚刚开始理解连续计算的含义。未来的普适计算不仅仅是帮助完成传统的基于计算机的任务的可持续使用的工具。无论是我们身穿可穿戴计算机、还是在环境中嵌入计算设备,计算机将改变我们对现实世界的理解、提供对远处的人和地点联系的支持、在我们的指尖向我们提供信息、在我们思想和行动上提供帮助。
 
在本文中,我们在探究上述的交互中的三个领域(自然接口、上下文感知、自动捕获和访问经验)的同时讲述了普适计算的主要历史。在回顾这些研究领域的研究成果的同时还概述了一些仍然存在的研究的难题,以供人机交互的研究者们在新的千年继续这些工作。我们接下来解释普适计算研究中探究连续日常行为的必要性。这样的研究使得普适计算的研究更加进入以连续表示的、综合的交互为特征的日常计算领域。与这三个领域与生俱来的是普适计算的社会效应以及系统评估的难题。我们通过案例的研究和现行的评估策略来对系统评估做总结。
 
2.自然接口的计算
 
普适计算使得应用发展到走下桌面的地步。这种说法暗示着人与计算之间的交互不想现在的键盘/鼠标/显示器,而是与现实世界的交互方式更为接近。人说话、打手势、使用手写器具来和其他的人交流。这些自然的动作能够也应当作为普适计算系统的外在的或隐含的输入方式。
 
支持更多自然的人交流方式(手写、语音、手势)的计算机接口开始成为传统的图形用户界面交互元素的补充甚至替代。这些接口以它们的学习功能、易用性和对写作画画等工作的支持(不改变这些工作的方式)而声名鹊起。此外,这种交互方式还有利于那些对传统的鼠标键盘使用不方便的人使用。
 
语音相关的接口的研究工作已经开始了很多年。新兴的知觉接口的研究在计算机视觉和计算知觉的一个长期的研究团体支持下迅速的发展。基于笔的或者自由格式的交互在经历了第一次的笔计算的失败后迎来了第二春。最近,研究者提出运用现实世界的对象来操纵电子产品的技术,实现所谓的易懂的切实的接口。Harrison st al在计算设备上附加传感器使得这些设备提供由运行在设备上的应用准确解释的物理操纵。在这里我们不对自然接口的工作做回顾,而是关注一下使得高效的自然用户接口快速发展成为可能的两个重要方面。
 
2.1 First-Class Natural Data Type
为了使得开发更多的自然接口的应用更简单,我们必须能够像处理键盘鼠标输入那样方便地处理其它格式的输入。作为自然接口(音频、视频、数字墨水、传感器输入)基础的原始数据/信号成为交互系统开发中的第一类数据。作为开发者,我们希望所有的用户接口能够提供对原始数据基本操作的底层的支持,并且对原始的鼠标键盘交互提供支持。类似地,我们需要对操纵语音(提供演讲者停顿暗示、语音段的选择、演讲者的辨认)提供支持。同样也要对视频、数字墨水以及其它信号提供支持,例如传感器探测的物理设备的操作。
 
拿自由格式/基于笔的交互为例子。许多基于笔的计算注重由“墨水”转化为文本的识别技术。但是有点应用不需要把墨水转换为文本,例如个人的笔记。实际上,把手写转换为其它格式的数据可能对用户来说可能是冒昧的。相关地,对自由格式、笔输入的标准化支持地研究投入是比较少的。有一些为了在平台之间交换笔输入数据制定的标准,但是很少有为了在程序中操纵自由格式数字墨水而定义的有效的机制。
 
对像数字墨水这样的自然格式的数据,什么样的操作是必须的?Tivoli系统提供了生成墨水数据、辨认未翻译的自由格式的墨水数据和特定暗示的结构化手势。自由格式数字墨水另一个特殊的有用的特征是能够融合独立的笔划从而使它们形成字母、单词以及语言中的其它片段。例如在Class-Room 2000中生成基于网络的笔记,我们希望讲师用笔写的注解能够链接到在演讲中同时听到的音频或看到的视频。注释是带有时间戳的,但是这并不是总是有用的。因为并不能将在课堂上写的某一个单独的笔划与精确的时间相联系。我们使用时间和空间的启发来静态地将笔划融合在一起,并赋予它们更有意义的单词级别的时间戳。Chiu和Wilcomx发明了基于分等级的凝聚的更通用的、动态的算法来把音频和墨水相链接。这些正在组织的技术需要形成标准,对所有希望生成自由格式基于笔的接口的应用开发者都是可利用的。如Chiu和Wilcox工作中阐述的,有些技术可以应用到不止一种自然数据类型。我们必须还要考虑联合不同自然数据类型的基本操作。
 
2.2 Error-Prone Interaction for Recognition-Based Interaction
当应用到基于识别的任务时,自然接口遇到一类新的问题:识别产生新的多样的错误。当识别的错误发生的时候,系统的设计者最初反应都是消除错误,例如提高识别成功率。然而Van Buskirk和LaLomia发现要人们发现语音识别系统的差异必须降低至少5%-10%的错误率。
 
更糟糕的是,消除错误几乎是不可能的。即使是人在处理相同类型的交流的时候也会犯错误。以手写输入识别作例子,即使是最专家的手写识别系统(人)可能达到54%之低的识别率。人类的识别成功率在连体是上升到88%,在打印体上升到96.8%,但是这依然不是完美的。这些证据表明电脑手写识别是不可能完美的。的确,基于电脑的识别是比人更容易发生错误。它们通常所使用的数据是比人类所觉察到的要少,它们的处理能力比较差。而且许多因素比如说疲劳会导致用户数据与训练数据有较大差异,一段时间以后会导致识别的成功率有所下降。
 
另一方面,识别的成功率并不是用户满意的唯一决定因素。错误恢复的对话复杂程度和给定错误的附加价值都会影响用户的满意程度。例如,Frankish et al发现用户在输入日志条目时出错比输入某个形式的命令时出错更灰心。这表明在命令中输入一个单词的回报比在日志条目段落中输入一个单词的努力大的多。
 
出错处理并不是一个新问题,实际是这是与要设计一个尝试模仿人的计算机系统同时存在的。识别技术错误处理的研究必须假定错误肯定会发生,问题是寻找一个最好的处理错误的方法。和多对基于识别的接口的错误处理领域的研究浮现出来:
 
-减少错误:这项研究包括改进识别技术以消除或减少错误。这是一个广泛研究的焦点,很容易成为论文的主题。证据表明这是一个理想,消除错误时不可能实现的。
-发现错误:在系统和用户没有对相关的错误进行动作的时候之前,他们中间的一个已经知道错误发生了。系统可能是通过用户输入被告知错误的发生,系统通过把识别了的输入不确定的解释有效地输出从而帮助用户查找错误。三种技术被用于这种自动错误发现——阈值、历史统计、外在的规则说明。
-错误纠正的可复用的基础:工具箱提供可复用的组件,这对于一类共同相似的错误发生时特别有用。错误处理的接口极大的获益于提出基于识别输入错误处理技术库的工具包。这样的工具包当某些原始输入产生不同的解释时,能够解决这种固有的不明确性。一个原型的工具包已经被Mankoff et al提出用来支持可复用的错误恢复技术,但是仍然存在很多问题。
 
3.上下文感知的计算
 
早期两个引人瞩目的普适计算的范例是Olivetti实验室的Active Badge和Xerox PARCTab,都是位置感知的系统。这些设施提供了简单的上下文(用户的位置)以及有价值的服务(自动更新用户位置办公室地图)。然而计算设备和物理世界之间的联系不是新的(控制系统和自动导航卫星以及导弹是例子)。这些简单的位置感知应用可能是第一个将人类活动和计算设备相联系以服务于改进人类活动的范例。
 
位置是应用开发中通用的上下文,最广泛应用的是基于GPS的汽车导航系统和手持导航系统,这些设备随时变化内容并把用户的物理位置展现出来。另一个重要的上下文是识别单独的对象。早期系统注重识别标示标签和条形码,而最近的研究工作包含基于视觉的识别。Fitzmaurice示范了利用手持设备透视墙和机器。Rekimoto和NaviCam在一个手持视频显示设备上识别包含了对象附加信息颜色条形码。最近的工作是尝试视觉对象识别策略从而对象不需要各自标识。
 
虽然已经有大量的系统采用人物标识、位置感知,但是这些系统依然是难以实现的。Salber et al创作了上下文工具包使得上下文感知系统的设计、实现和发展简单化。这项工作强调上下文的获取、存储与上下文信息的不同的应用严格分离。这样的分离使得上下文感知的应用的创建变得简单。
 
很多情况下,我们只是用尚在实验的例子来简单地描述上下文感知的计算。这里我们要讨论上下文信息的结合、上下文的表示、上下文的获取、上下文的融合,并把上下文与自然交互的融合来实现改进的事实表示。
 
3.1什么是上下文?
上下文并不只是前面所提到的位置、标识。大多数上下文感知的系统都没有涉及到时间、历史信息、除了用户以外的其他人等环境中其它可用的信息。虽然目前仍然没有明确的上下文的定义了,但是五个“W”是上下文中不可缺少的部分:
-人物(Who):当前的系统是针对某一个特定的用户标识,很少把环境中其他人的标识混在一起。我们通常根据在场的其他人来决定我们的行为、回忆往事。
-事情(What):当前系统中的交互都要假定用户在干什么。觉察和理解用户在作什么是一件困难的事情。然而,与上下文驱动的设备交互就必须能解释用户的行为从而提供有意义的信息。
-位置(Where):很多情况下,上下文中的位置比其它方面被探究得更多。位置总是和上下文中的其它信息联系在一起,比如时间。有的导航系统能够通过学习历史中的位置的移动,根据用户的习惯来把用户所需的信息显示出来。针对这个理论仍然需要更多的研究。
-时间(When):除了使用时间作为记录索引或计算用户在特定地点所待的时间,大多数上下文驱动的应用中对时间是不察觉的。但是引人注意的是时间相关的变化可以作为解释人的一种辅助。例如,对展览的短暂参观暗示了缺乏相关兴趣。此外,当行为的准线建立起来以后,违背准线的行为也受到注意。例如,当老人违背每天早晨的习惯时上下文感知的房屋能够觉察到。
-原因(Why):比一个人在作什么更难以理解的是他为什么在做这件事。通过觉察其它的上下文信息可以暗示出人的情感状态,如体温、心率和皮肤电反应等。
 
3.2上下文的表示
与上下文的定义相关的是上下文的表示。如果上下文不能很好的表示,应用开发者只能去转而开发对上下文信息的存储和操纵。复杂的上下文表示的不断进化使得更多的功能成为可能,并且做到了上下文的获取与对可编程的上下文应用相隔离。
 
3.3无处不在的上下文——上下文融合(Context Fusion)
上下文感知的计算的一个明显的难题是使得真正做到计算的普遍存在。在特定的位置,上下文信息是可用的。但是,很少有真正做到普遍存在的单源的上下文服务。位置是一个很好的例子,GPS在屋内不能工作,在城市的某些区域也是不可信的。还有很多和户内限制类似的限制,如成本、范围、间隔和标签等限制,所以很少有一个解决方法可以解决所有的问题。
 
获得连续的上下文的解决方法是联合相关的上下文服务从而聚集上下文信息。这种上下文的融合类似于已经被很好的研究的相关传感器的融合。上下文的融合要处理不同上下文服务边界之间的无缝的融合。当同样的上下文被多个服务并发地提供时要能够从竞争的服务中决定出有用的信息。虽然有了传感器的融合,上下文的融合仍然是必要的,因为传感器的融合技术不是100%可靠的。从多个源的信息相结合能够提高解释的可信度。并行的服务相结合能够使得上下文融合帮助提供可信赖的普适计算上下文,例如消除噪音、提供更广的覆盖范围。
 
3.4 Coupling Context-Aware and Natural Interaction——Augmented Reality
很多上下文感知的系统的目标是使得用户能够在现实动作基础上实时地获取信息。导航系统是一个很好的例子,用户在展览中的行动触发了附加的上下文敏感的信息的显示。这些应用通常使用分散的可移动的设备,这就要求它们把注意力从现实世界的不相关部分转移开来。这种交互的最好的比喻是用户用类似于电子探测器和计量器的工具探测世界。
 
和声音手势等自然输入方式一样,运用视觉和听觉我们可以把上下文感知的交互和现实世界更好的联系在一起。在这些交互中,系统改进用户感知世界的方法,这种信息的获取应当在更自然、无缝的交互中获得。
 
4.AUTOMATED CAPTURE AND ACCESS TO LIVE EXPERIENCE
我们生活中的很多时间都花在听和记录我们身边发生的事情,然后记住这些信息中重要的部分。利用计算资源来提高人类记录的效率是有很明显的价值,同时也存在问题。特别是当由多重相关的信息同时发生但是又无法一起捕获。能够帮助自动捕捉和访问生活经验的工具能够帮助人们去掉不擅长的包袱(如记录)这样他们能够集中精力关注他们擅长的活动(如隐含的关系、总结、翻译)。
 
关于这种捕获/访问理论已经有很多相关的研究,特别是在会议室/教室环境中和笔记记录。早期Schmandt、Arons和Hindus的工作已经能够在电话交谈中捕获声音信息并提供了对已经记录的声音信息提供访问。PhoneSlave系统和Xcapture系统把声音作为没有被翻译的数据并成功地提供了对这种对话信息的概括。最近很多研究集中在其它类型的输入上,比如数字墨水。Tivoli系统用一套软件提供了会议记录的功能,类似于某些电子白板技术(LiveBoard系统),从而来支持小组讨论。在会议中电子白板的记录是附有时间戳的,这些时序信息在会议结束以后被用来作为音频和视频的索引,从而提供更为详尽的会议记录。为大学讲课设计的Classroom 2000系统中提供了对数字墨水注释和音频视频记录相结合的功能。最大的亮点在于把捕获的材料自动加工成为能够被广大学生访问的接口。其它的捕获系统(Authoring on fly、Cornell的Lecture Browser)关注了任意程序交互信息的捕获和多个源信息中符合产品之质量的视频捕获。
 
上述的这些系统关注的是捕获公共的、集体的经验,也有一些其它的捕获系统(Marquee、Audio Notebook等)捕获单独的信息。Stupad是第一个提供公共信息与个人信息共同捕获的系统。
 
上述的努力提供了回顾经验捕获的一些多媒体接口。在后期的制作阶段,一些体统提供了多镜头的剪辑、多种信息表示的整合和基于内容的恢复机制来帮助在庞大的捕获的信息的知识库中的查询。后期制作的结果可以通过多种接口被访问,典型的就是通过在网络的分布。Abowd提供了对这些研究系统和商业系统的回顾。
 
在这些例子中,单独的捕获与访问中的普适计算的重点是可以清楚地被看到。传统的捕获设备如键盘逐渐转向更贴近用户的输入方式,如基于输入笔的接口或者现实的笔和纸。声音和手势形式的输入既可以被作为原始数据被接受、也可以解释成为更容易被理解的经验被接受。
 
4.1 捕获和访问中存在的挑战
虽然自动捕获系统取得很多有价值的研究和进步,但是依然存在很多问题,我们把它们在这里归纳在这里。我们把与捕获相关的问题和与访问相关的问题相分开。
 
4.1.1 捕获我在前面已经提到过很好应用普适计算的技术的重要性。在捕获领域,引人注目的应用是在教育和培训。特别的来说,Classroom 2000从学生的观点中捕获信息。在探究捕获方面还有很多研究的领域。
 
-很多人都能记录我们生活中的特殊的事情(假期、生日聚会、亲戚朋友的来访等)。多少年之后,我们要花很多时间来通过日记和胶卷来回忆往事。我们希望多少次在生活中非常珍贵的时候我们只是去摸索记录设备而错过珍贵的一刻?查找特定事件的照片是多么困难的事情?
-在很多合作设计的活动中关键的决定很多是在不正式的框架下做出的,并没有被很好地记录。技术的改变通常实在一次机会中比较随意的生成的。即使是在正式的设计会议中,大量的信息交互和讨论并没有被很好的捕获。我们开始尝试对非正式的集体讨论活动和正式的构思会议都提供支持的信息捕获。
-如果我们记录的是建筑的过程,相对于建筑的图纸,更能够对建筑队维护提供帮助。当需要修建的时候,建筑师可以重放这个记录和相关的维护历史记录来决定正确的维护。
 
除了Audio Notebook、Notepals、和Lecture Browser系统外,很少有对现实世界的信息捕获并且这些信息被加工成易于访问的系统。随着低成本捕获硬件的出现,如CrossPad和mimio,这一领域的研究必然将迅速发展。
 
当前的捕获研究中大多是捕获的以直接回放为目的的原始数据流的捕获,而并没有对这些数据进行深入的分析。但是,从简单的原始数据中获取额外的信息对理解生活中的事件更有意义。例如Stifeman通过对捕获的演讲音频进行分段分析可以知道什么时候新的主题开始了。类似的,Chiu和Wilcox提出了利用分段技术通过对停顿的检测来把数字墨水和音频联系起来。还有很多计算技术可以用来分析简单的音频、视频、墨水信息。
 
信息分析的另外一个应用是改善原始信息的记录。我们怎么才能够把多个镜头的数据整合成单一的、连贯的、高品质的可供以后查看的视频?单个固定的镜头不足以捕获生活的关键画面。但是像部署Classroom 2000这样的系统时我们不能在每个教室中布置技师。所以最大的挑战在于我们如何来决定一个组,乃至所有人的意图。
 
4.1.2 访问。访问阶段,我们需要提供很多重放功能。最简单的重放就是实时的重放,有点时候这种重放是不足以满足要求的甚至是不恰当的。比如为了考试温习功课,学生并不需要像上课一样重新看整个课程重放。他只是想查看讨论中特定的主题并重放这一部分内容。也可能有时候突出重点的对整个捕获信息的概括是恰当的。
 
多个捕获的信息流在重放中的同步是重要的。商业的流操纵产品,如RealNetworks和MediaPlayer提出了强大的利用程序控制媒体流同步的标准。但是这些产品没有提供对流信息预示,这种预示可以使得用户在回顾时能看到即将发生什么。提供这种预示的系统可以使得用户舍去无关的内容而直接到感兴趣的地方。
 
很多系统中,捕获的材料直接用于访问使用。当然,有些情况下,修改过的数据可能是更为恰当的。虽然翻译对计算机科学家来说并不是一个新问题,但是要对捕获的材料的不同含义的译文提供访问接口还是存在很多问题,特别是像音频、视频这些已经基于时序的信息。时间线是操纵和浏览捕获信息的一个有效的接口。但是当捕获的信息被分割成很大不连续的时间段的时候,时间线的作用至少是要被置疑的。新的基于时间的接口技术,如LifeStreams、Timewarp和Time-machine computing是很好的开始。
最后,也可能是最有挑战的,当这些系统由私人的系统变成在公众的场合捕获事件的时候,对信息的捕获以及以后的访问中隐私的关注与日俱增。虽然这些问题应当在单个系统具体设计中加以考虑,但我们仍然需要通用的技术对捕获的材料附加标签以及访问权限的鉴别。本文的后面还将继续讨论这个问题。
+
5. TOWARD EVERYDAY COMPUTING
前面,我们描述了一个交互研究的领域,日常计算,这是基于时间来评估普适计算的结果。把计算由传统的桌面计算的基础脱离出来改变了人与电脑之间的关系,提供了持续的交互使得计算由局部变为连续的。日常计算的动机来源于对日常生活中很多非正式的、非结构化的活动的支持。这些活动在时间上是连续的,没有明显的起点和终点的。熟悉的例子由组织任务、和家人朋友的交流、信息的管理等。
 
日常计算的设计需要这些非正式的日常行为的表示:
-它们通常没有显著的起点和终点:无论是一个基本的活动,如交流,或者是一个长期的工作,如人与电脑交互的研究,这些活动都没有起点、终点。过去的信息经常会重复循环。虽然地址簿上可能有新名字的增加或者要做的事件列表中有新的条目增加,但是交流活动或者信息管理活动中基本的活动没有改变。人机交互中基本的原则是对中止的设计。给定一个目标,比如文档中的拼写检查,为达到目标的每一个步骤应当被组织好了,同时还要考虑到合理限度的短期内的记忆。所有的对话应当是受限的,这样用户在完成这个目标以后才能进行下一个动作。此外当设计这样的一种活动的时候,例如提供当前状态的可见性,自由的对话以及特征的简单性扮演着重要的角色。
-中断是需要的:把这些活动看作是时间上连续的(可能它们是后台操作的)是非常有用的。一个副作用是行为的恢复不是从一贯的点开始,而是取决于中断以前的状态。交互应当被模拟成一系列的步骤,在某些点上,交互可以被恢复。接口除了表示过去的交互,还可以提醒用户尚未完成的行为。
-多种行为的并发操作:因为这些行为是连续的,多种行为之间的上下文切换是需要的。应用的接口允许用户去监控后台的行为,这样帮助用户知道什么时候应当恢复这个行为。这种恢复不是固定的,取决于其它人的有效性、最近到达的需要的信息。例如,用户想要恢复取决于最近发生相关事件数目的行为,比如在一定数目的消息发出以后才能在消息组阅读消息。在设计后台敏感的时候,接口需要支持在传递监控信息(把发生的事件与事件的重要性相联系的信息)时候的不同级别的干扰。当前的桌面接口只提供了用多窗口表示这个问题的开始。随着最低限度的屏幕的出现,用户必须管理一类问题的多个窗口的开、关、重叠等。简单的感知暗示在有点桌面图标中包括了,比如暗示收到了一封邮件,但是很少有控制来建立满足不同感知需求的通知。Rooms的接口为空间组织的文档和多个不变地点分布的应用提供接口。对它有用的扩展是提供“背景”room的感知以及当用户回到房间时帮助用户回忆过去发生的事情。
-时间是重要的鉴别器:时间是基本的人类评估的工具,虽然在计算机接口中很少被表示出来。在解释某个人的来电时,上次通话的时间是一个星期还是五分钟前,这样的因素是相关的。在桌子上找一张纸的时候,昨天看到过还是上个月看到的也是可以帮助查找的。有很多办法来把时间和计算机接口联系起来。如果我们想重新回到我们工作的进展中,接口可以表示出从上次交互以后发生的时间。作为解释现实世界事件的应用,例如决定怎么处理来电、到达当地百货商店的反应,它们可以利用时间信息来决定它们的反应。
-信息的联合模型是需要的:信息的层次模型很好地对应于定义良好的任务。但是,行为信息的模型重要是联合的,因为信息经常在不同的场合从不同的角度重复使用。例如,你保存很长时间同事、朋友、家人发到邮件。当处理现在的邮件的时候,你就想把它归类到不同主题的分级的文件夹中。一段时间以后,这种组织方法就要改变,因为这样不能按照变动的要求查找邮件。类似的,要做的事件的列表在把这些事件组织在一个定义好的列表中是也会失败。信息的联合的、多内容的模型允许用户从不同的角度、因为不同的原因重新获得信息。例如,用户想根据当前上下文,例如某人什么时候进入办公室、什么时候某人到底百货商店,来重新获得信息。他们还可以回忆和当前信息相关的其它信息。例如几个星期前修改的文档、类似主题在四周流传的文档。
 
随着计算变得更加的普遍存在,提供的工具折射出它在长期活动中的角色。虽然普适计算的原理也可以应用到桌面接口中来,但这些设计的挑战都是和不断改变的环境相关的。在移动的场景中,用户在可用计算资源不断变化的活动中切换。即使在办公室框架中,不同的工具和对象在不同的活动中扮演多重角色。例如,改进的电子白板的使用根据不断变化的上下文信息(如出席人数等)变换。不同的对象(如文件、外界的显示)为活动提供切入点和背景信息。现实世界的交互的分布是日常计算的观点中固有的,这也是和普适计算的研究高度相关的。
 
5.1 Synergy Among Themes
日常计算的研究仍然在探究前面所提到的交互中的三个领域,但是研究的重点在于设计连续可用的环境。Eshii的研究工作利用自然的接口来支持通信和背景的感知。现在的Roomware项目的工作目标是创建一个墙面大小的交互区域来支持更多范围的非正式的人的活动。
 
考虑到上下文感知的交互,Audio Aura系统和前面提到的导航系统是相关的,改变了位置触发的信息在便携设备之间的传输。Audio Aura的目的是提高用户的听觉范围。通过增加关于同事的行为和通信方式(如电子邮件等)的动态信息,Audio Aura提高了用户进行日常活动时的可用信息的可觉察范围。
 
类似的,自动捕获和访问应用也转向非结构化的环境。Remembrance Agent找寻包括视觉感知基于环境上下文在内的信息。用户可以指示系统要记忆的内容,系统成为了持续可用的物理位置索引的日常信息的仓库。作为未完成的目标,Bush建议设计一个记录持续的日常信息并在以后作为总结和归纳用的个人记忆容器。
 
5.2 日常计算的研究方向
日常计算给人机交互研究带来很多的挑战。在现在和未来的工作中,我们关注以下几点:
 
-设计连续的计算机接口表示:有很多描述普适的计算机的模型,但是没有一个模型是完全令人满意的。信息用具通常指的是不知道当前的行为的在后台工作的有特定目的的设备。这些接口通常借用传统的图形用户界面的概念。在后台连续工作的计算系统从过去的行为和行为时机中学习,表现为赋予了人性的代理。并不一定每个接口都是基于富于表情的或者面向人类特性的对话。在可穿戴的计算机的研究中,由于现在的输入和输出设备的限制,通常采用的是基本的基于文本的接口。
-用户注意力的不同层次的外围信息的表示:尽管在有形媒体和外围的感知,特别是计算机支持的协作以及可穿戴的计算领域的关注在增加,但是当前的接口通常表示一般的外围的背景而没有用户机制来把外围的信息转化为不同的注意层次。我们当前的设计的目标是创建外围的信息接口在不同的层次上对用户的外围信息进行操作。
-现实世界与虚拟世界的事件联系:用户在两个不相连接的空间操作:电子邮件、电子文档、网页等虚拟世界和面对面的交流、书脊、文件等现实世界。用户的行为在这两个世界交互。尽管很早就有如数字桌面之类的研究,但是还有很多工作要做来解决两个空间的信息整合从而达到更好的理解用户如何构思他们的动作。
-修改传统的人机交互的方法来支持非正式的、外围的和随机的动作:没有一个用来理解计算机在人们日常生活中的地位的方法。但是,从像实验和人种调查这样的复杂方法中得到混合信息是一件不容易的事。在我们的研究和classroom项目中我们通过实践来学习,通过不同的策略评估我们得到的结果。我们有意识地选择和我们提出的问题相匹配的解决方法。学习不同方法之间如何互相通知以及不同方法的结果如何混合还是贯穿我们工作中的努力。在后面的章节中我们继续讨论如何评估普适计算系统。
6. 普适计算的附加挑战
普适计算的两个重要的方面是系统的评估和社会效应,这两个方面贯穿普适计算研究的所有领域。
 
6.1 普适计算的评估
为了了解普适计算在日常生活中的作用,我们必须在技术怎样用来服务于人的需求和技术可信的使用以及人类活动和技术共同发展之间保持平衡。如何格式化的评估普适计算系统由于很多原因是一件很复杂的事情。由于这样的困难使得我们很少看到对普适计算系统评估以及最终用户的需求分析。有一个例外是XeroxPARC的研究者发布的关于应用在会议上下文的Tivoli系统。普适计算的研究者力求在满足用户需求的基础上尽可能减少对人机交互方式的冲击,在这里我们给出对这种挑战的建议:
 
6.1.1 找出用户的需求。评估一个普适计算系统的主要的困难是并没有一个可靠的系统用来被评估。用来建立普适计算系统的技术一般都是边缘技术并没有被开发者很好的理解,所以很难建立一个可靠的鲁棒的系统来支持连续的日常活动。已经发布的普适计算的工作主要还是停留在这种鲁棒性不高的示范原型系统的基础上。这种工作通常是以技术为中心的,但是我们在下面要介绍,利用这些新型的技术也是可以进行用户为中心的可行性研究。
 
研究者从最终用户的角度创建一个引人瞩目的应用,说明建立的系统和基础设施如何投入到使用中。技术必须要来满足一个现实的或潜在的需求,因为根据Weiser说的,普适计算的目的是为提供一个为用户服务的应用。一个引人瞩目的应用并不是简单的提供一个研究结果的示例,它应当是为评估系统对未来用户日常生活的影响提供基础。最好的情形是在连续的基础上建立一个围绕暴露给你的行为的应用。这样你可以建立一个逼真的实验室,可以持续地激励你支持支持这样的应用并为了更好地理解应用提供反馈。
 
系统的设计者并不是完人,所以错误总是会发生的。因为建立一个鲁棒性的普适计算的系统是一件困难的事情,所以你不需要花费建立一个复杂系统的造价仅仅发现系统与设计应用时候的目标相差甚远。你应当在为了更好地评估而花费精力建立一个鲁棒性的系统之前作一部分边缘应用的可行性研究。但是,这些可行性的评估也应当是由非格式化地、用户为中心的观点驱动的,目标是确定系统是如何被使用、什么样的行为是系统所包含的、整个系统的反应是积极的还是消极的。回答这些问题对未来的系统设计和系统评估提供参考。在对系统地作用进行定量的评估前理解新的系统如何被它的潜在用户使用是很重要的。
 
案例研究:Xerox PARC的Flatland系统。普适计算应用系统的设计要求设计者对未来用户如何使用这种新的技术有足够的理解。设计一个通用的交互方式并不是人机交互研究中的新问题,但是这个问题在普适计算系统部署到物理世界的时候显得尤其困难。
 
在我们的Flatland系统的设计中,我们对办公室中的白板的使用进行了使用人类习惯观察,并做了问卷调查和采访,通过各种方法了解用户在日常生活中如何使用白板。从观察中得到的大量的数据既是我们设计中的灵感,也是有用的约束。例如,“焦点场所”,根据日常白板使用的观察得到的用户经常修改的白板区域。观察的数据是问卷调查和采访等深层次的用户习惯研究的基础。没有这些数据在讨论中可能会简单地忽略了用户对使用的想法。通过参考两个星期的观察数据,我们可以检查系统设计的细节实现。
 
虽然我们的改进的电子白板还没有到应用的水平,甚至还不能被用于用户测试,但是通过观察和采访我们收集了大量对我们设计有用的信息。
 
案例研究:Audio Aura系统。当新颖的输入输出技术刚开始被介绍的时候,它们的功能和效用并没有被很好的了解。通常这些技术并没有被真正被应用到实际的系统中去。然而以用户为中心地评估需要影响到后继的设计。在Audio Aura系统的设计中,我们探究了如何通过应用外部的声音来提高对办公室行为的感知能力。我们使用的无线耳机、声音设备对长期使用的用户显得很笨重。因为较大的、黑色的耳机遮住了耳朵,所以在公众场合是被禁止的。用来控制声音表示的Java语言对创建丰富的语音空间是不足的。然而,我相信在将来这些技术上的不足在将来都是会被解决的。
 
基于对Xerox PARC工作环境的调查,我们研究了交互的方式来指导我们的系统设计和评估。我们汇集了在PARC人们是怎样集体工作的的信息,例如在咖啡馆聚集、即兴到同事办公室谈话、甚至在走廊里和同事切磋。当我们的系统真正部署使用的时候,用户会思考他们的日常行为。调查还帮助我们理解了另外一个交互的要素:时间。在一个我们的案例中,在两个技术组件之间的交流方式不能满足交互的速度要求。虽然速度可以加快,但是这种修改要求平衡速度和系统的规模,两者对于系统的目标都是很重要的。简短的说,调查帮助我们理解未来开发的设计空间。
 
6.1.2 Evaluating in the Context of Authentic Use。深层次的评估要求系统的现实的使用以及系统可靠的设置。评估系统的各个因素(设备、地点、人、时间)作为系统的特征可以用来传统的约束的效用实验。在高效的评估中,我们要观察用户和系统的日常的交互,这要求系统在环境中现实的部署。
 
案例研究:Classroom 2000系统。在这个案例研究中,我们示例了从前面的原型和可行性研究中演变来的更成熟的系统,这个系统现在正在被现实的教学中使用。这个系统是在1995年7月开始的,它的目的在捕获尽可能多的课堂信息,以便于课后老师和学习的复习。在很多课堂中,学生都是低着头把听到的和看到的记录下来以便日后的复习。虽然记笔记的过程对学生的学习过程有帮助,但是根据老师和学生的观点我们给学生机会能够在课堂上抬起头来融入到课堂中去。这样的捕获系统释放了同学记笔记的负担。
 
我们需要建议这个假设的可行性,所以在系统六个月的使用中,我们提供整个课堂的捕获环境,观察假设是否能够被很好的测试。在这样一个实验中我们获得很多的有价值的信息。初始的实验中包括了笔记功能,明显对学生分心,所以我们放弃实验的这部分功能。在最近几个月中,当技术成熟了以后这样的功能才重新被启用。从这个实验中我们知道了要了解这个系统对课堂教学和学习的影响,我们必须从大量的课堂实践中获取数据。这要求付出大量的努力来部署可靠的鲁棒的支持多课堂模拟的系统。如今,经过30位不同的老师超过100门课的使用后,我们获取了系统如何被使用、未来如何改进等信息。作为评估系统的直接的结果,系统使得60%的使用者改变了记笔记的习惯。我们同样了解到并不是所有的这样的改变都是变的更好的。例如不记笔记并不是一个好的学习的实践。我们可以通过重新向用户介绍笔记功能单元,告诉他们可以个性化笔记这样可以使得用户更好地使用笔记实践功能。我们同时还认识到还应当简化课程信息的基于内容的回放功能。这些认识激励了以后的研究努力并可以建立一个长期的研究项目。
 
6.1.3 任务为中心地评估策略是不恰当的。假设系统已经被可信地部署,那么用户是否对系统提供的服务满意?用户是否养成了使用系统的习惯?这就牵涉到如何定性或定量地评估系统的问题。多数的效用评估是任务为中心的。如果用户的任务是明确的,那么可以通过决定系统的适合程度和完成任务的接口来评估系统。然而在不规律日常计算的情况下很难用任务为中心的评估方法来评估。
 
6.2 普适计算的社会效应
我们努力尝试使得对现实世界的现象的感知、理解、反应更简单并记录这些现象。这些技术同时也带来很多的危险,例如,过于容易的在没有控制的情形下跟踪一个人。如果普适计算的研究者不能理解这些缺点,那么他们就是失职的。但是不能因为对可能带来的错误的恐惧停止所有的工作,只不过继续改进技术、设计来解决这些社会负面效应。
 
对所有储存在计算机中的信息来说最基本的关注是谁有权利来访问及修改这些数据。数据存放在哪里?他们是否安全?安全和加密机制也是可行的解决方案之一,特别是数据从环境中采集并在网络中传输的过程。类似的,可穿戴计算也强调设计的策略——把数据保留在身边而不是把它通过网络传输。
 
用户恐惧的是缺乏对系统能作什么的了解以及背后系统还做了什么。虽然普适计算的原始观点是把普适计算无形地融入到现实环境中去,但是这种无形与用户要知道如何被感知相矛盾。要缓和这种矛盾就要求系统在部署的时候让用户知道信息是如何被感知的。例如感知现实现象和记录现实情景的系统应当明显地提醒用户这些行为正在发生。当这些感知和记录功能越来越普遍的使用,普适计算的挑战之一就是如何让用户知道他们是如何被感知的。我们需要把从现实空间的视觉转变到对虚拟空间的视觉。
 
接下来的步骤是让这些感知和记录变成受控的,可以停止这种活动至少可以控制信息的分布和使用。这种挑战涉及到协作环境的设计,在这种环境中行为和角色都是不断变化的所以很难清晰的描述。信息的捕获、分布、使用根据不同的设置而决定。
 
关于什么时候捕获什么样的信息不同的系统建立者有不同的反应。在Xerox PARC,关于捕获达成一个共识就是捕获会议中总结性的部分。在Classroom 2000系统中,我们记录所有一节课的信息而不注重捕获每个人的高品质的音频视频信息,除了讲台上老师的信息。在FX-PAL的Dynomite系统中,笔记控制哪个部分的音频信息用于以后的参考。最后一种方法可以看作对于高品质的音频信息中减少存储量的方法,从另外的角度看,完美的捕获系统应当能够合理地忘记一部分以前的信息。协作情景下一个重要的问题是提供一个策略来擦除或忘记共享存储中的部分内容。关于这个观点的一个更积极的倾向是在忘记部分捕获历史的情形下提高对捕获信息有价值部分的感知。
 
虽然从人类的交流诞生开始关于信息的恰当使用和传播就被关注,由于普适计算使得信息的获取更为简单使得这一点更受关注。电脑可以更为简单地跟踪人类的活动,而以前这样的跟踪需要人类付出大量的努力。为了表示上述提到的安全性、可视性和信息控制,我们的策略是建立对信息恰当的、有使用权的应用示例。非实时的多粒度的图像是在不违背个人隐私的前提下满足感知和连续的要求。在Audio Aura系统的设计中,我们非常注重关于同事活动的定性信息的传播。
 
此外还有很多与隐私并不直接相连的其他社会效应。例如对会议、课堂进行记录对那些参与者有积极和消极双重影响。积极的方面,知识的记录减轻他们的笔记负担。消极的方面,参与者害怕说了什么以后遗憾的话语而拒绝参与讨论。在我们的Classroom2000的实验中还注意到另外一个很微妙的问题。有的学生选择不回答问题,因为等到结束的时候他们还可以回放课程的记录。
 
总的来说,技术和设计的改进的同时伴随着社会和法律的变革。人们在享受普适计算带来好处的同时会比较花费的代价。例如,滑雪者和徒步旅行的人会选择身穿无线传输的衣服方便救援人员的定位。救火队员从相互了解对方在哪里做什么中获益。在人们研究出新的、无法预料的这些技术的应用的时候在前面讨论的这些技术的社会关注还会继续。然而,对安全、可视性、控制性、隐私的关注能够帮助我们积极的使用这些技术。
 
7.结束语
本文尝试总结从普适计算开始研究的十年来的研究的历程。我们提出了普适计算研究的三个主要领域,提供了关于这些领域研究的背景知识,指出了这些领域研究的已经达到的成就和还存在的挑战。我们的目的是激励普适计算的研究者去解决这些重要的问题。我们肯定遗漏了一些重要的问题,我们期望其他同仁提出并解决这些问题。
 
Weiser指出普适计算的关键是建立推动设备和基础设施发展的令人瞩目的应用。我们同意这种精神的同时提出普适计算与计算资源交互的效用的更广的观点。在人机交互的研究中,任务为中心的研究是很重要的。然而,我们回首那些成功的计算技术,并不是单个应用推动关键技术的接受和发展。个人电脑的关键应用是哪个?那是针对于不同的人的很多不同的应用。普适计算的真实目标是联合很多应用从而达到人与计算机之间连续的无缝的连接。我们完成某项任务并不是单个的交互接口,交互应当是自由而综合的,类似于现实世界的与人和日常生活中的种种对象的交互。(李彬编译)
 
 

人机交互中的计算机视觉技术
        在人们的交谈和彼此间的交互过程中,视觉信息显然是很重要的。通过视觉的模态,我们可以立即确定许多显著的关于他人的事实和特征,包括他们的位置、身份、大致的年龄、注意力的焦点、脸部表情、姿势、手势和一般的活动。这些视觉线索影响到了会话的内容和进程,并提供了一些上下文相关的信息,这些信息与言语不同,但与此相关,例如,一个手势或面部表情可能是一个关键的信号,一个注视的角度可能可以消除在言语中“这个”或者“在那边”的指带不明。换言之,在人与人的交互中,视觉和言语是联合表达,相互补充的通道。正如语音自动识别是试图构造能够感知人们交流的文字方面的机器,那么计算机视觉技术是用来构造能够“观察人”并自动感知相关视觉信息的机器。
计算机视觉是一门试图通过图像处理或视频处理而使计算机具备“看”的能力的计算学科。通过理解图像形成的几何和辐射线测定,接受器(相机)的属性和物理世界的属性,就有可能(至少在某些情况下)从图像中推断出关于事物的有用信息,例如一块织物的颜色、一圈染了色的痕迹的宽度、火星上一个移动机器人面前的障碍物的大小、监防系统中一张人脸的身份、海底植物的类型或者是MRI扫描图中的肿瘤位置。计算机视觉研究的就是如何能健壮、有效地完成这类的任务。最初计算机视觉被看作是人工智能的一个子方向,现在已成为一个活跃的研究领域并长达40年了。
传统上,计算机视觉研究是被一些主要的应用领域所推动的,例如生物视觉建模、机器人导航和操作、监防、医疗图像以及各种检查、检测和识别任务。近年来,涌现了多模态和感知交互,推动了一大批关于机器视觉的研究。这些努力的重心大多是集成多种感知模态(例如计算机视觉,语音和声音处理,触觉的输入/输出)到用户接口。尤其对于计算机视觉技术,主要的目标是在人机交互中采用视觉作为有效的输入模态。这种基于视频的传感是被动的、无插入的,因为它不需要与用户的交互或任何有特殊用途的装置;传感器也能够被用于视频会议和其他成像用途。这种技术在基于视觉的交互领域中具有良好的应用前景,例如游戏、生物测定学和准入,还有一般的多态接口,能将视觉信息和其他的语音、语言技术,触觉以及用户建模等相结合。
这种关于人的视觉信息的获取,已经通向了计算机视觉中大量的研究领域,着重于建模,识别和解释人的行为。如果可靠且健壮地发放了,这种视觉技术可以支持交互系统中的一系列的功能,主要通过传递相关的用户视觉信息,例如身份、位置和动作,从而提供关键的上下文信息。为了能充分地支持交互中的视觉部分,需要提出几个任务:
        人脸检测和定位:场景中有多少人,他们在哪里?
        人脸识别:他是谁?
        头和脸部的跟踪:用户的头部在哪里,脸部的位置和方向是什么?
        脸部表情分析:用户在微笑,大笑,皱眉,说话还是困乏?
        视听语音识别:使用语音识别以及伴随视话(lip-reading)和face-reading,判断用户说什么?
        眼睛注视跟踪:用户的眼睛朝哪里看?
        身体跟踪:用户的身体在何处?关节处(articulation)是什么?
        手跟踪:用户的手在哪里?是2维的还是3维的?特别地,手的结构是怎样的?
        步态识别:这是谁的走路/跑步风格?
        姿势、手势和活动识别:这个人在做什么?
这些任务都非常困难,从一个摄像机拍得图像(有时或者是多相机从不同的视角)开始,这项工作典型情况下至少包括每秒30次的240*320个像素(每像素24比特)。我们试图很快地使这些数据变得有意义。与语音识别问题相比较,语音识别是从一个一维的,时间序列信号开始,然后尝试将其分段并分类成相对少数目的已知类别(音素或词)。计算机视觉事实上是一堆子问题的集合,这些子问题彼此间很少有共同点,且都非常复杂。
 
基于视觉的接口任务
至今,计算机视觉技术应用到人机交互中已取得了显著的成功,并在其它领域中也显示其前景。人脸检测和人脸识别获得了最多的关注,也取得了最多的进展。第一批用于人脸识别的计算机程序出现在60年代末和70年代初,但直到90年代初,计算机运算才足够快,以支持这些实时任务。人脸识别的问题产生了许多基于特征位置、人脸形状、人脸纹理以及它们间组合的计算模型,包括主成分分析、线性判别式分析、Gabor小波网络和.Active Appearance Model(AAM).许多公司,例如Identix,Viisage Technology和Cognitec System,正在为出入、安全和监防等应用开发和出售人脸识别技术。这些系统已经被部署到公共场所,例如机场、城市广场以及私人的出入受限的环境。要想对人脸识别研究有一个全面的认识,见[12]。
人脸检测技术——在一个场景中从不同的范围和方向检测所有的脸——在近年来伴随着实时统计学习方法已经有了显著的发展。头部和脸部跟踪在一些强约束力的情况下运行得很好,例如,当在研究对象的脸上作标记时。但是,在一般环境下,脸部姿势和脸部特征位置的跟踪依然是一个难题。脸部表情分析也同样是,通常它是依据准确的脸部特征跟踪作为输入的。现在已经存在一些有前景的能够识别一定范围内的脸部特征的原型系统,但是它们在性能和鲁棒性上仍然有局限性。
眼睛注视跟踪(eye-gaze tracking)已经商业化多年,主要用于残疾的计算机用户和科学实验。这些系统采用主动式传感,向用户的眼睛发送一个红外灯源作为一个基准方向,但严格限制了头部的活动。以现在的形式,这些系统是不适合通用的多模态用户接口的。
为了确定一个人的位置或者为头部和手部的运动建立一个基准坐标框架,在视频流中跟踪身体是非常有用的。早期的系统例如Pfinder,通过明晰静态背景模型,产生了一个身体轮廓的表示,且标识了头部和手部的可能位置。一些研究者使用了更为详细、关节运动更为复杂的动态身体模型,尽管将图像数据匹配到这些模型中是复杂而又慢的。虽然在动画制作中广泛使用了动作捕捉系统来捕捉身体的精确动作,但需要用户穿上特制的衣服或者一些接受传感器和标记物,这样就使得这种方法无法适用于通用的多模态接口。
当环境被控制(例如,固定的照明条件、相机位置和背景)且手没有重叠时,二维和三维的手部位置跟踪并不困难,关注皮肤的颜色是典型的方法。然而,普通人的行为,手常常是隐藏的(在口袋中,放在头后)或是被另一个手臂、手所遮挡。在这些情况下,手部跟踪就变得困难且需要基于人类运动的预测。一个更困难的问题是跟踪完整的手部关节——由手结构定义(23个手腕DOF,6个位置和方向DOF)的29个自由度。Wu和Huang提供了一个对手跟踪和手势识别的概述。
对人身体及其组成部分的定位、识别和跟踪只是交互的第一步,此外需要识别行为。感兴趣的行为可能有结构化的、分离的手势,连续的人类自然手势或者由一系列时间范围定义的行为(例如,离开房间,在桌子上吃饭)。手势识别可以作为一个直接的模式识别问题来实现,它试图匹配身体参数的某个序列,或者是一个概率系统用来推理基于统计定义的姿势模型。这个系统必须要能区分偶然的人类动作,有目的的操作物体的动作和那些用于交流(有或无意识的)的手势。语言和手势间的关系是很复杂的,能使通用的且上下文无关的姿势识别自动化是一个长期的目标。
虽然在某些情况中可以使用简单的状态空间模型,但在建模和识别序列姿势时通常采用统计模型。由于统计模型在语音识别领域中的成功使用,隐马尔可夫模型(HMM)已经被广泛地用于建模和识别姿势。一个早期的例子是一个识别系统,能够识别一定数量的由Starner和Pentland开发的美国手语。现在已有一些源于基本HMM方法的变形,用于更好地匹配视觉中更为广泛的特征和模型。因为许多手势包括多个组成部分,例如手部动作的弧线和姿势,序列信号比语音识别中的更复杂。贝叶斯网络在姿势识别中也显示其前景。
 
基于视觉的接口技术进展
尽管在一些个别应用中取得了成功,但纵使在几十年的研究之后,计算机视觉还没有在商业上被广泛使用。几种趋势似乎表明了这种情形即将会发生改变。硬件界的摩尔定律的发展,相机技术的进步,数码视频安装的快速增长以及软件工具的可获取性(例如intel的OpenCV libraray)使视觉系统能够变得小巧、灵活和可支付。近年来,美国政府已经投资了一些人脸识别评估项目:最初为1993年到1997年的人脸识别技术(FERET)项目,最近为2000年到2002年的人脸识别vendor测试(FRVT)。这些项目提供了对用于研究和商业的人脸识别系统的性能评估。FRVT 2002全面地测试了10个商业系统,收集了一个非常大的数据集的性能统计:37437个人的121589张人脸图像,通过多维(在室内或室外,男性或女性,年轻的或年长的)表示其性能特征。图3显示了最佳系统对正面人脸图像的5项分类的人脸检验结果。
最近几年,DARPA资助了用于远距离识别人和视频监防的大型工程。正在进行中的远距离人物身份(HumanID)项目将使用多模态融合技术,包括注视识别,即在很长的范围内(25-100英寸)识别人物身份。视频监防和监视(VSAM)项目试图为未来的监防应用开发对感兴趣的活动的识别系统。国家科学基金已经给基于视觉接口技术的相关领域中的一些信息技术研究(ITR)奖励了津贴。工业界中公司里(例如微软,IBM和英特尔)的研发实验室在这些领域中做了很多的努力,同样的在工业界中开办了公司,例如个人机器人和娱乐。
近年来,随着许多公司提供人脸识别技术(和人脸检测、人脸跟踪),包括3D方法(例如,Geometrix,A4Vision和3Dbiometrics,见Jain和Ross关于包括计算机视觉和其他模态的生物测定的详细描述),生物测定学市场有了显著地扩大。一些研究团体和公司已开发了人脸跟踪技术,尤其是用于计算机图形市场(游戏和特效)。
简单的视觉技术有效地用于交互环境的一个不错的例子是MIT媒体实验室的幼儿室工程。幼儿室为孩子提供了一个交互的,叙述性的剧情空间。用计算机视觉来识别用户的位置和他们的活动可以帮助给参与者传递一种强制性的交互体验。现在已经有许多其他的由大学和研究实验室开发的强制性原型系统,其中有些处于步入市场的初期阶段。
 
技术挑战
除了适合生物测定市场的人脸识别技术外,几乎很少有成熟的计算机视觉产品或技术以支持与用户的交互。然而,有大量且数量递增的研究项目和这类原型系统。为了从实验室走向真实世界,必须说明几个基本问题:
        鲁棒性:大多数视觉技术是脆弱,缺乏鲁棒性的,照明和相机位置的微小变化可能会导致系统出错。系统需要在各种条件下工作,且能适度地、快速地从错误中恢复。
        速度:对于大多数计算机视觉技术,在全面和快速交互两者间都采取了实际折衷。视频数据太多了,以至于无法实时地做复杂处理。我们需要更好的算法、更快的硬件设备和更灵巧的方法来决策需要计算什么,可以忽略什么。(提供了已处理的图像流的数码相机能够有很大的帮助)
        初始化:许多技术在得到了初始模型后,跟踪效果都很好,但是初始化步骤往往很慢且需要用户参与。系统必须能快速和透明地进行初始化。
        使用性:对于开发系统的人来说(花费了许多时间研究复杂难点)视觉技术的示范使用能工作地很好,但对于那些没有经过“系统训练”的新手却很困难。这些系统需要适应用户,处理无法预期的用户行为。此外,它们需要提供简单的纠错和处理错误解释机制以及能提供反馈给用户,以避免预料之外的灾难性后果。
        上下文集成:一个基于视觉的交互技术本身不是最终的结果,而是一个更庞大的系统中的组成部分。手势和活动需要放在合适的应用过程中加以理解,而不是孤立的行为。从长期来看,这需要在各种应用的上下文关系中深刻地理解人类行为。
前三个问题已经在日常的研究实验室和全球的产品研发组织得到了关注,使用性和上下文集成很少被考虑,但是随着更多的应用开发,这两个问题将会提到研究日程的前面。
 
结论
计算机视觉是一个非常困难的问题,在经过几十年的研究及几个主要应用的推动后依然不能解决通用情形。但是,在过去的十几年里,人们对于相机的回转使用以及用计算机视觉来“看人”的兴趣提升,即检测和识别人脸,跟踪头部、脸部、手部和身体,分析脸部表情和身体动作,识别手势。在构造实时、健壮的视觉技术上取得了重要的进展,部分是因为摩尔定律驱动的硬件性能的极大提高。一些子问题(例如,人脸检测和人脸识别)已经获得了显著的商业成功,但是其他部分(例如手势识别)还没有在商业上找到一个大的位置。所有这些领域,仍然存在重要的速度和鲁棒性问题,因为快速的方法总是脆弱的,而依据原理的全面的方法又是非常慢的。与语音识别技术相比较,语音技术已经商业化多年,且稳步前进几十年,计算机视觉技术HCI依旧处于“石器时代”。
然而,有许多理由可以对未来的计算机视觉接口技术充满乐观。个人组件技术在过去的几十年发展迅速,一些领域趋于商业化,而其他的也应该很快跟上。计算机视觉的基本研究正继续发展,新的想法将很快应用到基于视觉的交互技术中去。现在有许多关于这个研究领域以及与其他模态集成的会议和研讨会。人脸识别领域提供了一个很好的模型,有向的资助、共享数据、短兵相接的竞争到商业应用,这些都极大地推动了技术发展水平。其他技术也可能沿着这条路走,最终,大量的研究、技术和商业应用将帮助计算机视觉技术走到多模态人机交互的前端。(刘婧编译)
 
 
 
基于视觉感知网络的行为感知和理解技术
 
计算技术进化和用户体验渴望的双重需求正推动着“人与环境交互”这一富挑战性课题的发展[1]。本质上,无论是Weiser提出的普适计算(Ubiquitous Computing)[2],还是欧洲ISTAP (Information Society Technologies Advisory Group)描绘的环境智能(Ambient Intelligence)[3],目标都是要营造“环境智能化”和“服务人性化”的智能环境(Intelligence Space/Environment)[4][5]。这个环境既是一个基于传感器网络的智能物理空间,也是一个人与机器(空间)相互合作的复杂计算系统;既需要各种新型传感器和智能设备[6]及无线传感器网络等网络技术来支持环境与计算系统的通信和集成并体现计算的分布性、普适性和透明性[7]-[9],还需要利用环境及上下文感知、多传感器信息融合及智能系统等技术来支持环境对人类存在的感知和响应[4][10][11],并从用户体验角度提升用户与环境间的融合度,让用户可利用日常技能获取环境所提供的计算功能和服务[12]-[14]。概括起来,智能环境应具备的基本条件包括:能使人们在的正常行为变得方便;能自动获取和动态保存人类在其中所发生的行为和事件数据;能对触发事件和特殊事件做出反应;能适应各种动态变化。显然,要实现这样的环境需要各种形式的感知系统,且所有传感器、处理器和通讯设备应该隐藏在底层结构中以支持参与者自然和灵活的交流。与其它传感器相比,视觉感知设备(如:摄像机)具有覆盖范围大、信息丰富、精确度高,对环境和用户透明而又非侵入等优点,随着摄像技术向数字化、微型化、全方位、主动式和智能化方向发展[15]-[17],视觉信息在准确而有效表示智能空间中人的动态或静态状态和行为方面发挥着愈来愈重要的作用[11],因此,利用分布于环境中的摄像机组构建视觉感知网络(Visual Sensor Network)[18]-[21],运用模拟人类视觉感知能力的视觉计算(Visual Computing)技术来捕捉、理解和响应环境中人的行为举止和情感状态并进而协调其与环境间的交互关系是智能环境不可缺少的核心课题之一[11][22]。
从人机交互的角度来看,人类今天的生活片刻离不开计算,人机和谐共处愈显重要,普适计算的探索进程也推动着人机交互从“以机器为中心”的受限(Formal)模式向“以人为中心”的非受限(Informal)模式方向发展[3],多通道/感知用户界面(Multi-modal/Perceptive User Interface)[12][13][23]等新颖人机交互技术的目标是要实现用户界面对人类自然能力(如:触觉、语言、笔形、手势和情感等)的感知、学习和理解,并通过协调感知和表现间的关系来模仿人与人及人与环境间的交互。其中,视觉行为(Visual Behavior)及其所表现出的视觉情感(Visual Emotion)在人类日常交互中具有举足轻重的作用,脸部表情和肢体动作等行为线索能为交互能提供相关上下文信息并影响交互内容和进程[24][25],尤其是情绪对所有非语言交流线索的激发调控才使人类在面对面交流中能毫不费力地察觉并解释相互间的交互信号[26][27]。因此,利用视觉计算技术适当地探查、识别和综合各种视觉行为线索,进而运用情感计算(Affective computing)技术来实现计算环境对人类日常情感状态的感知和学习并生动模仿和响应人类情绪表达是人机交互自然化和智能化的重要标志[13][14],已在人脸/头部检测与识别[28]-[30]、笔形[31]和手势识别[32][33]及表情识别[34][35]等方面进行了大量卓有成效的研究,头部及视线跟踪、手势和表情等视觉人机交互模式已逐步应用到图形用户界面中并部分代替传统界面模式[13][14],如:利用美国符号语言(American Sign Language)的手势交互[36][37];IBM的蓝眼(Blue Eyes)项目通过眉毛和嘴角的位置来进行人脸表情识别并实现对使用计算机的人情绪状态的监控和响应[38],等等。但是,已有研究主要集中在对人体局部行为和动作的识别和解释方面。事实上,人类行为是一个具多样性、文化性个体性和可塑性的复杂过程,在人机交互中,人类将计算机看作是“社会代理人”并与它进行“面对面(界面)”交流,需要机器具有适应用户的能力,而适应的时间、方式和重要性所涉及的是用户情感状态信息,机器恰当地对用户的情感状态做出反馈和反应才能使人感到更容易、自然、有效用且可信。因此,对人类行为及其上下文相关性,尤其是其所表现出的情感状态的综合和分析是新一代人机交互进一步发展面临的重要课题。
感知和识别复杂环境中人的行为举止也是智能视频监控研究的热点和难点课题之一[39]-[42],其任务是利用摄像机对特定环境中持续和瞬间物体进行实时监控和场景解释,理解和预测上下文相关的物体行为和事件并根据从传感器获得的信息与被观测的物体进行交互,在公共设施、商业、交通和军事等场景的检测、监控、管理和指挥等应用中具有重要价值。众多研究者对此进行了大量卓有成效的研究和应用,并已经在对象检测和跟踪[43]-[46]、人体运动分析[47][48]和行为识别[49]等方面涌现了大量令人瞩目的研究成果。尤其是二十世纪九十年代以来,日益增长的社会安全要求产生了对许多环境进行监控的需求,使得视频监控技术的研究和应用受到学术界、工业界及政府部门更多的关注,大范围嵌入型、多摄像机协同、多视角动态场景、多目标和多层次行为的分布式智能监控系统成为这一领域的研究热点[41][50][51],并在基于任务的摄像机网络部署和控制[52]-[56]及多摄像机集成和协作[57]-[62],尤其是活动摄像[15]-[17]及其视频内容处理[63]-[65]、视频压缩[66][67]、网络通信协议和数据传输标准[59][68]-[70]等多方面进行了大量研究,也出现了许多针对地铁、机场、车站等场所及交通运输等领域的分布式智能视频监控系统,如:采用多摄像机对室内人体整体和局部动作进行监测和识别的DIVA(Distributed Video Arrays)系统[11];采用多摄像机在大范围复杂动态场景中检测和监控物体运动的VSAM(Video Surveillance And Monitoring)系统[71];采用嵌入式智能传感设备和分布式处理对车站等场所人群活动进行跟踪和监控的智能公共交通监控项目PRISMATICA[72];等等。然而,智能视频监控是一个十分复杂的问题,它与摄像机数目(单摄像机vs.多摄像机)、摄像机的配置(集中式vs.分布式)和方式(固定摄像机vs.活动摄像机)、运动目标数目(单目标vs.多目标和类型(刚体vs.非刚体)、传感器类型(可见光图像vs.红外图像)和样式(单目摄像机vs.立体摄像机)及场景状况等诸多因素有密切关系,除了在检测、跟踪和识别等算法对运动目标姿态或状态改变及环境光照等因素变化的鲁棒性,复杂目标和环境处理过程的准确性和快速性等关键问题外,在分布式摄像机网络资源的配置和优化、多摄像机协同和信息融合、模型数据库的可测量性和增量式更新机制等诸多方面还有待于进一步深入研究。
智能环境中视觉行为感知系统承担着对环境中人进行监控与交互的双重任务,其目标是利用多个摄像机形成的视觉感知网络实现对人各种行为举止的感知和响应[20]。由于它不仅要关注人的空间位置和运动轨迹,而且要捕捉其各个层面的行为,甚至是情感状态,因此,视觉信息处理软件系统需要以下几个方面的功能[11][52]:利用多种类型摄像机获取多层次信号的能力;从多层次信息融合和抽象中获取行为和事件语义的能力;关注特定场景及其行为和事件的能力;在不同行为和事件语义层间转变注意力的能力。归结起来,基于视觉感知网络智能环境的软件系统需要解决三大相互关联的关键技术问题:一是面向多尺度行为信息感知的多摄像机控制模型;二是面向行为检测和跟踪的多线索融合技术;三是基于上下文的动作和活动分析与解释方法。
多摄像机控制模型是分布式视频监控系统引入的崭新研究课题之一[41][42],也是基于视觉感知网络智能环境的基础和关键技术之一[73]。传感器网络主要有两种基本传感模型:布尔传感模型和概率传感模型[21],然而,在视觉感知网络中可能会存在各种类型的传感器节点,这些不同类型节点的传感模型不尽相同,多媒体传感器节点传感设备类型的多样性和传感模型的异构性,主要体现在视频节点的方向性传感和其它节点的全向性传感之间的差异上,它对环境的感知受视角的限制是有方向性的,即节点的感知范围是一个以节点为圆心,半径为其感知距离,且与视角相关的扇形区域。同时,为了让视觉感知网络完成目标监测和信息获取的任务必须保证视觉传感器节点的部署能够有效地覆盖被监测的区域或目标,目前研究较多的传统传感器网络中的覆盖方法包括:网格覆盖、冗余覆盖、圆周覆盖、连通性覆盖、最坏与最佳情况覆盖等[8]。然而,众多类型的视觉传感器节点共存于网络中,使得视觉感知网络中多摄像机的部署和协同覆盖控制研究更有意义。已有研究主要集中在面向对象跟踪性能最大化和能耗最小化的多摄像机任务管理和空间布局优化及摄像机自动校准和纠错等方面,如:DIVA系统[11]采用动态多线程视频同步采集和多状态分析结合的方式来实现最小时延的多摄像机协作;Snidaro等[53]提出了利用衡量摄像机信息度量的外观系数(Appearance Ratio)来实现与跟踪对象位置距离最小化的摄像机部署和选择优化方法;Erdem和Sclaroff[54]考虑了固定、活动(PTZ)和全景摄像机三种类型及视野、空间分辩率和景深等摄像机参数,提出了面向响应时间最小化的室内多摄像机位置和数量部署优化方法;Dhanya等[56]通过定义通信图(Communication Graph)和视觉图(Vision Graph)而将摄像机的配置转化为图优化问题;Volkan等[58]则将对象跟踪的多摄像机部署视为关注焦点FOA(Focus of attention)问题,提出了利用摄像几何学及其对应的误差度量间的关系来实现跟踪期望目标位置误差最小化的多摄像机部署优化方法;Makris等[59]通过对大量活动场景的无监督统计学习建立起各类活动对应的摄像机视图间的连接关系模型,进而利用这个模型来自动确定摄像机网络的拓扑结构并可跟踪盲区中的目标;Trevor和James[61]采用为每个摄像机配置一个无监督在线学习分类器的方法,并运用多分类器联合方法来实现多摄像机协同的对象检测和跟踪。智能环境要求其摄像机监控空间能覆盖整个环境,且能选择、触发和控制合适的摄像机在恰当的时间从特定地点获取满足多层次行为和事件分析所需的多尺度信息的要求,也就是说,面向多尺度信息感知的多摄像机控制和管理必须同时满足响应时间、空间位置、视频内容分析(对象整体或局部信息)等要求,使检测目标的可能性最大化并避免不必要或无效率的控制和计算,因此,如何在特定的感知信息阶段以最小的代价来选择和确定一组最有用的信息源仍是基于视觉感知网络的智能环境中多摄像机控制模型的重要问题,同时,尚缺乏对系统性能和能耗建模和评价等方面的研究。
多线索数据融合是改善视觉计算系统性能的重要手段,在图像分析、机器视觉、视觉人机交互和视觉信息检索等领域中已有大量的研究和应用,如:遥感图像分析中的图像融合[73]、静态对象识别中的多特征融合[75]、视觉信息检索中的视觉语义融合[76],等等。基于多线索数据融合的对象检测及跟踪也是视频监控中的重要课题[62],借助于诸如卡尔曼(Kalman)滤波、人工神经网络、动态贝叶斯模型及隐马尔可夫模型等技术,基于外观、区域、轮廓和运动等线索及其组合的检测与跟踪已经得到广泛研究[47][48]。但是,这些研究的主要目标在于融合同一感知源中的多种线索来提高检测和跟踪算法对场景、视角、光照和噪音等因素影响的鲁棒性,如:融合颜色、纹理和运动等多种特征信息可以增强混乱环境中物体检测效果和追踪性能[42][77]。智能环境需要系统而有效地解释来自环境中不同模态和模糊性传感器的大量信息,需要能根据多尺度视觉感知所拥有的信息量和所要求的细节层次进行多层次信息实时抽取和融合,并在合适的细节层次上实施对感知数据的时间状态和时间尺度分析,进而判断人的存在和分析人的行为并进行有效的追踪,因此,智能环境中的多线索融合不仅应使检测和跟踪算法具有对环境、对象及噪声等变化影响的鲁棒性,更重要的是对来自多摄像机的信息在内容度量(整体和局部)和时间尺度上进行关联[10],需要在联合特征空间中按照上下文依赖模型进行表示和融合,以提高其对动态视觉内容特征表达(时间进化)的敏感性。最直接的解决方法是利用立体视觉方法来建立三维场景模型并实现多摄像机感知信息的融合,如:DIVA系统[11]采用静态摄像机组多基线立体视觉方式来建立三维场景模型而实现多摄像机信息融合,再通过对多摄像机同一场景重叠视图的分析和匹配来支持多摄像机协同的对象检测和跟踪;类似地,Hampapu等[57]以单个摄像机基于对象外观和位置的二维检测和跟踪为基础,采用多摄像机宽基准线立体视觉方法来获取三维物体位置,再利用多摄像机视图对象一致性来支持对场景中对象的检测与跟踪;Christopher[62]则通过建立多摄像机背景和前景对象外观的统一场景模型,利用贝叶斯模型来实现多摄像机协作和多模式融合的室内对象感知和跟踪。但是,智能环境中需要使用多个摄像机以联合、主从和竞争等工作方式来完全覆盖关注的场景并获得可接受的分辨率,三维场景模型建立过程的相对比较复杂,而且现实世界环境通常是动态且随时间而变化的,尤其需要处理遮挡等情况下的不同时刻的场景于对象间的对应关系;同时,尽管已有研究能做到对连续数小时的视频序列分析,但对于需要对人类行为举止长时间监控的智能环境来说也需要使用特殊的摄像机和算法。因此,如何系统而有效地表示和融合具有不同抽象度和不确定性的多摄像机感知信息并进而对场景时间变化和场景级整体和局部对象建模和融合仍是基于视觉感知网络智能环境中的一个难点问题之一。
基于视觉的人体姿态估计和动作识别是在视频监控、医学、机器人、视频索引、电影和游戏动画等许多领域都受广泛关注的研究课题,已经出现了很多思想和方法,文献[47][48][49]对此做了系统而全面的总结。尽管这些研究成果依赖于研究者和应用目标,但无论是姿态估计还是动作理解都取得了很大进展[48]。一方面,姿态估计已经覆盖了从多视角图像中姿态估计到从单幅图像中姿态估计、二维姿态估计到完整三维姿态重建等多个方面,尤其是通过采用基于示例的学习方法和基于模型的综合分析方法提高了对复杂场景姿态估计的鲁棒性和可重构姿态的复杂度[48],基于示例的学习方法利用人体动态捕捉数据库中的数据来生成人体模型在多姿态下的运动学习模型[78],进而获取二维图像特征到三维姿态之间的映射,最终实现从单视角图像序列中估计人体姿态;也可能把学习得到的二维到三维的映射与二维姿态检测组合起来从复杂场景的单视角图像序列或单幅图像中进行三维姿态检测。基于模型的综合分析方法则主要关注对复杂动作的可靠重构[79][80],它采用随机采样和搜索技术从多视角图像中估计三维姿态,为动作识别和重构提供强先验知识,进而重构人体的三维姿态。但示例学习方法中对训练样本的动作类别和视角范围的依赖性及模型综合分析方法中先验模型对一般动作重构的可扩展性仍有待于进一步研究和探索。另一方面,人体动作识别和理解在最近几年受到几乎爆炸性增长的关注[47][48][49],尤其是在智能视频监控领域,且在监控应用中异常活动检测及其它简单动作的识别和动作语法的表示方面取得了显著进步,如:采用整体方法来确定诸如性别和身份等整体信息或行走和跑步等一些简单动作;使用局部方法则关注更为细节的手势和步法等局部动作或通过简单动作单元来对复杂动作建模。但是,对人体行为和动作的视觉理解总体上仍然不成熟,在考虑场景上下文和人与场景间交互的运动理解,尤其是涉及动作语义和动作语法的高层抽象方面研究较少,对被监控空间内的事件进行基于上下文的检测和解释仍然是一个有待研究的领域,其难点在于利用时间或配置条件等知识优化视频分析,利用环境的几何模型或其它物体和活动模型解释事件以及采用学习的方法来提高系统的性能并检测所关注的事件。智能环境需要能从视觉信号、对象、事件和上下文关联等多层次抽象中获得整体或局部行为举止语义信息并关注特定事件和行为[73]和在不同语义层间转变注意力[55][56]的能力,尤其是捕捉和区分持续时间较短且随时变化的快速行为信号能力,如:象征性动作(如:眨眼或竖大姆指);操纵者(如:曾在环境中表现的行为,或抓挠和咬嘴唇等自我操纵行为);讲解者(如:由话语伴随的指点和抬起眉毛等动作);控制者(如:交换眼神、举起手掌、点头和微笑等);情感和态度的状态(如:快乐、不在意、挫折感);等等。这就需要寻求更为通用的身体模型及其在动态复杂场景中视角、身体形状和衣着等的不变表示及身体整体或部分检测和姿态估计方法等来捕捉和表示更大范围的人体动作和行为及其关系,并能借助于用户特定的情感/态度标记进行依赖于应用和任务的行为和动作的高层推理和理解。因此,基于时间或配置条件等上下文的行为和事件的识别和解释是基于视觉感知网络的智能环境面临的重要问题之一。
此外,由于基于视觉感知网络的智能环境涉及到多尺度视觉信息感知和融合、视觉信息分析和理解、视觉信息重建与显示、大规模数据库、知识处理、用户智能代理及各种应用服务等多个组成部分,每个部分在独立承担一定功能的同时还需要与系统中其它部分进行实时通信与合作,显然,单纯依靠传统的软件理论和技术研制这一强调分布、合作与通信特点的系统是很难达到满意的效果;而借鉴和利用分布式自治系统中多Agent技术是这一领域研究和开发的必然趋势。利用Agent的自主性、可交互性、协作性及学习性,可以减轻对视觉传感器硬件性能要求的压力,增加系统的鲁棒性,也可提高系统配置的灵活性,从而可以大大简化系统的研发并增加其实用性。目前,这方面的研究也很少,如:Patricio等[18]提出了一个视觉感知网络的多Agent框架,每个Agent对应于一个摄像机并采用内部符号模型描述其控制参数,摄像机间的协作通过Agent间的高层信息交换,每个Agent根据所有来自其它Agent的信息来解释其当前状态并改善其全局协作性;Norimichi和Takashi[81]则采用基于Agent的三层交互结构,每层采用动态存储处理和交换不同类型对象信息,可以实现多活动摄像机协作的实时复杂动态场景多对象跟踪。
概括起来,智能环境是普适计算时代面向计算技术进化和用户体验渴望双重需求的复杂计算系统,它以分布于物理环境中的传感器网络为支撑,承担着对人类及其活动感知与交互的双重任务。尽管在无线传感器网络及基于传感器的对象定位跟踪等相关技术方面已有大量卓有成效的研究,但尚未真正形成完整而又实用的智能环境理论体系和软件方法,尤其缺乏对基于视觉感知网络的协同视觉行为感知和理解这一关键技术及其软件实现方法的研究。同时,已有相关研究成果大多侧重于运动对象的鲁棒跟踪和简单动作的有效识别方面,显然,这些技术和方法主要适用于场景中短时间内异常行为或局部动作的检测和判别,尚不足以支持复杂场景中对人行为举止的长期感知和捕捉,尤其在多层次细节信息的协同感知、从多线索信息中获取行为及其语义、关注特定行为的细微变化及不同行为和事件间转变注意力等方面的研究尚不能满足基于视觉感知网络的智能环境对视觉感知和理解的要求。需要借鉴认知科学、模式识别、机器学习、计算机视觉、传感器网络、协同计算、智能视频监控和人机交互等相关领域的理论和方法,从计算技术进化和用户体验渴望这两个方面分析智能环境的构成方式、技术特点及其与人类活动间的内在联系,从协同视觉行为感知和理解角度研究多摄像机协同、多尺度时空信息感知、多线索信息融合和上下文敏感计算等关键技术,进而运用计算机软件新技术研究基于视觉感知网络的智能环境软件系统架构和实现方法,并建立智能环境软件系统模型及其评价体系。这无论是对于智能环境本身的发展和应用,还是对分布式视频监控和视觉人机交互的进步都具有十分重要的学术意义和应用价值。
 
普适计算中的数据管理

体积更小、处理能力更强的设备,改进的有线无线的网络,数据传输和表示的标准( HTML、XML、HTTP、WAP等),这些因素的结合使得计算机在人的日常生活中扮演更重要的角色。有理由相信最终这些设备将普遍深入到我们生活中对我们的生活起到关键的作用,但是一切都是在不知不觉之中,好像在无形中发挥作用。这种被成为普适计算的概念在过去的十年中吸引了很多计算机研究者,这个概念首先是由Mark Wieser提出的。
 
当然,任何依赖于计算机或PDA人知道,普适计算实现之前还有很多工作要做。加快实现普适计算的必须的技术是提高速率。很多这个领域的研究者关注的是改进设备本身和他们使用的通信技术。对于设备,关键是在减小体积、成本、功耗的同时提高它的功能。对于通信技术,关键是提高带宽和覆盖率,发展协议使得能有更强的容错性和提供无线和移动连接。
 
改进的硬件和网络显然对于普适计算的发展十分重要,同样重要的和困难的是数据管理。为了支持计算行为背景化,数据必须是可靠地、高效地被存储、查询和传输。传统的数据管理如缓存、并发控制、查询处理需要适应普适计算环境的要求和限制。这些环境包括资源限制、间歇的变化的连接、移动的用户和动态的合作。
 
本文中,我们首先讨论普适计算支持的应用的主要特征和这些应用对数据管理的要求。然后我们介绍数据管理的不同方面以及它们是怎么适应这些新的要求的。
 
应用和数据管理的要求
虽然对普适计算的前景大家由共识,但是并没有明显的所谓的“杀手锏应用”。很多研究者和产品开发者开发样品在特定情形下阐述这种技术的潜能。由于这种综合的全局的普适计算的应用,特定的产品具有比单个应用多很多的功能。有的厂家提出这种技术强调的是用户的经历而不是一个或以一套特定的应用。这些情形中用户被若干移动设备“包围”,在不同的环境(家、办公室、汽车、会议室)中移动。这些设备主动地提醒用户制定的任务,对这些任务相关的部分或所有信息提供访问,并且使得在任务中的独立的小组之间通信变得简单。
 
功能的种类
与其举例另外的场景还不如分类各种场景功能有用。这些功能分类用来决定数据管理的要求。功能可以按照以下的方式分类:
1)对移动的支持-小型设备与无线通信的融合意味着这些设备可以被用于移动的情况下。所以,相关的应用要能够在变化的、动态的通信计算环境中运行,可以从一个网络提供商移动到另一个网络提供商下正常操作。此外,本地化的新的应用同样要被开发。
2)上下文感知-如果设备真正做到是普遍存在的,那么它们就必须做到在大范围的持续变化的条件下使用。对于那些真正对人有帮助的设备,它们必须对环境以及用户正在执行的和即将执行的认为能够感知。上下文感知的系统从智能提示系统(提醒用户一个重要的事件或者数据)到“smart空间”(房间或者环境能对当前出现的人和事进行适应)。
3)协作的支持-普适计算应用的另一个重要主题是对一组人的支持。这种支持包括通信、会议和共享数据的存储、维护、传输以及表示。如果所以的参与者可能的话,协作可以是实时发生的,当然可以是异步的。除了支持当前发生的协作,系统还要求能回溯和分析已经发生的行为。
 
适应性和用户交互
上述的这些功能对数据管理提出了许多挑战,其中对适应性的要求是所有的功能共同要求的。移动的用户和设备、不断改变的上下文、动态的群组这些对适应性提出很高的要求,而这恰恰是传统的数据管理技术不能表示的。适应性是本文余下部分讨论的技术的共同的主题。
 
普适计算是为了提高人在执行各种任务的能力的,所以这些应用中用户是实时地与计算机进行交互。有的情形下,我们把提供用户对不确定事件的动态干预作为提高适应性的一个方面。群组系统中对共享数据的访问和更新是这种设计思想的具体的例子。不像传统的数据库系统并发控制机制中利用严格的用户交互的类型和度的限制,群组系统数据管理者则很少采用严格的限制规则。放宽规则降低了系统自动处理的范围的冲突。系统自动处理它们能够处理的事件,当它们检测到不能处理的冲突的时候,只是简单地提醒用户发生冲突了并允许用户根据当时的情形来处理冲突。把用户包括在处理的过程中可以提供更强的适应性。
 
其它还要一些数据管理的要求虽然并不像适应性那样作为所有功能共同要求的,但是为了支持全面的普适计算的环境也应当被提出来。例如,移动性带来很多问题。首先,移动的终端以及有限的存储能力意味着普适计算系统能够从不同的变化的位置接受和发送数据。这就需要对不同的代理支持,因为用户要在不同的代理之间移动。协议就必须在这样的要求下构建以满足不见断的支持代理的变动。移动性还要求智能的数据筹备,这样数据能够在用户需要的时候放置在离用户很近的位置。
 
其次,移动性把在固定场景下不是很重要的位置因素引进到应用中来。例如,很多为移动设备服务的系统是以位置为中心的。假定有这样的系统,它能够回答这样的问题“找出以我的位置为中心2英里内的药店”。这样的系统一定可以跟踪当前用户的位置并能够访问到与相关位置、距离有关的信息。从更一般的范围说,系统能够大量的移动对象,并能预测它们未来的位置。例如交通控制系统要追踪大量的汽车,包括它们的当前位置、方向以及速度。以位置为中心的计算要求特定的数据结构,这种结构能够把位置信息有效地保存起来。
 
上下文感知的要求
上下文感知的功能对系统中保存的知识以及如何利用这些规则提出要求。为了支持上下文的感知,系统必须保存用户的要求、角色、偏爱等内部信息。这种系统的一个例子就是智能的日程安排系统,它能够根据用户的近期安排给用户发送信息。比如用户下午与特殊的客户下午见面,系统可以自动向用户发送与下午见面相关的信息(客户帐户、以前会谈的结果、与会议主题相关的文章)。
 
负责的系统可能利用各种传感器来监控环境并跟踪用户的行为以帮助用户完成正在进行的任务。这种基于传感器的系统要求能够实时处理数据流并能够分析和解释这种数据流。所以普适计算中数据流处理扮演着重要的角色。
 
无论系统是怎样接受上下文信息,从传感器、用户输入、个人信息管理运用或者联合各种方式,系统必须能够很好地对这些数据提供处理以能够准确地获致当前环境的状态或者用户的兴趣。上下文感知的应用还要求系统有推论和机器学习的能力。所有的这些必须能够处理不完整的、有冲突地数据,并能够足够有效地与用户进行交互。
 
协作的要求
我们讨论的最后一组要求是为了支持动态的一组人或者工作的协助。如前面所述,这种应用的主要的要求是适应性的要求。此外,除了适应性还有其它的一些尚未讨论的要求。首先是同步和一致性地要求。任何支持协作的应用的核心是一组共享的数据的建立、访问、修改和删除。这种功能必须是灵活的这样不同类型的交互(从聊天的工具到传统数据库的四个特性——原子性、一致性、隔离性、持久性)才能够很好的支持。
 
协作应用的另一个要求是对历史的可靠的可行的存储。如果协作是在同步方式下发生的,用户要能够访问在协作的早些时候发生的事件。还有,如果协作的参与者允许在中途有变化,对参与者和其行为的持久的记录可以加快新的参与者的融入。这种持久的记录可以有效的作为行为的日志,而用作对协作的各种结果的起因的追踪,或者用作机器学习或者数据挖掘来帮助优化以后的协作。
 
数据管理技术的例子——当前进行的项目
前面的讨论中描述了为了支持普适计算场景的数据管理中遇到的挑战并概述了普适计算应用的特性。这一段,我们主要描述两个正在进行的系统。第一个系统是Data Recharging,发掘用户的兴趣和偏好信息并把这些信息更新和相关的信息传递给用户的移动设备。第二个系统是Telegraph,建立适应数据流结构的数据处理来处理不同的数据流上(传感器数据流、动态环境数据流)的查询操作。
 
Data Recharging:Profile-Based Data Dissemination and Synchronization
移动设备需要两个资源:数据和能源。由于移动设备体积和成本的限制使得它不可能始终连接到固定的能源和数据(因特网等)上。移动设备利用缓存技术来解决这种不相连接的问题。设备利用充电电池来缓存能源,利用本地存储来缓存数据。一段时间后,设备本地的资源必须连接到固定的资源上“充电”。利用现在的技术设备中已驻数据的更新和补充比能源的补充更麻烦、和易出错。能源的补充可以在任何地方,只需要很少的用户干预,并能够累进的进行——充电时间越长,能源储备越充足。但是,数据的补充并不具备这些特性。
 
Data Recharging项目是开发这样一种服务和相关的基础设施,使得移动设备在任何地方、任何时间内接入到因特网以后设备就拥有比接入以前更多更有用的信息。数据更新的开始要求设备拥有一个插入式的接入因特网的接口。设备接入因特网的时间越长,获取的信息越丰富。虽然和充电类似,但数据更新在数据传输中的数据类型和数据量更加复杂。数据的更新必须根据更新设备的能力、更新数据要支持的任务来量身定做。
 
不同的移动用户有不同的数据需求。商务旅行者希望更新合同信息、目的地的旅馆概况和价格等。学生要求访问最近的课程笔记、预习课件、查看实验室公告。数据的更新把用户不同的需求看作特征。特征可以理解为对可用数据的详审找出与用户相关的信息并决定它们对用户的价值。
 
数据更新的特征包括三个类型的信息:首先,特征描述了用户感兴趣的数据类型。这种描述应当式公开的,这样它能够把新创造的数据和已经存在的数据都包含进来。这种描述也应当非常灵活的这样才能够表达不同类型数据和媒体的属性。第二,由于带宽、本地存储容量、数据更新时间的限制,只有一定范围内的数据能够被传输到设备中来。特征还要根据数据的优先级、多个可选项中用户的选项、一致性的要求和其它的特性能够表述用户的偏好。最后,用户的上下文能够动态地和由用户的特征参数化表示的更新过程相协作。
 
我们前面对用户的特征的工作主要关注以下几点:
1)     XML文档流上高效处理特征;2)通过外在的用户的反馈学习和维护用户特征;3)开发移动设备同步大规模的可靠的系统。数据更新是建立在这些工作的基础上,但针对更加意图明显的用户特征(包括用户偏好、上下文信息等)还要开发相应的语言和处理策略。此外,我们还需要开发可为全球众多人口提供数据更新服务的可升级的广域系统体系结构。
 
适应的数据流操作
普适计算环境的另一个关键的方面是数据可用性的不确定和动态数据流的管理操作存在的挑战。例如在移动的应用中,数据根据用户的需要在不同的系统之间移动。当数据在端点生成以后,数据会以不确定的方式流向系统,过程中可能被代理商存储、转发。在有的应用中信息流也会出现,像数据分发系统中新建立数据和修改过的数据发送到用户和缓存中去。
 
传统的数据库查询系统在这种环境中由于以下几个原因而停顿:首先,它们是基于静态的查询优化策略。数据库的查询方案是通过简单的成本模型和对数据的统计来建立的。在动态的数据流环境中,这种方案是不能很好的执行的。因为数据到达的速率、顺序和数据流的行为是难以预测的,从而对数据就没有可靠的统计。
 
第二,现在的方案不足以处理查询操作中的失败。在现在的数据库系统中,数据源的失败没有被检测到,则只是简单的冻结查询操作,以等待数据的到来。如果检测到了数据源的失败,则只是放弃或者重新开始查询。在数据源和流动作不可预测的普适计算环境中这些方法是不恰当的,因为查询操作可能要运行很长时间。
 
第三,现在的查询方案是优化成分批的操作,整个查询的结果作为最后的目标来传输。在普适计算环境中,用户要与系统进行交互,这种策略是不可取的。一旦可以了,处理的数据应当传递给用户。而且,由于是交互的,用户可能要根据前面返回的信息或其它因素来修改查询。系统应当能够根据用户的需求调整变化。
 
加州大学伯克利分校的Telegraph项目通过开发适应性数据流操作引擎来研究这些问题。Telegraph利用一种新颖的策略来执行查询操作。这种策略是基于这样的思想,数据流控制结构把数据逐项发送给查询操作者。Telegraph并不依赖于传统的查询方案,但是允许在查询中应用这些方案。对连续的动态的数据流的查询,系统能够适应于数据到达的速率、数据特征、存储通信资源的可用性等因素的变化。
 
除了新颖的控制结构,Telegraph还使用了非阻塞的均衡的查询处理操作,如Xjoins和Ripple,这些能够处理它们输入数据的变化和不可预测的数据到达。Telegraph系统还存在的问题由基于群的开发、处理引擎的广范围的实现、容错机制的设计、对传感器的连续的查询、基于特征的信息分发和用户接口问题。
 
结论
普适计算是未来一个引人瞩目的现象,它在以越来越快的速度在一步一步地实现。更小的、处理能力更强的设备通过有线的或无线的网络相连接组成了全新的应用,改变了现有的计算形式。除了新的设备和通信的机制,实现普适计算的关键技术是数据管理。数据是普适计算应用的核心,这些应用和环境又对数据管理技术提出了新的挑战。
 
在本文中,我尝试着从数据管理的前景来概述普适计算的关键的因素。这些方面归纳成三个方面:1)对移动性的支持,2)上下文感知,3)对协作的支持。我们检查每个因素来找出这些因素对数据管理提出的要求。适应性是这些因素提出的根本的要求。传统的数据管理技术在这种计算环境中被重新考虑。
 
我描述了两个正在进行的项目来检查数据管理中的几个关键的技术:DataRecharging项目的目的是基于复杂的用户的特征提供与移动用户的高度相关的数据的同步和分发。Telegraph项目是开发动态数据流的处理引擎来高效地处理从网络资源到传感器的数据流。
 
当然,数据管理领域中还有很多本文中没有涉及到的问题。首先,多个应用和数据类型之间的协同,这取决于数据交换的标准、资源的发现、对象之间的通信。这个领域有了很大的进展,这些研究只是标准化过程中的一小部分。其次,另一个重要的领域是开发全球范围的、安全的、关于档案的信息存储应用。这种应用的例子是加州大学伯克利分校正在开发的OceanStore系统。
 
总的来说,在可以预见的未来,普适计算给数据管理带来了很多的机会和挑战。我们应当认识到,虽然现在很多关注在于通信的协议研究,但是在普适计算的开发中数据管理扮演着核心的角色。这个领域的进展最终取决于我们解决复杂的数据管理问题的能力。(李彬编译)
http://blog.sciencenet.cn/home.php?mod=space&uid=39479&do=blog&id=213568

0

阅读(73)评论 (0) 收藏(0)禁止转载 打印举报
已投稿到:
排行榜
加载中,请稍候......
前一篇:史元春和孙正兴:人机交互
后一篇:气候变化的挑战(ppmv)