论文研读:Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display

来源:互联网 发布:国内域名 编辑:程序博客网 时间:2024/06/11 01:31

摘要:情感的呈现包含一系列的时域分割:开启(onset)、峰值(apex)、结束(offset)。在过去15年中(论文发表于2009年),计算机界对情感识别进行了大量的研究,但是大多数方法都有两点局限:1.从单一的模式进行表情识别。2.即便少数多模态的方法中,对于动态模式关注过少。本文主要研究基于脸部表情和肢体呈现的情感识别方法。提出了一种自动识别时域分割的方法,并基于时域分割的片段进行情感识别。实验结果表明:1)基于情感的脸部特征和肢体呈现具有关联性但并非完全同步。2)明确的检测时域分割片段可以提升情感识别的准确率。3)通过表情和肢体呈现结合来识别情感的正确率高于单一模式。4)同步特征融合(feature-level)的性能优于决策融合(decision-level)

1.introduction

在情感识别领域,过去15年的研究局限于单一模式,少数研究着眼于多模态情感识别。由此衍生出一个新的研究领域:运用哪些模态来进行情感识别以及如何把它们结合起来(what modalities to use and how to combine them)。最初的方法是基于视觉和音频数据,实验结果也比较乐观:多模态情感识别提升了准确率,使得系统更加有效和可靠。尽管学者Ambady和Rosenthal作的基础研究表明:对人的行为的判别的重要线索大多来自于脸部表情和肢体动作。但是,只有在最近几年计算机界才开始关注通过肢体语言来进行情感识别。

研究表明时序动态(temporal dynamics)对于情感识别至关重要。但是在为数不多的多模态情感识别系统中,尚无将面部表情和肢体语言结合的模型。本文主要创新在于:1)表情和肢体动作的时间分隔是完全自动的。2)设计了phase-synchronization scheme来应对表情和肢体动作相关但不完全同步的问题。
本文主要贡献有6点:
1)双模态方法
2)use of the first publicly available database to date to
combine affective face and body displays in a bimodal
manner
3)在基础表情(生气、失望、害怕、幸福、悲伤)的基础上分析非基础表情(anxiety,
boredom, uncertainty, puzzlement, and neutral/negative/
positive surpris)
4)检测情感呈现的时间分隔,从空间扩大中分离时间动态,对数据。
5)对无用的时间分隔段进行了大量的全局实验。
6)通过对比试验,找到最佳融合。

2.背景及相关工作

A.背景

Ekman and Frisen的研究指出,人类的面部表情有六种基本形态:生气、失望、害怕、幸福、悲伤、惊奇。但是情绪研究领域对这一说法持保留态度,关于这一点,心理学家并没有统一的定论。许多学者基于六种基本形态的表情进行研究。

Russell认为每一种基本表情都是双极性实体,极性包括arousal和valence。

通过肢体语言手势来识别人类情感,这一方向目前在心理学和非语言沟通领域仍旧是有所保留。Coulson通过试验总结出,通过姿势识别情感和进过声音来识别具有可比性。    总体而言,肢体语言比表情更加丰富。尚有许多工作和研究需要做。    Ambady and Rosenthal的研究表明通过结合表情加肢体语言来识别情感的准确率优于单一模式近35%。    面部动作按照时间分割为四个阶段:平静(neutral)、开启(onset)、apex(峰值)、offset(结束)。neutral是指没有任何肌肉信号,面部放松。

onset是指面部肌肉被唤起,逐渐紧张并呈现出面部的改变。apex是面部表情的峰值。offset是面部肌肉又逐步放松。自然的面部表情呈现过程是:neutral −→
onset −→ apex −→ offset → neutral 。同理,肢体语言的呈现也分为五个阶段:preparation −→ (prestroke) hold −→
stroke −→ (poststroke) hold −→ retraction。目前在面部/肢体语言的onset-apex-offset的标记上是非常耗时的。

B.相关工作

这一部分总结了现有的多模态情感识别的方法,包括时域分割和结合脸部表情即肢体语言进行情感识别的方法。1)单模态情感识别系统:目前为止,现有的大多数单模态的情感识别系统建立在识别基础表情(例如happiness 和 anger)的照片识别系统。同样也存在一些通过面部视频来识别非基础表情的系统,例如attentiveness、fatigue、pain。大多数面部识别系统都是依赖于posed data(posed:摆姿势),只有最近出现了一些基于spontaneous facial expression data(自发性面部表情)的自动识别。研究显示,在识别过程中temporal dynamics是至关重要的一步。据此,最近在情感识别领域的研究更加关注面部特征中的时空成分(spatio-temporal properties of

facial features )和对通过隐式的合并动态特性(by implicitly incorporating the
dynamics)来对动态面部表情建模或动作单元 (modeling dynamic facial expressions or AUs(action unit))。传统的对AU的分析是基于独立的对某一个AU或者AU的组合进行统计和分类,最近的研究则表明,探索AU的动态特征和语义关联(semantic
relationships)有助于提升识别的性能。
有一部分研究着眼于用马尔科夫链来探究时域分割或者面部表情,也有一些研究用支持向量机或者AdaBoost这样的分类方法来研究面部AUs。处理时域分割有两种方式,一种是将每一帧独立的进行分类,还有一种方法是把一连串的帧看作是一个时间序列。基于此,本文分别参考了frame-based和sequence-based两种分类方式。
对于情感状态的识别,常用的技术是利用HMM及其变换。这一类模型同样可以用于对时域分割的研究,鉴于我们可以证明情感状态的HMM和情感的时域分割之间的HMM具有相关性。在脸部呈现的情景中,HMM的emissions(which are also known as observations
or measurements)主要是由一组基于脸部特征计算后的特征来表达。

2)单模态分析肢体语言:相较于面部表情方面的文献,通过肢体语言识别情感的资料比较少。现有文献的主要关注点是在基于posed肢体语言数据库的分析。
Meservy的团队关注在国家安全领域,通过一连串的肢体线索,识别行为是可信的(innocent)还是故意的(guilty)。在这个二类问题上,他们达到了71%的识别率。

3)多模态系统识别面部和肢体表达:这方面研究比较新。Balomenos et al采用了结合面部表情和手势来识别六类基础情感。他们在判别时,将两个子系统的权重进行融合。他们的系统中,通过面部表情单模来识别情感的识别率达到了85%。通过手势识别的正确率达到了94.3%。然而他们并没有给出两者结合之后的识别率也没有对脸部和手势的时域分割给出解决方案。Kapoor and Picard就儿童solving a puzzle中的兴趣高,兴趣低,和恢复精神三种状态进行识别。他们结合了视频、姿式传感器(椅子上的传感器)等多种信息传感器以及游戏的概率框架。由高斯过程获取的每个模式各自的分类结果从高到低为posture channel(82%)、upper face(67%)、game(57%)、lower face(53%)。融合后的最好识别率为87%。然而,Kapoor and Picard并不关注姿势手势这些肢体语言,也没有给出时域分割的方法。
Karpouzis et al.试图融合面部、肢体、和语音线索来识别情感。他们的报告给出了4类问题的精确度:67% (visual), 73% (prosody), and 82% (with all modalities
combined)。融合方法是基于帧的,这意味着视觉数据对于音频信息重复出现。他们同样没有给出时域分割方法。
Hartmann et al.给出了产生手势及面部表达的一些参数(generation of expressive gesturing for virtual agents)。实验证明只有一部分参数和表达能够被用户识别。还需要更深入的研究这些参数。

与以上工作相比,本文:1)采用了手势和肢体姿势的更高维数据(use
a higher number of hand gestures and body postures)。2)除了六种基本情绪外,我们还分析了正向负向惊讶、焦虑、无聊、不确定和疑惑等这些情绪。3)详细分析了情感/情绪状态的时域分割(temporal segments),以及这项工作对整个识别的意义。4)我们创新的提出了同步性的概念以及一种通过选择融合方法来获取更高识别率的方法。

  1. 方法

在多模态识别系统中,特征和融合策略的选取取决于融合的自然模态。在待融合的模式之间或许存在某种固有的异步性。对于情感感知和识别,多模态融合旨在尽可能的整合所有的输入成为用户的一个单一的表情呈现。多模态数据的时域分析是建立在多模态特征之间的时域接近(time proximity)上的。由此,根据多模态之间实时切合程度的不同(how closely coupled the modalities are in time)对于情感数据有两种整合方式:特征层intermediate level (also known as feature-level fusion or early fusion) and 决策层 high level(also known as decision-level fusion or late fusion).
特征层融合用于模态之间具有联系和同步性的情况。需要模态之间有着严格的时域同步性。(例如语音和唇部动作)如果不具备这种同步性的模态采用特征层融合,效果将大打折扣(例如语音和手势)。由图一可知,面部表情和肢体语言之间存在相关性但是并不同步。(As can be seen in the figure, face movement
starts earlier compared to body movement and has longer
onset stage and longer apex stage (20 frames) compared to
body movement (17 frames).)对于这类问题该如何处理?
在处理特征层融合时,多个模态下的特征必须是可比的(compatible),我们需要探究不同模态下特征的关联,基于这个目标,有许多技术。常用的有DTW(dynamic time warping),用于找到两个时间序列的最优排序,我们会对其中一个序列沿着时间轴,进行压缩或者拉伸的非线性变换。此外HMM的变换也是常用的方法。我们为两个非同步的训练序列建立一对HMM模型。Coupled HMMs and fused HMMs常用基于音频加视频特征的语言识别。

我们认为,对于面部和肢体的多模信息,可以通过相位同步来获取同步。相位存在于面部和肢体的特征向量中,这一点归因于他们的语义和结构约束(semantics and anatomical constraints)。我们采用的是自然的数据,具有先天的有限个相位,且相位具有特定的顺序:neutral–onset–apex–offset–
neutral. Pikovsky指出,传统的技术忽视了通过信号的相位来探究系统的关联性。因此,我们关注相位也就是所谓的时域分割,以此来关联面部个肢体模态。在特征融合的时候,我们探究每一帧的相位,并且将两个属于同一相位的双模态信息融合。接下来的问题就是,不同相位的帧对于情感识别是否具有相同的贡献。在后文中,我们会论证,应当首选“apex”相位的帧,因为这类帧具有最大的空间展开特征,情感识别的效果也最好。另外,在“apex”和“neutral”相位之间,肌肉的动作达到峰值。我们的方法基于以上的假设,并且将以实验来验证。
方法的具体流程见图二,方法分为三个步骤:
1)对于面部和肢体的多模态信息,每一帧先进行相位分类。
2)对apex相位的信息进行特征向量的提取,面部和肢体两个模态同时进行。
3)a.如果选择特征层融合,将两个模态的特征向量融合成一个特征。
b.如果选择决策层融合,先分别给出两个模态下的判别,然后结合决策层融合的准则给出融合之后的判别。
在分类阶段,基于帧和基于序列的分类器均被采用。在基于序列的分类器里,我们采用了HMM,基于帧的分类器里,我们采用了SVM,Adaboost,C4.5等这些Weka工具。若采用基于帧的分类器,第2,3步中,只采用apex帧。如果采用基于序列的分类,数据是采用整个序列的数据。

  1. 数据和特征集合
    A. FABO数据集
    以往的数据集并没有适合的双模态信息,因此,实验的第一步是收集FABO系统可用的双模态情感数据。通过两架摄像机,在自然情景下,分别采集面部和肢体的信息。
    最近,在情感识别领域,关于数据源存在一些讨论。情感数据源自三个渠道:自发性的(在真实环境下产生,源自人与人之间交流的场景,例如面试)、被诱导的(例如看电影时,表现出的情绪)、摆拍的。FABO系统采用的是摆拍的双模态数据。Banziger and
    Scherer曾指出,摆拍数据有它的优势,可以提供高质量的标准的基于个人的丰富多变的表情。自发性的数据有时只能记录有限的情感反应,减少了情绪反应间的可比性。FABO数据集可以视为一个“半自发性”的数据集。采用人工的方式来对双模态情感信息进行标注。

B.面部特征提取

现有的面部识别方法分为基于呈现(appearance-based)和基于面部几何特征(geometric feature-based)两种。基于几何特征的例子有辅助粒子滤波(auxiliary particle
filtering)。基于呈现的例子有Gabor-wavelet-based methods。也有将两种方法结合的。本文就采用两种方式融合的方法。
本文采用的方法概括如下:对脸部建模、逐帧进行脸部探测,脸部特征提取(提取包括眼睛、眉毛、鼻子、嘴巴等脸部区域),情绪分析,将持续不断的帧流与参考帧比较(neutral expression frame作为参考帧)。

*1)*face model: FABO系统采用正面脸部模型,对感兴趣的区域采用特征边界矩形(feature bounding
rectangles)。系统首先自动标定八个面部特征区域,随后,计算出每个特征的边界矩形。固定区域的定义如下:the forehead, upper and lower eyebrows, upper and
lower eyes, nose, upper right lip, lower right lip, upper left lip,
lower left lip, and chin regions。另外有五个边界矩形定义固定区域间的过度区域。the region(s) between the eyes and the eyebrows,
corner of right eye, corner of left eye, right cheek, and left
cheek.

*2)*Face Detection: FABO系统采用现有的fast and robust stump-based
20 × 20 Gentle AdaBoost (GAB) frontal face detector来进行面部区域探测。以及一个类似的方法来进行面部区域特征分类。

0 0