聊天机器人学习笔记整理系列：POMDP-based Statistical Spoken Dialogue System: a Review

来源：互联网发布：终端如何退出python 编辑：程序博客网时间：2024/05/10 07:42

Abstract
Introduction
Partially observable markov decision processes
Belief state representation and monitoring
Policy representation and reinforcement learning
User simulators
Dialogue model parameter optimisation
Fast training and user adaptation
Systems and applications
Evaluation and performance
Historical perspective
Conclusions

Abstract

Introduction

finite state-based spoken dialogue system

ut:用户的意图
st:系统(内部)状态
at:系统行为
at=π(st)决策规则，即图中的policy:p
其中，st包含跟踪对话过程的变量，以及表示用户需求的属性值（slots）

POMDP-based spoken dialogue system

bt：所有系统状态的概率分布
新的对话管理基于部分可观察的马尔可夫决策过程，假定对话过程是马尔可夫决策过程。在对话系统中，初始系统状态s0，后续状态可以通过转移概率计算得到.
转移概率：p(st|st−1,at−1)
st 不是直接可观察到的，用它来表示对用户输入的理解的不确定性（因为现在的自然语言理解技术，还不能完全准确地理解用户的意图，即便人与人在沟通时，也不能保证100%清楚对方的意思）。在每一轮对话过程中，系统将SLU的输出认为是一个带噪声的观察变量ot,
观察变量概率为：p(ot|st)
对话模型M 包括转移概率和观察变量概率
在对话过程中，每一步还需要一个回报函数来体现理想中的对话系统的特征。
M, P可以通过离线语料或在线交互的方式，最大化回报函数的期望来求解。
基于POMDP的对话系统的两个关键的观点：

置信状态为语音识别提供了更好的鲁棒性，对错误有容忍机制

通过保存各个状态的置信分布，系统可以并行追所有对话路径，它不是贪婪地选择当前最优解，而是综合考虑各种状太的全局解。当用户输入一个负反馈信息号时，当前最可能解的概率被降低，焦点会聚集到另外一个状态。因此，不需要回溯或者修改对话机制。强大的对话策略可以简单的嵌入置信状态到对话行为的映射中

显式的表达状态和行为能将回报函数和状态行为对关联起来。其回报综合值组成了对话效果的客观衡量标准，因此可以用离线语料库或者在线用户互动方式，借助增强学习提升效果。该方法具有最优的决策策略，避免了人工调优的劳动，可以容纳复杂的规划机制。

Partially observable markov decision processes

部分可观察的马尔可夫决策过程用一个多元组(S,A,T,R,O,Z,γ,b0)表示，其中S是状态集；A是行为集合；T表示转移概率; R是回报的期望值；O是观测值集合；Z代表观测概率;γ是几何衰减系数，其值在0-1之间；b0是置信状态的初始值。
POMDP

POMDP的过程如下：在每一个过程中，真实世界是一个无法观察的状态st。因为st是未知的，变量置信状bt态表示所有可能状态的分布，bt(st)表示处在某个特定状态st的概率。系统基于bt选择行为at，得到一个激励值rt，然后转化到状态st+1，这里仅仅依赖于st和at。然后系统得到一个观察值ot+1，该值依赖于st+1和at。给定置信状态bt，最近一次的系统行为at以及观察值ot，新的置信状态bt+1的更新可以表示如下:

bt+1(st+1=ηP(ot+1|st+1,at)∑stP(st+1|st,at)bt(st)

这里η=p(ot+1|bt,at)是正规化常量，是系统没有任何行动之前的初始置信状态分布。
系统行为由策略π控制。最通用的策略是直接将置信状态和行为进行直接映射π(b)∈A，或者通过一个概率函数π(a|b)∈[0,1]进行对应，这里是在π(a|b)置信状态b下采取行动a的概率，其满足.

∑aπ(a|b)=1

以置信状态bt为开始的策略π的综合回报函数定义如下：

Vπ(bt)=E(rt+γrt+1+γ2rt+2+...)
即：
Vπ(bt)=r(bt,π(bt))+γ∑ot+1P(ot+1|bt,π(bt))Vπ(bt+1)
该公式对应确定性策略（deterministic policy）；

Vπ(bt)=∑atπ(at|bt){r(bt,at)+γ∑ot+1P(ot+1|bt,π(bt))Vπ(bt+1)}
该公式对应随机策略（stochastic policy）;

最佳对话策略π∗通过优化回报函数得到：

V∗(bt)=maxat[r(bt,at)+γ∑ot+1P(ot+1|bt,π(bt))Vπ(bt+1)]

该策略也称为Bellman优化公式（Bellman, 1957）。在POMDP参考文献中，寻找最优策略π∗的过程称之为“求解”和“优化”过程。Kaelbling et al. （1998）应用了精确求解方案，（Pineau et al., 2003; Smith & Simmons, 2004）提出了近似求解方案。但问题是通用的POMDP方法复杂度高，难以大规模的应用到实用对话系统。即使中小型规模，其涉及的状态、行为、和观察值很容易达到1010量级。穷举P(st+1|st,at)是不可实现的，因此，直接优化更新置信状态优化回报函数并不可行。通常情况下，我们需要简化模型近似求解。接下来我们将详细讨论。

Belief state representation and monitoring

本小节集中讨论图2中对话系统模型M。实用SDS中，状态必须包含三种不同类型的信息：用户的目标gt, 用户的真实意图ut，以及对话历史ht（Williams& Young, 2007）。用户目标包含需要完成任务所有信息，用户真实意图是指用户实际想表达的意图而非系统识别出的意图，对话历史跟踪之前的对话流。由此，对话中的一个状态包含三个因子：

st=(gt,ut,ht)

引入条件独立性假设以后，该过程可以表示为图4。将状态分解成以上三个因子可以对状态转移矩阵进行降维，同时也减少了系统的条件依赖性。
这里写图片描述

图4
结合置信更新和状态因子两公式，SDS的更新策略可以表示为：

bt+1(gt+1,ut+1,ht+1)=ηP(ot+1|ut+1)⋅P(ut+1|gt+1,at)⋅∑gtP(gt+1|gt,at)⋅∑htP(ht+1|gt+1,ut+1,ht,at)⋅bt(gt,ht)

以上公式包含了对话系统的四个要素：

(a)观察模型表示给定用户真实表达u，观察值o的概率。它包含了语音识别系统的错误率。
(b)用户模型表示在给定系统前一轮输出和当前系统状态下，用户真实表达u的概率。它建模了用户行为。
(c)目标转移模型表现了用户目标转换的可能性。
(d)历史模型：系统记忆的对话历史。

虽然状态因子模型极大的简化了POMDP模型的复杂度，但是它仍旧复杂，难以在实际的系统中应用。因此还需要进一步近似化处理，通常有两种常用技术：

A. N-best方法，包括剪枝和重组（Gasic& Yong, 2011）
B. 贝叶斯网络法（Thomson & Yong, 2010）

N-best方法

N-best方法中，置信状态由部分最可能的状态以及它们的概率逼近。即最可能说明用户意图的对话状态被模型考虑到，面其他的状态以小概率聚集在一起。

贝叶斯网络法

0 0