聊天机器人学习笔记整理系列:POMDP-based Statistical Spoken Dialogue System: a Review
来源:互联网 发布:终端如何退出python 编辑:程序博客网 时间:2024/05/10 07:42
- Abstract
- Introduction
- Partially observable markov decision processes
- Belief state representation and monitoring
- Policy representation and reinforcement learning
- User simulators
- Dialogue model parameter optimisation
- Fast training and user adaptation
- Systems and applications
- Evaluation and performance
- Historical perspective
- Conclusions
Abstract
Introduction
其中,
新的对话管理基于部分可观察的马尔可夫决策过程,假定对话过程是马尔可夫决策过程。在对话系统中,初始系统状态
对话模型
在对话过程中,每一步还需要一个回报函数来体现理想中的对话系统的特征。
基于POMDP的对话系统的两个关键的观点:
- 置信状态为语音识别提供了更好的鲁棒性,对错误有容忍机制
- 通过保存各个状态的置信分布,系统可以并行追所有对话路径,它不是贪婪地选择当前最优解,而是综合考虑各种状太的全局解。当用户输入一个负反馈信息号时,当前最可能解的概率被降低,焦点会聚集到另外一个状态。因此,不需要回溯或者修改对话机制。强大的对话策略可以简单的嵌入置信状态到对话行为的映射中
- 显式的表达状态和行为能将回报函数和状态行为对关联起来。其回报综合值组成了对话效果的客观衡量标准,因此可以用离线语料库或者在线用户互动方式,借助增强学习提升效果。该方法具有最优的决策策略,避免了人工调优的劳动,可以容纳复杂的规划机制。
Partially observable markov decision processes
部分可观察的马尔可夫决策过程用一个多元组
POMDP的过程如下:在每一个过程中,真实世界是一个无法观察的状态
这里
系统行为由策略
以置信状态
Vπ(bt)=E(rt+γrt+1+γ2rt+2+...)
即:
Vπ(bt)=r(bt,π(bt))+γ∑ot+1P(ot+1|bt,π(bt))Vπ(bt+1)
该公式对应确定性策略(deterministic policy);
Vπ(bt)=∑atπ(at|bt){r(bt,at)+γ∑ot+1P(ot+1|bt,π(bt))Vπ(bt+1)}
该公式对应随机策略(stochastic policy);最佳对话策略
π∗ 通过优化回报函数得到:
V∗(bt)=maxat[r(bt,at)+γ∑ot+1P(ot+1|bt,π(bt))Vπ(bt+1)]
该策略也称为Bellman优化公式(Bellman, 1957)。在POMDP参考文献中,寻找最优策略
Belief state representation and monitoring
本小节集中讨论图2中对话系统模型
st=(gt,ut,ht)
引入条件独立性假设以后,该过程可以表示为图4。将状态分解成以上三个因子可以对状态转移矩阵进行降维,同时也减少了系统的条件依赖性。
结合置信更新和状态因子两公式,SDS的更新策略可以表示为:
bt+1(gt+1,ut+1,ht+1)=ηP(ot+1|ut+1)⋅P(ut+1|gt+1,at)⋅∑gtP(gt+1|gt,at)⋅∑htP(ht+1|gt+1,ut+1,ht,at)⋅bt(gt,ht)
以上公式包含了对话系统的四个要素:
(a)观察模型表示给定用户真实表达u,观察值o的概率。它包含了语音识别系统的错误率。
(b)用户模型表示在给定系统前一轮输出和当前系统状态下,用户真实表达u的概率。它建模了用户行为。
(c)目标转移模型表现了用户目标转换的可能性。
(d)历史模型:系统记忆的对话历史。
虽然状态因子模型极大的简化了POMDP模型的复杂度,但是它仍旧复杂,难以在实际的系统中应用。因此还需要进一步近似化处理,通常有两种常用技术:
A. N-best方法,包括剪枝和重组(Gasic& Yong, 2011)
B. 贝叶斯网络法(Thomson & Yong, 2010)
N-best方法
N-best方法中,置信状态由部分最可能的状态以及它们的概率逼近。即最可能说明用户意图的对话状态被模型考虑到,面其他的状态以小概率聚集在一起。
贝叶斯网络法
- 聊天机器人学习笔记整理系列:POMDP-based Statistical Spoken Dialogue System: a Review
- 聊天机器人学习笔记整理系列-分词
- 聊天机器人学习笔记整理系列-发展历史
- Statistical Pattern Recognition-A Review (1999)读后感
- 【资料整理】聊天机器人
- 聊天机器人构建学习笔记-1
- 聊天机器人学习笔记-2-adapter
- 聊天机器人学习笔记-3-filter
- 学习《Statistical Learning》笔记
- Network-based recommendation algorithms--A review
- 学习笔记TF059:自然语言处理、智能聊天机器人
- 聊天机器人中的深度学习
- Review of codeforces 484A Bits based on python
- 翻译 Dark Channel Prior based Image De-hazing: A Review
- 【论文阅读笔记】Deep Learning based Recommender System: A Survey and New Perspectives
- Design a secure email system based on identity-based cryptography
- Creating a PHP-Based Content Management System
- system verilog学习笔记---intersting Q&A
- Python练习实例16
- Objective-c - 构造方法(init方法)和init方法的重写
- SpringBoot Scala敏捷Web开发
- GOF23的一些总结(十五)
- 前端自学vs跟大神系统学?你看着办
- 聊天机器人学习笔记整理系列:POMDP-based Statistical Spoken Dialogue System: a Review
- I - Red and Black
- mongodb简单测试增删改查
- javaWeb 地图定位插件 高德地图定位 基于浏览器
- jpa详解
- http请求头响应头大全
- 说说AsyncTask的使用方法和理解,有什么优缺点,如何解决
- ubuntu安装mongodb教程
- 静态添加碎片