对话管理

来源：互联网发布：windows程序设计与mfc 编辑：程序博客网时间：2024/05/06 09:53

《Generating Text with Deep Reinforcement Learning》

介绍了一种用DQN来做seq to seq学习的架构，通过迭代的方式对输出序列解码。目的是为了让解码first tackle easier portions of the sequences。

采用LSTM编解码网络。

很多实际问题可以描述为seq to seq学习的问题，包括语音识别，机器翻译，问答系统，后两个可以表示为映射一个词序列到另一个词序列的模型。建模的一个挑战是序列的变化长度不是一个已知的先验，LSTM 被证明对这个问题很有效。思想是用LSTM将输入序列编码成固定维度的向量表示，另一个LSTM用这个向量作为LSTM的初始状态，解码生成输出序列，解码过程就是一个rnn语言模型，获得最大概率的输出序列。本文采用DQN来做解码策略，Q-learning是一种model-free的RL，Mnih[1]引入了Deep Q-Network（DQN），DQN用非线性深度卷积网络估计Q-value函数。

什么是DQN？《Human-level control through deep reinforcement learning》

要想将强化学习成功的应用于实际环境，智能体要能对环境有效表征，将过去的经验泛化到新环境下。

智能体与环境的交互经过一系列的观测，动作和奖励，智能体要选择最大化累计奖励的动作。用深度卷积神经网络近似最优action-value函数。

当用一个非线性函数比如神经网络来表征action-value(Q)函数时，强化学习通常是不稳定，甚至是发散的。Q的小变化可能会明显改变策略，因此会改变数据分布和action-values(Q)和目标值

我们用Q-learning的一种新的变体来处理这种不稳定，两个ideas：1. 2.

RNN可以计算任意长度序列的向量表示，通过映射长度T的输入序列X到隐状态序列h来学习短时动态特性，通过转移函数计算隐状态向量h。

LSTM用来克服RNN梯度消失的问题。

《Strategic Dialogue Management via Deep Reinforcement Learning》http://120.52.73.80/arxiv.org/pdf/1511.08099v1.pdf

用DRL训练智能体，之前的研究都是用监督学习和传统强化学习的方法对智能体行为建模。

这篇文章也是用deepmind的DRL，通过多层卷积网络来近似价值函数Q。Q函数由参数化。

0 0