[dialog system] 阅读笔记

来源:互联网 发布:济南知远心理咨询中心 编辑:程序博客网 时间:2024/06/15 00:34

首选吐槽一下csdn, 博客title的长度竟然有限制,一篇论文题目都放不下。试了下简书, 完全无障碍。

Ref

  • Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models,Iulian V. Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau,2016

Introduction

  • open-domain, large corpus, generative model,non-goal-driven
  • 采用层次end2end 架构(HRED),一层对token-level 建模,一层对sentence-level 建模。sentence-level 相当于考虑了会话历史信息,并作为context 应用到decode 端。
  • improved by bootstrapping and pretrained word embeddings
  • 三轮对话(three consecutive utterances)
  • data set: 电影字幕(movie scripts)

problem

标准的seq2seq 模型在dialog system 中对上下文信息的依赖有限,本文提出一种能够对句子和上下文同时建模的分层网络,来实现多轮对话。

model

HRED

  • 对conversation 进行分层, 每个 conversation 可以看作是utterance的序列,同样每个utterance 可以看作是token的序列。
  • encoder RNN 将每个 utterance 编码为一个dense vector( utterance vector),其中utterance vector 为 encode RNN 的最后一个隐藏状态;
  • context RNN 对已经得到的utterence vector 进行编码。这样在解码生成response 是就可以利用会话的历史信息;
  • context RNN 的目的是希望speakers们基于相同的会话背景(如topics, concepts)进行会话,这样才能产生有意义的会话;
  • bootstrapping 。首先在大语料上训练word embedding,然后在{Q,A}对大语料上预训练模型

comment

  • 同样,这篇论文与[dialog system]阅读笔记 - 2016__A Persona-Based Neural Conversation Model一样,考虑的重点是将历史会话信息应用到解码中,仅使用了标准的decode RNN, 没有进一步加入atttention mechanism;可以效仿阅读笔记 - 2015__Neural Responding Machine for Short-Text Conversation 一文所述方法,将context representation 与各个注解hj 拼接,也就成了加入注意力机制的HRED。
  • HRED相对于标准的seq2seq模型的提高并不明显,反而bootstrapping 的作用更加明显。